4. Introducción a Big Data y Hadoop
Big data es una colección de conjuntos de datos tan grande y
complejo que se vuelve difícil para trabajar con el uso de
herramientas de gestión de base de datos tradicionales. Las
dificultades incluyen la captura, almacenamiento, búsqueda,
intercambio, análisis y visualización
5. Presentación de Big Data
Soluciones de datos con complejidades de:
VOLUMEN
(Tamaño)
VARIEDAD
(Estructura)
VELOCIDAD
(Speed)
6. Presentación de Big Data
Internet de las Cosas
Audio Video
Archivos
De
Registro
Texto / Imagen
Sentimiento Social
Market Data Feeds
eGov Feeds
Tiempo
Wikis / Blogs
Click Analisis
Sensores / RFID /
Dispositivos
Espacial y Coordenadas GPS
WEB 2.0Móvil
Publicidad ColaboracióneCommerce
Publicidad Digital
Search Marketing
Web Logs
Recomendaciones
ERP / CRM
Canalización de
ventas
Cuentas
por Pagar
Nómina
Inventario
Contactos
Seguimiento
Trato
Terabytes
(10E12)
Gigabytes
(10E9)
Exabytes
(10E18)
Petabytes
(10E15)
Velocity - Variedad
Volumen
1980
190.000 $
2010
0.07 $
1990
9000 $
2000
15 $
Almacenamiento / GB
ERP / CRM WEB 2.0 Internet de las Cosas
8. Big Data escenarios de aplicación
Respuesta a las nuevas preguntas
¿Cómo puedo optimizar mis
servicios sobre la base de
patrones de clima, tráfico, etc.?
¿Cuál es el sentimiento social
de mi producto?
¿Cómo puedo predecir mejor
los resultados futuros?
11. Big Data algoritmos comunes
Búsqueda de elementos similares o complementarias
12. Big Data Común Algoritmos
Conjuntos de elementos frecuentes - Análisis de carrito
de compras
13. ¿Qué es Hadoop?
•Colección de proyectos de código abierto de Apache
para el almacenamiento / procesamiento de grandes
volúmenes de datos (grande, semi-estructurado)
•La base del "kernel" de HDInsight
15. Hadoop aspectos básicos
Hadoop sirve analizar grandes cantidades de datos
Se trata de un conjunto de proyectos de código abierto que
transforman hardware normal en un servicio que puede:
Almacenar petabytes de datos de forma fiable
Permitir enormes cálculos distribuidos
Atributos clave:
Código abierto
Altamente escalable
Se ejecuta en hardware básico
(Sin pérdida de datos) redundante y confiable
El procesamiento por lotes - utilizando “Map-Reduce" como paradigma de procesamiento
21. Introduciendo HDInsight
HDInsight es 100% de Microsoft y compatible Apache Hadoop
Disponible como servicio en Microsoft Azure
Permite a las organizaciones contar con nuevos puntos de vista sobre
los datos no estructurados, mientras que conecta con las herramientas
de BI de Microsoft
22. Introduciendo HDInsight
100% de solución Hadoop en la nube
Análisis a través de Excel
Agilidad de implementación
Desarrolla en.NET y Java
Construida sobre Hortonworks Plataforma de
Datos (HDP)
Puede ser automatizado con PowerShell y
línea de comandos
28. Consumo de HDInsight Result Sets
Destino Herramienta - Biblioteca Requiere Active HDInsight
Cluster
SQL Server,
Azure SQL DB
Sqoop (Hadoop ecosystem project) Si
Excel Codename “Data Explorer” No
Another Blob Storage
Account
Azure Blob Storage REST APIs (Copy Blob, etc) No
SQL Server Analysis
Services
Hive ODBC Driver Si
Existing BI Apps Hive ODBC Driver Si