Presentación de Javier Torrenteras en el SolidQ Business Analytics Day en Valencia (España)
- ¿Por qué Big data?
- Entonces...Haddoop ¿Qué es?
- ventajas y Componentes de Hadoop
-HD Insight, Windows Azure HDInsight
-Grandes DW
www.bisql.com
4. Agenda
• ¿Por qué Big Data?
• Entonces… Hadoop, ¿Qué es?
• Ventajas
• Componentes
• Apache Hadoop y Microsoft BI
• HDInsight
• Windows Azure HDInsight
• Grandes DW
5. ¿Por qué Big Data?
Una arquitectura rígida impide disponer inmediatamente
nuevas oportunidades de negocio
El reporting retrospectivo no guía las decisiones de negocio.
Datos móviles, sociales o de dispositivos no están disponibles
La agregación destruye determinadas insights valiosos
6. Las 4 V’s
Volumen
Velocidad
Variedad
Variabilidad
7. Ejemplos de Big Data
12 Tb 21 Pb
Hadoop
día
cluster
7 Pb
mes
1 Tb 7 Tb
tweets/dia datos/dia
75 4 Billion
Million Graph
edg/day
scores/day
14 Tb
Hadoop
cluster
8. Entonces…¿cómo obtengo insights?
Datos estructurados
Datos Bases de Datos relacionales
estructurados
Registros
Bases de Datos analíticas
9. Entonces…¿cómo obtengo insights?
Datos estructurados
Datos Bases de Datos relacionales
estructurados
Registros
Bases de Datos analíticas
BIG DATA
10. Entonces…¿cómo obtengo insights?
Datos estructurados
Datos Bases de Datos relacionales
estructurados
Registros
Bases de Datos analíticas
Ficheros log
Datos menos estructurados
Intentar un ETL para
transformarlo en relacional
Datos Datos Tiempo de desarrollo elevado
menos públicos New Son datos susceptibles a
estructura Insights cambios de estructura
Device
dos outputs
Archivados y Borrados
Acceso caro
Texto/
Imágenes
13. ¿Qué es Hadoop?
• Open Source
• Plataforma de almacenamiento de datos y
análisis para Big Data
• Optimizado para manejar
• Datos masivos a través de paralelismo
• Variedad de datos (Estructurados, No-estructurados,
Menos estructurados)
• Uso de hardware económico
• No para OLTP / OLAP
14. ¿Qué es Hadoop?: Ventajas
Escalable
Escala linealmente en capacidad de almacenamiento y
computación
Tolerante a Fallos
Proporcionado por el Sistema de ficheros distribuido y
el framework de lectura
Procesamiento distribuido
Sigue la estrategia de divide y vencerás
17. Hadoop Distributed File System (HDFS)
• Sistema de ficheros distribuido diseñado para
grandes conjuntos de datos
• Fiable y con buen rendimiento
• Alto rendimiento de acceso: Latencia de disco
• Alto ancho de banda Almacenamiento Clustered auto-
reparable
• Divide los datos entre los nodos en un Cluster
• NameNode: Mantiene el mapeo de bloques de
ficheros a nodos esclavos
• DataNode: Almacena y sirve bloques de datos
20. Map Reduce Framework
• Motor de planificación parar Procesamiento de carga
distribuido
• Pares Clave-Valor
• Función Map
• Función Reduce
• Lenguajes de Script : Java, python, Javascript…
• Saca provecho de la distribución de datos de HDFS
• JobTracker: Planifica los trabajos entre los TaskTrackers
• TaskTracker: unidades de trabajo
23. Sqoop
• Tecnología que sirve de interfaz entre HDFS y los
Sistemas de información empresarial
• Orígenes de datos relacionales integrados
• MySQL, Oracle, SQL Server …
• Importación / Exportación (Bidireccional)
25. Pig
• Lenguaje de flujo de datos de alto nivel y
framework de ejecución
• Lenguaje de consulta: PigLatin
• Posibilidad de join de tablas
• Por detrás ejecuta trabajos MapReduce
27. Hive
• Infraestructura Data Warehouse desde Hadoop
• Proporciona
• Sumarización de Datos
• Consultas Ad-hoc
• Lenguaje consulta estilo SQL: HiveQL
• Por detrás ejecuta trabajos MapReduce
29. Otros componentes: Hadoop Ecosystem
Mahout
• Minería de Datos y Machine Learning
Pegasus
• Page Rank yGraph Mining
• Social Network Analysis
Lucene
• Technología de indexación y búsqueda
Algunos otros: Avro, Hbase, Flume, Oozie…
39. Si quieres disfrutar de las mejores sesiones de nuestros
mentores de España y Latino América, ésta es tu
oportunidad.
http://summit.solidq.com/madrid/
Síguenos:
40. SolidQ Business
Analytics Day
Eladio Rincón Javier Torrenteras
Director Área BBDD Director BI
jtorrenteras@solidq.com
erincon@solidq.com