2. • Entender los conceptos
• Conocer las herramientas disponibles (o al menos
algunas)
• Conocer la oferta de Big Data sobre Microsoft Azure
• Correr algunos ejemplos en Azure Data Lake
Analytics
• ¡Compartir experiencias!
3.
4. “Big data is like teenage sex: everyone
talks about it, nobody really knows how
to do it, everyone thinks everyone else
is doing it, so everyone claims they are
doing it.”
Dan Ariely
5. El Big Data o Datos masivos es un concepto que hace
referencia al almacenamiento de grandes cantidades
de datos y a los procedimientos usados para
encontrar patrones repetitivos dentro de esos datos.
Fuente: Wikipedia
6. Son datos que exceden la capacidad de
procesamiento de sistemas convencionales de Bases
de Datos.
Fuente: O’Reilly
8. Mucha de la innovación viene de los buscadores web
¿Por qué no podemos construir un buscador con una
base de datos SQL?
• El almacenamiento necesita de más de una máquina
• Los datos no son un rectángulo
• Mi pregunta puede no ser relacional
• Necesito hacer esa pregunta en muchas, muchas
máquinas
9.
10.
11. Almacenamiento
Opera sobre hardware
barato
Asume fallas a escala
Asume muchas lecturas,
algunas escrituras sólo de
append
Grandes archivos
Cómputo
Traer el código a los datos
Asume que la red es difícil de
escalar
Abstraer, y confiar en los
compiladores, y
optimizadores
No especifican un “formato
correcto”
12.
13.
14.
15.
16.
17.
18.
19. • Hadoop Common
• Hadoop Distributed File System (HDFS™)
• Hadoop YARN
• Hadoop MapReduce
20. • Hasta 100 veces más rápido que Hadoop MapReduce en
memoria, 10 veces más en disco.
• Java, Scala, Python, R.
• Puede correr sobre Hadoop, Mesos, standalone o en la
nube.
• Accede a datos de HDFS, Cassandra, HBase, Hive, etc.
21.
22. • Una base de datos escalable, multi-master, sin un “single
point of failure”.
• Apple. 75K+ nodos, 10 PB de datos.
• Netflix: 2,5K nodos, 420 TB, 1T transacciones por día.
• eBay: 100+ nodos, 250 TB.
23. • Base de datos escalable y distribuida, que soporta el
almacenamiento estructurado de grandes tablas (miles
de millones de filas X millones de columnas).
• Basado en el proyecto Bigtable de Google, proporciona
capacidades similares a Bigtable sobre HDFS.
25. • Se originó en Facebook
• Sintaxis tipo SQL que compila a Map/Reduce
• Data warehouse sobre datos en almacenamiento
distribuido
26. Bueno para:
• Gran escala
• Variedad de formatos,
encodings y
compresión
• Extensibilidad
No tan bueno para:
• Consultas interactivas
• Trabajar con tablas
chicas
• OLTP
27.
28. Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
Azure Data Lake store
Azure Data Lake analytics
Azure HDInsight
29. YARN
U-SQL
Analytics
Service
HDInsight
HDFS
Store
Tamaño de archivo ilimitado
Diseñado para la diversidad de workloads de
analytics
Accesible para todas las aplicaciones de analytics
compatibles con HDFS (Hortonworks, Cloudera,
MapR)
Administrado, monitoreado y soportado por
Microsoft
Seguridad, compliance y administración Enterprise
grade
30. Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
Servicio de analytics distribuido
Escala dinámicamente para adaptarse a las
necesidades del negocio
Productividad desde el día uno con
herramientas de desarrollo líderes (para
novatos y expertos)
Analytics sobre todo tipo de datos (no
estructurados, semi estructurados,
estructurados)
U-SQL: simple y familiar, fácilmente extendible
Hive será soportado pronto
31. Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
Oferta de Hadoop en la nube de Microsoft
100% open source Apache Hadoop
Administrado y soportado por Microsoft
Spark, Hive, Pig, Storm, HBase
Listo para usar en minutos
.NET and Java
Integración con Visual Studio
99.9% Enterprise Service Level Agreement
Windows o Linux