Guillermo Bellmann
Cloud architect - Nubimetrics
@gjbellmann
guillermo@nubimetrics.com
• Entender los conceptos
• Conocer las herramientas disponibles (o al menos
algunas)
• Conocer la oferta de Big Data sobre Microsoft Azure
• Correr algunos ejemplos en Azure Data Lake
Analytics
• ¡Compartir experiencias!
“Big data is like teenage sex: everyone
talks about it, nobody really knows how
to do it, everyone thinks everyone else
is doing it, so everyone claims they are
doing it.”
Dan Ariely
El Big Data o Datos masivos es un concepto que hace
referencia al almacenamiento de grandes cantidades
de datos y a los procedimientos usados para
encontrar patrones repetitivos dentro de esos datos.
Fuente: Wikipedia
Son datos que exceden la capacidad de
procesamiento de sistemas convencionales de Bases
de Datos.
Fuente: O’Reilly
• Volumen
• Velocidad
• Variedad
Mucha de la innovación viene de los buscadores web
¿Por qué no podemos construir un buscador con una
base de datos SQL?
• El almacenamiento necesita de más de una máquina
• Los datos no son un rectángulo
• Mi pregunta puede no ser relacional
• Necesito hacer esa pregunta en muchas, muchas
máquinas
Almacenamiento
Opera sobre hardware
barato
Asume fallas a escala
Asume muchas lecturas,
algunas escrituras sólo de
append
Grandes archivos
Cómputo
Traer el código a los datos
Asume que la red es difícil de
escalar
Abstraer, y confiar en los
compiladores, y
optimizadores
No especifican un “formato
correcto”
• Hadoop Common
• Hadoop Distributed File System (HDFS™)
• Hadoop YARN
• Hadoop MapReduce
• Hasta 100 veces más rápido que Hadoop MapReduce en
memoria, 10 veces más en disco.
• Java, Scala, Python, R.
• Puede correr sobre Hadoop, Mesos, standalone o en la
nube.
• Accede a datos de HDFS, Cassandra, HBase, Hive, etc.
• Una base de datos escalable, multi-master, sin un “single
point of failure”.
• Apple. 75K+ nodos, 10 PB de datos.
• Netflix: 2,5K nodos, 420 TB, 1T transacciones por día.
• eBay: 100+ nodos, 250 TB.
• Base de datos escalable y distribuida, que soporta el
almacenamiento estructurado de grandes tablas (miles
de millones de filas X millones de columnas).
• Basado en el proyecto Bigtable de Google, proporciona
capacidades similares a Bigtable sobre HDFS.
• SQL + Hadoop
sqoop import --connect jdbc:mysql://database.example.com/employees
--username juan --password 12345
• Se originó en Facebook
• Sintaxis tipo SQL que compila a Map/Reduce
• Data warehouse sobre datos en almacenamiento
distribuido
Bueno para:
• Gran escala
• Variedad de formatos,
encodings y
compresión
• Extensibilidad
No tan bueno para:
• Consultas interactivas
• Trabajar con tablas
chicas
• OLTP
Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
Azure Data Lake store
Azure Data Lake analytics
Azure HDInsight
YARN
U-SQL
Analytics
Service
HDInsight
HDFS
Store
Tamaño de archivo ilimitado
Diseñado para la diversidad de workloads de
analytics
Accesible para todas las aplicaciones de analytics
compatibles con HDFS (Hortonworks, Cloudera,
MapR)
Administrado, monitoreado y soportado por
Microsoft
Seguridad, compliance y administración Enterprise
grade
Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
Servicio de analytics distribuido
Escala dinámicamente para adaptarse a las
necesidades del negocio
Productividad desde el día uno con
herramientas de desarrollo líderes (para
novatos y expertos)
Analytics sobre todo tipo de datos (no
estructurados, semi estructurados,
estructurados)
U-SQL: simple y familiar, fácilmente extendible
Hive será soportado pronto
Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
Oferta de Hadoop en la nube de Microsoft
100% open source Apache Hadoop
Administrado y soportado por Microsoft
Spark, Hive, Pig, Storm, HBase
Listo para usar en minutos
.NET and Java
Integración con Visual Studio
99.9% Enterprise Service Level Agreement
Windows o Linux
Guillermo Bellmann
Cloud architect - Nubimetrics
@gjbellmann
guillermo@nubimetrics.com

Desayuno de arquitectos: Big data en azure

  • 1.
    Guillermo Bellmann Cloud architect- Nubimetrics @gjbellmann guillermo@nubimetrics.com
  • 2.
    • Entender losconceptos • Conocer las herramientas disponibles (o al menos algunas) • Conocer la oferta de Big Data sobre Microsoft Azure • Correr algunos ejemplos en Azure Data Lake Analytics • ¡Compartir experiencias!
  • 4.
    “Big data islike teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.” Dan Ariely
  • 5.
    El Big Datao Datos masivos es un concepto que hace referencia al almacenamiento de grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos. Fuente: Wikipedia
  • 6.
    Son datos queexceden la capacidad de procesamiento de sistemas convencionales de Bases de Datos. Fuente: O’Reilly
  • 7.
  • 8.
    Mucha de lainnovación viene de los buscadores web ¿Por qué no podemos construir un buscador con una base de datos SQL? • El almacenamiento necesita de más de una máquina • Los datos no son un rectángulo • Mi pregunta puede no ser relacional • Necesito hacer esa pregunta en muchas, muchas máquinas
  • 11.
    Almacenamiento Opera sobre hardware barato Asumefallas a escala Asume muchas lecturas, algunas escrituras sólo de append Grandes archivos Cómputo Traer el código a los datos Asume que la red es difícil de escalar Abstraer, y confiar en los compiladores, y optimizadores No especifican un “formato correcto”
  • 19.
    • Hadoop Common •Hadoop Distributed File System (HDFS™) • Hadoop YARN • Hadoop MapReduce
  • 20.
    • Hasta 100veces más rápido que Hadoop MapReduce en memoria, 10 veces más en disco. • Java, Scala, Python, R. • Puede correr sobre Hadoop, Mesos, standalone o en la nube. • Accede a datos de HDFS, Cassandra, HBase, Hive, etc.
  • 22.
    • Una basede datos escalable, multi-master, sin un “single point of failure”. • Apple. 75K+ nodos, 10 PB de datos. • Netflix: 2,5K nodos, 420 TB, 1T transacciones por día. • eBay: 100+ nodos, 250 TB.
  • 23.
    • Base dedatos escalable y distribuida, que soporta el almacenamiento estructurado de grandes tablas (miles de millones de filas X millones de columnas). • Basado en el proyecto Bigtable de Google, proporciona capacidades similares a Bigtable sobre HDFS.
  • 24.
    • SQL +Hadoop sqoop import --connect jdbc:mysql://database.example.com/employees --username juan --password 12345
  • 25.
    • Se originóen Facebook • Sintaxis tipo SQL que compila a Map/Reduce • Data warehouse sobre datos en almacenamiento distribuido
  • 26.
    Bueno para: • Granescala • Variedad de formatos, encodings y compresión • Extensibilidad No tan bueno para: • Consultas interactivas • Trabajar con tablas chicas • OLTP
  • 28.
    Microsoft Azure DataLake YARN U-SQL Analytics Service HDInsight Store HDFS Azure Data Lake store Azure Data Lake analytics Azure HDInsight
  • 29.
    YARN U-SQL Analytics Service HDInsight HDFS Store Tamaño de archivoilimitado Diseñado para la diversidad de workloads de analytics Accesible para todas las aplicaciones de analytics compatibles con HDFS (Hortonworks, Cloudera, MapR) Administrado, monitoreado y soportado por Microsoft Seguridad, compliance y administración Enterprise grade
  • 30.
    Microsoft Azure DataLake YARN U-SQL Analytics Service HDInsight Store HDFS Servicio de analytics distribuido Escala dinámicamente para adaptarse a las necesidades del negocio Productividad desde el día uno con herramientas de desarrollo líderes (para novatos y expertos) Analytics sobre todo tipo de datos (no estructurados, semi estructurados, estructurados) U-SQL: simple y familiar, fácilmente extendible Hive será soportado pronto
  • 31.
    Microsoft Azure DataLake YARN U-SQL Analytics Service HDInsight Store HDFS Oferta de Hadoop en la nube de Microsoft 100% open source Apache Hadoop Administrado y soportado por Microsoft Spark, Hive, Pig, Storm, HBase Listo para usar en minutos .NET and Java Integración con Visual Studio 99.9% Enterprise Service Level Agreement Windows o Linux
  • 33.
    Guillermo Bellmann Cloud architect- Nubimetrics @gjbellmann guillermo@nubimetrics.com

Notas del editor

  • #14 ¿Problemas? Escala, fallas, overflows
  • #15 ¿Problemas? Escala, fallas, expresividad
  • #16 ¿Problemas? Demasiada ceremonia. Se complica, rápido.