SlideShare una empresa de Scribd logo
1 de 33
Guillermo Bellmann
Cloud architect - Nubimetrics
@gjbellmann
guillermo@nubimetrics.com
• Entender los conceptos
• Conocer las herramientas disponibles (o al menos
algunas)
• Conocer la oferta de Big Data sobre Microsoft Azure
• Correr algunos ejemplos en Azure Data Lake
Analytics
• ¡Compartir experiencias!
“Big data is like teenage sex: everyone
talks about it, nobody really knows how
to do it, everyone thinks everyone else
is doing it, so everyone claims they are
doing it.”
Dan Ariely
El Big Data o Datos masivos es un concepto que hace
referencia al almacenamiento de grandes cantidades
de datos y a los procedimientos usados para
encontrar patrones repetitivos dentro de esos datos.
Fuente: Wikipedia
Son datos que exceden la capacidad de
procesamiento de sistemas convencionales de Bases
de Datos.
Fuente: O’Reilly
• Volumen
• Velocidad
• Variedad
Mucha de la innovación viene de los buscadores web
¿Por qué no podemos construir un buscador con una
base de datos SQL?
• El almacenamiento necesita de más de una máquina
• Los datos no son un rectángulo
• Mi pregunta puede no ser relacional
• Necesito hacer esa pregunta en muchas, muchas
máquinas
Almacenamiento
Opera sobre hardware
barato
Asume fallas a escala
Asume muchas lecturas,
algunas escrituras sólo de
append
Grandes archivos
Cómputo
Traer el código a los datos
Asume que la red es difícil de
escalar
Abstraer, y confiar en los
compiladores, y
optimizadores
No especifican un “formato
correcto”
• Hadoop Common
• Hadoop Distributed File System (HDFS™)
• Hadoop YARN
• Hadoop MapReduce
• Hasta 100 veces más rápido que Hadoop MapReduce en
memoria, 10 veces más en disco.
• Java, Scala, Python, R.
• Puede correr sobre Hadoop, Mesos, standalone o en la
nube.
• Accede a datos de HDFS, Cassandra, HBase, Hive, etc.
• Una base de datos escalable, multi-master, sin un “single
point of failure”.
• Apple. 75K+ nodos, 10 PB de datos.
• Netflix: 2,5K nodos, 420 TB, 1T transacciones por día.
• eBay: 100+ nodos, 250 TB.
• Base de datos escalable y distribuida, que soporta el
almacenamiento estructurado de grandes tablas (miles
de millones de filas X millones de columnas).
• Basado en el proyecto Bigtable de Google, proporciona
capacidades similares a Bigtable sobre HDFS.
• SQL + Hadoop
sqoop import --connect jdbc:mysql://database.example.com/employees
--username juan --password 12345
• Se originó en Facebook
• Sintaxis tipo SQL que compila a Map/Reduce
• Data warehouse sobre datos en almacenamiento
distribuido
Bueno para:
• Gran escala
• Variedad de formatos,
encodings y
compresión
• Extensibilidad
No tan bueno para:
• Consultas interactivas
• Trabajar con tablas
chicas
• OLTP
Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
Azure Data Lake store
Azure Data Lake analytics
Azure HDInsight
YARN
U-SQL
Analytics
Service
HDInsight
HDFS
Store
Tamaño de archivo ilimitado
Diseñado para la diversidad de workloads de
analytics
Accesible para todas las aplicaciones de analytics
compatibles con HDFS (Hortonworks, Cloudera,
MapR)
Administrado, monitoreado y soportado por
Microsoft
Seguridad, compliance y administración Enterprise
grade
Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
Servicio de analytics distribuido
Escala dinámicamente para adaptarse a las
necesidades del negocio
Productividad desde el día uno con
herramientas de desarrollo líderes (para
novatos y expertos)
Analytics sobre todo tipo de datos (no
estructurados, semi estructurados,
estructurados)
U-SQL: simple y familiar, fácilmente extendible
Hive será soportado pronto
Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
Oferta de Hadoop en la nube de Microsoft
100% open source Apache Hadoop
Administrado y soportado por Microsoft
Spark, Hive, Pig, Storm, HBase
Listo para usar en minutos
.NET and Java
Integración con Visual Studio
99.9% Enterprise Service Level Agreement
Windows o Linux
Guillermo Bellmann
Cloud architect - Nubimetrics
@gjbellmann
guillermo@nubimetrics.com

Más contenido relacionado

Destacado

Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseJoseph Lopez
 
Hortonworks Technical Workshop: Apache Ambari
Hortonworks Technical Workshop:   Apache AmbariHortonworks Technical Workshop:   Apache Ambari
Hortonworks Technical Workshop: Apache AmbariHortonworks
 
Hadoop Ecosystem Architecture Overview
Hadoop Ecosystem Architecture Overview Hadoop Ecosystem Architecture Overview
Hadoop Ecosystem Architecture Overview Senthil Kumar
 
Introduction To Hadoop Ecosystem
Introduction To Hadoop EcosystemIntroduction To Hadoop Ecosystem
Introduction To Hadoop EcosystemInSemble
 
Big Data on azure
Big Data on azureBig Data on azure
Big Data on azureDavid Giard
 
The Hadoop Ecosystem
The Hadoop EcosystemThe Hadoop Ecosystem
The Hadoop EcosystemJ Singh
 

Destacado (9)

Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data Warehouse
 
Hadoop Ecosystem
Hadoop EcosystemHadoop Ecosystem
Hadoop Ecosystem
 
Hortonworks Technical Workshop: Apache Ambari
Hortonworks Technical Workshop:   Apache AmbariHortonworks Technical Workshop:   Apache Ambari
Hortonworks Technical Workshop: Apache Ambari
 
Hadoop Ecosystem Architecture Overview
Hadoop Ecosystem Architecture Overview Hadoop Ecosystem Architecture Overview
Hadoop Ecosystem Architecture Overview
 
Introduction To Hadoop Ecosystem
Introduction To Hadoop EcosystemIntroduction To Hadoop Ecosystem
Introduction To Hadoop Ecosystem
 
Big Data on azure
Big Data on azureBig Data on azure
Big Data on azure
 
Big Data in Azure
Big Data in AzureBig Data in Azure
Big Data in Azure
 
The Hadoop Ecosystem
The Hadoop EcosystemThe Hadoop Ecosystem
The Hadoop Ecosystem
 
Hadoop Family and Ecosystem
Hadoop Family and EcosystemHadoop Family and Ecosystem
Hadoop Family and Ecosystem
 

Similar a Desayuno de arquitectos: Big data en azure

Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQLDesarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQLRoanny Lamas
 
Introducción a NoSQL
Introducción a NoSQLIntroducción a NoSQL
Introducción a NoSQLCycle-IT
 
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...Amazon Web Services
 
Escalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosEscalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosAmazon Web Services LATAM
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdfAntonioSotoRodriguez1
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Actividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltcActividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltcjhoselt
 
Actividad de aprendizaje 4
Actividad de aprendizaje 4Actividad de aprendizaje 4
Actividad de aprendizaje 4Sinai Diaz
 
Polybase
PolybasePolybase
PolybaseSolidQ
 
Modernizando el rol de un Data Lake en una arquitectura Data Fabric
Modernizando el rol de un Data Lake en una arquitectura Data FabricModernizando el rol de un Data Lake en una arquitectura Data Fabric
Modernizando el rol de un Data Lake en una arquitectura Data FabricDenodo
 

Similar a Desayuno de arquitectos: Big data en azure (20)

Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQLDesarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
 
Introducción a NoSQL
Introducción a NoSQLIntroducción a NoSQL
Introducción a NoSQL
 
Big Data en Azure: Azure Data Lake
Big Data en Azure: Azure Data LakeBig Data en Azure: Azure Data Lake
Big Data en Azure: Azure Data Lake
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
 
Escalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosEscalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuarios
 
04 presentacion acosta_claudio
04 presentacion acosta_claudio04 presentacion acosta_claudio
04 presentacion acosta_claudio
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Base de datos
Base de datosBase de datos
Base de datos
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
DOCENTE
DOCENTEDOCENTE
DOCENTE
 
Presentacion
PresentacionPresentacion
Presentacion
 
Actividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltcActividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltc
 
Actividad de aprendizaje 4
Actividad de aprendizaje 4Actividad de aprendizaje 4
Actividad de aprendizaje 4
 
Act4 bd teo
Act4 bd teoAct4 bd teo
Act4 bd teo
 
Polybase
PolybasePolybase
Polybase
 
Base de datos
Base de datosBase de datos
Base de datos
 
Modernizando el rol de un Data Lake en una arquitectura Data Fabric
Modernizando el rol de un Data Lake en una arquitectura Data FabricModernizando el rol de un Data Lake en una arquitectura Data Fabric
Modernizando el rol de un Data Lake en una arquitectura Data Fabric
 
Introducción Azure Synapse Analytics
Introducción Azure Synapse AnalyticsIntroducción Azure Synapse Analytics
Introducción Azure Synapse Analytics
 

Más de Guillermo Javier Bellmann

Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...Guillermo Javier Bellmann
 
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...Guillermo Javier Bellmann
 
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...Guillermo Javier Bellmann
 
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...Guillermo Javier Bellmann
 
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ....Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...Guillermo Javier Bellmann
 
.Net Conf UY 2017: Un paseo por Azure Service Fabric
.Net Conf UY 2017: Un paseo por Azure Service Fabric.Net Conf UY 2017: Un paseo por Azure Service Fabric
.Net Conf UY 2017: Un paseo por Azure Service FabricGuillermo Javier Bellmann
 
Workshop: Microservicios con Azure Service Fabric
Workshop: Microservicios con Azure Service FabricWorkshop: Microservicios con Azure Service Fabric
Workshop: Microservicios con Azure Service FabricGuillermo Javier Bellmann
 
Uniendo las comunidades en la nube - DevDayAR 2016
Uniendo las comunidades en la nube - DevDayAR 2016Uniendo las comunidades en la nube - DevDayAR 2016
Uniendo las comunidades en la nube - DevDayAR 2016Guillermo Javier Bellmann
 
Introducción a Azure App Service - MUG Buenos Aires
Introducción a Azure App Service - MUG Buenos AiresIntroducción a Azure App Service - MUG Buenos Aires
Introducción a Azure App Service - MUG Buenos AiresGuillermo Javier Bellmann
 

Más de Guillermo Javier Bellmann (14)

Serverless con .NET y Microsoft Azure
Serverless con .NET y Microsoft AzureServerless con .NET y Microsoft Azure
Serverless con .NET y Microsoft Azure
 
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
 
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
 
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
 
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
 
Virtual Inspire Latam - Big data
Virtual Inspire Latam - Big dataVirtual Inspire Latam - Big data
Virtual Inspire Latam - Big data
 
Tech night 2017-04-27
Tech night 2017-04-27Tech night 2017-04-27
Tech night 2017-04-27
 
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ....Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
 
.Net Conf UY 2017: Un paseo por Azure Service Fabric
.Net Conf UY 2017: Un paseo por Azure Service Fabric.Net Conf UY 2017: Un paseo por Azure Service Fabric
.Net Conf UY 2017: Un paseo por Azure Service Fabric
 
Empezá a trabajar en la nube
Empezá a trabajar en la nubeEmpezá a trabajar en la nube
Empezá a trabajar en la nube
 
Workshop: Microservicios con Azure Service Fabric
Workshop: Microservicios con Azure Service FabricWorkshop: Microservicios con Azure Service Fabric
Workshop: Microservicios con Azure Service Fabric
 
.NetRAF 2017: Big data en Azure
.NetRAF 2017: Big data en Azure.NetRAF 2017: Big data en Azure
.NetRAF 2017: Big data en Azure
 
Uniendo las comunidades en la nube - DevDayAR 2016
Uniendo las comunidades en la nube - DevDayAR 2016Uniendo las comunidades en la nube - DevDayAR 2016
Uniendo las comunidades en la nube - DevDayAR 2016
 
Introducción a Azure App Service - MUG Buenos Aires
Introducción a Azure App Service - MUG Buenos AiresIntroducción a Azure App Service - MUG Buenos Aires
Introducción a Azure App Service - MUG Buenos Aires
 

Desayuno de arquitectos: Big data en azure

  • 1. Guillermo Bellmann Cloud architect - Nubimetrics @gjbellmann guillermo@nubimetrics.com
  • 2. • Entender los conceptos • Conocer las herramientas disponibles (o al menos algunas) • Conocer la oferta de Big Data sobre Microsoft Azure • Correr algunos ejemplos en Azure Data Lake Analytics • ¡Compartir experiencias!
  • 3.
  • 4. “Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.” Dan Ariely
  • 5. El Big Data o Datos masivos es un concepto que hace referencia al almacenamiento de grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos. Fuente: Wikipedia
  • 6. Son datos que exceden la capacidad de procesamiento de sistemas convencionales de Bases de Datos. Fuente: O’Reilly
  • 8. Mucha de la innovación viene de los buscadores web ¿Por qué no podemos construir un buscador con una base de datos SQL? • El almacenamiento necesita de más de una máquina • Los datos no son un rectángulo • Mi pregunta puede no ser relacional • Necesito hacer esa pregunta en muchas, muchas máquinas
  • 9.
  • 10.
  • 11. Almacenamiento Opera sobre hardware barato Asume fallas a escala Asume muchas lecturas, algunas escrituras sólo de append Grandes archivos Cómputo Traer el código a los datos Asume que la red es difícil de escalar Abstraer, y confiar en los compiladores, y optimizadores No especifican un “formato correcto”
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19. • Hadoop Common • Hadoop Distributed File System (HDFS™) • Hadoop YARN • Hadoop MapReduce
  • 20. • Hasta 100 veces más rápido que Hadoop MapReduce en memoria, 10 veces más en disco. • Java, Scala, Python, R. • Puede correr sobre Hadoop, Mesos, standalone o en la nube. • Accede a datos de HDFS, Cassandra, HBase, Hive, etc.
  • 21.
  • 22. • Una base de datos escalable, multi-master, sin un “single point of failure”. • Apple. 75K+ nodos, 10 PB de datos. • Netflix: 2,5K nodos, 420 TB, 1T transacciones por día. • eBay: 100+ nodos, 250 TB.
  • 23. • Base de datos escalable y distribuida, que soporta el almacenamiento estructurado de grandes tablas (miles de millones de filas X millones de columnas). • Basado en el proyecto Bigtable de Google, proporciona capacidades similares a Bigtable sobre HDFS.
  • 24. • SQL + Hadoop sqoop import --connect jdbc:mysql://database.example.com/employees --username juan --password 12345
  • 25. • Se originó en Facebook • Sintaxis tipo SQL que compila a Map/Reduce • Data warehouse sobre datos en almacenamiento distribuido
  • 26. Bueno para: • Gran escala • Variedad de formatos, encodings y compresión • Extensibilidad No tan bueno para: • Consultas interactivas • Trabajar con tablas chicas • OLTP
  • 27.
  • 28. Microsoft Azure Data Lake YARN U-SQL Analytics Service HDInsight Store HDFS Azure Data Lake store Azure Data Lake analytics Azure HDInsight
  • 29. YARN U-SQL Analytics Service HDInsight HDFS Store Tamaño de archivo ilimitado Diseñado para la diversidad de workloads de analytics Accesible para todas las aplicaciones de analytics compatibles con HDFS (Hortonworks, Cloudera, MapR) Administrado, monitoreado y soportado por Microsoft Seguridad, compliance y administración Enterprise grade
  • 30. Microsoft Azure Data Lake YARN U-SQL Analytics Service HDInsight Store HDFS Servicio de analytics distribuido Escala dinámicamente para adaptarse a las necesidades del negocio Productividad desde el día uno con herramientas de desarrollo líderes (para novatos y expertos) Analytics sobre todo tipo de datos (no estructurados, semi estructurados, estructurados) U-SQL: simple y familiar, fácilmente extendible Hive será soportado pronto
  • 31. Microsoft Azure Data Lake YARN U-SQL Analytics Service HDInsight Store HDFS Oferta de Hadoop en la nube de Microsoft 100% open source Apache Hadoop Administrado y soportado por Microsoft Spark, Hive, Pig, Storm, HBase Listo para usar en minutos .NET and Java Integración con Visual Studio 99.9% Enterprise Service Level Agreement Windows o Linux
  • 32.
  • 33. Guillermo Bellmann Cloud architect - Nubimetrics @gjbellmann guillermo@nubimetrics.com

Notas del editor

  1. ¿Problemas? Escala, fallas, overflows
  2. ¿Problemas? Escala, fallas, expresividad
  3. ¿Problemas? Demasiada ceremonia. Se complica, rápido.