SlideShare una empresa de Scribd logo
Guillermo Bellmann
Cloud architect – Nubimetrics | Microsoft Azure MVP
@gjbellmann
“Big data is like teenage sex: everyone talks
about it, nobody really knows how to do it,
everyone thinks everyone else is doing it,
so everyone claims they are doing it.”
Dan Ariely
¿Qué es Big Data?
El Big Data o Datos masivos es un concepto que hace referencia al
almacenamiento de grandes cantidades de datos y a los
procedimientos usados para encontrar patrones repetitivos dentro
de esos datos.
Wikipedia
Son datos que exceden la capacidad de procesamiento de sistemas
convencionales de Bases de Datos.
• O’Reilly
Características
Volumen
Velocidad
Variedad
¿Dónde nace?
Mucha de la innovación viene de los buscadores web
¿Por qué no podemos construir un buscador con una base de datos SQL?
• El almacenamiento necesita de más de una máquina
• Los datos no son un rectángulo
• Mi pregunta puede no ser relacional
• Necesito hacer esa pregunta en muchas, muchas máquinas
Google
Bing
¿Qué tienen en común?
Almacenamiento
Opera sobre hardware
barato
Asume fallas a escala
Asume muchas lecturas,
algunas escrituras sólo de
append
Grandes archivos
Cómputo
Traer el código a los datos
Asume que la red es difícil
de escalar
Abstraer, y confiar en los
compiladores, y
optimizadores
No especifican un “formato
correcto”
Map/Reduce
Contar palabras en Python
Contar palabras en SQL
Contar palabras en Hadoop
Contar palabras en Spark
Ecosistema Hadoop
Azure Data Lake
Azure Data Lake store
Azure Data Lake analytics
Azure HDInsight
Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
HDInsight: clúster como servicio
Oferta de Hadoop en la nube de Microsoft
100% open source Apache Hadoop
Administrado y soportado por Microsoft
Spark, Hive, Pig, Storm, HBase
Listo para usar en minutos
.NET y Java
Integración con Visual Studio
99.9% Enterprise Service Level Agreement
Windows o Linux
YARN
U-SQL
Analytics
Service
HDInsight
HDFS
Store
Azure Data Lake Store
Tamaño de archivo ilimitado
Diseñado para la diversidad de workloads de
analytics
Accesible para todas las aplicaciones de analytics
compatibles con HDFS (Hortonworks, Cloudera,
MapR)
Administrado, monitoreado y soportado por
Microsoft
Seguridad, compliance y administración
Enterprise grade
Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
Azure Data Lake Analytics Service
Servicio de analytics distribuido
Escala dinámicamente para adaptarse a las
necesidades del negocio
Productividad desde el día uno con
herramientas de desarrollo líderes (para
novatos y expertos)
Analytics sobre todo tipo de datos (no
estructurados, semi estructurados,
estructurados)
U-SQL: simple y familiar, fácilmente extendible
Hive será soportado pronto
Construido sobre estándares abiertos (YARN)
ADLA: Trabajamos sobre todos los datos
Azure Data Lake
Analytics
Azure SQL DW Azure SQL DB
Azure
Storage Blobs
Azure
Data Lake Store
SQL DB in an
Azure VM
El lenguage de de próxima generación para
procesamiento de datos de gran escala combinando
La parte declarativa, optimizable y paralelización de SQL
La extensibilidad, expresividad y familiaridad de C#
ADLA: El origen de U-SQL
Alta performance Escalable Accesible Fácil de programar Seguro
Hive
T-SQL
U-SQL SCOPE
Anatomía de una query en U-SQL
REFERENCE ASSEMBLY WebLogExtASM;
@rs =
EXTRACT
UserID string,
Start DateTime,
End DatetTime,
Region string,
SitesVisited string,
PagesVisited string
FROM "swebhdfs://Logs/WebLogRecords.txt"
USING WebLogExtractor();
@result = SELECT UserID,
(End.Subtract(Start)).TotalSeconds AS Duration
FROM @rs ORDER BY Duration DESC FETCH 10;
OUTPUT @result TO "swebhdfs://Logs/Results/top10.txt"
USING Outputter.Tsv();
• Los tipos de U-SQL son los
mismos que en C#
• La estructura (schema) se
impone en el momento de leer/
extraer información del archivo
(schema-on-read)
Los datos de entrada se leen de este
archivo en ADL
Función custom para leer los
datos de entrada
Expresión C#
La salida se guarda en este archivo en ADL
Función built-in que escribe la salida en
formato TSV
Rowset: Conceptualmente es
como una tabla intermedia…
es la forma como pasamos datos
entre sentencias en U-SQL
Leer archivos con formatos custom
Extractores incorporados para leer archivos CSV y TSV,
o creamos extractores custom para otros formatos
Subir y registrar el assembly
2
CREATE ASSEMBLY WebLogExtAsm
FROM @”/WebLogExtAsm.dll"
WITH PERMISSION_SET = RESTRICTED;
CREATE EXTRACTOR WebLogExtractor
EXTERNAL NAME
WebLogExtractor;
Implementar IExtractor
using Microsoft.SCOPE.Interfaces;
public WebLogExtractor:IExtractor
{
public override
IEnumerable<IRow> Extract(…)
{
…
}
…
}
1
REFERENCE ASSEMBLY WebLogExtAsm;
//now just use it like a built-in
extractor
SELECT * FROM
@“swebhdfs://Logs/WebRecords.txt”
USING WebLogExtractor();
Referenciar el Assembly y usarlo
3
Big Data en Azure: Azure Data Lake
Big Data en Azure: Azure Data Lake
Big Data en Azure: Azure Data Lake
Big Data en Azure: Azure Data Lake

Más contenido relacionado

La actualidad más candente

Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Socialmetrix
 
Html5 Java Script Apis
Html5 Java Script ApisHtml5 Java Script Apis
Html5 Java Script Apis
Gustavo Alzate Sandoval
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2
Eduardo Castro
 
Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016
jorge Muchaypiña
 
AWS en Español
AWS en EspañolAWS en Español
AWS en Español
Juan Carlos Perez Amin
 
Escalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosEscalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuarios
Amazon Web Services LATAM
 
Conceptos básicos de Asp.net mvc
Conceptos básicos de Asp.net mvcConceptos básicos de Asp.net mvc
Conceptos básicos de Asp.net mvc
Gustavo Alzate Sandoval
 
Arquitectura a escala
Arquitectura a escalaArquitectura a escala
Arquitectura a escala
Elasticsearch
 
Explorando los Sabores de Azure Data Factory
Explorando los Sabores de Azure Data FactoryExplorando los Sabores de Azure Data Factory
Explorando los Sabores de Azure Data Factory
Raul Martin Sarachaga Diaz
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
SpanishPASSVC
 
2017 04-22 - mst - curso patrones de diseño en nube
2017 04-22 - mst - curso patrones de diseño en nube2017 04-22 - mst - curso patrones de diseño en nube
2017 04-22 - mst - curso patrones de diseño en nube
MUG Perú
 
Azure SQL Databases para DBAs
Azure SQL Databases para DBAsAzure SQL Databases para DBAs
Azure SQL Databases para DBAs
Raul Martin Sarachaga Diaz
 
SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0
Sthefani Villanueva Cigaran
 
Bases NoSQL y su implementación con Azure DocumentDB
Bases NoSQL y su implementación con Azure DocumentDBBases NoSQL y su implementación con Azure DocumentDB
Bases NoSQL y su implementación con Azure DocumentDB
Julito Avellaneda
 
Arquitectura a escala
Arquitectura a escalaArquitectura a escala
Arquitectura a escala
Elasticsearch
 
Azure Databricks
Azure DatabricksAzure Databricks
Azure Databricks
nnakasone
 
Evento MultiTrain nube híbrida con Microsoft Azure
Evento MultiTrain nube híbrida con Microsoft AzureEvento MultiTrain nube híbrida con Microsoft Azure
Evento MultiTrain nube híbrida con Microsoft Azure
Ignacio Parladé Osborne
 
Data Amp 2017 - Whats New in SQL Server 2017
Data Amp 2017 - Whats New in SQL Server 2017Data Amp 2017 - Whats New in SQL Server 2017
Data Amp 2017 - Whats New in SQL Server 2017
dbLearner
 
Presentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datos
Presentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datosPresentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datos
Presentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datos
Imma Valls Bernaus
 

La actualidad más candente (20)

Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
 
Html5 Java Script Apis
Html5 Java Script ApisHtml5 Java Script Apis
Html5 Java Script Apis
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2
 
Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016
 
AWS en Español
AWS en EspañolAWS en Español
AWS en Español
 
Escalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosEscalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuarios
 
Conceptos básicos de Asp.net mvc
Conceptos básicos de Asp.net mvcConceptos básicos de Asp.net mvc
Conceptos básicos de Asp.net mvc
 
Arquitectura a escala
Arquitectura a escalaArquitectura a escala
Arquitectura a escala
 
Explorando los Sabores de Azure Data Factory
Explorando los Sabores de Azure Data FactoryExplorando los Sabores de Azure Data Factory
Explorando los Sabores de Azure Data Factory
 
Microsoft Azure
Microsoft AzureMicrosoft Azure
Microsoft Azure
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
2017 04-22 - mst - curso patrones de diseño en nube
2017 04-22 - mst - curso patrones de diseño en nube2017 04-22 - mst - curso patrones de diseño en nube
2017 04-22 - mst - curso patrones de diseño en nube
 
Azure SQL Databases para DBAs
Azure SQL Databases para DBAsAzure SQL Databases para DBAs
Azure SQL Databases para DBAs
 
SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0
 
Bases NoSQL y su implementación con Azure DocumentDB
Bases NoSQL y su implementación con Azure DocumentDBBases NoSQL y su implementación con Azure DocumentDB
Bases NoSQL y su implementación con Azure DocumentDB
 
Arquitectura a escala
Arquitectura a escalaArquitectura a escala
Arquitectura a escala
 
Azure Databricks
Azure DatabricksAzure Databricks
Azure Databricks
 
Evento MultiTrain nube híbrida con Microsoft Azure
Evento MultiTrain nube híbrida con Microsoft AzureEvento MultiTrain nube híbrida con Microsoft Azure
Evento MultiTrain nube híbrida con Microsoft Azure
 
Data Amp 2017 - Whats New in SQL Server 2017
Data Amp 2017 - Whats New in SQL Server 2017Data Amp 2017 - Whats New in SQL Server 2017
Data Amp 2017 - Whats New in SQL Server 2017
 
Presentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datos
Presentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datosPresentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datos
Presentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datos
 

Destacado

Intorducing Big Data and Microsoft Azure
Intorducing Big Data and Microsoft AzureIntorducing Big Data and Microsoft Azure
Intorducing Big Data and Microsoft Azure
Khalid Salama
 
Azure Data Lake Intro (SQLBits 2016)
Azure Data Lake Intro (SQLBits 2016)Azure Data Lake Intro (SQLBits 2016)
Azure Data Lake Intro (SQLBits 2016)
Michael Rys
 
Big Data on azure
Big Data on azureBig Data on azure
Big Data on azure
David Giard
 
Dive into Spark Streaming
Dive into Spark StreamingDive into Spark Streaming
Dive into Spark Streaming
Gerard Maas
 
Big Data in Azure
Big Data in AzureBig Data in Azure
Microsoft Azure Big Data Analytics
Microsoft Azure Big Data AnalyticsMicrosoft Azure Big Data Analytics
Microsoft Azure Big Data Analytics
Mark Kromer
 
Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016
nnakasone
 
From no services to Microservices
From no services to MicroservicesFrom no services to Microservices
From no services to Microservices
João Cavalheiro
 
Apache Camel & The Art of Entreprise Integration
Apache Camel & The Art of Entreprise IntegrationApache Camel & The Art of Entreprise Integration
Apache Camel & The Art of Entreprise Integration
Abdellatif BOUCHAMA
 
Overcoming Obstacles to Success with Microservices
Overcoming Obstacles to Success with MicroservicesOvercoming Obstacles to Success with Microservices
Overcoming Obstacles to Success with Microservices
Perficient, Inc.
 
Big data in Azure
Big data in AzureBig data in Azure
Big data in Azure
Venkatesh Narayanan
 
Azure Big Data Story
Azure Big Data StoryAzure Big Data Story
Azure Big Data Story
Lynn Langit
 
Moving to microservices – a technology and organisation transformational journey
Moving to microservices – a technology and organisation transformational journeyMoving to microservices – a technology and organisation transformational journey
Moving to microservices – a technology and organisation transformational journey
Boyan Dimitrov
 
Big data on Azure for Architects
Big data on Azure for ArchitectsBig data on Azure for Architects
Big data on Azure for Architects
Tomasz Kopacz
 
Azure IOT
Azure IOTAzure IOT
Go Serverless with Azure Functions
Go Serverless with Azure FunctionsGo Serverless with Azure Functions
Go Serverless with Azure Functions
Jim O'Neil
 
Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...
Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...
Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...
Mike Martin
 
Big data streaming with Apache Spark on Azure
Big data streaming with Apache Spark on AzureBig data streaming with Apache Spark on Azure
Big data streaming with Apache Spark on Azure
Willem Meints
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
Sascha Dittmann
 
Microsoft NYC 14
Microsoft NYC 14Microsoft NYC 14
Microsoft NYC 14
SwitchPitch
 

Destacado (20)

Intorducing Big Data and Microsoft Azure
Intorducing Big Data and Microsoft AzureIntorducing Big Data and Microsoft Azure
Intorducing Big Data and Microsoft Azure
 
Azure Data Lake Intro (SQLBits 2016)
Azure Data Lake Intro (SQLBits 2016)Azure Data Lake Intro (SQLBits 2016)
Azure Data Lake Intro (SQLBits 2016)
 
Big Data on azure
Big Data on azureBig Data on azure
Big Data on azure
 
Dive into Spark Streaming
Dive into Spark StreamingDive into Spark Streaming
Dive into Spark Streaming
 
Big Data in Azure
Big Data in AzureBig Data in Azure
Big Data in Azure
 
Microsoft Azure Big Data Analytics
Microsoft Azure Big Data AnalyticsMicrosoft Azure Big Data Analytics
Microsoft Azure Big Data Analytics
 
Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016
 
From no services to Microservices
From no services to MicroservicesFrom no services to Microservices
From no services to Microservices
 
Apache Camel & The Art of Entreprise Integration
Apache Camel & The Art of Entreprise IntegrationApache Camel & The Art of Entreprise Integration
Apache Camel & The Art of Entreprise Integration
 
Overcoming Obstacles to Success with Microservices
Overcoming Obstacles to Success with MicroservicesOvercoming Obstacles to Success with Microservices
Overcoming Obstacles to Success with Microservices
 
Big data in Azure
Big data in AzureBig data in Azure
Big data in Azure
 
Azure Big Data Story
Azure Big Data StoryAzure Big Data Story
Azure Big Data Story
 
Moving to microservices – a technology and organisation transformational journey
Moving to microservices – a technology and organisation transformational journeyMoving to microservices – a technology and organisation transformational journey
Moving to microservices – a technology and organisation transformational journey
 
Big data on Azure for Architects
Big data on Azure for ArchitectsBig data on Azure for Architects
Big data on Azure for Architects
 
Azure IOT
Azure IOTAzure IOT
Azure IOT
 
Go Serverless with Azure Functions
Go Serverless with Azure FunctionsGo Serverless with Azure Functions
Go Serverless with Azure Functions
 
Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...
Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...
Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...
 
Big data streaming with Apache Spark on Azure
Big data streaming with Apache Spark on AzureBig data streaming with Apache Spark on Azure
Big data streaming with Apache Spark on Azure
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
 
Microsoft NYC 14
Microsoft NYC 14Microsoft NYC 14
Microsoft NYC 14
 

Similar a Big Data en Azure: Azure Data Lake

Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nubeIndustria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
Rodrigo Corral
 
Azure data lake
Azure data lakeAzure data lake
Azure data lake
Ivan Martinez
 
Azure Data Lake
Azure Data LakeAzure Data Lake
Big data y las apis (big data spain)
Big data y las apis (big data spain)Big data y las apis (big data spain)
Big data y las apis (big data spain)
CloudAppi
 
Introducción a la plataforma sql azure
Introducción a la plataforma sql azureIntroducción a la plataforma sql azure
Introducción a la plataforma sql azureJoseph Lopez
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
Tabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdf
Tabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdfTabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdf
Tabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdf
MIGUELANGELDORADOJAR
 
[Code Camp 2009] Cloud Computing - Explorando Windows Azure Services (Carlos ...
[Code Camp 2009] Cloud Computing - Explorando Windows Azure Services (Carlos ...[Code Camp 2009] Cloud Computing - Explorando Windows Azure Services (Carlos ...
[Code Camp 2009] Cloud Computing - Explorando Windows Azure Services (Carlos ...
Microsoft Argentina y Uruguay [Official Space]
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflow
Eduardo Castro
 
Actividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltcActividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltc
jhoselt
 
Introduccion a AWS
Introduccion a AWSIntroduccion a AWS
Introduccion a AWS
Hermann Pais
 
Motores de bases de datos open source
Motores de bases de datos open sourceMotores de bases de datos open source
Motores de bases de datos open sourceeduardojose55
 
Bases de datos
Bases de datosBases de datos
Bases de datos
Benito Duran
 
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...Amazon Web Services
 
Big data y las apis
Big data y  las apis Big data y  las apis
Big data y las apis
CloudAppi
 
Bases de datos
Bases de datosBases de datos
Bases de datos
Angel Garcia Juarez
 
Act4 avalos hernandez luz martina
Act4 avalos hernandez luz martinaAct4 avalos hernandez luz martina
Act4 avalos hernandez luz martina
LUZ MARTINA AVALOS
 
Base de datos
Base de datosBase de datos
Base de datos
isabel1fer
 

Similar a Big Data en Azure: Azure Data Lake (20)

Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nubeIndustria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
 
Azure data lake
Azure data lakeAzure data lake
Azure data lake
 
Azure Data Lake
Azure Data LakeAzure Data Lake
Azure Data Lake
 
Big data y las apis (big data spain)
Big data y las apis (big data spain)Big data y las apis (big data spain)
Big data y las apis (big data spain)
 
Introducción a la plataforma sql azure
Introducción a la plataforma sql azureIntroducción a la plataforma sql azure
Introducción a la plataforma sql azure
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Tabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdf
Tabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdfTabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdf
Tabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdf
 
[Code Camp 2009] Cloud Computing - Explorando Windows Azure Services (Carlos ...
[Code Camp 2009] Cloud Computing - Explorando Windows Azure Services (Carlos ...[Code Camp 2009] Cloud Computing - Explorando Windows Azure Services (Carlos ...
[Code Camp 2009] Cloud Computing - Explorando Windows Azure Services (Carlos ...
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflow
 
Actividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltcActividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltc
 
Introduccion a AWS
Introduccion a AWSIntroduccion a AWS
Introduccion a AWS
 
Motores de bases de datos open source
Motores de bases de datos open sourceMotores de bases de datos open source
Motores de bases de datos open source
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
 
Big data y las apis
Big data y  las apis Big data y  las apis
Big data y las apis
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Act4 avalos hernandez luz martina
Act4 avalos hernandez luz martinaAct4 avalos hernandez luz martina
Act4 avalos hernandez luz martina
 
Base de datos
Base de datosBase de datos
Base de datos
 
Taller 2
Taller 2Taller 2
Taller 2
 

Más de Guillermo Javier Bellmann

Serverless con .NET y Microsoft Azure
Serverless con .NET y Microsoft AzureServerless con .NET y Microsoft Azure
Serverless con .NET y Microsoft Azure
Guillermo Javier Bellmann
 
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
Guillermo Javier Bellmann
 
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
Guillermo Javier Bellmann
 
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
Guillermo Javier Bellmann
 
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
Guillermo Javier Bellmann
 
Virtual Inspire Latam - Big data
Virtual Inspire Latam - Big dataVirtual Inspire Latam - Big data
Virtual Inspire Latam - Big data
Guillermo Javier Bellmann
 
Tech night 2017-04-27
Tech night 2017-04-27Tech night 2017-04-27
Tech night 2017-04-27
Guillermo Javier Bellmann
 
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ....Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
Guillermo Javier Bellmann
 
.Net Conf UY 2017: Un paseo por Azure Service Fabric
.Net Conf UY 2017: Un paseo por Azure Service Fabric.Net Conf UY 2017: Un paseo por Azure Service Fabric
.Net Conf UY 2017: Un paseo por Azure Service Fabric
Guillermo Javier Bellmann
 
Empezá a trabajar en la nube
Empezá a trabajar en la nubeEmpezá a trabajar en la nube
Empezá a trabajar en la nube
Guillermo Javier Bellmann
 
Workshop: Microservicios con Azure Service Fabric
Workshop: Microservicios con Azure Service FabricWorkshop: Microservicios con Azure Service Fabric
Workshop: Microservicios con Azure Service Fabric
Guillermo Javier Bellmann
 
.NetRAF 2017: Big data en Azure
.NetRAF 2017: Big data en Azure.NetRAF 2017: Big data en Azure
.NetRAF 2017: Big data en Azure
Guillermo Javier Bellmann
 
Uniendo las comunidades en la nube - DevDayAR 2016
Uniendo las comunidades en la nube - DevDayAR 2016Uniendo las comunidades en la nube - DevDayAR 2016
Uniendo las comunidades en la nube - DevDayAR 2016
Guillermo Javier Bellmann
 
Introducción a Azure App Service - MUG Buenos Aires
Introducción a Azure App Service - MUG Buenos AiresIntroducción a Azure App Service - MUG Buenos Aires
Introducción a Azure App Service - MUG Buenos Aires
Guillermo Javier Bellmann
 
Desayuno de arquitectos: Big data en azure
Desayuno de arquitectos: Big data en azureDesayuno de arquitectos: Big data en azure
Desayuno de arquitectos: Big data en azure
Guillermo Javier Bellmann
 

Más de Guillermo Javier Bellmann (15)

Serverless con .NET y Microsoft Azure
Serverless con .NET y Microsoft AzureServerless con .NET y Microsoft Azure
Serverless con .NET y Microsoft Azure
 
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
 
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
 
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
 
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
 
Virtual Inspire Latam - Big data
Virtual Inspire Latam - Big dataVirtual Inspire Latam - Big data
Virtual Inspire Latam - Big data
 
Tech night 2017-04-27
Tech night 2017-04-27Tech night 2017-04-27
Tech night 2017-04-27
 
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ....Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
 
.Net Conf UY 2017: Un paseo por Azure Service Fabric
.Net Conf UY 2017: Un paseo por Azure Service Fabric.Net Conf UY 2017: Un paseo por Azure Service Fabric
.Net Conf UY 2017: Un paseo por Azure Service Fabric
 
Empezá a trabajar en la nube
Empezá a trabajar en la nubeEmpezá a trabajar en la nube
Empezá a trabajar en la nube
 
Workshop: Microservicios con Azure Service Fabric
Workshop: Microservicios con Azure Service FabricWorkshop: Microservicios con Azure Service Fabric
Workshop: Microservicios con Azure Service Fabric
 
.NetRAF 2017: Big data en Azure
.NetRAF 2017: Big data en Azure.NetRAF 2017: Big data en Azure
.NetRAF 2017: Big data en Azure
 
Uniendo las comunidades en la nube - DevDayAR 2016
Uniendo las comunidades en la nube - DevDayAR 2016Uniendo las comunidades en la nube - DevDayAR 2016
Uniendo las comunidades en la nube - DevDayAR 2016
 
Introducción a Azure App Service - MUG Buenos Aires
Introducción a Azure App Service - MUG Buenos AiresIntroducción a Azure App Service - MUG Buenos Aires
Introducción a Azure App Service - MUG Buenos Aires
 
Desayuno de arquitectos: Big data en azure
Desayuno de arquitectos: Big data en azureDesayuno de arquitectos: Big data en azure
Desayuno de arquitectos: Big data en azure
 

Big Data en Azure: Azure Data Lake

  • 1. Guillermo Bellmann Cloud architect – Nubimetrics | Microsoft Azure MVP @gjbellmann
  • 2.
  • 3. “Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.” Dan Ariely
  • 4. ¿Qué es Big Data? El Big Data o Datos masivos es un concepto que hace referencia al almacenamiento de grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos. Wikipedia Son datos que exceden la capacidad de procesamiento de sistemas convencionales de Bases de Datos. • O’Reilly
  • 6. ¿Dónde nace? Mucha de la innovación viene de los buscadores web ¿Por qué no podemos construir un buscador con una base de datos SQL? • El almacenamiento necesita de más de una máquina • Los datos no son un rectángulo • Mi pregunta puede no ser relacional • Necesito hacer esa pregunta en muchas, muchas máquinas
  • 9. ¿Qué tienen en común? Almacenamiento Opera sobre hardware barato Asume fallas a escala Asume muchas lecturas, algunas escrituras sólo de append Grandes archivos Cómputo Traer el código a los datos Asume que la red es difícil de escalar Abstraer, y confiar en los compiladores, y optimizadores No especifican un “formato correcto”
  • 15.
  • 17.
  • 18. Azure Data Lake Azure Data Lake store Azure Data Lake analytics Azure HDInsight Microsoft Azure Data Lake YARN U-SQL Analytics Service HDInsight Store HDFS
  • 19. Microsoft Azure Data Lake YARN U-SQL Analytics Service HDInsight Store HDFS HDInsight: clúster como servicio Oferta de Hadoop en la nube de Microsoft 100% open source Apache Hadoop Administrado y soportado por Microsoft Spark, Hive, Pig, Storm, HBase Listo para usar en minutos .NET y Java Integración con Visual Studio 99.9% Enterprise Service Level Agreement Windows o Linux
  • 20. YARN U-SQL Analytics Service HDInsight HDFS Store Azure Data Lake Store Tamaño de archivo ilimitado Diseñado para la diversidad de workloads de analytics Accesible para todas las aplicaciones de analytics compatibles con HDFS (Hortonworks, Cloudera, MapR) Administrado, monitoreado y soportado por Microsoft Seguridad, compliance y administración Enterprise grade
  • 21. Microsoft Azure Data Lake YARN U-SQL Analytics Service HDInsight Store HDFS Azure Data Lake Analytics Service Servicio de analytics distribuido Escala dinámicamente para adaptarse a las necesidades del negocio Productividad desde el día uno con herramientas de desarrollo líderes (para novatos y expertos) Analytics sobre todo tipo de datos (no estructurados, semi estructurados, estructurados) U-SQL: simple y familiar, fácilmente extendible Hive será soportado pronto Construido sobre estándares abiertos (YARN)
  • 22. ADLA: Trabajamos sobre todos los datos Azure Data Lake Analytics Azure SQL DW Azure SQL DB Azure Storage Blobs Azure Data Lake Store SQL DB in an Azure VM
  • 23. El lenguage de de próxima generación para procesamiento de datos de gran escala combinando La parte declarativa, optimizable y paralelización de SQL La extensibilidad, expresividad y familiaridad de C# ADLA: El origen de U-SQL Alta performance Escalable Accesible Fácil de programar Seguro Hive T-SQL U-SQL SCOPE
  • 24. Anatomía de una query en U-SQL REFERENCE ASSEMBLY WebLogExtASM; @rs = EXTRACT UserID string, Start DateTime, End DatetTime, Region string, SitesVisited string, PagesVisited string FROM "swebhdfs://Logs/WebLogRecords.txt" USING WebLogExtractor(); @result = SELECT UserID, (End.Subtract(Start)).TotalSeconds AS Duration FROM @rs ORDER BY Duration DESC FETCH 10; OUTPUT @result TO "swebhdfs://Logs/Results/top10.txt" USING Outputter.Tsv(); • Los tipos de U-SQL son los mismos que en C# • La estructura (schema) se impone en el momento de leer/ extraer información del archivo (schema-on-read) Los datos de entrada se leen de este archivo en ADL Función custom para leer los datos de entrada Expresión C# La salida se guarda en este archivo en ADL Función built-in que escribe la salida en formato TSV Rowset: Conceptualmente es como una tabla intermedia… es la forma como pasamos datos entre sentencias en U-SQL
  • 25. Leer archivos con formatos custom Extractores incorporados para leer archivos CSV y TSV, o creamos extractores custom para otros formatos Subir y registrar el assembly 2 CREATE ASSEMBLY WebLogExtAsm FROM @”/WebLogExtAsm.dll" WITH PERMISSION_SET = RESTRICTED; CREATE EXTRACTOR WebLogExtractor EXTERNAL NAME WebLogExtractor; Implementar IExtractor using Microsoft.SCOPE.Interfaces; public WebLogExtractor:IExtractor { public override IEnumerable<IRow> Extract(…) { … } … } 1 REFERENCE ASSEMBLY WebLogExtAsm; //now just use it like a built-in extractor SELECT * FROM @“swebhdfs://Logs/WebRecords.txt” USING WebLogExtractor(); Referenciar el Assembly y usarlo 3

Notas del editor

  1. ¿Problemas? Escala, fallas, overflows
  2. ¿Problemas? Escala, fallas, expresividad
  3. ¿Problemas? Demasiada ceremonia. Se complica, rápido.
  4. ADLA allows you to compute on data anywhere and a join data from multiple cloud sources.
  5. Remove SCOPE for external customers?