SlideShare una empresa de Scribd logo
Mayo 13, 2017
Bogotá, Colombia
#sqlsatBogota
Patrocinadores del SQL Saturday
13/5/2017 | SQL Saturday #608 – Bogotá, Colombia8 |
Conéctese con PASS
Regístrese hoy para una membresía gratis:
pass.org
#sqlpass
Sea cual sea su pasión datos - hay un capítulo virtual para
usted!
13/5/2017 | SQL Saturday #608 – Bogotá, Colombia10 |
Jorge Muchaypiña Gutierrez
Business Intelligence Specialist
MTA | MCP | MAP | MCSA | MCSE BI | ITILF | CSM
Blog: https://jorgemuchaypina.wordpress.com/
LinkedIn: https://pe.linkedin.com/in/jorge-muchaypiña-79038491
Facebook: https://www.facebook.com/jorgemichael.muchaypinagutierrez.5
AZURE DATA LAKE
Que es un Big Data?
"Big Data es como el sexo adolescente:
todos hablan acerca de ello, nadie sabe
realmente como hacerlo,
todos piensan que todos lo están
haciendo,
por lo que todo el mundo dice que lo esta
haciendo“
Dan Ariely
Volumen
Exabyte
(EB)
1018
Petabyte
(PB)
1015
Terabyte
(TB)
1012
Zettabyte
(ZB)
1021
Volumen
Velocidad
Variedad
The 3 Azure Data Lake Services
HDInsight Analytics Store
Clusters as a service Big data queries as a
service
Hyper-scale Storage
optimized for analytics
Apache Hadoop
Apache Hadoop
HDFS
Name Node Data Nodes
Hadoop Cluster
Map Reduce
• Estrategia divide y
vencerás:
• Map() – divider en problemas
más pequeños
• Reduce() – combinar los
resultados
……
…
Do work() Do work() Do work()
• Infraestructura como un Servicio(IaaS)
 Hadoop en una VM
 Hortonworks
 Cloudera
 MapR
• Plataforma como un Servicio(PaaS)
 Azure HDInsight(Cluster as a Service)
 Azure Data Lake Store and Analytics
Big Data sobre Azure
HDInsight
Que es un Data Lake?
“Un simple almacenamiento de toda la
data...desde la data cruda(que implica
una copia exacta del origen de datos)
a los datos transformados que son
usados de varias formas incluyendo
reportes, visualizaciones, analítica y
maquinas de aprendizaje.”
Azure Data Lake
 Integrando, plataforma de Big Data Storage + Analytics
 Diseñado de las experiencias del mundo real
 Office 365, Skype, Bing, etc.
 Aprovechar tecnologías y habilidades existentes
 Beneficios de un Servicio Local Azure
 Elasticidad, aprovisionando dinámicamente los recursos que
necesitamos
Capacidad de almacenamiento infinito
Enfocado en extracción significante de la data, no en la
infraestructura
Built on Open-Source
Azure Ecosystem Integration
Azure Data Lake Store
 HDFS como servicio
 Almacenamiento durable
 Una variedad de escenarios
 Alta Capacidad
 Alta Frecuencia
 Alto Rendimiento
 Data se almacena en su formato nativo
 Formatos de almacenamiento estructurado, semiestructurado y
no estructurado
Azure HDInsight
 Administrado, nube escalable de Hadoop como un
Servicio
 Complemento complete de las tecnologías de Apache.
Spark, Storm, HBase, etc.
 Se centran en consultas y datos, no infraestructura
 Pagas por solo lo que necesitas usar
 Aprovechar las herramientas existentes
 Hive, Pig, Sqoop, R, etc.
Azure Data Lake Analytics
 Complemento al ecosistema HDInsight y Hadoop.
 Lo escalas dinámicamente para coincidir con complejidad
de tamaño y consulta de datos
 Construido en Apache YARN
 Unidad de interacción es un trabajo de análisis.
 U-SQL: Lenguaje de consulta arraigada entre SQL y C#
U-SQL
 Basado en SQL y C#
 Tipos y expresiones C#
 Tablas, vistas, funciones de Windows.
 Funciones definidas por el usuario/operadores/agregaciones
en C.
 Trabajo típico
1. Leer la data de archivos/tabla/ origenes federados
2. Transforma las filas en un pipeline.
3. Filas de salida a tablas o filas.
@orders =
EXTRACT
OrderId int,
Customer string,
Date DateTime,
Amount float
FROM "/input/orders.txt"
USING Extractors.Tsv();
OUTPUT @orders
TO "/output/orders_copy.txt"
USING Outputters.Tsv();
Apply Schema on read
From a file in an ADL Store
Easy delimited text handling
Write out
Read the input, write it directly to output (just a simple copy)
Rowset
@customers =
SELECT Customer.ToUpper() AS Customer
FROM @orders
WHERE Customer.Contains("Contoso");
C# Expression
Transforming Rowsets
C# Expression
Use WHERE for
filtering
@orders =
SELECT *
FROM @orders
WHERE Customer.Contains("Contoso");
Refining Rowsets
@rows =
SELECT
OrdersDB.Helpers.Normalize(Customer) AS Customer,
Amount AS Amount
FROM @orders;
Use your own helper
functions
Use Your own C# methods
@rows =
SELECT
Customer,
SUM(Amount) AS TotalAmount
FROM @orders
GROUP BY Customer;
Many other aggregations
are possible. You can
define your own aggregator
with C#!
Grouping & Aggregation
@rows =
SELECT
Customer,
SUM(Amount) AS TotalAmount
FROM @orders
GROUP BY Customer
HAVING TotalAmount > 1000000;
HAVING filters the output
of a GROUP BY
Grouping & Aggregation (2)
DECLARE values for later use
DECLARE @text1 string = "Hello World";
DECLARE @text2 string = @"Hello World";
DECLARE @text3 char = 'a';
DECLARE @text4 string = "BEGIN" + @text1 + "END";
DECLARE @text5 string = string.Format("BEGIN{0}END", @text1);
DECLARE @numeric1 sbyte = 0;
DECLARE @numeric2 short = 1;
DECLARE @numeric3 int = 2;
DECLARE @numeric4 long = 3L;
DECLARE @numeric5 float = 4.0f;
DECLARE @numeric6 double = 5.0;
DECLARE @d1 DateTime = System.DateTime.Parse("1979/03/31");
DECLARE @d2 DateTime = DateTime.Now;
DECLARE @misc1 bool = true;
DECLARE @misc2 Guid = System.Guid.Parse("BEF7A4E8-F583-4804-9711-7E608215EBA6");
DECLARE @misc4 byte [] = new byte[] { 0, 1, 2, 3, 4};
text
numeric
Date/time
Other
Creating Constant Rowsets in Script
@departments =
SELECT * FROM
(VALUES
(31, "Sales"),
(33, "Engineering"),
(34, "Clerical"),
(35, "Marketing")
) AS
D( DepID, DepName );
Sorting a rowset
@customers
SELECT *
FROM @customers
ORDER BY Amount ASC
FETCH FIRST 3 ROWS; SELECT with ORDER
BY requires a FETCH
FIRST!
Sorting on OIUTPUT
OUTPUT @customers
TO @"/output.tsv"
ORDER BY Amount ASC
USING Outputters.Tsv();
DEMO
Data Platform Day
Reportes 360 en mi Organización
#sqlsatBogota
13/5/2017 | SQL Saturday #608 – Bogotá, Colombia5 |
#sqlsatBogota
13/5/2017 | SQL Saturday #608 – Bogotá, Colombia6 |
Preguntas y Respuestas
Gracias !!!
“En Dios confiamos, todos los demás
traigan datos”

Más contenido relacionado

Similar a Azure SQL DataLake - SQL Saturday Bogota

Mejores Prácticas de SQL Server para implementar SharePoint Server
Mejores Prácticas de SQL Server para implementar SharePoint ServerMejores Prácticas de SQL Server para implementar SharePoint Server
Mejores Prácticas de SQL Server para implementar SharePoint ServerSpanishPASSVC
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
IntroduccióN A Sql Server 2005
IntroduccióN A Sql Server 2005IntroduccióN A Sql Server 2005
IntroduccióN A Sql Server 2005oswchavez
 
Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. GustavoMartin46
 
Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016jorge Muchaypiña
 
Power pivot
Power pivotPower pivot
Power pivotadriehz
 
mini-taller de Base de Datos y PostgreSQL
mini-taller de Base de Datos y PostgreSQLmini-taller de Base de Datos y PostgreSQL
mini-taller de Base de Datos y PostgreSQLCarlos Gustavo Ruiz
 
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...Antoni Riveros
 
Global Azure Bootcamp 2016 Bogota SQL2016 dba IaaS PaaS v4
Global Azure Bootcamp 2016 Bogota SQL2016 dba IaaS PaaS v4Global Azure Bootcamp 2016 Bogota SQL2016 dba IaaS PaaS v4
Global Azure Bootcamp 2016 Bogota SQL2016 dba IaaS PaaS v4Julián Castiblanco
 
Big data y las apis (big data spain)
Big data y las apis (big data spain)Big data y las apis (big data spain)
Big data y las apis (big data spain)CloudAppi
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power ViewEduardo Castro
 
El mundo Big Data y las APIs
El mundo Big Data y las APIsEl mundo Big Data y las APIs
El mundo Big Data y las APIsBig Data Spain
 
AWS Summit Barcelona - Data Analysis on AWS
AWS Summit Barcelona - Data Analysis on AWSAWS Summit Barcelona - Data Analysis on AWS
AWS Summit Barcelona - Data Analysis on AWSAmazon Web Services
 
Big data, Big Objects
Big data, Big ObjectsBig data, Big Objects
Big data, Big ObjectsNimacloud
 

Similar a Azure SQL DataLake - SQL Saturday Bogota (20)

Azure Data Lake
Azure Data LakeAzure Data Lake
Azure Data Lake
 
Mejores Prácticas de SQL Server para implementar SharePoint Server
Mejores Prácticas de SQL Server para implementar SharePoint ServerMejores Prácticas de SQL Server para implementar SharePoint Server
Mejores Prácticas de SQL Server para implementar SharePoint Server
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Introducción a hadoop
Introducción a hadoopIntroducción a hadoop
Introducción a hadoop
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
IntroduccióN A Sql Server 2005
IntroduccióN A Sql Server 2005IntroduccióN A Sql Server 2005
IntroduccióN A Sql Server 2005
 
Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero.
 
Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016
 
BigData
BigDataBigData
BigData
 
Explorando los Sabores de Azure Data Factory
Explorando los Sabores de Azure Data FactoryExplorando los Sabores de Azure Data Factory
Explorando los Sabores de Azure Data Factory
 
Power pivot
Power pivotPower pivot
Power pivot
 
mini-taller de Base de Datos y PostgreSQL
mini-taller de Base de Datos y PostgreSQLmini-taller de Base de Datos y PostgreSQL
mini-taller de Base de Datos y PostgreSQL
 
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
 
Global Azure Bootcamp 2016 Bogota SQL2016 dba IaaS PaaS v4
Global Azure Bootcamp 2016 Bogota SQL2016 dba IaaS PaaS v4Global Azure Bootcamp 2016 Bogota SQL2016 dba IaaS PaaS v4
Global Azure Bootcamp 2016 Bogota SQL2016 dba IaaS PaaS v4
 
Big data y las apis (big data spain)
Big data y las apis (big data spain)Big data y las apis (big data spain)
Big data y las apis (big data spain)
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power View
 
El mundo Big Data y las APIs
El mundo Big Data y las APIsEl mundo Big Data y las APIs
El mundo Big Data y las APIs
 
Explorando los Sabores de Azure DW
Explorando los Sabores de Azure DWExplorando los Sabores de Azure DW
Explorando los Sabores de Azure DW
 
AWS Summit Barcelona - Data Analysis on AWS
AWS Summit Barcelona - Data Analysis on AWSAWS Summit Barcelona - Data Analysis on AWS
AWS Summit Barcelona - Data Analysis on AWS
 
Big data, Big Objects
Big data, Big ObjectsBig data, Big Objects
Big data, Big Objects
 

Más de jorge Muchaypiña

Azure days - Power BI Premium per User
Azure days - Power BI Premium per UserAzure days - Power BI Premium per User
Azure days - Power BI Premium per Userjorge Muchaypiña
 
Microsoft ignite 2021 data culture
Microsoft ignite 2021   data cultureMicrosoft ignite 2021   data culture
Microsoft ignite 2021 data culturejorge Muchaypiña
 
Businessintelligence vs businessanalytics
Businessintelligence vs businessanalyticsBusinessintelligence vs businessanalytics
Businessintelligence vs businessanalyticsjorge Muchaypiña
 
SQL Server Analysis Services
SQL Server Analysis ServicesSQL Server Analysis Services
SQL Server Analysis Servicesjorge Muchaypiña
 
Global azure bootcamp SQL Azure End to End
Global azure bootcamp   SQL Azure End to End Global azure bootcamp   SQL Azure End to End
Global azure bootcamp SQL Azure End to End jorge Muchaypiña
 
Business intelligence vs business analytics
Business intelligence vs business analyticsBusiness intelligence vs business analytics
Business intelligence vs business analyticsjorge Muchaypiña
 
24 Horas Pass Spanish - minería de texto y análisis de sentimiento(cognitive...
24 Horas Pass Spanish -  minería de texto y análisis de sentimiento(cognitive...24 Horas Pass Spanish -  minería de texto y análisis de sentimiento(cognitive...
24 Horas Pass Spanish - minería de texto y análisis de sentimiento(cognitive...jorge Muchaypiña
 
SQL Saturday Lima - Analysis Services
SQL Saturday Lima - Analysis ServicesSQL Saturday Lima - Analysis Services
SQL Saturday Lima - Analysis Servicesjorge Muchaypiña
 
SQL Saturday Costa Rica BI - Text mining con r en power bi
SQL Saturday Costa Rica BI - Text mining con r en power biSQL Saturday Costa Rica BI - Text mining con r en power bi
SQL Saturday Costa Rica BI - Text mining con r en power bijorge Muchaypiña
 
Microsoft flow integrado con sql server y power bi
Microsoft flow integrado con sql server y power biMicrosoft flow integrado con sql server y power bi
Microsoft flow integrado con sql server y power bijorge Muchaypiña
 
Text Mining con R en PowerBI - Global Spanish
Text Mining con R en PowerBI -  Global Spanish Text Mining con R en PowerBI -  Global Spanish
Text Mining con R en PowerBI - Global Spanish jorge Muchaypiña
 
Stretch data base - Jorge Muchaypiña G.
Stretch data base - Jorge Muchaypiña G.Stretch data base - Jorge Muchaypiña G.
Stretch data base - Jorge Muchaypiña G.jorge Muchaypiña
 
Text mining con r en power bi - Jorge Muchaypiña G.
Text mining con r en power bi - Jorge Muchaypiña G.Text mining con r en power bi - Jorge Muchaypiña G.
Text mining con r en power bi - Jorge Muchaypiña G.jorge Muchaypiña
 
Mas alla de los datos con sql server reporting services 2016 - SQL Saturday B...
Mas alla de los datos con sql server reporting services 2016 - SQL Saturday B...Mas alla de los datos con sql server reporting services 2016 - SQL Saturday B...
Mas alla de los datos con sql server reporting services 2016 - SQL Saturday B...jorge Muchaypiña
 

Más de jorge Muchaypiña (17)

Azure days - Power BI Premium per User
Azure days - Power BI Premium per UserAzure days - Power BI Premium per User
Azure days - Power BI Premium per User
 
Microsoft ignite 2021 data culture
Microsoft ignite 2021   data cultureMicrosoft ignite 2021   data culture
Microsoft ignite 2021 data culture
 
Businessintelligence vs businessanalytics
Businessintelligence vs businessanalyticsBusinessintelligence vs businessanalytics
Businessintelligence vs businessanalytics
 
SQL Server Analysis Services
SQL Server Analysis ServicesSQL Server Analysis Services
SQL Server Analysis Services
 
Global azure bootcamp SQL Azure End to End
Global azure bootcamp   SQL Azure End to End Global azure bootcamp   SQL Azure End to End
Global azure bootcamp SQL Azure End to End
 
Business intelligence vs business analytics
Business intelligence vs business analyticsBusiness intelligence vs business analytics
Business intelligence vs business analytics
 
24 Horas Pass Spanish - minería de texto y análisis de sentimiento(cognitive...
24 Horas Pass Spanish -  minería de texto y análisis de sentimiento(cognitive...24 Horas Pass Spanish -  minería de texto y análisis de sentimiento(cognitive...
24 Horas Pass Spanish - minería de texto y análisis de sentimiento(cognitive...
 
SQL Saturday Lima - Analysis Services
SQL Saturday Lima - Analysis ServicesSQL Saturday Lima - Analysis Services
SQL Saturday Lima - Analysis Services
 
SQL Saturday Costa Rica BI - Text mining con r en power bi
SQL Saturday Costa Rica BI - Text mining con r en power biSQL Saturday Costa Rica BI - Text mining con r en power bi
SQL Saturday Costa Rica BI - Text mining con r en power bi
 
Microsoft flow integrado con sql server y power bi
Microsoft flow integrado con sql server y power biMicrosoft flow integrado con sql server y power bi
Microsoft flow integrado con sql server y power bi
 
Introduccion a PowerBI
Introduccion a PowerBIIntroduccion a PowerBI
Introduccion a PowerBI
 
Text Mining con R en PowerBI - Global Spanish
Text Mining con R en PowerBI -  Global Spanish Text Mining con R en PowerBI -  Global Spanish
Text Mining con R en PowerBI - Global Spanish
 
Stretch data base - Jorge Muchaypiña G.
Stretch data base - Jorge Muchaypiña G.Stretch data base - Jorge Muchaypiña G.
Stretch data base - Jorge Muchaypiña G.
 
Text mining con r en power bi - Jorge Muchaypiña G.
Text mining con r en power bi - Jorge Muchaypiña G.Text mining con r en power bi - Jorge Muchaypiña G.
Text mining con r en power bi - Jorge Muchaypiña G.
 
Mas alla de los datos con sql server reporting services 2016 - SQL Saturday B...
Mas alla de los datos con sql server reporting services 2016 - SQL Saturday B...Mas alla de los datos con sql server reporting services 2016 - SQL Saturday B...
Mas alla de los datos con sql server reporting services 2016 - SQL Saturday B...
 
SQL Azure Datawarehouse
SQL Azure DatawarehouseSQL Azure Datawarehouse
SQL Azure Datawarehouse
 
Azure SQL Database
Azure SQL DatabaseAzure SQL Database
Azure SQL Database
 

Último

lenguaje algebraico.pptx álgebra, trigonometria
lenguaje algebraico.pptx álgebra, trigonometrialenguaje algebraico.pptx álgebra, trigonometria
lenguaje algebraico.pptx álgebra, trigonometriasofiasonder
 
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptxleidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptxLeidyfuentes19
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfjjfch3110
 
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdfDesarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdfAlejandraCasallas7
 
Diagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestreDiagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestrerafaelsalazar0615
 
PRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docx
PRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docxPRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docx
PRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docxencinasm992
 
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
 
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024DanielErazoMedina
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfcj3806354
 
Gestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL ServerGestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL ServerRobertoCarrancioFern
 
Estudio de la geometría analitica. Pptx.
Estudio de la geometría analitica. Pptx.Estudio de la geometría analitica. Pptx.
Estudio de la geometría analitica. Pptx.sofiasonder
 
3Redu: Responsabilidad, Resiliencia y Respeto
3Redu: Responsabilidad, Resiliencia y Respeto3Redu: Responsabilidad, Resiliencia y Respeto
3Redu: Responsabilidad, Resiliencia y Respetocdraco
 
Robótica educativa para la eduacion primaria .pptx
Robótica educativa para la eduacion primaria .pptxRobótica educativa para la eduacion primaria .pptx
Robótica educativa para la eduacion primaria .pptx44652726
 
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Telefónica
 
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...Kevin Serna
 
Desarrollo de Habilidades de Pensamiento.
Desarrollo de Habilidades de Pensamiento.Desarrollo de Habilidades de Pensamiento.
Desarrollo de Habilidades de Pensamiento.AlejandraCasallas7
 
Presentacion y Extension de tema para Blogger.pptx
Presentacion y Extension de tema para Blogger.pptxPresentacion y Extension de tema para Blogger.pptx
Presentacion y Extension de tema para Blogger.pptxTaim11
 
proyecto invernadero desde el departamento de tecnología para Erasmus
proyecto invernadero desde el departamento de tecnología para Erasmusproyecto invernadero desde el departamento de tecnología para Erasmus
proyecto invernadero desde el departamento de tecnología para Erasmusraquelariza02
 
¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf7adelosriosarangojua
 
Alan Turing Vida o biografía resumida como presentación
Alan Turing Vida o biografía resumida como presentaciónAlan Turing Vida o biografía resumida como presentación
Alan Turing Vida o biografía resumida como presentaciónJuanPrez962115
 

Último (20)

lenguaje algebraico.pptx álgebra, trigonometria
lenguaje algebraico.pptx álgebra, trigonometrialenguaje algebraico.pptx álgebra, trigonometria
lenguaje algebraico.pptx álgebra, trigonometria
 
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptxleidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
 
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdfDesarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
 
Diagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestreDiagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestre
 
PRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docx
PRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docxPRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docx
PRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docx
 
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
 
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
 
Gestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL ServerGestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL Server
 
Estudio de la geometría analitica. Pptx.
Estudio de la geometría analitica. Pptx.Estudio de la geometría analitica. Pptx.
Estudio de la geometría analitica. Pptx.
 
3Redu: Responsabilidad, Resiliencia y Respeto
3Redu: Responsabilidad, Resiliencia y Respeto3Redu: Responsabilidad, Resiliencia y Respeto
3Redu: Responsabilidad, Resiliencia y Respeto
 
Robótica educativa para la eduacion primaria .pptx
Robótica educativa para la eduacion primaria .pptxRobótica educativa para la eduacion primaria .pptx
Robótica educativa para la eduacion primaria .pptx
 
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
 
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
 
Desarrollo de Habilidades de Pensamiento.
Desarrollo de Habilidades de Pensamiento.Desarrollo de Habilidades de Pensamiento.
Desarrollo de Habilidades de Pensamiento.
 
Presentacion y Extension de tema para Blogger.pptx
Presentacion y Extension de tema para Blogger.pptxPresentacion y Extension de tema para Blogger.pptx
Presentacion y Extension de tema para Blogger.pptx
 
proyecto invernadero desde el departamento de tecnología para Erasmus
proyecto invernadero desde el departamento de tecnología para Erasmusproyecto invernadero desde el departamento de tecnología para Erasmus
proyecto invernadero desde el departamento de tecnología para Erasmus
 
¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf
 
Alan Turing Vida o biografía resumida como presentación
Alan Turing Vida o biografía resumida como presentaciónAlan Turing Vida o biografía resumida como presentación
Alan Turing Vida o biografía resumida como presentación
 

Azure SQL DataLake - SQL Saturday Bogota

  • 1. Mayo 13, 2017 Bogotá, Colombia #sqlsatBogota
  • 2. Patrocinadores del SQL Saturday 13/5/2017 | SQL Saturday #608 – Bogotá, Colombia8 |
  • 3. Conéctese con PASS Regístrese hoy para una membresía gratis: pass.org #sqlpass
  • 4. Sea cual sea su pasión datos - hay un capítulo virtual para usted! 13/5/2017 | SQL Saturday #608 – Bogotá, Colombia10 |
  • 5. Jorge Muchaypiña Gutierrez Business Intelligence Specialist MTA | MCP | MAP | MCSA | MCSE BI | ITILF | CSM Blog: https://jorgemuchaypina.wordpress.com/ LinkedIn: https://pe.linkedin.com/in/jorge-muchaypiña-79038491 Facebook: https://www.facebook.com/jorgemichael.muchaypinagutierrez.5 AZURE DATA LAKE
  • 6. Que es un Big Data? "Big Data es como el sexo adolescente: todos hablan acerca de ello, nadie sabe realmente como hacerlo, todos piensan que todos lo están haciendo, por lo que todo el mundo dice que lo esta haciendo“ Dan Ariely
  • 11. The 3 Azure Data Lake Services HDInsight Analytics Store Clusters as a service Big data queries as a service Hyper-scale Storage optimized for analytics
  • 13. Apache Hadoop HDFS Name Node Data Nodes Hadoop Cluster
  • 14. Map Reduce • Estrategia divide y vencerás: • Map() – divider en problemas más pequeños • Reduce() – combinar los resultados …… … Do work() Do work() Do work()
  • 15. • Infraestructura como un Servicio(IaaS)  Hadoop en una VM  Hortonworks  Cloudera  MapR • Plataforma como un Servicio(PaaS)  Azure HDInsight(Cluster as a Service)  Azure Data Lake Store and Analytics Big Data sobre Azure
  • 17. Que es un Data Lake? “Un simple almacenamiento de toda la data...desde la data cruda(que implica una copia exacta del origen de datos) a los datos transformados que son usados de varias formas incluyendo reportes, visualizaciones, analítica y maquinas de aprendizaje.”
  • 18. Azure Data Lake  Integrando, plataforma de Big Data Storage + Analytics  Diseñado de las experiencias del mundo real  Office 365, Skype, Bing, etc.  Aprovechar tecnologías y habilidades existentes  Beneficios de un Servicio Local Azure  Elasticidad, aprovisionando dinámicamente los recursos que necesitamos Capacidad de almacenamiento infinito Enfocado en extracción significante de la data, no en la infraestructura
  • 21. Azure Data Lake Store  HDFS como servicio  Almacenamiento durable  Una variedad de escenarios  Alta Capacidad  Alta Frecuencia  Alto Rendimiento  Data se almacena en su formato nativo  Formatos de almacenamiento estructurado, semiestructurado y no estructurado
  • 22. Azure HDInsight  Administrado, nube escalable de Hadoop como un Servicio  Complemento complete de las tecnologías de Apache. Spark, Storm, HBase, etc.  Se centran en consultas y datos, no infraestructura  Pagas por solo lo que necesitas usar  Aprovechar las herramientas existentes  Hive, Pig, Sqoop, R, etc.
  • 23. Azure Data Lake Analytics  Complemento al ecosistema HDInsight y Hadoop.  Lo escalas dinámicamente para coincidir con complejidad de tamaño y consulta de datos  Construido en Apache YARN  Unidad de interacción es un trabajo de análisis.  U-SQL: Lenguaje de consulta arraigada entre SQL y C#
  • 24. U-SQL  Basado en SQL y C#  Tipos y expresiones C#  Tablas, vistas, funciones de Windows.  Funciones definidas por el usuario/operadores/agregaciones en C.  Trabajo típico 1. Leer la data de archivos/tabla/ origenes federados 2. Transforma las filas en un pipeline. 3. Filas de salida a tablas o filas.
  • 25. @orders = EXTRACT OrderId int, Customer string, Date DateTime, Amount float FROM "/input/orders.txt" USING Extractors.Tsv(); OUTPUT @orders TO "/output/orders_copy.txt" USING Outputters.Tsv(); Apply Schema on read From a file in an ADL Store Easy delimited text handling Write out Read the input, write it directly to output (just a simple copy) Rowset
  • 26. @customers = SELECT Customer.ToUpper() AS Customer FROM @orders WHERE Customer.Contains("Contoso"); C# Expression Transforming Rowsets C# Expression Use WHERE for filtering
  • 27. @orders = SELECT * FROM @orders WHERE Customer.Contains("Contoso"); Refining Rowsets
  • 28. @rows = SELECT OrdersDB.Helpers.Normalize(Customer) AS Customer, Amount AS Amount FROM @orders; Use your own helper functions Use Your own C# methods
  • 29. @rows = SELECT Customer, SUM(Amount) AS TotalAmount FROM @orders GROUP BY Customer; Many other aggregations are possible. You can define your own aggregator with C#! Grouping & Aggregation
  • 30. @rows = SELECT Customer, SUM(Amount) AS TotalAmount FROM @orders GROUP BY Customer HAVING TotalAmount > 1000000; HAVING filters the output of a GROUP BY Grouping & Aggregation (2)
  • 31. DECLARE values for later use DECLARE @text1 string = "Hello World"; DECLARE @text2 string = @"Hello World"; DECLARE @text3 char = 'a'; DECLARE @text4 string = "BEGIN" + @text1 + "END"; DECLARE @text5 string = string.Format("BEGIN{0}END", @text1); DECLARE @numeric1 sbyte = 0; DECLARE @numeric2 short = 1; DECLARE @numeric3 int = 2; DECLARE @numeric4 long = 3L; DECLARE @numeric5 float = 4.0f; DECLARE @numeric6 double = 5.0; DECLARE @d1 DateTime = System.DateTime.Parse("1979/03/31"); DECLARE @d2 DateTime = DateTime.Now; DECLARE @misc1 bool = true; DECLARE @misc2 Guid = System.Guid.Parse("BEF7A4E8-F583-4804-9711-7E608215EBA6"); DECLARE @misc4 byte [] = new byte[] { 0, 1, 2, 3, 4}; text numeric Date/time Other
  • 32. Creating Constant Rowsets in Script @departments = SELECT * FROM (VALUES (31, "Sales"), (33, "Engineering"), (34, "Clerical"), (35, "Marketing") ) AS D( DepID, DepName );
  • 33. Sorting a rowset @customers SELECT * FROM @customers ORDER BY Amount ASC FETCH FIRST 3 ROWS; SELECT with ORDER BY requires a FETCH FIRST!
  • 34. Sorting on OIUTPUT OUTPUT @customers TO @"/output.tsv" ORDER BY Amount ASC USING Outputters.Tsv();
  • 36. Reportes 360 en mi Organización #sqlsatBogota 13/5/2017 | SQL Saturday #608 – Bogotá, Colombia5 |
  • 37. #sqlsatBogota 13/5/2017 | SQL Saturday #608 – Bogotá, Colombia6 | Preguntas y Respuestas
  • 38. Gracias !!! “En Dios confiamos, todos los demás traigan datos”

Notas del editor

  1. Key point here is that data can be stored in raw source form and then transformed as needed to support various use cases. Data can exist in binary, tabular, document, delimited text, etc. form. Not mentioned here is one of the key capabilities of ADL… the ability to federate data from external sources and query over it without explicit copying (which might be useful/necessary in situations involving sensitive or frequently changing data).
  2. Key points: ADL was not invented out of thin air… based on real-world experiences of real-world product teams at Microsoft Based on open-source technologies to which you can immediately apply existing skills like Pig, Hive, etc… AND/OR you can choose to opt into newer MS-specific offerings like U-SQL that offer unique features and potentially smaller learning curve ADL abstracts infrastructure so that your analytics storage and jobs scale with your needs… literally Big Data-as-a-service
  3. ADL Store can be used on its own (without ADL Analytics)… its just “HDFS-in-the-cloud” at its heart. Similarly ADL Analytics can be used without touching data in an ADL Store (to query storage blobs, or perhaps against federated SQL Databases). Of course, they work very well together and will typically be used together.
  4. Federate data from external sources - SQL Data Warehouse, SQL Database, IaaS-hosted SQL Server Move data into Data Lake Store - Azure Data Factory for ETL, Azure Stream Analytics for streaming data Power BI for query visualization Azure Data Catalog for data publishing and discovery Active Directory for user management and permissions
  5. Beyond ADL Analytics, ADL Store can work as a source data repository for HDInsight; there are plans to further integrate it with other standalone open-source technologies in the Hadoop ecosystem like Spark, Storm, etc.
  6. HDInsight is based on the popular Hortonworks Hadoop platform and provides a wide range of data storage and analysis capabilities, ranging from real-time stream processing to OLTP, predictive modeling, and interactive analytics. Like ADL Store and ADL Analytics, HDInsight abstracts away infrastructure configuration and management and lets you focus on core data analysis tasks like ingest, transformation, query, and visualization. It scales up or down automatically as data size and query complexity requires. HDInsight also supports both Windows and Linux cluster types, which maximizes opportunities to port existing code and skillsets.
  7. http://hortonworks.com/apache/yarn/ “YARN is the architectural center of Hadoop that allows multiple data processing engines such as interactive SQL, real-time streaming, data science and batch processing to handle data stored in a single platform, unlocking an entirely new approach to analytics.” From http://hadoop.apache.org/: “[YARN is] a framework for job scheduling and cluster resource management.” The above also happens to be a good abstract description of ADL Analytics… it schedules and manages jobs and the cluster of machines used to execute those jobs. In the case of ADL Analytics a “job” is a U-SQL query issued against one or more configured data sources.
  8. Good overview of U-SQL can be found here: http://usql.io/ “U-SQL is built on the learnings from Microsoft’s internal experience with SCOPE and existing languages such as T-SQL, ANSI SQL, and Hive. For example, we base our SQL and programming language integration and the execution and optimization framework for U-SQL on SCOPE, which currently runs hundred thousands of jobs each day internally. We also align the metadata system (databases, tables, etc.), the SQL syntax, and language semantics with T-SQL and ANSI SQL, the query languages most of our SQL Server customers are familiar with. And we use C# data types and the C# expression language so you can seamlessly write C# predicates and expressions inside SELECT statements and use C# to add your custom logic. Finally, we looked to Hive and other Big Data languages to identify patterns and data processing requirements and integrate them into our framework.”