Azure Data Lake
Raúl Saráchaga Díaz
2 2 / 0 2 / 2 0 1 8
Azure
PUNTOS DE CONTACTO
Correo: raulsarachaga@hotmailcom
LinkedIn: Raúl Saráchaga
Blog: www.aprendebi.wordpress.com
Twitter: @raulsarachaga
E X P E R I E N C I A
C E R T I F I C A C I O N E S
Arquitecto de Plataforma de Datos
DBA SQL Server
Instructor para Cursos de Certificación Microsoft.
Speaker en eventos nacionales e internacionales organizados por PASS, Power BI User Group Lima, Perú
BI & Analytics Group
Raúl Saráchaga Díaz
Lima
03 AZURE DATA LAKE
Explorar los servicios de Azure Data Lake Store y Analytics
04 USQL
Empezar a conocer este código para explotación de datos
02 BIG DATA SOBRE AZURE
La importancia de la implementación de Azure en tu organización
AGENDA DE HOY.
Explorar las características de Azure Data Lake
3
01 BIG DATA OVERVIEW
Un breve repaso de las arquitecturas de Big Data
05 PREGUNTAS & RESPUESTAS
Tú preguntas… Yo respondo
BIG DATA OVERVIEW
VOLUMEN
Cuando tienes millones de
registros, puedes ir pensando en
una solución de Big Data
VELOCIDAD
Si tienes bastante data y quieres
rapidez en las consultas de tus
datos, puedes ir pensando en Big
Data
VARIEDAD
Si tienes varios orígenes de datos
y te es difícil su explotación,
puedes ir pensando en Big Data
Volumen
Velocidad
Variedad
BIG DATA SOBRE AZURE
Infraestructura como
un Servicio(IaaS)
Hadoop en una VM:
Hortonworks
Cloudera
MapR
Plataforma como un
Servicio(PaaS)
Azure HDInsight(Cluster as a
Service):
Azure Data Lake Store and
Analytics
DATA LAKE
“Un simple almacenamiento de toda la data...desde la data cruda(que implica una
copia exacta del origen de datos)
a los datos transformados que son usados de varias formas incluyendo reportes,
visualizaciones, analítica y maquinas de aprendizaje.”
AZURE DATA LAKE
Integrando, plataforma de Big Data Storage + Analytics
Aprovechar tecnologías y habilidades existentes
Beneficios de un Servicio Local Azure
✓ Elasticidad, aprovisionando dinámicamente los recursos que necesitamos
✓ Capacidad de almacenamiento infinito
✓ Enfocado en extracción significante de la data, no en la infraestructura
AZURE DATA LAKE STORE
HDFS como servicio
Almacenamiento durable
Una variedad de escenarios
Alta Capacidad
Alta Frecuencia
Alto Rendimiento
Data se almacena en su formato nativo
Formatos de almacenamiento estructurado, semiestructurado y no estructurado
AZURE DATA LAKE ANALYTICS
Complemento al ecosistema HDInsight y Hadoop.
Lo escalas dinámicamente para coincidir con complejidad de tamaño y consulta de datos
Construido en Apache YARN
Unidad de interacción es un trabajo de análisis.
U-SQL: Lenguaje de consulta arraigada entre SQL y C#
OUTPUT @customers
TO @"/output.tsv"
ORDER BY Amount ASC
USING Outputters.Tsv();
AZURE DATA LAKE ANALYTICS -
USQL
Basado en SQL y C#
Tipos y expresiones C#
Tablas, vistas, funciones de Windows.
Funciones definidas por el
usuario/operadores/agregaciones en C.
Trabajo típico
Leer la data de archivos/tabla/ origenes federados
Transforma las filas en un pipeline.
Filas de salida a tablas o filas.
@orders =
EXTRACT
OrderId int,
Customer string,
Date DateTime,
Amount float
FROM "/input/orders.txt"
USING Extractors.Tsv();
OUTPUT @orders
TO "/output/orders_copy.txt"
USING Outputters.Tsv();
Apply Schema on read
From a file in an ADL Store
Easy delimited text handling
Write out
Rowset
Bonus Track:
AZURE DATA LAKE
+
AZURE SSAS
Puedes llevar tus archivos
no-relacionales a un modelo que
habite en SSAS para su explotación
Vamos
La demo nos espera!!
https://aprendebi.wordpress.com/
Encuéntrame
Próximamente
https://www.facebook.com/aprendebi/
Azure data lake

Azure data lake

  • 1.
    Azure Data Lake RaúlSaráchaga Díaz 2 2 / 0 2 / 2 0 1 8 Azure
  • 2.
    PUNTOS DE CONTACTO Correo:raulsarachaga@hotmailcom LinkedIn: Raúl Saráchaga Blog: www.aprendebi.wordpress.com Twitter: @raulsarachaga E X P E R I E N C I A C E R T I F I C A C I O N E S Arquitecto de Plataforma de Datos DBA SQL Server Instructor para Cursos de Certificación Microsoft. Speaker en eventos nacionales e internacionales organizados por PASS, Power BI User Group Lima, Perú BI & Analytics Group Raúl Saráchaga Díaz Lima
  • 3.
    03 AZURE DATALAKE Explorar los servicios de Azure Data Lake Store y Analytics 04 USQL Empezar a conocer este código para explotación de datos 02 BIG DATA SOBRE AZURE La importancia de la implementación de Azure en tu organización AGENDA DE HOY. Explorar las características de Azure Data Lake 3 01 BIG DATA OVERVIEW Un breve repaso de las arquitecturas de Big Data 05 PREGUNTAS & RESPUESTAS Tú preguntas… Yo respondo
  • 4.
    BIG DATA OVERVIEW VOLUMEN Cuandotienes millones de registros, puedes ir pensando en una solución de Big Data VELOCIDAD Si tienes bastante data y quieres rapidez en las consultas de tus datos, puedes ir pensando en Big Data VARIEDAD Si tienes varios orígenes de datos y te es difícil su explotación, puedes ir pensando en Big Data
  • 5.
  • 6.
  • 7.
  • 8.
    BIG DATA SOBREAZURE Infraestructura como un Servicio(IaaS) Hadoop en una VM: Hortonworks Cloudera MapR Plataforma como un Servicio(PaaS) Azure HDInsight(Cluster as a Service): Azure Data Lake Store and Analytics
  • 9.
    DATA LAKE “Un simplealmacenamiento de toda la data...desde la data cruda(que implica una copia exacta del origen de datos) a los datos transformados que son usados de varias formas incluyendo reportes, visualizaciones, analítica y maquinas de aprendizaje.”
  • 10.
    AZURE DATA LAKE Integrando,plataforma de Big Data Storage + Analytics Aprovechar tecnologías y habilidades existentes Beneficios de un Servicio Local Azure ✓ Elasticidad, aprovisionando dinámicamente los recursos que necesitamos ✓ Capacidad de almacenamiento infinito ✓ Enfocado en extracción significante de la data, no en la infraestructura
  • 11.
    AZURE DATA LAKESTORE HDFS como servicio Almacenamiento durable Una variedad de escenarios Alta Capacidad Alta Frecuencia Alto Rendimiento Data se almacena en su formato nativo Formatos de almacenamiento estructurado, semiestructurado y no estructurado
  • 12.
    AZURE DATA LAKEANALYTICS Complemento al ecosistema HDInsight y Hadoop. Lo escalas dinámicamente para coincidir con complejidad de tamaño y consulta de datos Construido en Apache YARN Unidad de interacción es un trabajo de análisis. U-SQL: Lenguaje de consulta arraigada entre SQL y C# OUTPUT @customers TO @"/output.tsv" ORDER BY Amount ASC USING Outputters.Tsv();
  • 13.
    AZURE DATA LAKEANALYTICS - USQL Basado en SQL y C# Tipos y expresiones C# Tablas, vistas, funciones de Windows. Funciones definidas por el usuario/operadores/agregaciones en C. Trabajo típico Leer la data de archivos/tabla/ origenes federados Transforma las filas en un pipeline. Filas de salida a tablas o filas.
  • 14.
    @orders = EXTRACT OrderId int, Customerstring, Date DateTime, Amount float FROM "/input/orders.txt" USING Extractors.Tsv(); OUTPUT @orders TO "/output/orders_copy.txt" USING Outputters.Tsv(); Apply Schema on read From a file in an ADL Store Easy delimited text handling Write out Rowset
  • 15.
    Bonus Track: AZURE DATALAKE + AZURE SSAS Puedes llevar tus archivos no-relacionales a un modelo que habite en SSAS para su explotación
  • 16.
  • 17.