Azure Data Lake: integracion dentro de soluciones de inteligencia de negocios
1. Data Lakes: integración dentro de
soluciones de inteligencia de negocios
Juan Alvarado
MVP Data Platform
Twitter: @juanbizzz
2. Consultor senior de BI y Bases de datos de
SQL
Consultor de BI y Performance and tunning de
AX y Dynamics 365 for operations
Apasionado de plataforma de datos de
Microsoft
MVP Data Platform
Especialista en Microsoft SQL Server, Power BI , SAP
Sybase / Hana y Oracle BI
5. Implementar Datawarehouse
Desarrollo
reporteria y
analisis
Diseño de reporteria y
analisis
Diseño fisico
Modelamiento
dimensional
Desarrollo ETLDiseño ETL
Configuracion y
tunning
Instalacion
infraestructura
Metodologia Datawarehouse
Fuentes de datos
ETL
BI y analitics
Data warehouse
Entender
requerimientos
empresa
Obtener
requerimientos
Requerimientos
del negocio
Requerimientos
tecnicos
6. Que es Azure Data Lake (ADL)
Un repositorio Hiper escalable para cualquier
tipo de datos, optimizado para trabajos de
analisis de Big Data.
7. Metodologia Data Lakes
Ingesta todos los
datos
No importa
requerimientos
Guardar todos
los datos
En forma nativa sin
cambios de esquemas
Hacer analisis
Usar motores
analiticos como
Hadoop
Consultas interactivas
Consultas batch
Machine Learning
Data warehouse
Analitycs en tiempo real
Devices
8. Data Warehouse + Data Lake =
Mejor juntos
Data sources
Que paso?
Que paso?
Analisis
descriptivo
Analisis de
daignostico
Porque paso?
Que pasara?
Analisis
predictivo
Analisis
prescriptivo
Como se hace que pase?
12. Data Lake Store: construido para la nube
Seguro Debe ser seguro, proveer acceso no autorizado
Formato nativo Debe permitir guarder los datos en formatos nativos
Baja latencia Debe tener baja latencia para volume de datos.
Debe soportar multiples frameworks analiticos—Batch, Real-time, Streaming, Machine Learning, etc.Multiples
frameworks analiticos
Detallado Debe guarder detalles de los datos, ya que no se cambiarn de esquemas.
Rendimiento Debe tener alto rendimientos usando procesos paralelos masivos via frameworks como Hadoop y Spark.
Disponible Altamente disponible, sin perder datos
Escalable Debe ser muy escalable. Para agregar gran cantidad de volume de datos
Todas las fuentes Debe manejar cualquier Fuente de datos como LOB/ERP, Logs, Devices, Social NWs etc.
13. Azure Data Lake
Analytics
Azure SQL DW Azure SQL DB
Azure
Storage Blobs
Azure
Data Lake Store
SQL DB in an
Azure VM
Data Lake Analytics: Analisis de datos
14. Administracion simplificada
Basado en portal de Azure
Automatizacion via
powershell
Accesos de control basados
en roles de Azure AD
Servicios de monitoreo y
actividades
15. ADLA vs. HDInsight
• HDInsight (Cluster como
servicio)
– Provicion de N nodes en
cluster
– Ejecuta consultas
– Borrar Cluster
– (Repetir)
• ADLA (Consultas como
servicio)
– No provisiona nada
– Especifico al momento
de ejecutar consulta con
paralelismo
– Pagar por consultas y
almacenamiento real
16. Como comenzar
Ingresar a Azure Crear una
cuenta de ADLA
Escribir y realizar
submit a trabajo
ADLA con U-SQL en
Visual Studio (or
Hive/Pig/ R /
Python)
El job lee y
escribe al ADL
Storage
1 2 3 4
30
segundos
ADLS
Azure Blobs
Azure DB
…
20. ¡Te traemos la oportunidad de certificarte
con los cursos de Azure Skills!
Comienza a formar parte de nuestro grupo de profesionales.
Más información en: www.microsoftazureskills.com