Azure Data Factory:
From A to Z
Keyla Dolores Méndez
BI Consultant
Keyla.dolores@kaitsconsulting.com
Welcome to the
Lima-Perú
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS
PUNTOS DE CONTACTO
Correo: keyla.dolores@kaitsconsulting.com
LinkedIn: Keyla Dolores Méndez
E X P E R I E N C I A
E S T U D I O S
Keyla Dolores Méndez
Consultora de Inteligencia de Negocios
S K I L L S
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS
AGENDA DE HOY
03 FLUJO LÓGICO DE AZURE DATA FACTORY
Entendiendo la informática en la nube
01 AZURE DATA LAKE
Un repositorio de datos ilimitado que permite tomar decisiones inteligentes
02 AZURE DATA FACTORY
Integración fácil de datos híbridos a escala
05 MANOS A LA OBRA
Construye tu primer pipeline
06 MONITOREA Y ADMINISTRA TUS ACTIVIDADES
Navegación en Azure Data Factory
04 JSON
Analiza o genera archivos con formato JSON
07 PREGUNTAS & RESPUESTAS
¿Y ahora qué? Siguientes pasos en la nube
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS
10
¿Qué nos trae Azure Data Lake?
(POR QUÉ DEBERÍAMOS EMPEZAR A CONOCERLO)
Un datalake es un repositorio de almacenamiento que
contienen una gran cantidad de datos.
A continuación, algunas de las cosas que puede hacer con
datalake:
• Almacenar y analizar archivos con un tamaño de
petabytes.
• Desarrollar programas en paralelo
• Escalabilidad de la capacidad de forma instantánea.
• Pagar por trabajos.
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS
11
Azure Data Factory
Información general
Es un servicio de integración de
datos basado en la nube que
orquesta y automatiza el
movimiento y la transformación
de datos.
On-prem
SQL Server
Azure Data
Factory
Data Lake
Store Azure Analysis
Services
Power BI
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS
Flujo Lógico de Azure Data Factory
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS
14
Proceso de Azure Data Factory
• Definir arquitectura: establecer objetivos y flujo
• Crear la fábrica de datos: Portal, VS, PowerShell
• Crear servicios vinculados: conexiones a datos y
servicios
• Crear conjuntos de datos: entrada y salida
• Crear canalización: definir actividades
• Monitorear y administrar: Portal o PowerShell,
alertas y métricas
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS
• Linked Services
• Pipeline
- Activity
• Dataset
Tres elementos principales:
Loading Data
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS
Json
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS
{
"name": "Pipeline-Cliente",
"properties": {
"description": "Generar archivo de clientes",
"activities": [
{
...
}
],
"start": "2018-04-21T15:00:00Z",
"end": "2099-04-21T03:00:00Z",
"isPaused": true,
"pipelineMode": "Scheduled"
}
}
Pipeline: Estructura
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS
"activities": [
{
"type": "DataLakeAnalyticsU-SQL",
"typeProperties": {
"script": "",
"scriptLinkedService": "LinkedServer-ADLA",
"priority": 1,
"parameters": {}
},
"inputs": [
{
"name": "Input-Cliente"
}
],
"outputs": [
{
"name": "Output-Cliente"
}
],
"policy": {
"concurrency": 1,
"retry": 3
},
"scheduler": {
"frequency": "Day",
"interval": 1,
"style": "EndOfInterval"
},
"name": "Clientes: Mover de carpeta Origen a Procesados",
"linkedServiceName": "LinkedServer-ADLA"
}
]
Actividades: Estructura
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS
Manos a la Obra
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS
Monitorea y Administra tus Actividades
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS
Administrar y monitorear
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS 23
IT’S SHOWTIME
HORA DE COMENZAR
PERÚ BI & ANALYTICS GROUP / SOMOS DATA LOVERS 24
TE INVITAMOS A
PARTICIPAR
SI QUIERES COMPARTIR, ESTE ES UN LUGAR
DONDE PODRÍAS HACERLO

Azure Data Factory: From A to Z

  • 1.
    Azure Data Factory: FromA to Z Keyla Dolores Méndez BI Consultant Keyla.dolores@kaitsconsulting.com
  • 2.
  • 3.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS PUNTOS DE CONTACTO Correo: keyla.dolores@kaitsconsulting.com LinkedIn: Keyla Dolores Méndez E X P E R I E N C I A E S T U D I O S Keyla Dolores Méndez Consultora de Inteligencia de Negocios S K I L L S
  • 4.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS AGENDA DE HOY 03 FLUJO LÓGICO DE AZURE DATA FACTORY Entendiendo la informática en la nube 01 AZURE DATA LAKE Un repositorio de datos ilimitado que permite tomar decisiones inteligentes 02 AZURE DATA FACTORY Integración fácil de datos híbridos a escala 05 MANOS A LA OBRA Construye tu primer pipeline 06 MONITOREA Y ADMINISTRA TUS ACTIVIDADES Navegación en Azure Data Factory 04 JSON Analiza o genera archivos con formato JSON 07 PREGUNTAS & RESPUESTAS ¿Y ahora qué? Siguientes pasos en la nube
  • 5.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS 10 ¿Qué nos trae Azure Data Lake? (POR QUÉ DEBERÍAMOS EMPEZAR A CONOCERLO) Un datalake es un repositorio de almacenamiento que contienen una gran cantidad de datos. A continuación, algunas de las cosas que puede hacer con datalake: • Almacenar y analizar archivos con un tamaño de petabytes. • Desarrollar programas en paralelo • Escalabilidad de la capacidad de forma instantánea. • Pagar por trabajos.
  • 6.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS 11 Azure Data Factory Información general Es un servicio de integración de datos basado en la nube que orquesta y automatiza el movimiento y la transformación de datos. On-prem SQL Server Azure Data Factory Data Lake Store Azure Analysis Services Power BI
  • 7.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS Flujo Lógico de Azure Data Factory
  • 8.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS
  • 9.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS 14 Proceso de Azure Data Factory • Definir arquitectura: establecer objetivos y flujo • Crear la fábrica de datos: Portal, VS, PowerShell • Crear servicios vinculados: conexiones a datos y servicios • Crear conjuntos de datos: entrada y salida • Crear canalización: definir actividades • Monitorear y administrar: Portal o PowerShell, alertas y métricas
  • 10.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS • Linked Services • Pipeline - Activity • Dataset Tres elementos principales: Loading Data
  • 11.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS Json
  • 12.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS { "name": "Pipeline-Cliente", "properties": { "description": "Generar archivo de clientes", "activities": [ { ... } ], "start": "2018-04-21T15:00:00Z", "end": "2099-04-21T03:00:00Z", "isPaused": true, "pipelineMode": "Scheduled" } } Pipeline: Estructura
  • 13.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS "activities": [ { "type": "DataLakeAnalyticsU-SQL", "typeProperties": { "script": "", "scriptLinkedService": "LinkedServer-ADLA", "priority": 1, "parameters": {} }, "inputs": [ { "name": "Input-Cliente" } ], "outputs": [ { "name": "Output-Cliente" } ], "policy": { "concurrency": 1, "retry": 3 }, "scheduler": { "frequency": "Day", "interval": 1, "style": "EndOfInterval" }, "name": "Clientes: Mover de carpeta Origen a Procesados", "linkedServiceName": "LinkedServer-ADLA" } ] Actividades: Estructura
  • 14.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS Manos a la Obra
  • 15.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS Monitorea y Administra tus Actividades
  • 16.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS Administrar y monitorear
  • 17.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS 23 IT’S SHOWTIME HORA DE COMENZAR
  • 18.
    PERÚ BI &ANALYTICS GROUP / SOMOS DATA LOVERS 24 TE INVITAMOS A PARTICIPAR SI QUIERES COMPARTIR, ESTE ES UN LUGAR DONDE PODRÍAS HACERLO

Notas del editor

  • #22 Main Concepts: https://azure.microsoft.com/en-us/documentation/articles/data-factory-monitor-manage-pipelines/
  • #23 ADF v1: A nivel de Actividad: - Mover datos en la nube: $0.60 x actividad x mes - Mover datos de local a la nube: $1.50 x actividad x mes A nivel de Datos: - En la nube: $0.25 x hora - Local: $0.10 x hora Pipeline Inactivo - $0.80 x mes Reanudar Actividades: - En la nube: $1.367 x cada 1000 repeticiones - Local: $3.416 x cada 1000 repeticiones Ejemplo: Ejecutar una actividad 2 veces al dia por un mes: * 30 dias x 2 horas x $0.10 = $6 * $1.50 (Orquestación de actividades al mes) = $7.50