Esta charla forma parte de la gira de speaker online y el video de la podras encontrar en canal ventana de tecnologia en youtube
https://ivanmartinezm.wordpress.com/2017/09/03/5ta-fecha-gira-online-speaker-latinoamerica/
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Migrando datos a Azure Data Factory
1. 1° Gira Online de Speakers en Latinoamérica
Comunidad Azure Perú y Comunidad Azure Latinoamérica
presenta:
Speaker: Raúl Saráchaga
Charla : Migrando tus datos a la
nube con Azure Data Factory
2. SOMOS KAITS / BI & DATA ANALYTICS info@kaitsconsulting.com
PUNTOS DE CONTACTO
Correo: raul.sarachaga@kaitsconsulting.com
LinkedIn: Raúl Saráchaga
Blog: www.aprendebi.wordpress.com
Twitter: @raulsarachaga
E X P E R I E N C I A
C E R T I F I C A C I O N E S
Consultor en Business Intelligence.
DBA
Instructor para Cursos de Certificación Microsoft.
Instructor de Business Intelligence con SQL Server.
Raúl Saráchaga
Díaz
Lim
a
3. AGENDA DE HOY
3
05 IMPLEMENTAR LO APRENDIO CON AZ. DATA FACTORY
Demos colocándonos en varios escenarios de integración.
04 CARACTERÍSTICAS CLAVES DE AZURE DATA FACTORY
Por donde comenzar con este servicio en la nube
03 UNA LUZ AL FINAL DEL CAMINO CON AZ. DATA FACTORY
Como el servicio de Data Factory nos ayuda para la integración.
02 SOLUCIONES DE DW A LA NUBE , SUPER RETO
Que variantes existen cuando se lleva una solución de DW a la nube.
01 SOLUCIONES DE DW, VAYA RETO
Explorar las características de una solución de DW Tradicional
06 PREGUNTAS & RESPUESTAS
Tú preguntas… Yo respondo
Conocer cómo es que Azure Data Factory puede ayudarnos
en la integración de datos en nuestra organización.
4. 4
LES PASA A MUCHOS, LES PASA A TODOS
ESTE ESCENARIO APOCALÍPTICO DE INTEGRACIÓN NO ES EXCLUSIVO DE TU EMPRESA
5. Data Warehouse Tradicional
5
Acceso a Datos Visualización de
Datos
On-premises Data
Sources
SQL Database
XLS / XLSX / CSV /
TXT / PBIX / +
Modelo
Semántico
Metadata
Integración Almacenamiento
Data
Warehouse
Staging
6. 6
Capa de Integración
Modern BI & Analytics
Integración
Staging
▪ Esta capa de integración servirá de almacén de
los orígenes de datos.
▪ Almacenará por un determinado periodo de
tiempo los datos de las diferentes cargas.
▪ Me permitirá realizar transformación antes de ser
cargados al Data Warehouse.
7. 7
Capa de Almacenamiento
Modern BI & Analytics
Integración
Staging
▪ Esta capa de almacenamiento contendrá algunos
datos de la capa de integración.
▪ La data es transformada antes de llegar a esta
capa.
▪ Se almacenan de forma normalizada.
▪ Los datos de los distintos orígenes de datos se
encuentran centralizados.
Almacenamiento
Data
Warehouse
8. 8
Capa de Acceso a Datos
Modern BI & Analytics
Integración
Staging
▪ En esta capa de acceso a datos se encontrarán
los repositorios desde donde los usuarios finales
se conectarán para poder analizar los datos.
▪ Esta data se encuentra des normalizada para
lograr un mejor rendimiento en tiempo de
respuesta.
▪ Se encuentra con un lenguaje natural para el
usuario final.
Acceso a Datos
Modelo
Semántico
9. 9
Capa de Metadata
Modern BI & Analytics
▪ En esta capa de metadata almacena información
sobre los procesos ejecutados al llevar datos de una
capa a otra.
▪ Se pueden realizar consultas a esta capa para
verificar si los procesos de Extracción , Carga y
Transformación finalizaron correctamente.
Metadata
10. 10
ES HORA DE LLEVAR
EL DATA WAREHOUSE A LA NUBE
VAMOS , SI SE PUEDE !!!!
11. Data Warehouse en la Nube
11
Acceso a Datos Visualización de
Datos
On-premises Data
Sources
CSV / TXT
Azure
Analysis Services
Metadata
Integración Almacenamiento
Azure SQL Data
Warehouse
Azure Data
Lake Store
Power BI
Excel
Azure SQL Data
Base
Azure
Storage
Blob
12. 12
On-premises Data
Modern BI & Analytics
▪ Se recomienda que los archivos de orígenes sean
archivos planos como .csv o .txt.
On-premises Data
Sources
13. 13
Acceso a Datos
Integración
Modern BI & Analytics
▪ Azure Data Lake Store:
▪ Almacenamiento optimizado para grandes
cargas de trabajo de análisis de datos
▪ Azure Storage Blob:
▪ Almacén de objetos de propósito general
para una amplia variedad de escenarios de
almacenamiento.
▪ Las tecnologías podría utilizarse como capas de
stage.
Integración
Azure Data
Lake Store
Azure
Storage
Blob
14. 14
Acceso a Datos
Almacenamiento
Modern BI & Analytics
▪ Azure Data Warehouse:
▪ Solución especializada para grandes
volúmenes de datos.
▪ Procesamiento MPP (Massively Parallel
Processing).
▪ Mejor tiempo de respuesta en el
procesamiento de datos.
▪ Puede encenderse o apagar el servicio para
reducción de costos.
Almacenamiento
Azure SQL Data
Warehouse
15. 15
Acceso a Datos
Almacenamiento
Modern BI & Analytics
▪ Azure Analysis Services:
▪ Solución que tiene como base un motor
analítico de eficacia probada de Microsoft
SQL Server Analysis Services.
▪ Permite crear un modelo semántico con un
lenguaje más cercano al usuario final.
▪ Servicio especializado en la creación KPIs.
Acceso a Datos
Azure
Analysis Services
16. 16
Acceso a Datos
Almacenamiento
Modern BI & Analytics
▪ Azure SQL Database:
▪ Base de Datos transaccional de Microsoft.
▪ Permite almacenar información de los distintos
procesos que con ejecutados durante el proceso
de ELT en la solución de Data Warehouse.
Metadata
Azure SQL Data
Base
17. Integración de Data en la Nube
17
Acceso a Datos Visualización de
Datos
On-premises Data
Sources
CSV / TXT
Azure
Analysis Services
Metadata
Integración Almacenamiento
Azure SQL Data
Warehouse
Azure Data
Lake Store
Power BI
Excel
Azure SQL Data
Base
PolybaseAzure Data
Factory
Azure
Storage
Blob
Azure Data
Factory
Azure Data
Factory
18. Azure Data Factory
18
SERVICIO
AZURE
Servicio de movimiento
de datos globalmente
implementado en la nube.
Permite conectarse a orígenes
en nube y locales
ANALIZAR &
TRANSFORMAR
Programe y administre el
proceso de transformación
y análisis de datos
PUBLICAR &
CONSUMIR
Utilice canalizaciones de datos
para transformar datos
sin procesar en datos finalizados o
formados preparados para
que las aplicaciones o herramientas
de BI los consuman.
19. Relación entre Entidades de Azure Data
Factory
19
PIPELINE
Una canalización es
un grupo de actividades
ACTIVITY
Definen las acciones
que se van a realizar en los datos
DATA SET
Cada actividad toma
cero o más conjuntos
de datos como entrada y
genera uno o varios conjuntos
de datos como salida
LINKED
SERVICE
Son muy similares a las cadenas de
conexión que definen
la información de conexión
20. Linked Service
Categoría Almacén de datos Se admite como origen Se admite como receptor
Las tablas de Azure Almacenamiento de blobs de Azure ✓ ✓
Azure Cosmos DB (API de DocumentDB) ✓ ✓
Almacén de Azure Data Lake ✓ ✓
Azure SQL Database ✓ ✓
Azure SQL Data Warehouse ✓ ✓
Índice de Azure Search ✓
Azure Table Storage ✓ ✓
Bases de datos Amazon Redshift ✓
DB2* ✓
MySQL* ✓
Oracle* ✓ ✓
PostgreSQL* ✓
SAP Business Warehouse* ✓
SAP HANA* ✓
SQL Server* ✓ ✓
Sybase* ✓
20
21. Activity
Actividad de transformación de datos Entorno de procesos
Hive HDInsight [Hadoop]
Pig HDInsight [Hadoop]
MapReduce HDInsight [Hadoop]
Hadoop Streaming HDInsight [Hadoop]
Spark HDInsight [Hadoop]
Actividades de Machine Learning: ejecución de Batch y recurso de
actualización
MV de Azure
Procedimiento almacenado SQL Azure, Almacenamiento de datos SQL de Azure o SQL Server
U-SQL de análisis con Data Lake Análisis con Azure Data Lake
DotNet HDInsight [Hadoop] o Lote de Azure
21