Este documento presenta una introducción a Azure Data Warehouse. Explica la arquitectura tradicional de un data warehouse y cómo Azure Data Warehouse ofrece una solución en la nube. Detalla los componentes de la arquitectura de Azure Data Warehouse como las unidades de almacenamiento, modos de despliegue, distribución de tablas e índices. También cubre temas como la migración de datos y consideraciones al usar Azure Data Warehouse.
3. #SQLSatLima
Sponsor sessions at 16:50
Don’t miss them, they might be getting distributing
some awesome prizes!
KEMP
ER CLOUD 4U
Also Games XBOX One & Raffle prizes at 17:30
5. #SQLSatLima
PUNTOS DE CONTACTO
Correo: raul.sarachaga@kaitsconsulting.com
LinkedIn: Raúl Saráchaga
Blog: www.aprendebi.wordpress.com
Twitter: @raulsarachaga
E X P E R I E N C I A
C E R T I F I C A C I O N E S
Consultor en Business Intelligence at Kaits Consulting
Database Administrator
Instructor para Cursos de Certificación Microsoft.
Instructor de Business Intelligence con SQL Server.
Raúl Saráchaga
Díaz
Lima
Lima
6. #SQLSatLima
Agenda
Data Warehouse Tradicional
Arquitectura de Cortana Intelligence
Arquitectura de Azure Data Warehouse
Data Warehouse Units
Modos de Despliegue de un Azure DW
Distribuciones de Tablas en Azure DW
Indices en Azure DW
Migración de Datos en Azure DW
7. #SQLSatLima
DE SER ESCLAVOS DE LOS DATOS …A DISFRUTAR DE LOS DATOS
IRONÍAS DE LA VIDA
¿HACEMOS LO QUE DEBERÍAMOS ESTAR HACIENDO?
9. #SQLSatLima
Arquitectura Tradicional de un DW
Acceso a Datos Visualización de
Datos
On-premises Data
Sources
SQL Database
XLS / XLSX / CSV /
TXT / PBIX / +
Modelo
Semántico
Integración Almacenamiento
Data
Warehouse
Staging
Metadata
10. #SQLSatLima
Capa de Integración
Modern BI & Analytics
Integración
Staging
Esta capa de integración servirá de almacén de
los orígenes de datos.
Almacenará por un determinado periodo de
tiempo los datos de las diferentes cargas.
Me permitirá realizar transformación antes de ser
cargados al Data Warehouse.
11. #SQLSatLima
Capa de Almacenamiento
Modern BI & Analytics
Integración
Staging
Esta capa de almacenamiento contendrá algunos
datos de la capa de integración.
La data es transformada antes de llegar a esta
capa.
Se almacenan de forma normalizada.
Los datos de los distintos orígenes de datos se
encuentran centralizados.
Almacenamient
o
Data
Warehouse
12. #SQLSatLima
Capa de Acceso a Datos
Modern BI & Analytics
En esta capa de acceso a datos se encontrarán
los repositorios desde donde los usuarios finales
se conectarán para poder analizar los datos.
Esta data se encuentra des normalizada para
lograr un mejor rendimiento en tiempo de
respuesta.
Se encuentra con un lenguaje natural para el
usuario final.
Acceso a Datos
Modelo
Semántico
13. #SQLSatLima
Capa de Metadata
Modern BI & Analytics
En esta capa de metadata almacena información
sobre los procesos ejecutados al llevar datos de una
capa a otra.
Se pueden realizar consultas a esta capa para
verificar si los procesos de Extracción , Carga y
Transformación finalizaron correctamente.
Metadata
16. #SQLSatLima
Arquitectura de un DW en la Nube
16
Acceso a Datos Visualización de
Datos
On-premises Data
Sources
CSV / TXT
Azure
Analysis Services
Metadata
Integración Almacenamiento
Azure SQL Data
Warehouse
Azure Data
Lake Store
Power BI
Excel
Azure SQL Data
Base
PolybaseAzure Data
Factory
Azure
Storage
Blob
Azure Data
Factory
Azure Data
Factory
17. #SQLSatLima
On-premises Data
Modern BI & Analytics
Se recomienda que los archivos de orígenes sean
archivos planos como .csv o .txt.
On-premises
Data Sources
18. #SQLSatLima
Acceso a Datos
Integración
Modern BI & Analytics
Azure Data Lake Store:
Almacenamiento optimizado para grandes
cargas de trabajo de análisis de datos
Azure Storage Blob:
Almacén de objetos de propósito general
para una amplia variedad de escenarios de
almacenamiento.
Las tecnologías podría utilizarse como capas de
stage.
Integración
Azure Data
Lake Store
Azure
Storage
Blob
19. #SQLSatLima
Acceso a Datos
Almacenamiento
Modern BI & Analytics
Azure Data Warehouse:
Solución especializada para grandes
volúmenes de datos.
Procesamiento MPP (Massively Parallel
Processing).
Mejor tiempo de respuesta en el
procesamiento de datos.
Puede encenderse o apagar el servicio para
reducción de costos.
Almacenamient
o
Azure SQL Data
Warehouse
20. #SQLSatLima
Almacenamiento
Modern BI & Analytics
Azure Analysis Services:
Solución que tiene como base un motor
analítico de eficacia probada de Microsoft
SQL Server Analysis Services.
Permite crear un modelo semántico con un
lenguaje más cercano al usuario final.
Servicio especializado en la creación KPIs.
Acceso a Datos
Azure
Analysis Services
21. #SQLSatLima
Acceso a Datos
Almacenamiento
Modern BI & Analytics
Azure SQL Database:
Base de Datos transaccional de Microsoft.
Permite almacenar información de los distintos
procesos que con ejecutados durante el proceso
de ELT en la solución de Data Warehouse.
Metadata
Azure SQL Data
Base
23. #SQLSatLima
Arquitectura de Azure DW
Control
Node
Compute
Node
Compute
Node
Compute
Node
Compute
Node
SQL
DB
SQL
DB
SQL
DB
SQL
DB
Blob storage [WASB(S)]
Massively Parallel
Processing (MPP) Engine
Azure Infrastructure and
Storage
DMS
DMS DMS DMS DMS
24. #SQLSatLima
Data Warehouse Units
DWU100 DWU400 DWU1000 DWU2000
Nodos Control 1 1 1 1
Nodos Cómputo 1 4 10 20
Total # Distribuciones 60 60 60 60
Distribución/Nodo 60 15 6 3
¿Qué es un DWU?
Es una abstracción de :
CPU
Memoria
IOPS
Nota: El valor mínimo es de 100 y el
máximo de 6000
25. #SQLSatLima
DESPLEGAR UN DW SIEMPRE FUE TEDIOSO
FORMA DE DESPLEGAR UNA SOLUCIÓN DE AZURE DW
POWER SHELL
Necesitamos tener habilitados
los módulos de Azure.
PORTAL AZURE
Podemos hacer la creación por
medio del portal de Azure
TSQL
Podemos lanzarlo el query
desde
Management Studio o
Visual Studio 2013 (superior)
27. #SQLSatLima
Distribuciones de Tablas
Hash
Para el tipo de distribución hash se necesita elegir primero una columna, por la cual se le
indicará como deseamos que sea distribuida la data.
Se recomienda de este tipo de distribución para tablas del tipo Fact Tables
Round Robin
Todas la data es repartida aleatoriamente en todas las distribuciones
Recomendado para base de datos staging
*Si no se indica el tipo de distribución en una tabla, será distribuidad por Round Robin.
28. #SQLSatLima
Consecuencias de la Distribución
Escalabilidad
La Data es distribuida en todo el Servidor.
Ubicación de los Datos
Toda la data no está en el mismo lugar
No se sabe en que lugar la data está almacenada
29. #SQLSatLima
Índices en Azure DW
Clustered Column Store Index
En SQL Data Warehouse los clustered columnstore index son automaticamente creados en una
table.
Mejora el performance especialmente cuando se realizan agregaciones.
Clustered and NonClustered Index
Los índices cluster pueden superar a las tablas columnstore cuando es necesario recuperar una
sola fila.
Para las consultas en las que se requiere una sola o muy poca búsqueda de filas para obtener un
rendimiento con rapidez, considere un índice de clúster o un índice nonclustered
30. #SQLSatLima
Migración de Datos
Para migrar los datos a una Azure Data Warehouse existen varias posibilidades dentro de las
cuales tenemos:
• Polybase
• SQL Server Integration Services con el Azure Pack
• Azure Data Factory
31. #SQLSatLima
Consideraciones
• 2 billones de tablas por base de datos.
• 1024 columnas por tabla
• Un máximo de 8 060 bytes por fila.
• Columnas Identity , Primary Key, Foreign Key no son soportados
• Los collations a nivel de columna si son soportados