1. Explorando los
Sabores de Azure DW
Raúl Saráchaga Díaz
aprendebi.wordpress.com
raul.sarachaga@kaitsconsulting.com
2. Experiencia
Businees Intelligence Consultant at Kaits
Database Administrator
Certificaciones
MCSA SQL Server 2012/2014
MCSE Data Management and Analytics
MCSE Business Intelligence
3. 03 Azure Data Factory
Servicio para migración de datos
02 Polybase
Estructurar Relacional y No Relacional
01 Introducción a Azure SQL Data Warehouse
Conoce sobre los servicios que brinda esta Suite
04 SQL Server Integration Services
Servicio para migración de datos
05 DEMOS
Implementar todo lo visto
6. Nodo de Control
• Coordina la actividad utilizando MPP
• Es el encargado de recibir la petición y
responderla.
Nodos de Computo
• Realizaron todo el trabajo del procesamiento.
• Si aumento más DWU, los Nodos de Computo
también aumentarán.
Blob Storage
• Nivel de almacenamiento de los datos en
un Azure SQL Data Warehouse
Control
Node
Compute
Node
7. Arquitectura de Azure SQL DW
Control
Node
Compute
Node
Compute
Node
Compute
Node
Compute
Node
SQL
DB
SQL
DB
SQL
DB
SQL
DB
Blob storage [WASB(S)]
Massively Parallel
Processing (MPP) Engine
Azure Infrastructure and
Storage
HDInsight
DMS
DMS DMS DMS DMS
8. DWU100 DWU400 DWU1000 DWU2000
Nodos Control 1 1 1 1
Nodos Cómputo 1 4 10 20
Total # Distribuciones 60 60 60 60
Distribución/Nodo 60 15 6 3
DWU
Es una abstracción de :
• CPU
• Memoria
• IOPS
El valor mínimo es de 100 y el máximo de 6000
9. TSQL
Podemos lanzarlo el query desde Management
Studio o Visual Studio 2013 (superior)
Power Shell
Necesitas los módulos de Azure
Portal Azure
Podemos hacer la creación por medio del portal de
Azure
10.
11. Las tablas son distribuidas por:
HASH
Una columna tendrá el valor de HASH y es por este valor serán
distribuida la data.
Se recomienda el uso en Fact Tables
ROUND ROBIN
Todas la data es repartida aleatoriamente en todas las
distribuciones
Recomendado para base de datos staging
*Si no se indica el tipo de distribución en una tabla tomará el
valor de Round Robin
12. Escalabilidad
La Data es distribuida en todo el Servidor.
Ubicación de Datos
Toda la data no está en el mismo lugar
No se sabe en que lugar la data está almacenada.
13. Clustered Column Store Index
En SQL Data Warehouse los clustered columnstore index son
automaticamente creados en una table.
Mejora el performance especialmente cuando se realizan
agregaciones.
Heap Table
Candidatas a ser utilziadas como tablas temporales en SQL
Data Warehouse, logrando rapidez por el trabajo en memoria.
Clustered and NonClustered Index
Los índices cluster pueden superar a las tablas columnstore
cuando es necesario recuperar una sola fila.
Para las consultas en las que se requiere una sola o muy poca
búsqueda de filas para obtener un rendimiento con rapidez,
considere un índice de clúster o un índice nonclustered
14. Limitaciones
2 billones de tablas por base de datos.
1024 columnas por tabla
Un máximo de 8 060 bytes por fila.
Columnas Identity , Primary Key, Foreign Key no son
soportados
Los collations a nivel de columna si son soportados
15.
16. Es una Tecnología de acceso a datos no relaciones y relacionales
Introducción
PolyBase es una tecnología que
combina acceso a los datos
relacionales y no relacionales.
Permite ejecutar consultas sobre
datos externos en Hadoop o en un
almacenamiento de blobs de Azure.
Únicamente con instrucciones de
Transact-SQL (T-SQL), se pueden
importar y exportar datos
indistintamente entre tablas
relacionales y no relacionales
17.
18. Es una Tecnología de extracción, transformación y carga de datos.
Introducción
Es un servicio de movimiento de
datos globalmente implementado
en la nube, para ingerir datos de
varias fuentes locales y en la nube.
Después, conéctese a orígenes
locales con una puerta de enlace de
administración de datos y use Data
Factory para llevar los datos donde
necesitan ir. Prepare y particione sus
datos a medida que los introduce o
aplique pasos de preprocesamiento.
19.
20. Introducción
Plataforma de Microsoft para
realizar procesos de ETL (Extraction,
Transform and Load)
Desde SQL Server 6.5 a SQL Server
2000 era conocido como Data
Transformation Services
Desde SQL Server 2005 a la
actualidad es llamado SQL Server
Integration Services