Explorando los
Sabores de Azure DW
Raúl Saráchaga Díaz
aprendebi.wordpress.com
raul.sarachaga@kaitsconsulting.com
Experiencia
Businees Intelligence Consultant at Kaits
Database Administrator
Certificaciones
MCSA SQL Server 2012/2014
MCSE Data Management and Analytics
MCSE Business Intelligence
03 Azure Data Factory
Servicio para migración de datos
02 Polybase
Estructurar Relacional y No Relacional
01 Introducción a Azure SQL Data Warehouse
Conoce sobre los servicios que brinda esta Suite
04 SQL Server Integration Services
Servicio para migración de datos
05 DEMOS
Implementar todo lo visto
Saas
Azure
Public
Cloud
Office 365Office 365
AzureAzure
Nodo de Control
• Coordina la actividad utilizando MPP
• Es el encargado de recibir la petición y
responderla.
Nodos de Computo
• Realizaron todo el trabajo del procesamiento.
• Si aumento más DWU, los Nodos de Computo
también aumentarán.
Blob Storage
• Nivel de almacenamiento de los datos en
un Azure SQL Data Warehouse
Control
Node
Compute
Node
Arquitectura de Azure SQL DW
Control
Node
Compute
Node
Compute
Node
Compute
Node
Compute
Node
SQL
DB
SQL
DB
SQL
DB
SQL
DB
Blob storage [WASB(S)]
Massively Parallel
Processing (MPP) Engine
Azure Infrastructure and
Storage
HDInsight
DMS
DMS DMS DMS DMS
DWU100 DWU400 DWU1000 DWU2000
Nodos Control 1 1 1 1
Nodos Cómputo 1 4 10 20
Total # Distribuciones 60 60 60 60
Distribución/Nodo 60 15 6 3
DWU
Es una abstracción de :
• CPU
• Memoria
• IOPS
El valor mínimo es de 100 y el máximo de 6000
TSQL
Podemos lanzarlo el query desde Management
Studio o Visual Studio 2013 (superior)
Power Shell
Necesitas los módulos de Azure
Portal Azure
Podemos hacer la creación por medio del portal de
Azure
Las tablas son distribuidas por:
HASH
Una columna tendrá el valor de HASH y es por este valor serán
distribuida la data.
Se recomienda el uso en Fact Tables
ROUND ROBIN
Todas la data es repartida aleatoriamente en todas las
distribuciones
Recomendado para base de datos staging
*Si no se indica el tipo de distribución en una tabla tomará el
valor de Round Robin
Escalabilidad
La Data es distribuida en todo el Servidor.
Ubicación de Datos
Toda la data no está en el mismo lugar
No se sabe en que lugar la data está almacenada.
Clustered Column Store Index
En SQL Data Warehouse los clustered columnstore index son
automaticamente creados en una table.
Mejora el performance especialmente cuando se realizan
agregaciones.
Heap Table
Candidatas a ser utilziadas como tablas temporales en SQL
Data Warehouse, logrando rapidez por el trabajo en memoria.
Clustered and NonClustered Index
Los índices cluster pueden superar a las tablas columnstore
cuando es necesario recuperar una sola fila.
Para las consultas en las que se requiere una sola o muy poca
búsqueda de filas para obtener un rendimiento con rapidez,
considere un índice de clúster o un índice nonclustered
Limitaciones
2 billones de tablas por base de datos.
1024 columnas por tabla
Un máximo de 8 060 bytes por fila.
Columnas Identity , Primary Key, Foreign Key no son
soportados
Los collations a nivel de columna si son soportados
Es una Tecnología de acceso a datos no relaciones y relacionales
Introducción
PolyBase es una tecnología que
combina acceso a los datos
relacionales y no relacionales.
Permite ejecutar consultas sobre
datos externos en Hadoop o en un
almacenamiento de blobs de Azure.
Únicamente con instrucciones de
Transact-SQL (T-SQL), se pueden
importar y exportar datos
indistintamente entre tablas
relacionales y no relacionales
Es una Tecnología de extracción, transformación y carga de datos.
Introducción
Es un servicio de movimiento de
datos globalmente implementado
en la nube, para ingerir datos de
varias fuentes locales y en la nube.
Después, conéctese a orígenes
locales con una puerta de enlace de
administración de datos y use Data
Factory para llevar los datos donde
necesitan ir. Prepare y particione sus
datos a medida que los introduce o
aplique pasos de preprocesamiento.
Introducción
Plataforma de Microsoft para
realizar procesos de ETL (Extraction,
Transform and Load)
Desde SQL Server 6.5 a SQL Server
2000 era conocido como Data
Transformation Services
Desde SQL Server 2005 a la
actualidad es llamado SQL Server
Integration Services
24
24

Explorando los Sabores con Azure DW

  • 1.
    Explorando los Sabores deAzure DW Raúl Saráchaga Díaz aprendebi.wordpress.com raul.sarachaga@kaitsconsulting.com
  • 2.
    Experiencia Businees Intelligence Consultantat Kaits Database Administrator Certificaciones MCSA SQL Server 2012/2014 MCSE Data Management and Analytics MCSE Business Intelligence
  • 3.
    03 Azure DataFactory Servicio para migración de datos 02 Polybase Estructurar Relacional y No Relacional 01 Introducción a Azure SQL Data Warehouse Conoce sobre los servicios que brinda esta Suite 04 SQL Server Integration Services Servicio para migración de datos 05 DEMOS Implementar todo lo visto
  • 5.
  • 6.
    Nodo de Control •Coordina la actividad utilizando MPP • Es el encargado de recibir la petición y responderla. Nodos de Computo • Realizaron todo el trabajo del procesamiento. • Si aumento más DWU, los Nodos de Computo también aumentarán. Blob Storage • Nivel de almacenamiento de los datos en un Azure SQL Data Warehouse Control Node Compute Node
  • 7.
    Arquitectura de AzureSQL DW Control Node Compute Node Compute Node Compute Node Compute Node SQL DB SQL DB SQL DB SQL DB Blob storage [WASB(S)] Massively Parallel Processing (MPP) Engine Azure Infrastructure and Storage HDInsight DMS DMS DMS DMS DMS
  • 8.
    DWU100 DWU400 DWU1000DWU2000 Nodos Control 1 1 1 1 Nodos Cómputo 1 4 10 20 Total # Distribuciones 60 60 60 60 Distribución/Nodo 60 15 6 3 DWU Es una abstracción de : • CPU • Memoria • IOPS El valor mínimo es de 100 y el máximo de 6000
  • 9.
    TSQL Podemos lanzarlo elquery desde Management Studio o Visual Studio 2013 (superior) Power Shell Necesitas los módulos de Azure Portal Azure Podemos hacer la creación por medio del portal de Azure
  • 11.
    Las tablas sondistribuidas por: HASH Una columna tendrá el valor de HASH y es por este valor serán distribuida la data. Se recomienda el uso en Fact Tables ROUND ROBIN Todas la data es repartida aleatoriamente en todas las distribuciones Recomendado para base de datos staging *Si no se indica el tipo de distribución en una tabla tomará el valor de Round Robin
  • 12.
    Escalabilidad La Data esdistribuida en todo el Servidor. Ubicación de Datos Toda la data no está en el mismo lugar No se sabe en que lugar la data está almacenada.
  • 13.
    Clustered Column StoreIndex En SQL Data Warehouse los clustered columnstore index son automaticamente creados en una table. Mejora el performance especialmente cuando se realizan agregaciones. Heap Table Candidatas a ser utilziadas como tablas temporales en SQL Data Warehouse, logrando rapidez por el trabajo en memoria. Clustered and NonClustered Index Los índices cluster pueden superar a las tablas columnstore cuando es necesario recuperar una sola fila. Para las consultas en las que se requiere una sola o muy poca búsqueda de filas para obtener un rendimiento con rapidez, considere un índice de clúster o un índice nonclustered
  • 14.
    Limitaciones 2 billones detablas por base de datos. 1024 columnas por tabla Un máximo de 8 060 bytes por fila. Columnas Identity , Primary Key, Foreign Key no son soportados Los collations a nivel de columna si son soportados
  • 16.
    Es una Tecnologíade acceso a datos no relaciones y relacionales Introducción PolyBase es una tecnología que combina acceso a los datos relacionales y no relacionales. Permite ejecutar consultas sobre datos externos en Hadoop o en un almacenamiento de blobs de Azure. Únicamente con instrucciones de Transact-SQL (T-SQL), se pueden importar y exportar datos indistintamente entre tablas relacionales y no relacionales
  • 18.
    Es una Tecnologíade extracción, transformación y carga de datos. Introducción Es un servicio de movimiento de datos globalmente implementado en la nube, para ingerir datos de varias fuentes locales y en la nube. Después, conéctese a orígenes locales con una puerta de enlace de administración de datos y use Data Factory para llevar los datos donde necesitan ir. Prepare y particione sus datos a medida que los introduce o aplique pasos de preprocesamiento.
  • 20.
    Introducción Plataforma de Microsoftpara realizar procesos de ETL (Extraction, Transform and Load) Desde SQL Server 6.5 a SQL Server 2000 era conocido como Data Transformation Services Desde SQL Server 2005 a la actualidad es llamado SQL Server Integration Services
  • 24.