¿Listos? ... Data Warehousing en la Nube
Raúl Saráchaga, Business Intelligence Consultant at Kaits Consulting
Raúl Saráchaga
Biografía
Consultor en Business Intelligence y Analytics en Kaits Consulting
Database Administrator
Instructor para Cursos de Certificación Microsoft.
Speaker en eventos organizados por PASS, Power BI User Group Lima, Perú BI
& Analytics Group
https://www.facebook.com/
aprendebi/
@raulsarachaga
aprendebi.wordpress.com
Certificaciones
Agenda
03 AZURE DATA WAREHOUSE
Guía donde aprenderá las principales características de este servicio PaaS
02 DATA WAREHOUSE EN LA NUBE
Explorar como se llevarían arquitecturas en la nube con servicios PaaS
01 DATA WAREHOUSE TRADICIONAL
Un breve repaso de como se implementan soluciones de BI
04 CONSIDERACIONES
Algunas cosas que tenemos que tener en cuenta si queremos utilizar este servicio
05 TÚ PREGUNTAS..YO RESPONDO
Tú preguntas… Yo respondo
Visualización de
Datos
Acceso a DatosOn-premises Data
Sources
SQL Database
XLS / XLSX / CSV /
TXT / PBIX / +
Modelo
Semántico
Integración Almacenamiento
Data
Warehouse
Staging
Metadata
Arquitectura Tradicional de un DW
Acceso a Datos Visualización de
Datos
On-premises Data
Sources
CSV / TXT
Azure
Analysis Services
Metadata
Integración Almacenamiento
Azure SQL Data
Warehouse
Azure Data
Lake Store
Power BI
Excel
Azure SQL Data
Base
PolybaseAzure Data
Factory
Azure
Storage
Blob
Azure Data
Factory
Azure Data
Factory
Arquitectura de un DW en la Nube
On-premises Data
Modern BI & Analytics
 Se recomienda que los archivos de orígenes sean
archivos planos como .csv o .txt.
On-premises
Data Sources
Integración
Modern BI & Analytics
 Azure Data Lake Store:
 Almacenamiento optimizado para grandes
cargas de trabajo de análisis de datos
 Azure Storage Blob:
 Almacén de objetos de propósito general
para una amplia variedad de escenarios de
almacenamiento.
 Las tecnologías podría utilizarse como capas de
stage.
Integración
Azure Data
Lake Store
Azure
Storage
Blob
Almacenamiento
Modern BI & Analytics
 Azure Data Warehouse:
 Solución especializada para grandes
volúmenes de datos.
 Procesamiento MPP (Massively Parallel
Processing).
 Mejor tiempo de respuesta en el
procesamiento de datos.
 Puede encenderse o apagar el servicio para
reducción de costos.
Almacenamient
o
Azure SQL Data
Warehouse
Almacenamiento
Modern BI & Analytics
 Azure Analysis Services:
 Solución que tiene como base un motor
analítico de eficacia probada de Microsoft
SQL Server Analysis Services.
 Permite crear un modelo semántico con un
lenguaje más cercano al usuario final.
 Servicio especializado en la creación KPIs.
Acceso a Datos
Azure
Analysis Services
Acceso a Datos
Almacenamiento
Modern BI & Analytics
 Azure SQL Database:
 Base de Datos transaccional de Microsoft.
 Permite almacenar información de los distintos
procesos que con ejecutados durante el proceso
de ELT en la solución de Data Warehouse.
Metadata
Azure SQL Data
Base
MUÉSTRAME LA FUERZA DE AZURE DW
¿QUÉ TIPO DE SOLUCIÓN EN LA NUBE PODEMOS CREAR?
Saas
Azure
Public
Cloud
Office 365Office 365
AzureAzure
MEJORAR EL RENDIMIENTO EN SOLUCIONES DE BI
3 PUNTOS CLAVE SOBRE AZURE DW
Control
Node
Compute
Node
Compute
Node
Compute
Node
Compute
Node
SQL
DB
SQL
DB
SQL
DB
SQL
DB
Blob storage [WASB(S)]
Massively Parallel
Processing (MPP) Engine
Azure Infrastructure and
Storage
DMS
DMS DMS DMS DMS
Arquitectura MPP
Almacenamiento Azure
SQL Data Warehouse utiliza el almacenamiento de Azure para mantener sus datos de una
forma segura.
Los datos en sí están fragmentados en distribuciones para optimizar el rendimiento del
sistema.
SQL Data Warehouse admite las distribuciones:
• HASH
• ROUND ROBIN
• REPLICATE
Nodos
El nodo de control es el cerebro del Azure DW.
Es la interfaz que interactúa con todas las
aplicaciones y conexiones.
El motor MPP se ejecuta en el nodo Control para
optimizar y coordinar consultas paralelas.
Cuando se envía una consulta a SQL Data
Warehouse, el nodo Control la transforma en
consultas que se ejecutarán en paralelo.
Los nodos de computo proporcionan la potencia
computacional.
La cantidad de nodos de cómputo oscila entre 1 y
60, y está determinada por el nivel de
servicio(DWU).
Compute NodeControl Node
Distribuciones de Tablas
Para el tipo de distribución hash se necesita
elegir primero una columna, por la cual se le
indicará como deseamos que sea distribuida la
data.
Se recomienda de este tipo de distribución para
tablas del tipo Fact Tables
Todas la data es repartida aleatoriamente en
todas las distribuciones
Recomendado para base de datos staging
*Si no se indica el tipo de distribución en una
tabla, será distribuida por Round Robin.
Round RobinHash
Distribuciones de Tablas
Una tabla replicada tiene una copia completa de
la tabla accesible en cada nodo de computo.
La replicación de una tabla elimina la necesidad
de transferir datos entre los nodos computo
antes de una unión o agregación. Como la tabla
tiene varias copias, las tablas replicadas
funcionan mejor cuando el tamaño de la tabla es
inferior a 2 GB comprimidos.
Replicate
Nivel de Rendimiento
Separa las capas de cálculo y almacenamiento en
la arquitectura.
Esta opción se destaca en las cargas de trabajo
que pueden aprovechar al máximo la separación
entre cálculo y almacenamiento
Utiliza discos de estado sólido que mantiene los
datos accedidos con más frecuencia cerca de las
CPU, que es exactamente donde lo quiere
Optimized for ComputeOptimized for Elasticity
DWU100 DWU400 DWU1000 DWU2000
Nodos Control 1 1 1 1
Nodos Cómputo 1 4 10 20
Total # Distribuciones 60 60 60 60
Distribución/Nodo 60 15 6 3
Data Warehouse Units
¿Qué es un DWU?
Es una abstracción de :
 CPU
 Memoria
 IOPS
Nota: El valor mínimo es de 100 y el máximo de 6000
Desplegar un Azure DW
Portal Azure
Podemos hacer la creación por medio del portal de Azure
Power Shell
Necesitamos tener habilitados los módulos de Azure.
TSQL
Podemos lanzarlo el query desde Management Studio o Visual Studio 2013 (superior)
Índices en Azure DW
En SQL Data Warehouse los clustered
columnstore index son automaticamente creados
en una tabla.
Mejora el performance especialmente cuando se
realizan agregaciones.
Los índices cluster pueden superar a las tablas
columnstore cuando es necesario recuperar una
sola fila.
Para las consultas en las que se requiere una sola
o muy poca búsqueda de filas para obtener un
rendimiento con rapidez, considere un índice de
clúster o un índice nonclustered
Clustered and NonClustered IndexClustered Column Store Index
Es una característica ya
habilitada en Azure DW.
Tambien es soportado desde
SQL 2016.
Nos permite consumer datos
desde un repositorio de Big
Data ( Data Lake, Blob
Storage)
Es un Servicio de Azure, el
cual me permite mover
data de un repositorio a
otro. Me permite realizar
limpieza y
transformaciones
apoyandose en otras
tecnologías como USQL.
Es la herramienta ETL de
Microsoft. Tiene tasks
especiales para Azure DW,
pero se necesita tener
instalado el Azure Pack para
la version de Data Tools.
Actualmente estos tasks son
sorportados a partir de SQL
Data Tools 2010.
Migración de Datos
Polybase Azure Data Factory SSIS
Consideraciones
2 billones de tablas por base de
datos.
1024 columnas por tabla Un máximo de 8 060 bytes por
fila.
Columnas Primary Key, Foreign
Key no son soportados
Los collations a nivel de columna
si son soportados
Se recomienda utilizar la última
version de Management
Studio(17.x)
DEMO
Referencias
https://docs.microsoft.com/en-us/azure/sql-data-warehouse/
https://www.edx.org/es/course/delivering-data-warehouse-cloud-microsoft-dat220x-2
https://www.pluralsight.com/courses/azure-sql-data-warehouse-first-look
https://aprendebi.wordpress.com/category/azure-sql-data-warehouse/
¿DUDAS O
PREGUNTAS?
GRACIAS POR
PARTICIPAR

Azure SQL Data Warehouse - 24 horas de PASS

  • 1.
    ¿Listos? ... DataWarehousing en la Nube Raúl Saráchaga, Business Intelligence Consultant at Kaits Consulting
  • 2.
    Raúl Saráchaga Biografía Consultor enBusiness Intelligence y Analytics en Kaits Consulting Database Administrator Instructor para Cursos de Certificación Microsoft. Speaker en eventos organizados por PASS, Power BI User Group Lima, Perú BI & Analytics Group https://www.facebook.com/ aprendebi/ @raulsarachaga aprendebi.wordpress.com Certificaciones
  • 3.
    Agenda 03 AZURE DATAWAREHOUSE Guía donde aprenderá las principales características de este servicio PaaS 02 DATA WAREHOUSE EN LA NUBE Explorar como se llevarían arquitecturas en la nube con servicios PaaS 01 DATA WAREHOUSE TRADICIONAL Un breve repaso de como se implementan soluciones de BI 04 CONSIDERACIONES Algunas cosas que tenemos que tener en cuenta si queremos utilizar este servicio 05 TÚ PREGUNTAS..YO RESPONDO Tú preguntas… Yo respondo
  • 4.
    Visualización de Datos Acceso aDatosOn-premises Data Sources SQL Database XLS / XLSX / CSV / TXT / PBIX / + Modelo Semántico Integración Almacenamiento Data Warehouse Staging Metadata Arquitectura Tradicional de un DW
  • 5.
    Acceso a DatosVisualización de Datos On-premises Data Sources CSV / TXT Azure Analysis Services Metadata Integración Almacenamiento Azure SQL Data Warehouse Azure Data Lake Store Power BI Excel Azure SQL Data Base PolybaseAzure Data Factory Azure Storage Blob Azure Data Factory Azure Data Factory Arquitectura de un DW en la Nube
  • 6.
    On-premises Data Modern BI& Analytics  Se recomienda que los archivos de orígenes sean archivos planos como .csv o .txt. On-premises Data Sources
  • 7.
    Integración Modern BI &Analytics  Azure Data Lake Store:  Almacenamiento optimizado para grandes cargas de trabajo de análisis de datos  Azure Storage Blob:  Almacén de objetos de propósito general para una amplia variedad de escenarios de almacenamiento.  Las tecnologías podría utilizarse como capas de stage. Integración Azure Data Lake Store Azure Storage Blob
  • 8.
    Almacenamiento Modern BI &Analytics  Azure Data Warehouse:  Solución especializada para grandes volúmenes de datos.  Procesamiento MPP (Massively Parallel Processing).  Mejor tiempo de respuesta en el procesamiento de datos.  Puede encenderse o apagar el servicio para reducción de costos. Almacenamient o Azure SQL Data Warehouse
  • 9.
    Almacenamiento Modern BI &Analytics  Azure Analysis Services:  Solución que tiene como base un motor analítico de eficacia probada de Microsoft SQL Server Analysis Services.  Permite crear un modelo semántico con un lenguaje más cercano al usuario final.  Servicio especializado en la creación KPIs. Acceso a Datos Azure Analysis Services
  • 10.
    Acceso a Datos Almacenamiento ModernBI & Analytics  Azure SQL Database:  Base de Datos transaccional de Microsoft.  Permite almacenar información de los distintos procesos que con ejecutados durante el proceso de ELT en la solución de Data Warehouse. Metadata Azure SQL Data Base
  • 11.
    MUÉSTRAME LA FUERZADE AZURE DW ¿QUÉ TIPO DE SOLUCIÓN EN LA NUBE PODEMOS CREAR?
  • 12.
    Saas Azure Public Cloud Office 365Office 365 AzureAzure MEJORAREL RENDIMIENTO EN SOLUCIONES DE BI 3 PUNTOS CLAVE SOBRE AZURE DW
  • 13.
    Control Node Compute Node Compute Node Compute Node Compute Node SQL DB SQL DB SQL DB SQL DB Blob storage [WASB(S)] MassivelyParallel Processing (MPP) Engine Azure Infrastructure and Storage DMS DMS DMS DMS DMS Arquitectura MPP
  • 14.
    Almacenamiento Azure SQL DataWarehouse utiliza el almacenamiento de Azure para mantener sus datos de una forma segura. Los datos en sí están fragmentados en distribuciones para optimizar el rendimiento del sistema. SQL Data Warehouse admite las distribuciones: • HASH • ROUND ROBIN • REPLICATE
  • 15.
    Nodos El nodo decontrol es el cerebro del Azure DW. Es la interfaz que interactúa con todas las aplicaciones y conexiones. El motor MPP se ejecuta en el nodo Control para optimizar y coordinar consultas paralelas. Cuando se envía una consulta a SQL Data Warehouse, el nodo Control la transforma en consultas que se ejecutarán en paralelo. Los nodos de computo proporcionan la potencia computacional. La cantidad de nodos de cómputo oscila entre 1 y 60, y está determinada por el nivel de servicio(DWU). Compute NodeControl Node
  • 16.
    Distribuciones de Tablas Parael tipo de distribución hash se necesita elegir primero una columna, por la cual se le indicará como deseamos que sea distribuida la data. Se recomienda de este tipo de distribución para tablas del tipo Fact Tables Todas la data es repartida aleatoriamente en todas las distribuciones Recomendado para base de datos staging *Si no se indica el tipo de distribución en una tabla, será distribuida por Round Robin. Round RobinHash
  • 17.
    Distribuciones de Tablas Unatabla replicada tiene una copia completa de la tabla accesible en cada nodo de computo. La replicación de una tabla elimina la necesidad de transferir datos entre los nodos computo antes de una unión o agregación. Como la tabla tiene varias copias, las tablas replicadas funcionan mejor cuando el tamaño de la tabla es inferior a 2 GB comprimidos. Replicate
  • 18.
    Nivel de Rendimiento Separalas capas de cálculo y almacenamiento en la arquitectura. Esta opción se destaca en las cargas de trabajo que pueden aprovechar al máximo la separación entre cálculo y almacenamiento Utiliza discos de estado sólido que mantiene los datos accedidos con más frecuencia cerca de las CPU, que es exactamente donde lo quiere Optimized for ComputeOptimized for Elasticity
  • 19.
    DWU100 DWU400 DWU1000DWU2000 Nodos Control 1 1 1 1 Nodos Cómputo 1 4 10 20 Total # Distribuciones 60 60 60 60 Distribución/Nodo 60 15 6 3 Data Warehouse Units ¿Qué es un DWU? Es una abstracción de :  CPU  Memoria  IOPS Nota: El valor mínimo es de 100 y el máximo de 6000
  • 20.
    Desplegar un AzureDW Portal Azure Podemos hacer la creación por medio del portal de Azure Power Shell Necesitamos tener habilitados los módulos de Azure. TSQL Podemos lanzarlo el query desde Management Studio o Visual Studio 2013 (superior)
  • 21.
    Índices en AzureDW En SQL Data Warehouse los clustered columnstore index son automaticamente creados en una tabla. Mejora el performance especialmente cuando se realizan agregaciones. Los índices cluster pueden superar a las tablas columnstore cuando es necesario recuperar una sola fila. Para las consultas en las que se requiere una sola o muy poca búsqueda de filas para obtener un rendimiento con rapidez, considere un índice de clúster o un índice nonclustered Clustered and NonClustered IndexClustered Column Store Index
  • 22.
    Es una característicaya habilitada en Azure DW. Tambien es soportado desde SQL 2016. Nos permite consumer datos desde un repositorio de Big Data ( Data Lake, Blob Storage) Es un Servicio de Azure, el cual me permite mover data de un repositorio a otro. Me permite realizar limpieza y transformaciones apoyandose en otras tecnologías como USQL. Es la herramienta ETL de Microsoft. Tiene tasks especiales para Azure DW, pero se necesita tener instalado el Azure Pack para la version de Data Tools. Actualmente estos tasks son sorportados a partir de SQL Data Tools 2010. Migración de Datos Polybase Azure Data Factory SSIS
  • 23.
    Consideraciones 2 billones detablas por base de datos. 1024 columnas por tabla Un máximo de 8 060 bytes por fila. Columnas Primary Key, Foreign Key no son soportados Los collations a nivel de columna si son soportados Se recomienda utilizar la última version de Management Studio(17.x)
  • 24.
  • 25.
  • 26.
  • 27.

Notas del editor

  • #16 https://docs.microsoft.com/en-us/azure/sql-data-warehouse/massively-parallel-processing-mpp-architecture
  • #17 https://docs.microsoft.com/en-us/azure/sql-data-warehouse/massively-parallel-processing-mpp-architecture
  • #18 https://docs.microsoft.com/en-us/azure/sql-data-warehouse/massively-parallel-processing-mpp-architecture
  • #19 https://docs.microsoft.com/en-us/azure/sql-data-warehouse/performance-tiers