Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Azure SQL Data Warehouse - 24 horas de PASS
1. ¿Listos? ... Data Warehousing en la Nube
Raúl Saráchaga, Business Intelligence Consultant at Kaits Consulting
2. Raúl Saráchaga
Biografía
Consultor en Business Intelligence y Analytics en Kaits Consulting
Database Administrator
Instructor para Cursos de Certificación Microsoft.
Speaker en eventos organizados por PASS, Power BI User Group Lima, Perú BI
& Analytics Group
https://www.facebook.com/
aprendebi/
@raulsarachaga
aprendebi.wordpress.com
Certificaciones
3. Agenda
03 AZURE DATA WAREHOUSE
Guía donde aprenderá las principales características de este servicio PaaS
02 DATA WAREHOUSE EN LA NUBE
Explorar como se llevarían arquitecturas en la nube con servicios PaaS
01 DATA WAREHOUSE TRADICIONAL
Un breve repaso de como se implementan soluciones de BI
04 CONSIDERACIONES
Algunas cosas que tenemos que tener en cuenta si queremos utilizar este servicio
05 TÚ PREGUNTAS..YO RESPONDO
Tú preguntas… Yo respondo
4. Visualización de
Datos
Acceso a DatosOn-premises Data
Sources
SQL Database
XLS / XLSX / CSV /
TXT / PBIX / +
Modelo
Semántico
Integración Almacenamiento
Data
Warehouse
Staging
Metadata
Arquitectura Tradicional de un DW
5. Acceso a Datos Visualización de
Datos
On-premises Data
Sources
CSV / TXT
Azure
Analysis Services
Metadata
Integración Almacenamiento
Azure SQL Data
Warehouse
Azure Data
Lake Store
Power BI
Excel
Azure SQL Data
Base
PolybaseAzure Data
Factory
Azure
Storage
Blob
Azure Data
Factory
Azure Data
Factory
Arquitectura de un DW en la Nube
6. On-premises Data
Modern BI & Analytics
Se recomienda que los archivos de orígenes sean
archivos planos como .csv o .txt.
On-premises
Data Sources
7. Integración
Modern BI & Analytics
Azure Data Lake Store:
Almacenamiento optimizado para grandes
cargas de trabajo de análisis de datos
Azure Storage Blob:
Almacén de objetos de propósito general
para una amplia variedad de escenarios de
almacenamiento.
Las tecnologías podría utilizarse como capas de
stage.
Integración
Azure Data
Lake Store
Azure
Storage
Blob
8. Almacenamiento
Modern BI & Analytics
Azure Data Warehouse:
Solución especializada para grandes
volúmenes de datos.
Procesamiento MPP (Massively Parallel
Processing).
Mejor tiempo de respuesta en el
procesamiento de datos.
Puede encenderse o apagar el servicio para
reducción de costos.
Almacenamient
o
Azure SQL Data
Warehouse
9. Almacenamiento
Modern BI & Analytics
Azure Analysis Services:
Solución que tiene como base un motor
analítico de eficacia probada de Microsoft
SQL Server Analysis Services.
Permite crear un modelo semántico con un
lenguaje más cercano al usuario final.
Servicio especializado en la creación KPIs.
Acceso a Datos
Azure
Analysis Services
10. Acceso a Datos
Almacenamiento
Modern BI & Analytics
Azure SQL Database:
Base de Datos transaccional de Microsoft.
Permite almacenar información de los distintos
procesos que con ejecutados durante el proceso
de ELT en la solución de Data Warehouse.
Metadata
Azure SQL Data
Base
11. MUÉSTRAME LA FUERZA DE AZURE DW
¿QUÉ TIPO DE SOLUCIÓN EN LA NUBE PODEMOS CREAR?
14. Almacenamiento Azure
SQL Data Warehouse utiliza el almacenamiento de Azure para mantener sus datos de una
forma segura.
Los datos en sí están fragmentados en distribuciones para optimizar el rendimiento del
sistema.
SQL Data Warehouse admite las distribuciones:
• HASH
• ROUND ROBIN
• REPLICATE
15. Nodos
El nodo de control es el cerebro del Azure DW.
Es la interfaz que interactúa con todas las
aplicaciones y conexiones.
El motor MPP se ejecuta en el nodo Control para
optimizar y coordinar consultas paralelas.
Cuando se envía una consulta a SQL Data
Warehouse, el nodo Control la transforma en
consultas que se ejecutarán en paralelo.
Los nodos de computo proporcionan la potencia
computacional.
La cantidad de nodos de cómputo oscila entre 1 y
60, y está determinada por el nivel de
servicio(DWU).
Compute NodeControl Node
16. Distribuciones de Tablas
Para el tipo de distribución hash se necesita
elegir primero una columna, por la cual se le
indicará como deseamos que sea distribuida la
data.
Se recomienda de este tipo de distribución para
tablas del tipo Fact Tables
Todas la data es repartida aleatoriamente en
todas las distribuciones
Recomendado para base de datos staging
*Si no se indica el tipo de distribución en una
tabla, será distribuida por Round Robin.
Round RobinHash
17. Distribuciones de Tablas
Una tabla replicada tiene una copia completa de
la tabla accesible en cada nodo de computo.
La replicación de una tabla elimina la necesidad
de transferir datos entre los nodos computo
antes de una unión o agregación. Como la tabla
tiene varias copias, las tablas replicadas
funcionan mejor cuando el tamaño de la tabla es
inferior a 2 GB comprimidos.
Replicate
18. Nivel de Rendimiento
Separa las capas de cálculo y almacenamiento en
la arquitectura.
Esta opción se destaca en las cargas de trabajo
que pueden aprovechar al máximo la separación
entre cálculo y almacenamiento
Utiliza discos de estado sólido que mantiene los
datos accedidos con más frecuencia cerca de las
CPU, que es exactamente donde lo quiere
Optimized for ComputeOptimized for Elasticity
19. DWU100 DWU400 DWU1000 DWU2000
Nodos Control 1 1 1 1
Nodos Cómputo 1 4 10 20
Total # Distribuciones 60 60 60 60
Distribución/Nodo 60 15 6 3
Data Warehouse Units
¿Qué es un DWU?
Es una abstracción de :
CPU
Memoria
IOPS
Nota: El valor mínimo es de 100 y el máximo de 6000
20. Desplegar un Azure DW
Portal Azure
Podemos hacer la creación por medio del portal de Azure
Power Shell
Necesitamos tener habilitados los módulos de Azure.
TSQL
Podemos lanzarlo el query desde Management Studio o Visual Studio 2013 (superior)
21. Índices en Azure DW
En SQL Data Warehouse los clustered
columnstore index son automaticamente creados
en una tabla.
Mejora el performance especialmente cuando se
realizan agregaciones.
Los índices cluster pueden superar a las tablas
columnstore cuando es necesario recuperar una
sola fila.
Para las consultas en las que se requiere una sola
o muy poca búsqueda de filas para obtener un
rendimiento con rapidez, considere un índice de
clúster o un índice nonclustered
Clustered and NonClustered IndexClustered Column Store Index
22. Es una característica ya
habilitada en Azure DW.
Tambien es soportado desde
SQL 2016.
Nos permite consumer datos
desde un repositorio de Big
Data ( Data Lake, Blob
Storage)
Es un Servicio de Azure, el
cual me permite mover
data de un repositorio a
otro. Me permite realizar
limpieza y
transformaciones
apoyandose en otras
tecnologías como USQL.
Es la herramienta ETL de
Microsoft. Tiene tasks
especiales para Azure DW,
pero se necesita tener
instalado el Azure Pack para
la version de Data Tools.
Actualmente estos tasks son
sorportados a partir de SQL
Data Tools 2010.
Migración de Datos
Polybase Azure Data Factory SSIS
23. Consideraciones
2 billones de tablas por base de
datos.
1024 columnas por tabla Un máximo de 8 060 bytes por
fila.
Columnas Primary Key, Foreign
Key no son soportados
Los collations a nivel de columna
si son soportados
Se recomienda utilizar la última
version de Management
Studio(17.x)