Este documento describe Azure SQL Data Warehouse, una plataforma como servicio en la nube de Azure que ofrece procesamiento masivo en paralelo. Azure SQL DW permite escalar el almacenamiento y la computación de forma dinámica en minutos, distribuyendo los datos y las consultas en múltiples nodos de forma paralela para lograr altos rendimientos. El documento explica conceptos como la arquitectura MPP, las distribuciones de datos por hash y round-robin, y las unidades de datos almacenadas (DWU) que determinan los recursos asignados
6. ¿Qué es Azure SQL Data Warehouse?
• Una plataforma como servicio en la nube de Azure.
• Procesamiento masivo en paralelo (MPP).
• Computación y almacenamiento distribuido.
• Escala hacia arriba y hacia abajo en unos minutos.
• Pausar de recursos, Ahorro.
• Admite un subconjunto de T-SQL.
• Join con datos externos como Azure Blob Storage / HDFS.
8. (SMP vs. MPP)
• Utiliza muchas CPU separadas en paralelo para ejecutar un solo programa.
• Nada compartido: cada CPU tiene su propia memoria y disco (escalamiento
horizontal).
• Los segmentos se comunican usando una red de alta velocidad entre nodos.
MPP - Massively
Parallel Processing
• Múltiples CPUs utilizadas para completar procesos individuales simultáneamente.
• Todas las CPU comparten la misma memoria, discos y controladores de red.
• Todas las implementaciones de SQL Server hasta ahora han sido SMP.
• En su mayoría, la solución se encuentra en una SAN compartida.
SMP - Symmetric
Multiprocessing
10. Distribuciones
•Las bases de datos almacenan una o mas tablas de forma
distribuida.
•Los datos se almacenan en 60 bases, las cuales pueden
estar en nodos diferentes.
•Los datos pueden ser distribuidos por medio de Hash.
•Los datos pueden ser distribuidos por medio de Round-
Robin.
11. Distribución por HASH
•Divide los datos basado en un algoritmo de hashing.
•Un mismo valor siempre genera un hash de distribución igual.
•Rendimiento para tablas muy grandes.
•Puede existir problemas para tablas con valores de alta frecuencia.
12. Distribución por Round-Robin
•Los datos se distribuyen de manera uniforme entre los
nodos.
•Mas fácil de implementar, no es necesario saber nada
sobre los datos.
•Útil para dimensiones y hechos que no poseen una buena
columna de distribución por hash.
•Se incurrirá en más movimiento de datos cuando se
realicen los querys.
14. Data Warehouse Units (DWUs)
•Los DWU indican los recursos CPU, memoria e IOPS, que se asignan
a la instancia de Azure SQL DW.
•DWU 100 – 6000.
•¿Cuántos nodos de cómputo usa tu instancia?.
•Cuántas consultas simultáneas puede ejecutar su instancia.
•Cuantos procesos en paralelo.
•El límite de tamaño de las transacciones.