11. ALGUNAS ESTADÍSTICAS DE SQL SERVER
Categoría
Métrica
Mayor base de datos
Tabla mas grande
Mayor conjunto de datos en una sola aplicación
Mayor número de transacciones/seg. (en 1 servidor)
100 TB
1.5 trillones de filas
92 PB
130,000
Subsistema de E/S más rápido (SQLIO: lecturas en 18 GB/s.
serie de 64k)
Menor latencia en cubo
Latencia en ms.
Carga de 1TB de datos
Mayor cubo MOLAP
30 minutos
24 TB
12. FAST TRACK: ARQUITECTURA DE REFERENCIA
•
•
•
•
•
•
•
•
Diseño Hardware:
• Especificación concreta de servidores,
almacenamiento y red.
• Recursos Balanceados y Equilibrados
• Servidores y Almacenamiento de última
generación
13. PARALELL DATA WAREHOUSE
RDBMS distribuido, paralelo y “Shared-nothing”
• Particionado de consultas y datos
• Proporciona una vista única de un cluster de SQL Servers
Appliance
• Software + hardware
• HP y Dell
Optimizado para DW
• Bulk loads (1.2 – 2.0 TB/hora)
• Scans (700 TB en 3 horas)
Escala de Terabytes al rango de petabytes
14. ARQUITECTURA (v1)
Computación
Nodos de Control
SQL
(Activo / Pasivo)
Interfaz ETL
SQL
SQL
SQL
SQL
SQL
SQL
Nodo de Reserva
Solución de
Backup
Dual Fiber Channel
Monitorización
SQL
SQL
Dual Infiniband
Drivers Cliente
(ODBC, OLEDB, ADO.NET)
15. ARQUITECTURA (v2)
2 WS SE, 2 SC SE
Control Server
Passive Failover Server
1 WS SE, 1 SC SE, 16
cores PDW
1 WS SE, 1 SC SE, 16
cores PDW
Scale Compute Unit 3 (2 active
compute servers)- 32 cores
JBOD Storage
1 WS SE, 1 SC SE, 16
cores PDW
1 WS SE, 1 SC SE, 16
cores PDW
Scale Compute Unit 2 (2 active
compute servers)- 32 cores
Base Unit
CTL Host 1
Infiniband y Ethernet
2 WS SE, 2 SC SE
Host 2
Host 3
JBOD
Host 4
Direct attached SAS
1 WS SE, 1 SC SE, 16
cores PDW
1 WS SE, 1 SC SE, 16
cores PDW
Scale Compute Unit 1 (2 active
compute servers)- 32 cores
JBOD Storage
1 WS SE, 1 SC SE, 16
cores PDW
1 WS SE, 1 SC SE, 16
cores PDW
JBOD Storage
Base Compute Unit (2 active servers)32 cores
Infiniband y Ethernet
JBOD Storage
Scale Unit
Host 3
JBOD
Host 4
Direct attached SAS
16. VELOCIDAD
Ingeniería
• Mantenimiento Predictivo
• Gestión de Alarmas
Detección de Fraudes
• Análisis de Actividad
• Análisis de Logs
Publicidad Online
• Asignación de Anuncios
• Calculo de Rutas de Exposición
19. BIG DATA NO ES…
… una base de
datos enorme
… un producto
comercial
Big Data
no es…
… una tecnología
… Hadoop
20. RESUMEN
Big Data es el cambio de paradigma que representa la búsqueda de
soluciones para almacenar y procesar Datos NO estructurados Y Datos
estructurados conjuntamente de un modo económico y escalable.
22. APACHE HADOOP
Open Source data management with scale-out storage & processing
MapReduce
• Divide las tareas
entre procesadores
„cercanos‟ a los
datos
• Compone los
resultados
HDFS
• Almacenamiento
distribuido
• Auto-reparable
• Redundante
• Nodo maestro
(NameNode)
23. CARACTERÍSTICAS
–
–
–
Escalable
– Cantidades masivas de datos (Pb)
– Escalado (casi) lineal Almacenamiento Redundante
– Failover entre nodos y racks
Flexible
– Cualquier tipo de datos, en cualquier formato
– El esquema se aplica en lectura
Económico
– Empleo de hardware no especifico
28. HDFS
–
–
–
–
Sistema de Ficheros distribuido
Construido sobre Hardware no específico
– Ficheros replicados para soportar fallos
– Detección y Recuperación automática
Optimizado para procesos por lotes (batch)
– Lista de úbicaciones expuesta para minimizar trafico
– Proporciona un ancho de banda agregado muy elevado
Funciona en multiples OS (FS lógico)
34. ORGANIZACIÓN DE LOS DATOS
–
–
Systema de Ficheros Lógico
Metadatos
–
–
–
Ficheros
–
–
–
Organización en ficheros y directorios
Permisos POSIX
Divididos en bloques de tamaño uniforme (64 MB por defecto)
Distribuidos a lo largo de todo el clúster
Consciente de rack
35. CLUSTER HDFS
Tres componentes principales:
– Name Node:
–
–
–
Data Nodes:
–
–
–
Gestiona los Data Nodes
Guarda metadatos para todos los ficheros y bloques
Almacenan los bloques de datos
Se distribuyen por la topología de racks
Clientes:
–
Hablan directamente con el Name Node, y después con los Data Nodes necesarios.
36. ACCESO A LOS FICHEROS
Name Node
JVM
1
Block Management
Distributed FS
Pig
Client Code
NameSpace
Hive
FS Data Output Stream
HBase
2
3
4
5
6
Data Node
38. MOVIENDO DATOS DENTRO DEL CLUSTER
–
Generalmente se hacia por lotes
–
–
Automatizado como Jobs de CRON
No se necesita definir el schema a la hora de escribir los datos
41. ¿QUE ES MAP REDUCE?
–
–
Un framework
Procesado y Analisis de „big data‟
–
–
–
–
–
Pensado para grandes conjuntos de datos
Computacion de datos locales
Procesado paralelo
Gestiona automáticamente los fallos
Java
46. SINTAXIS
Se trata de un .jar normal…
> Hadoop jar contrib/streaming/hadoop-x.x-streaming.jar
-input inputfile
-output outputfile
-mapper myScript.py
-file myScript.py
-reducer c:/Windows/system32/sort.exe
47. .NET SDK FOR HADOOP
–
API para HDInsight
–
–
API C# que hace de wrapper sobre la interfaz de streaming
Otras cosas finas… ;)
–
–
–
–
–
LINQ to Hive
WebHDFS client
WebHCat cliente
LINQ to Oozie
Ambari
49. PIG
–
Extension de Hadoop para simplificar las consultas sobre los datos
–
Dos componentes principales:
–
–
Lenguaje de procesado de datos (Pig Latin)
Compilador y runtime de scripts pig latin
50. EJEMPLO DE PIG
A = LOAD 'entrada' AS (x, y, z);
B = FILTER A BY x > 5;
DUMP B;
C = FOREACH B GENERATE y, z;
STORE C INTO „salida';
51. HIVE
–
–
Sub-proyecto de Apache Hadoop para construir Data Warehouse sobre
el clúster.
Permite:
–
–
Definir una estructura tabular sobre los datos
Consultar estos datos mediante HiveQL
52. HIVE NO…
–
… es un RDBMS
–
–
Usa una BD para los metadatos, pero los datos reales se almacenan en HDFS
… está diseñado para sistemas OLTP
–
–
Olvidémonos de consultas en tiempo real
Olvidémonos de actualización de filas
63. SHARP
–
SCADA Historical Analysis and
Reporting Platform
–
Plataforma:
–
–
–
–
SCADA: Local, Central y Móvil
Datos Históricos: Gran volumen y gran velocidad
Reporting
Análisis
65. SHARP (ANÁLISIS Y REPORTING)
Events
StreamInsight
Power
Pivot
DWH
Microsoft
Office
Reporting
Services
OLAP
Tabular
Power View
OLAP
Tabular
Cloud?
Production Centers
Central