Pablo Doval | Plain Concepts | Open Data

Big Data en el Mundo Real™
Implementación de soluciones con tecnologías Microsoft

PABLO DOVAL
SQL/BI Team Lead

palvarez@plainconcepts.com

http://geeks.ms/blogs/palvarez

@PabloDoval

More Than Words - Extreme

Introducción

LAS TRES UVES…

Volumen
Variabilidad
Velocidad

VOLUMEN
Large Synoptic Survey Telescope (LSSD)
Unos 40TB/día
+100PB durante su expectativa de vida

VOLUMEN
Illumina HiSeq 2000

1Tb por día aproximadamente
Un solo laboratorio puede tener de 25 a 100 de estos

ALGUNAS ESTADÍSTICAS DE SQL SERVER
Categoría

Métrica

Mayor base de datos
Tabla mas grande
Mayor conjunto de datos en una sola aplicación
Mayor número de transacciones/seg. (en 1 servidor)

100 TB
1.5 trillones de filas
92 PB
130,000

Subsistema de E/S más rápido (SQLIO: lecturas en 18 GB/s.
serie de 64k)
Menor latencia en cubo
Latencia en ms.
Carga de 1TB de datos
Mayor cubo MOLAP

30 minutos
24 TB

FAST TRACK: ARQUITECTURA DE REFERENCIA
•
•
•

•
•
•
•
•
Diseño Hardware:
• Especificación concreta de servidores,
almacenamiento y red.
• Recursos Balanceados y Equilibrados
• Servidores y Almacenamiento de última
generación

PARALELL DATA WAREHOUSE
RDBMS distribuido, paralelo y “Shared-nothing”
• Particionado de consultas y datos
• Proporciona una vista única de un cluster de SQL Servers

Appliance
• Software + hardware
• HP y Dell

Optimizado para DW
• Bulk loads (1.2 – 2.0 TB/hora)
• Scans (700 TB en 3 horas)

Escala de Terabytes al rango de petabytes

ARQUITECTURA (v1)
Computación
Nodos de Control

SQL

(Activo / Pasivo)

Interfaz ETL

SQL

SQL

SQL

SQL

SQL

SQL

Nodo de Reserva
Solución de
Backup

Dual Fiber Channel

Monitorización

SQL
SQL

Dual Infiniband

Drivers Cliente
(ODBC, OLEDB, ADO.NET)

ARQUITECTURA (v2)
2 WS SE, 2 SC SE

Control Server
Passive Failover Server

1 WS SE, 1 SC SE, 16
cores PDW
cores PDW

Scale Compute Unit 3 (2 active
compute servers)- 32 cores

JBOD Storage
cores PDW
cores PDW


Base Unit

CTL Host 1
Infiniband y Ethernet

2 WS SE, 2 SC SE

Host 2
Host 3
JBOD
Host 4
Direct attached SAS

cores PDW
cores PDW


JBOD Storage
cores PDW
cores PDW

JBOD Storage

Base Compute Unit (2 active servers)32 cores

Infiniband y Ethernet

JBOD Storage

Scale Unit
Host 3

JBOD
Host 4
Direct attached SAS

VELOCIDAD
Ingeniería
• Mantenimiento Predictivo
• Gestión de Alarmas
Detección de Fraudes

• Análisis de Actividad
• Análisis de Logs
Publicidad Online
• Asignación de Anuncios
• Calculo de Rutas de Exposición

BIG DATA NO ES…
… una base de
datos enorme

… un producto
comercial

Big Data
no es…
… una tecnología

… Hadoop

RESUMEN
Big Data es el cambio de paradigma que representa la búsqueda de
soluciones para almacenar y procesar Datos NO estructurados Y Datos
estructurados conjuntamente de un modo económico y escalable.

Feed My Head – Richie Kotzen

Hadoop

APACHE HADOOP
Open Source data management with scale-out storage & processing

MapReduce
• Divide las tareas
entre procesadores
„cercanos‟ a los
datos
• Compone los
resultados

HDFS
• Almacenamiento
distribuido
• Auto-reparable
• Redundante
• Nodo maestro
(NameNode)

CARACTERÍSTICAS
–

–

–

Escalable
– Cantidades masivas de datos (Pb)
– Escalado (casi) lineal Almacenamiento Redundante
– Failover entre nodos y racks
Flexible
– Cualquier tipo de datos, en cualquier formato
– El esquema se aplica en lectura
Económico
– Empleo de hardware no especifico

ECOSISTEMA HADOOP

Procesado Distribuido
(Map Reduce)
Almacenamiento Distribuido
(HDFS)

DEMO: Creación de un Clúster

Love Bites – Def Leppard

HDFS

HDFS
–
–

–

–

Sistema de Ficheros distribuido
Construido sobre Hardware no específico
– Ficheros replicados para soportar fallos
– Detección y Recuperación automática
Optimizado para procesos por lotes (batch)
– Lista de úbicaciones expuesta para minimizar trafico
– Proporciona un ancho de banda agregado muy elevado
Funciona en multiples OS (FS lógico)

ARQUITECTURA HDFS

Data Node

Data Node

Data Node

Data Node

ARQUITECTURA HDFS
Name Node
Secondary Name
Node

NameSpace

Block Management

Data Node

Data Node

Data Node

Data Node

ORGANIZACIÓN DE LOS DATOS
–
–

Systema de Ficheros Lógico
Metadatos
–
–

–

Ficheros
–

–

–

Organización en ficheros y directorios
Permisos POSIX
Divididos en bloques de tamaño uniforme (64 MB por defecto)
Distribuidos a lo largo de todo el clúster

Consciente de rack

CLUSTER HDFS
Tres componentes principales:
– Name Node:
–
–

–

Data Nodes:
–

–

–

Gestiona los Data Nodes
Guarda metadatos para todos los ficheros y bloques
Almacenan los bloques de datos
Se distribuyen por la topología de racks

Clientes:
–

Hablan directamente con el Name Node, y después con los Data Nodes necesarios.

ACCESO A LOS FICHEROS
Name Node

JVM
1

Block Management

Distributed FS

Pig

Client Code

NameSpace

Hive

FS Data Output Stream

HBase

2
3
4

5

6

Data Node

MOVIENDO DATOS DENTRO DEL CLUSTER
–

Generalmente se hacia por lotes
–

–

Automatizado como Jobs de CRON

No se necesita definir el schema a la hora de escribir los datos

OTROS MECANISMOS
–
–
–
–

SSIS
WebHDFS
FlumeNG
Sqoop

The One and Only – H.e.a.t.

Map/Reduce

¿QUE ES MAP REDUCE?
–
–

Un framework
Procesado y Analisis de „big data‟
–

–
–
–
–

Pensado para grandes conjuntos de datos

Computacion de datos locales
Procesado paralelo
Gestiona automáticamente los fallos
Java

ARQUITECTURA DE MAPREDUCE
MapReduce

Node

Node
Input
Format

Map

Partitioner

Sort

HDFS

HBase
Reduce

Output
Format

HADOOP Y WINDOWS
–

Dos métodos principales:
–
–

Interfaz de Streaming
APIs específicas (.NET SDK for Hadoop)

SINTAXIS
Se trata de un .jar normal…
> Hadoop jar contrib/streaming/hadoop-x.x-streaming.jar
-input inputfile
-output outputfile
-mapper myScript.py
-file myScript.py
-reducer c:/Windows/system32/sort.exe

.NET SDK FOR HADOOP
–

API para HDInsight
–

–

API C# que hace de wrapper sobre la interfaz de streaming

Otras cosas finas… ;)
–
–

–
–
–

LINQ to Hive
WebHDFS client
WebHCat cliente
LINQ to Oozie
Ambari

Tell Me – Gotthard

Consultas: Pig y Hive

PIG
–

Extension de Hadoop para simplificar las consultas sobre los datos

–

Dos componentes principales:
–
–

Lenguaje de procesado de datos (Pig Latin)
Compilador y runtime de scripts pig latin

EJEMPLO DE PIG
A = LOAD 'entrada' AS (x, y, z);
B = FILTER A BY x > 5;
DUMP B;
C = FOREACH B GENERATE y, z;
STORE C INTO „salida';

HIVE
–

–

Sub-proyecto de Apache Hadoop para construir Data Warehouse sobre
el clúster.
Permite:
–
–

Definir una estructura tabular sobre los datos
Consultar estos datos mediante HiveQL

HIVE NO…
–

… es un RDBMS
–

–

Usa una BD para los metadatos, pero los datos reales se almacenan en HDFS

… está diseñado para sistemas OLTP
–
–

Olvidémonos de consultas en tiempo real
Olvidémonos de actualización de filas

Future World - Helloween

El futuro presente

MEJORAS A HIVE: 100X (STINGER)

STINGER - RESULTADOS DE PHASE 2

Give Me Real – Gotthard

Big Data con Microsoft

SHARP
–

SCADA Historical Analysis and
Reporting Platform

–

Plataforma:
–
–
–
–

SCADA: Local, Central y Móvil
Datos Históricos: Gran volumen y gran velocidad
Reporting
Análisis

SHARP (ALMACENAMIENTO)
MAGU
S

Mongo
Export
Source
1

Loader
Origen
2

DAT
DAT

Loader

DAT
DAT

Source
2

Loader

Origen
4

Hadoop

Loader
DAT
Source
3

Loader

DAT
DAT

Loader
Origen
6

Loader
Source
7

DAT

DW

SHARP (ANÁLISIS Y REPORTING)
Events

StreamInsight

Power
Pivot

DWH

Microsoft
Office

Reporting
Services

OLAP
Tabular

Power View

OLAP
Tabular

Cloud?

Production Centers

Central

APROXIMACIÓN

Ecosistema
Microsoft
Infrastructur
a OnPremise

Reducir riesgos
Planificacion de iteraciones futuras

•
•

Integración con la plataforma actual
Aprovechar el conocimiento existente

•

Prueba de
Concepto

•
•

Entorno más controlado

IMPLEMENTACIÓN
Map
Reduc
e

HDFS

Load Service

DWH

HIVE

Hadoop
Azure
Storage

SSI
S

SSRS

PowerView

VARIAS GRANULARIDADES: SQL Y HADOOP

Export

Map/
Reduce
Job

Sqoop

…
SQL Server
SQL Server

SQL Server

SQL Server


…
SQL Server
SQL Server

SQL Server

Sqoop

Hadoop Cluster

SQL Server

POLYBASE
T-SQL Queries

SQL Server

SQL HDF
S

Improv. to HigHer Resolution Data
…
SQL Server
SQL Server

Hadoop Cluster

SQL Server

SQL Server

http://spain.windowsazurebootcamp.org/

Pablo Doval | Plain Concepts | Open Data

Pablo Doval | Plain Concepts | Open Data

Recomendados

Recomendados

Más contenido relacionado

Similar a Pablo Doval | Plain Concepts | Open Data

Similar a Pablo Doval | Plain Concepts | Open Data (20)

Más de Smash Tech

Más de Smash Tech (20)

Último

Último (15)

Pablo Doval | Plain Concepts | Open Data