Introducción a polybase en SQL Server

Aumento del número y
variedad de fuentes de
datos que generan
grandes cantidades de
datos.
Comprensión de que los
datos son “muy valiosos”
para borrarlos.
Dramática disminución
en el costo del hardware,
especialmente de
almacenamiento.

Gestión y Monitoreo
(Ambari)
Coordinación
(ZooKeeper)
Flujo
de
trabajo
y
Programación
(Oozie) scripting
(Pig)
Aprendizaje
automático
(Mahout)
Consulta
(Hive)
Procesamiento distribuido
(Map Reduce)
Almacenamiento distribuido
(HDFS)
Base
de
datos
NoSQL
(HBase)
Integración
de
datos
(Sqoop/
REST
/
ODBC)

Proporciona una extensión del lenguaje T-SQL escalable
para combinar los datos de ambos universos

Permite que SQL 2016 ejecute
consultas T-SQL contra datos
relacionales en SQL Server y
datos “semiestructurados” en
HDFS o Azure
Hadoop
(non-
relational
data)
Windows
Azure Blob
Storage
(WASB)
SQL Server
SMP
SELECT Results

2012 2013 ...
...
... 2016
...
2014
Polibase en SQL Server 16
(CTP3)
PolyBase en SQL DW
PolyBase en SQL Server
2016
2015

la limpieza de datos
antes de cargarlo
unir tablas
relacionales w /
flujos de tweets
datos de los
sensores para
análisis predictivo

SQL Product Cargar datos Consulta de datos Age-out Data
Hadoop ERA B Hadoop ERA B Hadoop ERA B
SQL Server 2016
Y Y Y Y Y Y
Analytic Platform System
(APS)
Y
Y Y Y Y Y
Azure SQL DW
n Y n n Y

Ejemplo 1:
políticas de precios
Estructurado
Datos de
los
clientes
(No relacionales
Datos del
sensor
Datos de sensores
(guardado en
Hadoop)
datos relacionales
(Guardado en SQL
Server PDW / APS)
(Basado en el comportamiento del conductor)

Ejemplo # 2:
Shopping Basket
Analysis
Estructurado
Datos del
producto
(No relacionales
Medios de
comunicació
n social
(Mantenido en
Hadoop)
Datos del producto
(Guardado en SQL
Server PDW / APS)
(Basado en el comportamiento de los medios de comunicación social)

Ejemplo # 3:
Análisis de Plataforma de perforación
Datos
recientes
Datos
Históricos
Monitoreo y
funcionamiento de la
plataforma
(Mantenido en
Hadoop)
Los datos más recientes
(Guardado en SQL Serve
PDW / APS)

2012 2013 2015 ...
...
... 2016
...
Pasado Futuro
2014
HOY
PolyBase es ahora
parte de SQL Server

¿Qué?
¿por qué?
¿cómo?
lo
que
sigue

DB
PolyBase = SQL Server PDW V2 consulta
HDFS/Azure data, in-situ
HDFS
PolyBase
PolyBase
PolyBase
PolyBase
Lenguaje de consulta estándar de T-SQL. Elimina la
necesidad de escribir trabajos MapReduce
Aprovecha el marco de ejecución de consultas en paralelo
de PDW
Mueve los datos en paralelo directamente entre nodos de
datos de Hadoop y nodos de computación del PDW
Explota el optimizador de consultas en paralelo del PDW
para impulsar selectivamente cálculos sobre datos HDFS
como MapReduce jobs

Control Node
SQL Server
SQL Server
SQL Server
SQL Server
SQL Server
SQL Server
Client Connections
User Queries
JDBC, OLEDB, ODBC, ADO.NET
• Parsing de SQL
• Validar y autorizar
• Optimizar y crear plan de ejecución
• Ejecución de consulta en paralelo
• Devuelve los resultados al cliente
Data Movement Service (DMS)
• Proceso separado en cada nodo
• Tablas intermedias entre los
nodos durante la ejecución de la
consulta

Oferta escalable de SQL
Server DW
Desempeño altamente competitivo
disponible como servicio de DW de
SQL Azure
Componentes clave
Un nodo de
control
 Engine Service + DMS
 Compila y controla la
ejecución de consultas
Muchos nodos de
cálculo
 Cada uno con SQL Server +
DMS

Hortonworks o Cloudera
Hadoop 2,0 o superior
Linux o Windows
En las instalaciones o en Azure

Azure Storage Blob (ASB) expone una capa HDFS
PolyBase lee y escribe desde ASB utilizando Hadoop API
No hay soporte de push-down para ASB
Azur
Almacena
miento
Volumen
Azur
Almacena
miento
Volumen
Azur
Almacena
miento
Volumen
Azure

• Seleccionar PolyBase
Añade nuevos servicios
- PolyBase Engine
- PolyBase Data
Movement Service
(DMS)
Pre-requisito: descargar e
instalar JRE












1. Instalar varias instancias de SQL
Server con PolyBase.
37
nodo cabeza
PolyBase
Motor
PolyBase
DMS
PolyBase
DMS
PolyBase
DMS
PolyBase
DMS
PolyBase
Motor
PolyBase
Motor
PolyBase
Motor
2. Elija un Head Node
3. Configurar restantes como nodos de computación
a. Run sp_polybase_join_group
b. Reiniciar PolyBase DMS

PolyBase
Motor
PolyBase
DMS
PolyBase
DMS
PolyBase
DMS
PolyBase
DMS
PolyBase Scale-out Group
nodo principal es la instancia de
SQL Server a la que se envían las
consultas
nodos de cómputo se utilizan
para escalar el procesamiento de
consultas de datos en HDFS o
Azure

Paso 4 - Elija distribución de Hadoop
Últimas distribuciones de Hadoop soportados en SQL16 RTM
• Cloudera ECC 5.5 en Linux
• Hortonworks 2.3 en Linux y Windows Server
Funcionamiento intero?
• Cargar los jars correctos para conectarse a la distribución de
Hadoop
- diferentes números que representan distribuiciones de Hadoop
- ejemplo: valor 4 representa HDP 2.0 sobre Windows o ASB,
valor 5 para HDP 2.0 en Linux,
6 valor de EC 5.1 / 5.5 en Linux,
valor de 7 para HDP 2.1 / 2.2 / 2.3 en Linux / Windows o ASB
7

PolyBase
Motor
PolyBaseDMS
PolyBaseDMS PolyBaseDMS PolyBaseDMS
Azur
Almacena
miento
Volumen
Azur
Almacena
miento
Volumen
Azur
Almacena
miento
Volumen
Azur

HDFS Hadoop
Cluster
HDFS
HDFS
DMS
SQL Server DMS SQL Server
Compute Node Compute Node

Engine
Service
DMS
DB
DMS
DB
DMS
DB
DMS
Namenode
(HDFS)
File
System
File
System
File
System
File
System
File
System
File
System
Linux Cluster
Windows Cluster
Hadoop cluster can be either
on premise or in the cloud
Hadoop cluster can be either:
Formato de archivos HDFS
Soportados (text, RC, ORC, … )
Hadoop
Cluster
Hortonworks o Cloudera
Hadoop
Text
Format
RCFile
Format
ORCFile
Format
Parquet
Format
(future)
…

Principales desafíos técnicos
en HDFS (por ejemplo,
Texto, RC, ORC, ...)
Formatos de
archivos
arbitrarios
entre nodos de
cálculo y HDFS
nodos de datos
Paralelización
de
Transferencia
de Datos
en HDFS,
utilizando el
concepto de tabla
externa
La imposición
de la estructura
de datos no
estructurados
de clusters
Hadoop
La explotación
de recursos
computacionale
s

HDFS Hadoop
Cluster
HDFS
HDFS
DMS
SQL Server DMS SQL Server
HDFS
Bridge
HDFS
Bridge
Compute Node Compute Node
HDFS Bridge en PolyBase
DMS
HDFS
Bridge
(augmented w/)
Oculta complejidad de HDFS
Utiliza Hadoop “RecordReaders/Writers”
Utiliza para transferir datos en
paralelo de Hadoop

Namenode
(HDFS)
Hadoop
Cluster
File
System
File
System
File
System
File
System
File
System
File
System
Engine
Service
DMS
DB
DMS
DB
DMS
DB
DMS

Principales desafíos técnicos
en HDFS (por
ejemplo,
Texto, RC, ORC,
parqué, ...)
Secundario
Formatos de
archivos
arbitrarios
entre nodos de
cálculo y HDFS
nodos de datos
Paralelizació
n de
Transferenci
a de Datos
en HDFS,
utilizando el
concepto de tabla
externa
La imposición
de la estructura
de datos no
estructurados
de clusters
Hadoop
La explotación
de recursos
computacionale
s

CREATE EXTERNAL DATA SOURCE HadoopCluster
WITH (TYPE = Hadoop, LOCATION = 'hdfs://10.193.26.177:8020',
RESOURCE_MANAGER_LOCATION = '10.193.26.178:8050');
CREATE EXTERNAL FILE FORMAT TextFile
WITH ( FORMAT_TYPE = DELIMITEDTEXT,
DATA_COMPRESSION = 'org.apache.hadoop.io.compress.GzipCodec',
FORMAT_OPTIONS (FIELD_TERMINATOR ='|', USE_TYPE_DEFAULT = TRUE));
CREATE EXTERNAL TABLE [dbo].[Customer] (
[SensorKey] int NOT NULL,
int NOT NULL,
[Speed] float NOT NULL
)
WITH (LOCATION='//Sensor_Data//May2014/sensordata.tbl',
DATA_SOURCE = HadoopCluster,
FILE_FORMAT = TextFile
)
Uno por cada Hadoop
Cluster
Uno por cada File Format
HDFS File Path

CREATE EXTERNAL DATA SOURCE GSL_HDFS_CLUSTER
WITH (TYPE= HADOOP, LOCATION = ‘hdfs://10.xxx.xx.xx:8020’,
JOB_TRACKER_LOCATION=’10.xxx.xx.xx:5020’);
CREATE EXTERNAL FILE FORMAT TEXT_FORMAT
WITH (FORMAT_TYPE = DELIMITEDTEXT',
DATA_COMPRESSION = ‘org.apache.hadoop.io.compress.GzipCodec’,
FORMAT_OPTIONS (FIELD_TERMINATOR = ‘t‘));
CREATE EXTERNAL TABLE CUSTOMER
( c_custkey bigint not null,
c_name varchar(25) not null,
c_address varchar(40) not null,
c_nationkey integer not null,
…
)
WITH (LOCATION ='/tpch1gb/customer.tbl’, DATA_SOURCE = GSL_HDFS_CLUSTER,
FILE_FORMAT = TEXT_FORMAT);
HDFS file path

-- select on external table (sensor data in HDFS)
SELECT * FROM SensorData
WHERE Speed > 65;
Plan de ejecución:
CREATE
temp table T
Execute on compute nodes
IMPORT
FROM HDFS
HDFS Customer file read into T
EXECUTE
QUERY
Select * from T where
T.Speed > 65

Query
Plan
Generator
Query
Optimizer
Parser
SQL
Query
Logical
operator
tree
Physical
operator
tree
Se hace parsing de la consulta
“External tables” stored on HDFS are
identified
Parallel QO is performed
Estadísticas sobre tablas HDFS se utilizan de la manera
estándar
Engine
Service
HDFS
Hadoop
Query plan generator
plan de consulta optimizados mediante
conversión de subárboles cuyas entradas son
todos los archivos HDFS en secuencia de
MapReduce jobs
Engine Service envía MapReduce jobs
(como JAR file) al Hadoop cluster.
Aprovechar las capacidades computacionales de cluster de
Hadoop

HDFS
Hadoop 2
5
DB
3 4 6
PolyBase
Query
1
MapReduce
Decisión basado en costos en
cuánto procesamiento se
necesita
Operaciones de SQL con datos
HDFS “empujados” hacia
Hadoop como MapReduce jobs
Map job
7

Decisión basada en los costes (Para la ejecución de
consultas basadas en división)
• factor importante para la decisión es la reducción del
volumen de datos
• Hadoop toma 20-30 segundos para volver a ejecutar
trabajo Map Reduce
o Tiempo de aceleración varía en función de la distribución y el
sistema operativo
• Cardinalidad del predicado es importante
o No se hace push-down si puede ejecutar en menos de 20-30
segundos
o La creación de estadísticas de tabla externa (no auto-creado)
External Table
External Data
source
External File
Format
Your
Apps
PowerPivot
PowerView
PDW Engine
Service
Polybase Storage Layer (PPAX)
HDFS Bridge –
(as part of DMS)
Job
Submitter

-- select and aggregate on external table (sensor data in HDFS)
SELECT AVG(Speed), NationKey FROM SensorData
WHERE Speed > 65 GROUP BY NationKey;
Plan de ejecución:
Run MR Job
on Hadoop
Aplicar filtro y calcular el
total en el cliente.
Qué pasa?
Step 1: QO compila el
predicado en Java.
Step 2: Engine envía MR job al
Hadoop cluster. Salida se
deja en hdfsTemp.
hdfsTemp
<US, 75>
<FRA,67>
<UK 72>

-- select and aggregate on external table (sensor data in HDFS)
SELECT AVG(Speed), NationKey FROM SensorData
WHERE Speed > 65 GROUP BY NationKey;
Plan de ejecución: 1. Optimizador de consultas tomó
la decisión basado en costos lo
que los operadores para hacer
push.
2. Predicado y agregación hacen
push en cluster de Hadoop
como un map reduce.
Run MR Job on
Hadoop
Aplicar filtro y calcular
agregado en SensorData.
Salida se deja en hdfsTemp
IMPORT
hdfsTEMP Leer hdfsTemp en T
CREATE temp
table T
En nodos de
procesamiento
RETURN
OPERATION
Leer de T
Hacer agregación final
hdfsTemp
<US, 75>
<FRA,67>
<UK 72>

(En SQL Server APS)
Sencillez
datos de consulta
en Hadoop y / o
datos en APS vía
estándar T-SQL
PolyBase
Mayor rendimiento posible
transferencias de datos paralelizado entre PDW y cluster de Hadoop. Push
Down de operaciones SQL a Hadoop
Abierto
Es compatible con las
distribuciones de Hadoop
más populares para
Linux y Windows
Integración total con Microsoft Office & BI
PowerPivot de Excel, PowerView,, Cognos, SQL Server Reporting Services y Analysis

Introducción a polybase en SQL Server

Introducción a polybase en SQL Server

Recomendados

Recomendados

Más contenido relacionado

Similar a Introducción a polybase en SQL Server

Similar a Introducción a polybase en SQL Server (20)

Más de Eduardo Castro

Más de Eduardo Castro (20)

Último

Último (14)

Introducción a polybase en SQL Server

Notas del editor