##SQLSatMadrid
Big Data con Hadoop en SQL
Server SSIS 2016
Ángel M. Rayo
##SQLSatMadrid
¿Quién soy?
 Ángel M. Rayo
 twitter.com/oyara
 Technology Lead Expert en Netmind
 Más de 9.000 horas de experiencia formativa
 Microsoft Certified Trainer desde 2005
 MCDBA SQL 2000 – MCSA SQL 2014
##SQLSatMadrid
Agenda
 Hadoop
 HDInsight
 SQL Server SSIS 2016
 Referencias
##SQLSatMadrid
HADOOP
Big Data con Hadoop en SQL Server SSIS 2016
##SQLSatMadrid
Hadoop
Procesado
distribuido
Grandes
conjuntos de
datos
Clústeres de
ordenadores
Modelos de
programación
sencillos
Apache™ Hadoop®
##SQLSatMadrid
Hadoop
• 2003 – Google File System
• 2004 – MapReduce
• 2006 – Hadoop 0.1.0
• 2011 – Hadoop 1.0
• 2015 – Hadoop 1.7
• 25 de agosto de 2016 – Hadoop 2.7.3
##SQLSatMadrid
Hadoop – Componentes
Hadoop
Common
Hadoop
Distributed
File System
(HDFS™)
Hadoop YARN
Hadoop
MapReduce
Apache™ Hadoop®
##SQLSatMadrid
Hadoop – Otros componentes
##SQLSatMadrid
Hadoop
##SQLSatMadrid
HDINSIGHT
Big Data con Hadoop en SQL Server SSIS 2016
##SQLSatMadrid
HDInsight
• Servicio Hadoop alojado en Microsoft Azure
• Gestión de clústeres
• Framework diseñado para:
• Gestión
• Análisis
• Reporting
• Utiliza la distribución Hortonworks Data Platform (HDP)
##SQLSatMadrid
HDInsight
##SQLSatMadrid
HDInsight – Uso
• Hadoop as a Service (HaaS)
• Crear soluciones y servicios Big Data
• Administrar y monitorizar clústeres Hadoop
• Analizar y generar estadísticas de:
• Disponibilidad
• Utilización
##SQLSatMadrid
HDInsight – Creación
##SQLSatMadrid
SQL SERVER SSIS 2016
Big Data con Hadoop en SQL Server SSIS 2016
##SQLSatMadrid
SQL Server
• ¿Hace falta decir qué es? ;-)
• Sistema gestor de bases de datos relacionales Microsoft
• 1989 – SQL Server 1.0
• 1 de junio de 2016 – SQL Server 2016 (14.0)
##SQLSatMadrid
SQL Server 2016 – Servicios y herramientas
Service
Broker
Replication
Services
Analysis
Services
Reporting
Services
Notification
Services
Visual
Studio
Integration
Services
SQL Server
Management
Studio
Full Text
Search
Service
Business
Intelligence
Dev Studio
SQLCMD
##SQLSatMadrid
SQL Server 2016 SSIS
• Plataforma de integración datos y aplicaciones de flujos
de trabajo
• Herramienta Data Warehouse rápida y flexible
• ETL
• Extraction
• Transformation
• Loading
##SQLSatMadrid
SQL Server 2016 SSIS
Data
Transformation
Services (DTS)
SQL Server
Integration
Services (SSIS)
Disponible desde SQL Server 6.5 a
SQL Server 2000
Disponible desde SQL Server 2005
.NET como base de ejecución
Control Flow
Data Flow
Event Handlers
Package Explorer
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Situación desde SQL Server 2016
• Se incluye Hadoop como fuente de datos
• SSIS 2016 se integra con soluciones Big Data
Situación hasta SQL Server 2014
• Podemos utilizar Hadoop mediante conexión ODBC
• Acceso a recursos con scripts PowerShell
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Gestor de conexiones
• WebHCat – API REST
Apache™ Hive
• WebHDFS – API
REST HDFS
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Tareas de flujo de control (Control Flow)
Hadoop File
System Task
Hadoop Hive
Task
Hadoop Pig Task
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Hadoop File
System Task
Funcionamiento
• Obtiene, copia o mueve ficheros
• Utiliza la API REST del clúster
• El acceso es directo al almacén HDFS
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Hadoop File
System Task
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Hadoop Hive
Task
Funcionamiento
• Envía consultas HiveQL
• Utiliza la API REST WebHCat (aka Templeton)
• Funcionamiento mediante sistema de colas
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Hadoop Hive
Task
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Hadoop Pig
Task
Funcionamiento
• Envía scripts Pig
• Pig Latin + API REST de WebHCat (aka Templeton)
• Funcionamiento mediante sistema de colas
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Hadoop Pig
Task
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Tareas de flujo de datos (Control Flow)
HDFS File
Source
HDFS File
Destination
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
HDFS File
Source
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
HDFS File
Destination
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Otros componentes
• Azure Feature Pack for Integration Services (SSIS)
• Componentes:
• Gestores de conexiones Azure
• Tareas
• Componentes de flujo de datos (Data Flow)
• Azure Blob Enumerator
• https://www.microsoft.com/en-us/download/details.aspx?id=49492
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Gestores de conexiones Azure
Azure Storage
Connection
Manager
Azure
Subscription
Connection
Manager
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Tareas
Azure
HDInsight Hive
Task
Azure
HDInsight Pig
Task
Azure
HDInsight
Create Cluster
Task
Azure
HDInsight
Delete Cluster
Task
Azure Blob
Upload Task
Azure Blob
Download
Task
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Componentes Data Flow
Azure Blob
Source
Azure Blob
Destionation
##SQLSatMadrid
SQL Server 2016 SSIS + Hadoop
Azure Blob
Enumerator
##SQLSatMadrid
Referencias
Hadoop
• http://hadoop.apache.org/
HDInsight
• https://azure.microsoft.com/es-es/services/hdinsight/
SQL Server 2016
• http://www.microsoft.com/es-es/server-cloud/products/sql-server/default.aspx
##SQLSatMadrid
Gracias
¡GRACIAS!
@oyara
@netmindIT
##SQLSatMadrid
BIG Thanks to SQLSatMadrid Sponsors
##SQLSatMadrid
4 Sponsor Sessions at 11:40
Don’t miss them, they might be getting
distributing some awesome prizes!
 HPE
 SolidQ
 KABEL
 TSD Consulting
Also BIG Raffle prizes at the end of the
event provided by:
Plainconcepts, SolidQ, Kabel, TSD
Consulting, Pyramid Analytics & sqlpass.es

Big data con Hadoop y SSIS 2016