Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014

•

0 recomendaciones•656 vistas

http://summit.soldiq.com Presentación realizada por Eladio Rincón, Yolanda Olmedo y Danie Seara durante el SolidQ Summit 2014.

Tecnología

Carga y procesamiento de datos en
HDInsight
@erincon Eladio Rincón
Director Área Relacional
erincon@solidq.com
@yolrod Yolanda Olmedo
DPS
yolmedo@solidq.com
@Daniel_Seara Daniel Seara
Mentor
dseara@solidq.com

Agenda
• Almacenamiento en HDInsight
• Carga de datos
• Herramientas para la carga de datos
• Estructurados
• No estructurados
• Especiales
• Transformaciones
• Hive
• Pig
• Map Reduce
• Obteniendo resultados
2

• Azure HDInsight cluster
• Hortonworks Data Platform
• Arquitectura
HDInsight
Almacenamiento
3

HDInsight
Ecosistema
4
Distributed Storage
(HDFS)
Distributed Processing
(Map Reduce)
ODBC
World’s Data (Azure Data
Marketplace)
Windows Azure Storage

• Bibliotecas .Net que facilitan la tarea
• Serialización
• JSON
• AVRO
– Interacción con HDInsight y Azure
Carga de Datos
Herramientas para la carga de Datos
5

DEMO
6
Encontrando lo que
necesitamos con NuGet

Escenario
Datos de clima y consumo de cerveza 
Analizar grandes
volúmenes de
información
respecto del clima y
su correlación de
consumo,
relacionado con
períodos
estacionales
7

• Sqoop
• Importación/exportación RDMS  Hadoop
• Azure PowerShell
• Extensión de PowerShell para interactuar con
Azure
• AzureHDInsightSqoopJobDefinition
• …
Carga de Datos
Estructurados
8

DEMO
9
Importando datos de base
de datos a HDInsight

• ¡Serialización!
• AVRO
• JSON
• CSV
• ORC (Optimized Row Columnar)
• Transformar y almacenar
• Herramientas de serialización
• Herramientas de almacenamiento en la nube
Carga de Datos
No Estructurados
10

DEMO
11
Llevando datos no
estrcuturados a HDInsight

• Definir la estructura de datos necesarios
• “Copiar” entre el origen e instancias de la
estructura
• Serializar
Carga de Datos
Casos especiales
12

DEMO
13
Llevando datos diferentes a
HDInsight

• Núcleo de Hadoop
• Procesamiento paralelo
• Divide trabajo en pequeñas tareas
• Tolerancia a fallos
Transformaciones
MapReduce
14

Transformaciones
MapReduce
15
MapReduce
Mapper
Mapper
Mapper
Reducer
Reducer
Reducer
Mezcla
y
ordena

• Sistema Data Warehouse para Hadoop
• Consultas Ad-hoc
• Lenguaje de consulta como SQL: HiveQL
• Por detrás ejecuta MapReduce
Transformaciones
Hive
16

• Lenguaje de scripting de alto nivel
• Fácil programación extensible
• Ejecuta trabajos MapReduce
Transformaciones
Pig
17

Si quieres disfrutar de las mejores sesiones de
nuestros mentores de España y Latino América,
ésta es tu oportunidad.
http://summit.solidq.com
Síguenos:
22

Más contenido relacionado

Similar a Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014

01 Introduccion a Big Data y Hadoop.pdfAntonioSotoRodriguez1

Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ

Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez

Visualización de big data con power viewSpanishPASSVC

Visualización de Big Data con Power ViewEduardo Castro

Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Denodo

PolybaseSolidQ

Hadoop_Introduction_pptx.pptxAlbertoBarronMiranda1

Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez

Azure Spark - Big Data - Coresic 2016nnakasone

Novedades SharePoint 2016. Nuevos retos en Entonos HibridosGonzalo Marcos Ansoain

Novedades SharePoint 2016. Nuevos retos en Entonos HibridosGonzalo Marcos

SQL Server 2014 y La Plataforma de DatosJoseph Lopez

Sql server 2014 y la plataforma de datosSpanishPASSVC

Expert Day 2013 - Trabaja al tope con tus datos BIG DATAJohn Bulla

Polybase y su uso en la integración de almacenes de datosSpanishPASSVC

Migración de Base de Datos con SQL DeveloperValentin Leonard Tabacaru

Conociendo los servicios adicionales en big dataSpanishPASSVC

CloudCamp - Big Data – La revolución de los datosJohn Bulla

Drupalcamp 2014 reconstruir un medio digital idealista newsMartín .

Similar a Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014 (20)

01 Introduccion a Big Data y Hadoop.pdf

Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...

Visualización de big data con power view

Visualización de Big Data con Power View

Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...

Polybase

Hadoop_Introduction_pptx.pptx

Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...

Azure Spark - Big Data - Coresic 2016

Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos

SQL Server 2014 y La Plataforma de Datos

Sql server 2014 y la plataforma de datos

Expert Day 2013 - Trabaja al tope con tus datos BIG DATA

Polybase y su uso en la integración de almacenes de datos

Migración de Base de Datos con SQL Developer

Conociendo los servicios adicionales en big data

CloudCamp - Big Data – La revolución de los datos

Drupalcamp 2014 reconstruir un medio digital idealista news

Más de SolidQ

SolidQ Summit 2018 - Qué necesita saber un DBA de Integration ServicesSolidQ

SolidQ Summit 2018 - Seguridad a nivel datos. RLSSolidQ

SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ

SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ

SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ

Cuando QueryStore no sirve, ¿qué opciones tenemos?SolidQ

SQL Server 2017 en LinuxSolidQ

Columnstore en la vida realSolidQ

PowerApprízateSolidQ

Jugando a ser rico: Machine Learning para predicción de stocksSolidQ

Analizando tus Redes Sociales con Power BISolidQ

Mantenimiento de SQL Server para DummiesSolidQ

R en relacionalSolidQ

Cuando haces bot ya no hay stop!!SolidQ

Arquitecturas lambda en AzureSolidQ

Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018SolidQ

BIE2E en Azure - SolidQ Summit 2018SolidQ

¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018SolidQ

Hilando fino en SSAS multidimensional - SolidQ Summit 2018SolidQ

Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...SolidQ

Más de SolidQ (20)

SolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services

SolidQ Summit 2018 - Seguridad a nivel datos. RLS

SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...

SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...

SolidQ Summit 2018 - Report Server: Nuevos mutantes

Cuando QueryStore no sirve, ¿qué opciones tenemos?

SQL Server 2017 en Linux

Columnstore en la vida real

PowerApprízate

Jugando a ser rico: Machine Learning para predicción de stocks

Analizando tus Redes Sociales con Power BI

Mantenimiento de SQL Server para Dummies

R en relacional

Cuando haces bot ya no hay stop!!

Arquitecturas lambda en Azure

Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018

BIE2E en Azure - SolidQ Summit 2018

¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018

Hilando fino en SSAS multidimensional - SolidQ Summit 2018

Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...

Último

Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos

SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín

Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology

Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640

La era de la educación digital y sus desafiosFundación YOD YOD

El uso de las TIC's en la vida cotidiana.241514949

International Women's Day Sucre 2024 (IWD)GDGSucre

KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD

trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill

Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg

PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770

R1600G CAT Variables de cargadores en minaarkananubis

tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90

El uso delas tic en la vida cotidiana MFELmaryfer27m

definicion segun autores de matemáticas educativaAdrianaMartnez618894

Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho

Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11

ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1

Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48

dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10

Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014

1. Carga y procesamiento de datos en HDInsight @erincon Eladio Rincón Director Área Relacional erincon@solidq.com @yolrod Yolanda Olmedo DPS yolmedo@solidq.com @Daniel_Seara Daniel Seara Mentor dseara@solidq.com

2. Agenda • Almacenamiento en HDInsight • Carga de datos • Herramientas para la carga de datos • Estructurados • No estructurados • Especiales • Transformaciones • Hive • Pig • Map Reduce • Obteniendo resultados 2

3. • Azure HDInsight cluster • Hortonworks Data Platform • Arquitectura HDInsight Almacenamiento 3

4. HDInsight Ecosistema 4 Distributed Storage (HDFS) Distributed Processing (Map Reduce) ODBC World’s Data (Azure Data Marketplace) Windows Azure Storage

5. • Bibliotecas .Net que facilitan la tarea • Serialización • JSON • AVRO – Interacción con HDInsight y Azure Carga de Datos Herramientas para la carga de Datos 5

6. DEMO 6 Encontrando lo que necesitamos con NuGet

7. Escenario Datos de clima y consumo de cerveza  Analizar grandes volúmenes de información respecto del clima y su correlación de consumo, relacionado con períodos estacionales 7

8. • Sqoop • Importación/exportación RDMS  Hadoop • Azure PowerShell • Extensión de PowerShell para interactuar con Azure • AzureHDInsightSqoopJobDefinition • … Carga de Datos Estructurados 8

9. DEMO 9 Importando datos de base de datos a HDInsight

10. • ¡Serialización! • AVRO • JSON • CSV • ORC (Optimized Row Columnar) • Transformar y almacenar • Herramientas de serialización • Herramientas de almacenamiento en la nube Carga de Datos No Estructurados 10

11. DEMO 11 Llevando datos no estrcuturados a HDInsight

12. • Definir la estructura de datos necesarios • “Copiar” entre el origen e instancias de la estructura • Serializar Carga de Datos Casos especiales 12

13. DEMO 13 Llevando datos diferentes a HDInsight

14. • Núcleo de Hadoop • Procesamiento paralelo • Divide trabajo en pequeñas tareas • Tolerancia a fallos Transformaciones MapReduce 14

15. Transformaciones MapReduce 15 MapReduce Mapper Mapper Mapper Reducer Reducer Reducer Mezcla y ordena

16. • Sistema Data Warehouse para Hadoop • Consultas Ad-hoc • Lenguaje de consulta como SQL: HiveQL • Por detrás ejecuta MapReduce Transformaciones Hive 16

17. • Lenguaje de scripting de alto nivel • Fácil programación extensible • Ejecuta trabajos MapReduce Transformaciones Pig 17

18. DEMO 18 Leyendo información del cluster

19. Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu oportunidad. http://summit.solidq.com Síguenos: 22

Notas del editor

Rojo: core Hadoop Azul: procesamiento de datos Naranja: transferencia de datos Lila: integración con Microsoft y valor añadido Apache HBase: la base de datos Apache Hive: el data warehouse Apache Mahout: la plataforma de data mining Apache Flume: el agregador de logs Pegasus es un sistema de minería de gráfico Rhadoop: predecir visitas paginas web Oozie: orquestador de trabajos Hcatalog : es un servicio de gestión de tablas y almacenamiento para usar con Hadoop, que provee un esquema compartido y una abstracción de tablas para que los usuarios no deban saber como se almacenan sus datos. Pig: es un conjunto de herramientas para el análisis programático de análisis de ficheros planos. Ofrece un lenguaje de programación, transformación de datos y procesamiento en paralelo.
Demo SQOOP
Demo Obtener datos de Twitter Demo Obtener datos de clima
Map Reduce es el núcleo, el motor de ejecución de Hadoop, es un framework que permite la computación paralela sobre grandes cantidades de datos. MapReduce divide cada trabajo en diferentes tareas, y dichas tareas se ejecutan de forma paralela y distribuida soportando la tolerancia a fallos. Map reduce trata siempre de ejecutar las tareas en los nodos donde están los datos almacenados o en su defecto en el nodo más cercano con el fin de aumentar la velocidad en el procesamiento.
El término mapreduce se refiere a dos tareas separadas y distintas que realizan los programas hadoop. Los datos de entrada se dividen en partes o bloques que su tamaño depende del tamaño de datos a procesar y se le asigna una par clave/valor a cada bloque. A cada entrada se le aplica la función map y procesa los datos produciendo una lista de pares por cada llamada. Después se ordenan todos los pares con la misma clave, obteniendo para una misma clave varios valores asociados. Y finalmente la función reduce, reducirá ese conjunto de valores a uno único, obteniendo para cada clave un úncio valor.
Hive consiste en un sistema datawarehose para Hadoop, permite el almacenamiento de los datos en tablas, podemos crear tablas, borrar tablas, realizar join, where, group by, etc. Permite realizar consultas ad-hoc y utiliza un lenguaje muy parecido a SQL llamado HiveQL. Hive utiliza MapReduce para su ejecución de consultas, es decir, cada vez que lancemos una consulta sobre una tabla Hive por debajo se ejecutará un trabajo MapReduce.
Pig forma parte del ecosistema de Hadoop, y Pig es un lenguaje de scripting de alto nivel que nos permite analizar grandes volúmenes de datos semiestructurados. Pig consiste en un lenguaje textual llamado Pig Latin, Pig Latin abstrae la programación de java a una notación fácil para el usuario y además un usuario puede crear sus propias funciones para un determinado propósito. EL motor de ejecución se basa también MapReduce

Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014

Recomendados

Recomendados

Más contenido relacionado

Similar a Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014

Similar a Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014 (20)

Más de SolidQ

Más de SolidQ (20)

Último

Último (20)

Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014

Notas del editor