SlideShare una empresa de Scribd logo
Técnicas de Inyección / Extracción de Datos en #BigData
+
Técnicas Drag & Drop en Apache Cassandra
@javituiter	
  
www.franciscojavierpulido.com	
  
@exploradata	
  
www.exploradata.com	
  
Sobre mí
Graduado	
  en	
  
Ingeniera	
  del	
  
So;ware	
  
Master	
  en	
  
Sistemas	
  en	
  
Ingeniería	
  de	
  la	
  
Información	
  
Big	
  Data	
  Specialist	
  
www.ExploraData.com	
  
Bloguero	
  
&	
  
Tuitero	
  
ExploraBrand: Marketing Digital
www.explorabrand.com	
  
Inyección/Extracción
de Datos en #BigData
Inyección / Extracción de datos en #BigData
Inyección / Extracción de datos en #BigData
Inyección / Extracción de datos en #BigData
Inyección/Extracción
de Datos
en Cassandra
Inyección / Extración de datos en Cassandra
Comando	
  COPY	
  
Inyección / Extración de datos en Cassandra
Comando	
  COPY	
  
-­‐  Desarrollar	
  desde	
  0	
  un	
  programa	
  para	
  lanzar	
  múlMples	
  
instancias	
  del	
  comando	
  (secuencialmente,	
  ya	
  que	
  
paralelamente	
  estaba	
  sujeto	
  a	
  errores	
  de	
  
concurrencia)	
  
-­‐  Paralelizable	
  en	
  varios	
  nodos	
  manualmente	
  
-­‐  Limitado	
  a	
  500.000	
  registros	
  por	
  hilo/lanzamiento	
  
Inyección / Extración de datos en Cassandra
Apache	
  Sqoop	
  
·∙	
  Relacional	
  
·∙	
  NoSQL	
  
·∙	
  Relacional	
  
·∙	
  NoSQL	
  
Hadoop	
  
Inyección / Extración de datos en Cassandra
Apache	
  Flume	
  
-­‐  Herramienta	
  exclusiva	
  para	
  la	
  etapa	
  de	
  
Obtención	
  de	
  datos	
  
-­‐  Source	
  
-­‐  Channel	
  
-­‐  Sink	
  
-­‐  Interceptor	
  
Inyección / Extración de datos en Cassandra
Apache	
  Flume	
  
Channel	
  1	
  
Channel	
  N	
  
Source	
  1	
   .	
  
.	
  
.	
  
.	
  
.	
  
.	
  
Source	
  2	
  
Sink	
  1	
  
Sink	
  2	
  
Inyección / Extración de datos en Cassandra
Apache	
  Flume	
  
Inyección / Extración de datos en Cassandra
Apache	
  Flume	
  
+	
  Sink	
  a	
  Cassandra	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  
Personalizado	
  
hbp://www.treselle.com/blog/flume-­‐with-­‐
cassandra-­‐integraMon	
  	
  
Inyección / Extración de datos en Cassandra
DataStax:	
  SSTableLoader	
  
Técnicas Drag&Drop
en Cassandra
Técnicas Drag&Drop en Cassandra
ETL	
  
•  Extraer, Transformar y Cargar (Load). En definitiva:
•  Extraer datos de múltiples fuentes
• Aplicar calidad y consistencia (limpiar) a los datos
•  Conformar (unificar) los datos
•  Cargar los datos en un DW
•  La idea de Flujo.
• Actividad inicial y con ejecución periódica/programable.
•  Herramientas: Talend, JasperSoft, Pentaho Data Integration
Técnicas Drag&Drop en Cassandra
Pentaho	
  Data	
  IntegraMon	
  
•  PDI es un set de herramientas, que permite diseñar ETLs, mediante
transformaciones y trabajos que pueden ser ejecutadas por las herramientas de
Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle.
•  Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL.
•  Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y
escribir desde y en distintos orígenes de datos.
•  Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos
trabajos son planificados en modo batch para ejecutar automáticamente a periodos regulares
(crontab -e).
Técnicas Drag&Drop en Cassandra
Técnicas Drag&Drop en Cassandra
Conectores	
  Big	
  Data	
  en	
  PDI	
  
•  En PDI tenemos múltiples conectores para sistemas Big Data:
• AVRO
•  Cassandra
•  CouchDB
•  Hadoop
•  Hbase
•  Map Reduce
•  MongoDB
Técnicas Drag&Drop en Cassandra
Cassandra	
  en	
  PDI	
  
• Tenemos tres tipos de “pasos” para Apache Cassandra:
•  Cassandra Input: se utiliza para realizar lecturas
•  Cassandra Output: se utiliza para realizar escrituras
•  SSTable Output: se utiliza para volcar a una SSTable de Cassandra.
•  Requisitos:
• Apache Cassandra 1.2.X
•  PDI 5.0.1 Stable
•  Librerías oficiales de Apache Cassandra para PDI
•  Limitaciones:
•  Los “pasos” funcionan correctamente con hasta 500K registros
Técnicas Drag&Drop en Cassandra
Cassandra	
  Input	
  
Técnicas Drag&Drop en Cassandra
Cassandra	
  Output	
  
Técnicas Drag&Drop en Cassandra
SSTable	
  Output	
  
*	
  Este	
  paso	
  necesita	
  ser	
  ejecutado	
  siempre	
  en	
  un	
  nodo	
  de	
  Cassandra.	
  
PDI en Acción
?	
  
¿ Dudas ?
@javituiter	
  
www.franciscojavierpulido.com	
  
@exploradata	
  
www.exploradata.com	
  

Más contenido relacionado

La actualidad más candente

Introducción a hadoop
Introducción a hadoopIntroducción a hadoop
Introducción a hadoop
Carlos Meseguer Gimenez
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack
Guillermo Alvarado Mejía
 
Hadoop
HadoopHadoop
Hadoop
camposer
 
El mundo Big Data y las APIs
El mundo Big Data y las APIsEl mundo Big Data y las APIs
El mundo Big Data y las APIs
Big Data Spain
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
Tomás Fernández Pena
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
campus party
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Urko Zurutuza
 

La actualidad más candente (7)

Introducción a hadoop
Introducción a hadoopIntroducción a hadoop
Introducción a hadoop
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack
 
Hadoop
HadoopHadoop
Hadoop
 
El mundo Big Data y las APIs
El mundo Big Data y las APIsEl mundo Big Data y las APIs
El mundo Big Data y las APIs
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 

Similar a Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Tecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup CassandraTecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup Cassandra
Stratebi
 
Scala@real life
Scala@real lifeScala@real life
Scala@real life
David Vallejo Navarro
 
Scala @ Real life
Scala @ Real lifeScala @ Real life
Scala @ Real life
Javier Santos Paniego
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
DBA del Futuro (Un nuevo paradigma)
DBA del Futuro (Un nuevo paradigma)DBA del Futuro (Un nuevo paradigma)
DBA del Futuro (Un nuevo paradigma)
Oracle User Group Mexico
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
Arquitectura Lambda
Arquitectura LambdaArquitectura Lambda
Arquitectura Lambda
Israel Gaytan
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
Gustavo Alzate Sandoval
 
Why Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén CasadoWhy Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén Casado
Big Data Spain
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datos
BBVA API Market
 
SPS Madrid 2019 - Eleva tu aplicaciones de PowerApps a otro nivel
SPS Madrid 2019 - Eleva tu aplicaciones de PowerApps a otro nivelSPS Madrid 2019 - Eleva tu aplicaciones de PowerApps a otro nivel
SPS Madrid 2019 - Eleva tu aplicaciones de PowerApps a otro nivel
Imanol Iza Martin
 
Analitica y toma de decisiones en tiempo real sobre plataformas big data
Analitica y toma de decisiones en tiempo real sobre plataformas big dataAnalitica y toma de decisiones en tiempo real sobre plataformas big data
Analitica y toma de decisiones en tiempo real sobre plataformas big data
José Carlos García Serrano
 
Introducción a Apache Spark
Introducción a Apache SparkIntroducción a Apache Spark
Introducción a Apache Spark
Socialmetrix
 
Polybase
PolybasePolybase
Polybase
SolidQ
 
Comparativa herramientas ETL
Comparativa herramientas ETLComparativa herramientas ETL
Comparativa herramientas ETL
Jorge Bustillos
 
Spark meetup barcelona
Spark meetup barcelonaSpark meetup barcelona
Spark meetup barcelona
Jorge Lopez-Malla
 
spiceworks
spiceworksspiceworks
Pizza Fast Assistant Presentación de Proyecto
Pizza Fast Assistant Presentación de ProyectoPizza Fast Assistant Presentación de Proyecto
Pizza Fast Assistant Presentación de Proyecto
Edisson Loja
 
Empleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosEmpleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datos
Antonio Santos Ramos
 
M04 09 20_v05_plataformas_bd
M04 09 20_v05_plataformas_bdM04 09 20_v05_plataformas_bd
M04 09 20_v05_plataformas_bd
russellmrr
 

Similar a Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra (20)

Tecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup CassandraTecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup Cassandra
 
Scala@real life
Scala@real lifeScala@real life
Scala@real life
 
Scala @ Real life
Scala @ Real lifeScala @ Real life
Scala @ Real life
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
DBA del Futuro (Un nuevo paradigma)
DBA del Futuro (Un nuevo paradigma)DBA del Futuro (Un nuevo paradigma)
DBA del Futuro (Un nuevo paradigma)
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Arquitectura Lambda
Arquitectura LambdaArquitectura Lambda
Arquitectura Lambda
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Why Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén CasadoWhy Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén Casado
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datos
 
SPS Madrid 2019 - Eleva tu aplicaciones de PowerApps a otro nivel
SPS Madrid 2019 - Eleva tu aplicaciones de PowerApps a otro nivelSPS Madrid 2019 - Eleva tu aplicaciones de PowerApps a otro nivel
SPS Madrid 2019 - Eleva tu aplicaciones de PowerApps a otro nivel
 
Analitica y toma de decisiones en tiempo real sobre plataformas big data
Analitica y toma de decisiones en tiempo real sobre plataformas big dataAnalitica y toma de decisiones en tiempo real sobre plataformas big data
Analitica y toma de decisiones en tiempo real sobre plataformas big data
 
Introducción a Apache Spark
Introducción a Apache SparkIntroducción a Apache Spark
Introducción a Apache Spark
 
Polybase
PolybasePolybase
Polybase
 
Comparativa herramientas ETL
Comparativa herramientas ETLComparativa herramientas ETL
Comparativa herramientas ETL
 
Spark meetup barcelona
Spark meetup barcelonaSpark meetup barcelona
Spark meetup barcelona
 
spiceworks
spiceworksspiceworks
spiceworks
 
Pizza Fast Assistant Presentación de Proyecto
Pizza Fast Assistant Presentación de ProyectoPizza Fast Assistant Presentación de Proyecto
Pizza Fast Assistant Presentación de Proyecto
 
Empleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosEmpleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datos
 
M04 09 20_v05_plataformas_bd
M04 09 20_v05_plataformas_bdM04 09 20_v05_plataformas_bd
M04 09 20_v05_plataformas_bd
 

Último

Uso de equipos de protección personal.pptx
Uso de equipos de protección personal.pptxUso de equipos de protección personal.pptx
Uso de equipos de protección personal.pptx
OmarPadillaGarcia
 
Proceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
Proceso de obtenciòn de nitrogeno por el metodo Haber-BoshProceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
Proceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
shirllyleytonm
 
INGLES_LISTA_DE_VOCABULARIO una lista completa
INGLES_LISTA_DE_VOCABULARIO una lista completaINGLES_LISTA_DE_VOCABULARIO una lista completa
INGLES_LISTA_DE_VOCABULARIO una lista completa
JaimmsArthur
 
Equipo 4. Mezclado de Polímeros quimica de polimeros.pptx
Equipo 4. Mezclado de Polímeros quimica de polimeros.pptxEquipo 4. Mezclado de Polímeros quimica de polimeros.pptx
Equipo 4. Mezclado de Polímeros quimica de polimeros.pptx
angiepalacios6170
 
Operaciones Básicas creadora Veronica Maiz
Operaciones Básicas creadora Veronica MaizOperaciones Básicas creadora Veronica Maiz
Operaciones Básicas creadora Veronica Maiz
carolina838317
 
Cálculo del espesor del conducto forzado
Cálculo del espesor del conducto forzadoCálculo del espesor del conducto forzado
Cálculo del espesor del conducto forzado
KristianSaavedra
 
Cargas de Cálculos Estructurales de un Puente
Cargas de Cálculos Estructurales de un PuenteCargas de Cálculos Estructurales de un Puente
Cargas de Cálculos Estructurales de un Puente
jemifermelgarejoaran1
 
9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN
9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN
9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN
KarinToledo2
 
Aletas de transferencia de calor o superficies extendidas dylan.pdf
Aletas de transferencia de calor o superficies extendidas dylan.pdfAletas de transferencia de calor o superficies extendidas dylan.pdf
Aletas de transferencia de calor o superficies extendidas dylan.pdf
elsanti003
 
Focos SSO Fin de Semana del 31 MAYO A al 02 de JUNIO de 2024.pdf
Focos SSO Fin de Semana del 31 MAYO A  al 02 de JUNIO  de 2024.pdfFocos SSO Fin de Semana del 31 MAYO A  al 02 de JUNIO  de 2024.pdf
Focos SSO Fin de Semana del 31 MAYO A al 02 de JUNIO de 2024.pdf
PatoLokooGuevara
 
Infografia - Hugo Hidalgo - Construcción
Infografia - Hugo Hidalgo - ConstrucciónInfografia - Hugo Hidalgo - Construcción
Infografia - Hugo Hidalgo - Construcción
MaraManuelaUrribarri
 
Infografía de operaciones básicas....pdf
Infografía de operaciones básicas....pdfInfografía de operaciones básicas....pdf
Infografía de operaciones básicas....pdf
jahirrtorresa
 
simbologia y normas de soldadura para su inspección
simbologia y normas de soldadura para su inspecciónsimbologia y normas de soldadura para su inspección
simbologia y normas de soldadura para su inspección
HarofHaro
 
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptxS09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
yamilbailonw
 
METRADOS_Y_PRESUPUESTO_EN_SISTEMA_DRYWALL_24-05.pdf
METRADOS_Y_PRESUPUESTO_EN_SISTEMA_DRYWALL_24-05.pdfMETRADOS_Y_PRESUPUESTO_EN_SISTEMA_DRYWALL_24-05.pdf
METRADOS_Y_PRESUPUESTO_EN_SISTEMA_DRYWALL_24-05.pdf
Augusto César Dávila Callupe
 
Ducto Barras para instalaciones electricas
Ducto Barras para instalaciones electricasDucto Barras para instalaciones electricas
Ducto Barras para instalaciones electricas
Edgar Najera
 
380378757-velocidades-maximas-y-minimas-en-los-canales.pdf
380378757-velocidades-maximas-y-minimas-en-los-canales.pdf380378757-velocidades-maximas-y-minimas-en-los-canales.pdf
380378757-velocidades-maximas-y-minimas-en-los-canales.pdf
DiegoAlexanderChecaG
 
PRES 3. METROLOGÍA DE GASES Y RADIACIONES IONIZANTES.pptx
PRES 3. METROLOGÍA DE GASES Y RADIACIONES IONIZANTES.pptxPRES 3. METROLOGÍA DE GASES Y RADIACIONES IONIZANTES.pptx
PRES 3. METROLOGÍA DE GASES Y RADIACIONES IONIZANTES.pptx
brandonsinael
 
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdfEXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
hugodennis88
 
INVENTARIO CEROO Y DINAMICAA FABRIL.pptx
INVENTARIO CEROO Y DINAMICAA FABRIL.pptxINVENTARIO CEROO Y DINAMICAA FABRIL.pptx
INVENTARIO CEROO Y DINAMICAA FABRIL.pptx
FernandoRodrigoEscal
 

Último (20)

Uso de equipos de protección personal.pptx
Uso de equipos de protección personal.pptxUso de equipos de protección personal.pptx
Uso de equipos de protección personal.pptx
 
Proceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
Proceso de obtenciòn de nitrogeno por el metodo Haber-BoshProceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
Proceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
 
INGLES_LISTA_DE_VOCABULARIO una lista completa
INGLES_LISTA_DE_VOCABULARIO una lista completaINGLES_LISTA_DE_VOCABULARIO una lista completa
INGLES_LISTA_DE_VOCABULARIO una lista completa
 
Equipo 4. Mezclado de Polímeros quimica de polimeros.pptx
Equipo 4. Mezclado de Polímeros quimica de polimeros.pptxEquipo 4. Mezclado de Polímeros quimica de polimeros.pptx
Equipo 4. Mezclado de Polímeros quimica de polimeros.pptx
 
Operaciones Básicas creadora Veronica Maiz
Operaciones Básicas creadora Veronica MaizOperaciones Básicas creadora Veronica Maiz
Operaciones Básicas creadora Veronica Maiz
 
Cálculo del espesor del conducto forzado
Cálculo del espesor del conducto forzadoCálculo del espesor del conducto forzado
Cálculo del espesor del conducto forzado
 
Cargas de Cálculos Estructurales de un Puente
Cargas de Cálculos Estructurales de un PuenteCargas de Cálculos Estructurales de un Puente
Cargas de Cálculos Estructurales de un Puente
 
9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN
9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN
9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN
 
Aletas de transferencia de calor o superficies extendidas dylan.pdf
Aletas de transferencia de calor o superficies extendidas dylan.pdfAletas de transferencia de calor o superficies extendidas dylan.pdf
Aletas de transferencia de calor o superficies extendidas dylan.pdf
 
Focos SSO Fin de Semana del 31 MAYO A al 02 de JUNIO de 2024.pdf
Focos SSO Fin de Semana del 31 MAYO A  al 02 de JUNIO  de 2024.pdfFocos SSO Fin de Semana del 31 MAYO A  al 02 de JUNIO  de 2024.pdf
Focos SSO Fin de Semana del 31 MAYO A al 02 de JUNIO de 2024.pdf
 
Infografia - Hugo Hidalgo - Construcción
Infografia - Hugo Hidalgo - ConstrucciónInfografia - Hugo Hidalgo - Construcción
Infografia - Hugo Hidalgo - Construcción
 
Infografía de operaciones básicas....pdf
Infografía de operaciones básicas....pdfInfografía de operaciones básicas....pdf
Infografía de operaciones básicas....pdf
 
simbologia y normas de soldadura para su inspección
simbologia y normas de soldadura para su inspecciónsimbologia y normas de soldadura para su inspección
simbologia y normas de soldadura para su inspección
 
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptxS09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
 
METRADOS_Y_PRESUPUESTO_EN_SISTEMA_DRYWALL_24-05.pdf
METRADOS_Y_PRESUPUESTO_EN_SISTEMA_DRYWALL_24-05.pdfMETRADOS_Y_PRESUPUESTO_EN_SISTEMA_DRYWALL_24-05.pdf
METRADOS_Y_PRESUPUESTO_EN_SISTEMA_DRYWALL_24-05.pdf
 
Ducto Barras para instalaciones electricas
Ducto Barras para instalaciones electricasDucto Barras para instalaciones electricas
Ducto Barras para instalaciones electricas
 
380378757-velocidades-maximas-y-minimas-en-los-canales.pdf
380378757-velocidades-maximas-y-minimas-en-los-canales.pdf380378757-velocidades-maximas-y-minimas-en-los-canales.pdf
380378757-velocidades-maximas-y-minimas-en-los-canales.pdf
 
PRES 3. METROLOGÍA DE GASES Y RADIACIONES IONIZANTES.pptx
PRES 3. METROLOGÍA DE GASES Y RADIACIONES IONIZANTES.pptxPRES 3. METROLOGÍA DE GASES Y RADIACIONES IONIZANTES.pptx
PRES 3. METROLOGÍA DE GASES Y RADIACIONES IONIZANTES.pptx
 
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdfEXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
 
INVENTARIO CEROO Y DINAMICAA FABRIL.pptx
INVENTARIO CEROO Y DINAMICAA FABRIL.pptxINVENTARIO CEROO Y DINAMICAA FABRIL.pptx
INVENTARIO CEROO Y DINAMICAA FABRIL.pptx
 

Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

  • 1. Técnicas de Inyección / Extracción de Datos en #BigData + Técnicas Drag & Drop en Apache Cassandra @javituiter   www.franciscojavierpulido.com   @exploradata   www.exploradata.com  
  • 2. Sobre mí Graduado  en   Ingeniera  del   So;ware   Master  en   Sistemas  en   Ingeniería  de  la   Información   Big  Data  Specialist   www.ExploraData.com   Bloguero   &   Tuitero  
  • 5. Inyección / Extracción de datos en #BigData
  • 6. Inyección / Extracción de datos en #BigData
  • 7. Inyección / Extracción de datos en #BigData
  • 9. Inyección / Extración de datos en Cassandra Comando  COPY  
  • 10. Inyección / Extración de datos en Cassandra Comando  COPY   -­‐  Desarrollar  desde  0  un  programa  para  lanzar  múlMples   instancias  del  comando  (secuencialmente,  ya  que   paralelamente  estaba  sujeto  a  errores  de   concurrencia)   -­‐  Paralelizable  en  varios  nodos  manualmente   -­‐  Limitado  a  500.000  registros  por  hilo/lanzamiento  
  • 11. Inyección / Extración de datos en Cassandra Apache  Sqoop   ·∙  Relacional   ·∙  NoSQL   ·∙  Relacional   ·∙  NoSQL   Hadoop  
  • 12. Inyección / Extración de datos en Cassandra Apache  Flume   -­‐  Herramienta  exclusiva  para  la  etapa  de   Obtención  de  datos   -­‐  Source   -­‐  Channel   -­‐  Sink   -­‐  Interceptor  
  • 13. Inyección / Extración de datos en Cassandra Apache  Flume   Channel  1   Channel  N   Source  1   .   .   .   .   .   .   Source  2   Sink  1   Sink  2  
  • 14. Inyección / Extración de datos en Cassandra Apache  Flume  
  • 15. Inyección / Extración de datos en Cassandra Apache  Flume   +  Sink  a  Cassandra                           Personalizado   hbp://www.treselle.com/blog/flume-­‐with-­‐ cassandra-­‐integraMon    
  • 16. Inyección / Extración de datos en Cassandra DataStax:  SSTableLoader  
  • 18. Técnicas Drag&Drop en Cassandra ETL   •  Extraer, Transformar y Cargar (Load). En definitiva: •  Extraer datos de múltiples fuentes • Aplicar calidad y consistencia (limpiar) a los datos •  Conformar (unificar) los datos •  Cargar los datos en un DW •  La idea de Flujo. • Actividad inicial y con ejecución periódica/programable. •  Herramientas: Talend, JasperSoft, Pentaho Data Integration
  • 19. Técnicas Drag&Drop en Cassandra Pentaho  Data  IntegraMon   •  PDI es un set de herramientas, que permite diseñar ETLs, mediante transformaciones y trabajos que pueden ser ejecutadas por las herramientas de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle. •  Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL. •  Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y escribir desde y en distintos orígenes de datos. •  Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos trabajos son planificados en modo batch para ejecutar automáticamente a periodos regulares (crontab -e).
  • 21. Técnicas Drag&Drop en Cassandra Conectores  Big  Data  en  PDI   •  En PDI tenemos múltiples conectores para sistemas Big Data: • AVRO •  Cassandra •  CouchDB •  Hadoop •  Hbase •  Map Reduce •  MongoDB
  • 22. Técnicas Drag&Drop en Cassandra Cassandra  en  PDI   • Tenemos tres tipos de “pasos” para Apache Cassandra: •  Cassandra Input: se utiliza para realizar lecturas •  Cassandra Output: se utiliza para realizar escrituras •  SSTable Output: se utiliza para volcar a una SSTable de Cassandra. •  Requisitos: • Apache Cassandra 1.2.X •  PDI 5.0.1 Stable •  Librerías oficiales de Apache Cassandra para PDI •  Limitaciones: •  Los “pasos” funcionan correctamente con hasta 500K registros
  • 23. Técnicas Drag&Drop en Cassandra Cassandra  Input  
  • 24. Técnicas Drag&Drop en Cassandra Cassandra  Output  
  • 25. Técnicas Drag&Drop en Cassandra SSTable  Output   *  Este  paso  necesita  ser  ejecutado  siempre  en  un  nodo  de  Cassandra.  
  • 27. ?   ¿ Dudas ? @javituiter   www.franciscojavierpulido.com   @exploradata   www.exploradata.com