SlideShare una empresa de Scribd logo
1 de 29
Obtención de Datos
en #BigData
@javituiter
www.franciscojavierpulido.com
LOS DATOS
LOS DATOS
DATOS
VALOR
Etapas Clásicas en Proyectos BigData
Preparación y
Transformación de los Datos
Obtención de Datos
Almacenamiento
Procesamiento
Visualización
¿Qué es la Obtención de Datos?
“Es la etapa en proyectos BigData en la que se estudian los datos de la
fuente origen, se establecen procesos para su tratamiento, y estos son
volcados de manera coherente en sistemas de almacenamiento.”
Minería de Datos + Nuevas Tecnologías =
Obtención de Datos
Pero…¿Qué es para los equipos (con frecuencia)
la Obtención de Datos?
“Es una etapa crucial, necesaria y a menudo infravalorada.”
José Felipe Ortega, Científico de Datos de la URJC
30%
Ocupación Total en un proyecto:
Pero…¿Qué es para los equipos (con frecuencia)
la Obtención de Datos?
“Es una etapa crucial, necesaria y a menudo infravalorada.”
José Felipe Ortega, Científico de Datos de la URJC
80%
Ocupación Total en un proyecto:
Retos
Obtención de Datos
Retos de esta Etapa (I)
Gestión de Múltiples Fuentes de Datos: Online Vs Offline
API
F. B.
. . .
Retos de esta Etapa (II)
Técnicas de Obtención: Scraping, Streaming, APIs, HomeBrew…
Retos de esta Etapa (III)
Diferentes formatos de representación
Teoría Pokemon
Retos de esta Etapa (III)
Diferentes formatos de representación
Oracle Kettle Java …. Cassandra
Number Integer Integer …. Int
Ejemplo
Retos de esta Etapa (IV)
Consolidación de los datos obtenidos
· En campos de tipo Fecha nos encontramos con Descripciones
· En campos de tipo Numérico nos encontramos con Fechas
…(infinitas combinaciones cuyo cometido es enfurecer al equipo)
Retos de esta Etapa (V)
Movimiento de los datos
· A mayor cantidad de datos ocupa más volumen.
· Cuanto más ocupa, más lento se mueve en nuestro entorno:
- Copiado entre servidores
- Inspección de los datos
- Transformación de los datos
- Restauración de los datos
Retos de esta Etapa (VI)
Construcción de Módulos/Plugins intercambiables para manejar cada tipo de fuente…
Retos de esta Etapa (VI)
…por lo que debemos considerar diseños de colas de datos de entrada que gestionen:
Diferentes Velocidades
Datos Heterogéneos
Mantenimiento del orden de llegada
Retos de esta Etapa (VII)
Importa la velocidad de ejecución
· En flujos de datos en tiempo real podemos perder datos
si no los recuperamos a tiempo.
· Los tiempos de espera para fuentes muy grandes se pueden
alargar demasiado (días, semanas, años <- )
Retos de esta Etapa (VIII)
Límite de las fuentes: VENDOR LOCK-IN
Algunas Técnicas de
Obtención de Datos
Las Técnicas (I)
Sqoop
· Relacional
· NoSQL
· Relacional
· NoSQL
Hadoop
Las Técnicas (II)
Comando COPY de Cassandra
- Desarrollar desde 0 un programa para lanzar
múltiples instancias del comando
(secuencialmente, ya que paralelamente estaba
sujeto a errores de concurrencia)
- Paralelizable en varios nodos manualmente
Las Técnicas (III)
Pentaho Data Integration - Kettle
- Gran herramienta para tratamiento de datos
- Gran comunidad detrás
- Interfaz amigable
- Poco práctica en “El Mundo Real ™”
actualmente para ingestar volumen BigData
Las Técnicas (IV)
Flume
- Herramienta exclusiva para la etapa de
Obtención de datos
- Source
- Channel
- Sink
- Interceptor
Las Técnicas (IV)
Flume
Channel 1
Channel N
Source 1
.
.
.
.
.
.
Source 2
Sink 1
Sink 2
Las Técnicas (V)
Flume
.
.
.
Gracias
@javituiter
www.franciscojavierpulido.com

Más contenido relacionado

La actualidad más candente

Nuevos escenarios BI con SQL Server 2014
Nuevos escenarios BI con SQL Server 2014Nuevos escenarios BI con SQL Server 2014
Nuevos escenarios BI con SQL Server 2014Ruben Pertusa Lopez
 
Big Data para analizar las redes sociales
Big Data para analizar las redes socialesBig Data para analizar las redes sociales
Big Data para analizar las redes socialesDatKnoSys
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open SourceStratebi
 
Cómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organizaciónCómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organizaciónBEEVA_es
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Peter Kroll
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
2016 ULL Cabildo KEEDIO - Arquitecturas Big DataKEEDIO
 
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACKKEEDIO
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeEduardo Castro
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesStratebi
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosLuis Fernando Aguas Bucheli
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantesCarlos Toxtli
 
Cómo implementar una solución Big Data
Cómo implementar una solución Big DataCómo implementar una solución Big Data
Cómo implementar una solución Big DataAMETIC
 
2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data
2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data
2016 ULL Cabildo KEEDIO - Proyecto y Roles Big DataKEEDIO
 
Aplicaciones difusas manejo de grandes volúmenes de datos
Aplicaciones difusas manejo de grandes volúmenes de datosAplicaciones difusas manejo de grandes volúmenes de datos
Aplicaciones difusas manejo de grandes volúmenes de datosLuis Fernando Aguas Bucheli
 

La actualidad más candente (20)

"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Nuevos escenarios BI con SQL Server 2014
Nuevos escenarios BI con SQL Server 2014Nuevos escenarios BI con SQL Server 2014
Nuevos escenarios BI con SQL Server 2014
 
Big Data & RRHH
Big Data & RRHHBig Data & RRHH
Big Data & RRHH
 
Big Data para analizar las redes sociales
Big Data para analizar las redes socialesBig Data para analizar las redes sociales
Big Data para analizar las redes sociales
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
Cómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organizaciónCómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organización
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight Server
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
 
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nube
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
 
Querona
QueronaQuerona
Querona
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de Datos
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
Cómo implementar una solución Big Data
Cómo implementar una solución Big DataCómo implementar una solución Big Data
Cómo implementar una solución Big Data
 
2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data
2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data
2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data
 
Aplicaciones difusas manejo de grandes volúmenes de datos
Aplicaciones difusas manejo de grandes volúmenes de datosAplicaciones difusas manejo de grandes volúmenes de datos
Aplicaciones difusas manejo de grandes volúmenes de datos
 

Destacado

¿Es rentable innovar? Nuevos resultados utilizando técnicas de bigdata"
¿Es rentable innovar? Nuevos resultados utilizando técnicas de bigdata"¿Es rentable innovar? Nuevos resultados utilizando técnicas de bigdata"
¿Es rentable innovar? Nuevos resultados utilizando técnicas de bigdata"Laura Hernandez Garvayo
 
Icono apertura de datos públicos en I+D+i
Icono apertura de datos públicos en I+D+iIcono apertura de datos públicos en I+D+i
Icono apertura de datos públicos en I+D+iLaura Hernandez Garvayo
 
PPT Mobile Digital Workplace IIR BankingRevolution v4 - copia
PPT Mobile Digital Workplace IIR BankingRevolution v4 - copiaPPT Mobile Digital Workplace IIR BankingRevolution v4 - copia
PPT Mobile Digital Workplace IIR BankingRevolution v4 - copiaLuis Maria Lepe Marquez
 
Programacion Multihilo
Programacion MultihiloProgramacion Multihilo
Programacion MultihiloNICK
 
Roadmap Evaluando a través del diseño instruccional
Roadmap Evaluando a través del diseño instruccionalRoadmap Evaluando a través del diseño instruccional
Roadmap Evaluando a través del diseño instruccionalSelene Castilla
 
La transformación digital del sector financiero
La transformación digital del sector financieroLa transformación digital del sector financiero
La transformación digital del sector financieroAlex Rayón Jerez
 
Visual Design with Data
Visual Design with DataVisual Design with Data
Visual Design with DataSeth Familian
 

Destacado (8)

¿Es rentable innovar? Nuevos resultados utilizando técnicas de bigdata"
¿Es rentable innovar? Nuevos resultados utilizando técnicas de bigdata"¿Es rentable innovar? Nuevos resultados utilizando técnicas de bigdata"
¿Es rentable innovar? Nuevos resultados utilizando técnicas de bigdata"
 
Icono apertura de datos públicos en I+D+i
Icono apertura de datos públicos en I+D+iIcono apertura de datos públicos en I+D+i
Icono apertura de datos públicos en I+D+i
 
PPT Mobile Digital Workplace IIR BankingRevolution v4 - copia
PPT Mobile Digital Workplace IIR BankingRevolution v4 - copiaPPT Mobile Digital Workplace IIR BankingRevolution v4 - copia
PPT Mobile Digital Workplace IIR BankingRevolution v4 - copia
 
Programacion Multihilo
Programacion MultihiloProgramacion Multihilo
Programacion Multihilo
 
Roadmap Evaluando a través del diseño instruccional
Roadmap Evaluando a través del diseño instruccionalRoadmap Evaluando a través del diseño instruccional
Roadmap Evaluando a través del diseño instruccional
 
La transformación digital del sector financiero
La transformación digital del sector financieroLa transformación digital del sector financiero
La transformación digital del sector financiero
 
Transformacion Digital en la Banca
Transformacion Digital en la BancaTransformacion Digital en la Banca
Transformacion Digital en la Banca
 
Visual Design with Data
Visual Design with DataVisual Design with Data
Visual Design with Data
 

Similar a Obtención de Datos en #BigData

Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 
Que Es Un Datawarehouse
Que Es Un DatawarehouseQue Es Un Datawarehouse
Que Es Un Datawarehouseguest10616d
 
3.1. Datos Adquisición
3.1. Datos Adquisición3.1. Datos Adquisición
3.1. Datos AdquisiciónDavid Narváez
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosOscar Corcho
 
Empleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosEmpleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosAntonio Santos Ramos
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouseshady85
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Denodo
 
ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
ARQCONF2015: Creando una Arquitectura Moderna para Big Data AnalyticsARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
ARQCONF2015: Creando una Arquitectura Moderna para Big Data AnalyticsGustavo Arjones
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesDeysi Hdz
 
¿Cuál es el futuro de la estrategia de datos?
¿Cuál es el futuro de la estrategia de datos?¿Cuál es el futuro de la estrategia de datos?
¿Cuál es el futuro de la estrategia de datos?Denodo
 
Sistema de informacion gerencial
Sistema de informacion gerencialSistema de informacion gerencial
Sistema de informacion gerencialsanmarquino
 
Sistema De Informacion Gerencial
Sistema De Informacion GerencialSistema De Informacion Gerencial
Sistema De Informacion GerencialAndrescriba
 
Sistema De Informacion Gerencial
Sistema De Informacion GerencialSistema De Informacion Gerencial
Sistema De Informacion Gerencialmayracume
 
Sistema De Información Gerencial
Sistema De Información GerencialSistema De Información Gerencial
Sistema De Información Gerencialricardolch21
 
Sistema de informacion gerencial
Sistema de informacion gerencialSistema de informacion gerencial
Sistema de informacion gerencialsanmarquino
 

Similar a Obtención de Datos en #BigData (20)

Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
Que Es Un Datawarehouse
Que Es Un DatawarehouseQue Es Un Datawarehouse
Que Es Un Datawarehouse
 
Big data
Big dataBig data
Big data
 
3.1. Datos Adquisición
3.1. Datos Adquisición3.1. Datos Adquisición
3.1. Datos Adquisición
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los Datos
 
Empleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosEmpleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datos
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Capítulo 3 todo genera datos
Capítulo 3 todo genera datosCapítulo 3 todo genera datos
Capítulo 3 todo genera datos
 
Data
DataData
Data
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
ARQCONF2015: Creando una Arquitectura Moderna para Big Data AnalyticsARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De Desiciones
 
¿Cuál es el futuro de la estrategia de datos?
¿Cuál es el futuro de la estrategia de datos?¿Cuál es el futuro de la estrategia de datos?
¿Cuál es el futuro de la estrategia de datos?
 
Sistema De Informacion Gerencial
Sistema De Informacion GerencialSistema De Informacion Gerencial
Sistema De Informacion Gerencial
 
Sistema de informacion gerencial
Sistema de informacion gerencialSistema de informacion gerencial
Sistema de informacion gerencial
 
Sistema De Informacion Gerencial
Sistema De Informacion GerencialSistema De Informacion Gerencial
Sistema De Informacion Gerencial
 
Sistema De Informacion Gerencial
Sistema De Informacion GerencialSistema De Informacion Gerencial
Sistema De Informacion Gerencial
 
Sistema De Información Gerencial
Sistema De Información GerencialSistema De Información Gerencial
Sistema De Información Gerencial
 
Sistema de informacion gerencial
Sistema de informacion gerencialSistema de informacion gerencial
Sistema de informacion gerencial
 

Último

Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxJOSEFERNANDOARENASCA
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..RobertoGumucio2
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxAlexander López
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxMariaBurgos55
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxJOSEMANUELHERNANDEZH11
 

Último (20)

Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptx
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptx
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptx
 

Obtención de Datos en #BigData

  • 1. Obtención de Datos en #BigData @javituiter www.franciscojavierpulido.com
  • 6. Etapas Clásicas en Proyectos BigData Preparación y Transformación de los Datos Obtención de Datos Almacenamiento Procesamiento Visualización
  • 7. ¿Qué es la Obtención de Datos? “Es la etapa en proyectos BigData en la que se estudian los datos de la fuente origen, se establecen procesos para su tratamiento, y estos son volcados de manera coherente en sistemas de almacenamiento.”
  • 8. Minería de Datos + Nuevas Tecnologías = Obtención de Datos
  • 9. Pero…¿Qué es para los equipos (con frecuencia) la Obtención de Datos? “Es una etapa crucial, necesaria y a menudo infravalorada.” José Felipe Ortega, Científico de Datos de la URJC 30% Ocupación Total en un proyecto:
  • 10. Pero…¿Qué es para los equipos (con frecuencia) la Obtención de Datos? “Es una etapa crucial, necesaria y a menudo infravalorada.” José Felipe Ortega, Científico de Datos de la URJC 80% Ocupación Total en un proyecto:
  • 12. Retos de esta Etapa (I) Gestión de Múltiples Fuentes de Datos: Online Vs Offline API F. B. . . .
  • 13. Retos de esta Etapa (II) Técnicas de Obtención: Scraping, Streaming, APIs, HomeBrew…
  • 14. Retos de esta Etapa (III) Diferentes formatos de representación Teoría Pokemon
  • 15. Retos de esta Etapa (III) Diferentes formatos de representación Oracle Kettle Java …. Cassandra Number Integer Integer …. Int Ejemplo
  • 16. Retos de esta Etapa (IV) Consolidación de los datos obtenidos · En campos de tipo Fecha nos encontramos con Descripciones · En campos de tipo Numérico nos encontramos con Fechas …(infinitas combinaciones cuyo cometido es enfurecer al equipo)
  • 17. Retos de esta Etapa (V) Movimiento de los datos · A mayor cantidad de datos ocupa más volumen. · Cuanto más ocupa, más lento se mueve en nuestro entorno: - Copiado entre servidores - Inspección de los datos - Transformación de los datos - Restauración de los datos
  • 18. Retos de esta Etapa (VI) Construcción de Módulos/Plugins intercambiables para manejar cada tipo de fuente…
  • 19. Retos de esta Etapa (VI) …por lo que debemos considerar diseños de colas de datos de entrada que gestionen: Diferentes Velocidades Datos Heterogéneos Mantenimiento del orden de llegada
  • 20. Retos de esta Etapa (VII) Importa la velocidad de ejecución · En flujos de datos en tiempo real podemos perder datos si no los recuperamos a tiempo. · Los tiempos de espera para fuentes muy grandes se pueden alargar demasiado (días, semanas, años <- )
  • 21. Retos de esta Etapa (VIII) Límite de las fuentes: VENDOR LOCK-IN
  • 23. Las Técnicas (I) Sqoop · Relacional · NoSQL · Relacional · NoSQL Hadoop
  • 24. Las Técnicas (II) Comando COPY de Cassandra - Desarrollar desde 0 un programa para lanzar múltiples instancias del comando (secuencialmente, ya que paralelamente estaba sujeto a errores de concurrencia) - Paralelizable en varios nodos manualmente
  • 25. Las Técnicas (III) Pentaho Data Integration - Kettle - Gran herramienta para tratamiento de datos - Gran comunidad detrás - Interfaz amigable - Poco práctica en “El Mundo Real ™” actualmente para ingestar volumen BigData
  • 26. Las Técnicas (IV) Flume - Herramienta exclusiva para la etapa de Obtención de datos - Source - Channel - Sink - Interceptor
  • 27. Las Técnicas (IV) Flume Channel 1 Channel N Source 1 . . . . . . Source 2 Sink 1 Sink 2