SlideShare una empresa de Scribd logo
1 de 21
Arquitecturas Big Data
Daniel Tardón
dtardon@keedio.com
@danikeedio
RESUMEN
Lo que es Big Data
La cadena de valor de Big Data
Casos de uso – Con éxitos y fracasos
Roles de Big Data y el cambio en las organizaciones
Cómo lo hacemos: Con una plataforma y metodología
Solving Big Data Issues 3
LA CADENA DE VALOR BIG DATA
INGESTIÓN
ALMACENAMIENTO
Datos en crudo, sin tratar HDFS
BBDD NoSQL
Almacenamiento Operacional
CONSULTA
VISUALIZACIÓN
APLICACIONES
EXTERNAS
MACHINE LEARNING Y
PREDICITVE
TRATAMIENTO
Computación y tratamiento de los datos.
Batch, Tiempo Real, Streaming.
Solving Big Data Issues 4
INGESTIÓN
La ingesta es quizás la parte más importante en un
proyecto Big Data.
Puede consumir hasta un 80% de esfuerzos del proyecto.
La calidad del dato en la fase de ingesta marca gran parte
del éxito analítico posterior.
Big Data vs Clean Data.
Es muy importante el metadatado.
Es un proceso iterativo que busca aumentar la calidad de
la información.
Solving Big Data Issues 5
INGESTIÓN
Es crítico la elección de la herramienta adecuada según el
caso de uso o necesidades de ingesta.
Herramientas de flujo continuo o herramientas de
“ELT” (no ETL)
Desacoplamiento de la fuente del dato del Data Lake
Apache Kafka como elemento crítico en las arquitecturas
de ingesta
Apache Flume y Apache NiFi son las principales opciones,
pero no las únicas.
Solving Big Data Issues 6
ALMACENAMIENTO PERSISTENTE
Importante el concepto de almacenamiento en RAW.
Información cruda sin procesar para poder ser reutilizada.
Los eventos/información RAW se deben tratar como
”hechos” inmutables.
Este almacenamiento de información supone una
“golden source”.
Se hace en almacenamientos distribuidos por SW (bajo
coste). HDFS es el estándar del ecosistema Hadoop, pero
hay alternativas como CEPH o GLUSTERFS
En cloud imperan S3 (Amazon) y Blob Storage (Azure).
Solving Big Data Issues 7
PROCESAMIENTO
Dos modelos principales de procesamiento
§  BATCH
§  STREAMING
Aunque tienen objetivos analíticos
diferentes, existe una corriente en auge de
convergencia entre ambos .
11 100 01
0001 11
01 001 110
11 100 01
01 001 110
11 100 01
STREAM PROCESS BATCH PROCESS
horas< min
OPERATIONAL
STORAGE
Solving Big Data Issues 8
PROCESAMIENTO: BATCH
El procesamiento en Batch tiene un objetivo principal
atemporal.
Trabaja con grandes volúmenes de datos sin tener tanta
relevancia la latencia u obtención de resultados rápidos.
El origen está en el paradigma de MapReduce pero hay
nuevos frameworks que lo optimizan.
En estos framework de procesamiento se prima el
throughput sobre la latencia.
Existen herramientas de abstracción a MapReduce como
Hive para establecer consultas SQL like sobre los datos.
Solving Big Data Issues 9
PROCESAMIENTO: STREAMING
En los frameworks de Streaming prima la baja latencia
sobre el throughput.
Habitualmente los resultados de los procesos son
enviados a apps externas o a BBDD NoSQL de baja
latencia de consulta.
Según el modelo se pueden utilizar diferentes
herramientas:
§  Spark Streaming - Micro Batches
§  Storm – Real Time, basado en eventos
En ocasiones se complementa la funcionalidad de los
framworks con el uso de herramientas CEP.
Solving Big Data Issues
LENGUAJES, FRAMEWORKS E IDES/NOTEBOOKS - ENCUESTA
10
Languages
Python
R
Scala
Frameworks
Map Reduce: under the hood in most services/applications
Spark
§  Spark-Scala
§  PySpark
§  SparkR
Flink (Java & Scala)
IDEs/notebooks
Jupyter
Zeppelin
RStudio
Spyder
Other IDEs: IntelliJ & Eclipse
Reported usage & Big Data roles
Python è data engineers/scientists
R è data scientists (biased towards analysis)
Scala è data engineers
Python + {R|Scala} è data engineers/scientists
No Framework: Python (pandas) or R
Spark single flavor: PySpark typically
Multiple Spark: PySpark + Scala-Spark
Python: Jupyter (70%), Spyder (25%)
Scala: Zeppelin (40%), IntelliJ (30%), Jupyter (25%)
R: RStudio (75%)
Solving Big Data Issues 11
MACHINE LEARNING
Machine Learning
Conjunto de técnicas estadístico-
matemáticas que permiten
aprender a sistemas
informáticos las características
de usuarios, procesos,
fenómenos… para
Predecir
Anticiparse a tendencias, decisiones o
demandas del mercado/clientes a partir
de un modelo y unas entradas
predefinidas
Clasificar
Reconocer el grupo/clase de individuos,
sucesos o eventos para responder/
gestionarlos de forma más eficiente
Sistemas de recomendación
Aprendizaje contínuo para
adaptar sugerencias,
presentación de productos, etc.
que permite amoldarse
automáticamente a gustos/
necesidades del cliente
Solving Big Data Issues 12
MACHINE LEARNING
Analytics: Statistics, Math & Machine Learning
Distributed computation
Batch or stream: offline or online analytics
Spark MLlib
Language specific APIs
•  Scala: ScalaNLP
•  Python: Scikit-learn, SciPy, NumPy…
•  R: CRAN packages such as caret, randomForest, glmnet
MLlib
Backend implementation w/ interfaces to Scala, Python & R
Solving Big Data Issues 13
BBDD OPERACIONALES – NoSQL
Son BBDD de baja latencia (escritura y/o lectura).
Hay algunas que lo que almacenan son “documentos” y
otras utilizadas para almacenar y manipular series
temporales.
Non ACID
Existe multitud de alternativas y no necesariamente hay
una mejor que otras para propósito general.
Elasticsearch vs Solr (indexadores no BD), Couchbase vs
MongoDB, Cassandra vs Riak
Solving Big Data Issues 14
EXPLOTACIÓN
Cada vez existen más conectores con el ecosistema
HADOOP.
Normalmente hay compatibilidad JDBC/ODBC con la
mayoría de las NoSQL y frameworks de computación.
Las APIs son la otra gran solución de explotación.
Aquí es donde BI se convierte en un actor importante
como complemento con Big Data.
Hay proyectos de Big Data que no se pueden hacer con BI.
Hay proyectos de BI que sí se pueden hacer con Big Data.
15
ARQUITECTURAS
Solving Big Data Issues 16
ARQUITECTURAS: LAMBDA – KAPPA – What’s next?
What’s next?
Solving Big Data Issues 17
ARQUITECTURA AD-HOC
BI Tools
Dashboard
s & Reports
Monitoring
Services
Aplicaciones
Externas
SUBSEQUEN
T ANALISYS
(Data Science
Tools)
FUENTES INTERNAS
FUENTES EXTERNAS
AGENTESDEINGESTA
BROKERMENSAJERÍA
OP STORAGE
NoSQL
HDFS HDFS HDFS
STREAMING
BATCH Y ALMACENAMIENTO
18
PLATAFORMA
We’re hiring!
¡Gracias!
¿Tenéis
Preguntas?
Tenemos
Respuestas
Calle Virgilio 25
Edificio Ayessa I, Bajo D
Pozuelo de Alarcón
28223 Madrid
@keedioinfo@keedio.comwww.keedio.com keedio

Más contenido relacionado

La actualidad más candente

Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsMundo Contact
 
Tecnologías exponenciales
Tecnologías exponencialesTecnologías exponenciales
Tecnologías exponencialesLeonardo Clavijo
 
Cómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organizaciónCómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organizaciónBEEVA_es
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big DataStratebi
 
Big Data para analizar las redes sociales
Big Data para analizar las redes socialesBig Data para analizar las redes sociales
Big Data para analizar las redes socialesDatKnoSys
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
 
Introduccion a Data Science
Introduccion a Data ScienceIntroduccion a Data Science
Introduccion a Data ScienceSpanishPASSVC
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Peter Kroll
 
Big data, Big Objects
Big data, Big ObjectsBig data, Big Objects
Big data, Big ObjectsNimacloud
 
Desmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataDesmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataBEEVA_es
 
Cómo implementar una solución Big Data
Cómo implementar una solución Big DataCómo implementar una solución Big Data
Cómo implementar una solución Big DataAMETIC
 
Data Science - Analítica Predictiva y Evolución de BI
Data Science - Analítica Predictiva y Evolución de BIData Science - Analítica Predictiva y Evolución de BI
Data Science - Analítica Predictiva y Evolución de BIPatricio Del Boca
 
El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...
El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...
El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...cruetic2015
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Denodo
 
Exploradata - A new BigData Company
Exploradata - A new BigData CompanyExploradata - A new BigData Company
Exploradata - A new BigData CompanyExploradata
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeEduardo Castro
 
Introducción a BigData - up - 2015
Introducción a BigData - up - 2015Introducción a BigData - up - 2015
Introducción a BigData - up - 2015Gabriel Eisbruch
 

La actualidad más candente (20)

Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big Results
 
Tecnologías exponenciales
Tecnologías exponencialesTecnologías exponenciales
Tecnologías exponenciales
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
Cómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organizaciónCómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organización
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Big Data para analizar las redes sociales
Big Data para analizar las redes socialesBig Data para analizar las redes sociales
Big Data para analizar las redes sociales
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
Introduccion a Data Science
Introduccion a Data ScienceIntroduccion a Data Science
Introduccion a Data Science
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015
 
Big data, Big Objects
Big data, Big ObjectsBig data, Big Objects
Big data, Big Objects
 
Desmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataDesmitificando un proyecto de Big Data
Desmitificando un proyecto de Big Data
 
Cómo implementar una solución Big Data
Cómo implementar una solución Big DataCómo implementar una solución Big Data
Cómo implementar una solución Big Data
 
Data Science - Analítica Predictiva y Evolución de BI
Data Science - Analítica Predictiva y Evolución de BIData Science - Analítica Predictiva y Evolución de BI
Data Science - Analítica Predictiva y Evolución de BI
 
El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...
El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...
El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
Exploradata - A new BigData Company
Exploradata - A new BigData CompanyExploradata - A new BigData Company
Exploradata - A new BigData Company
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nube
 
Introducción a BigData - up - 2015
Introducción a BigData - up - 2015Introducción a BigData - up - 2015
Introducción a BigData - up - 2015
 

Destacado

Infographic: eCommerce en España 2014
Infographic: eCommerce en España 2014Infographic: eCommerce en España 2014
Infographic: eCommerce en España 2014Itequia
 
Pollution: The Silent Killer of Millions in Poor Countries (10 slides)
Pollution:  The Silent Killer of Millions in Poor Countries (10 slides)Pollution:  The Silent Killer of Millions in Poor Countries (10 slides)
Pollution: The Silent Killer of Millions in Poor Countries (10 slides)Blacksmithinstitute
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantesCarlos Toxtli
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big DataDavid Alayón
 
Flexforms made simple
Flexforms made simpleFlexforms made simple
Flexforms made simplekaivogel
 
Nuestra familia apostólica alemán
Nuestra familia apostólica    alemánNuestra familia apostólica    alemán
Nuestra familia apostólica alemánfederaciondefamilias
 
Yoon & uysal modell
Yoon & uysal modellYoon & uysal modell
Yoon & uysal modellTanja1985
 
Lineamientos generales para la presentacion del examen de estado saber 11 2015
Lineamientos generales para la presentacion del examen de estado saber 11 2015Lineamientos generales para la presentacion del examen de estado saber 11 2015
Lineamientos generales para la presentacion del examen de estado saber 11 2015natalia echeverria
 
Fonda Casestudy: Das Online Vertriebsportal der Generali Deutschland
Fonda Casestudy: Das Online Vertriebsportal der Generali DeutschlandFonda Casestudy: Das Online Vertriebsportal der Generali Deutschland
Fonda Casestudy: Das Online Vertriebsportal der Generali DeutschlandFonda Wien
 
Un Aguante al interior
Un Aguante al interiorUn Aguante al interior
Un Aguante al interiorLole Barbuto
 
Ran an den Trend! Entwicklungen rund um das Thema Elektrorad in den Niederlanden
Ran an den Trend! Entwicklungen rund um das Thema Elektrorad in den NiederlandenRan an den Trend! Entwicklungen rund um das Thema Elektrorad in den Niederlanden
Ran an den Trend! Entwicklungen rund um das Thema Elektrorad in den NiederlandenMobycon
 
Animales rafa pardo
Animales rafa pardoAnimales rafa pardo
Animales rafa pardoRafaPardo
 
Protokoll 1. vorstandssitzung 15.01.2012
Protokoll 1. vorstandssitzung 15.01.2012Protokoll 1. vorstandssitzung 15.01.2012
Protokoll 1. vorstandssitzung 15.01.2012TAG-eV
 
202 mein führungsstil 18 blickwinkel
202 mein führungsstil 18 blickwinkel202 mein führungsstil 18 blickwinkel
202 mein führungsstil 18 blickwinkelVeränderungsprozess
 

Destacado (20)

Infographic: eCommerce en España 2014
Infographic: eCommerce en España 2014Infographic: eCommerce en España 2014
Infographic: eCommerce en España 2014
 
Pollution: The Silent Killer of Millions in Poor Countries (10 slides)
Pollution:  The Silent Killer of Millions in Poor Countries (10 slides)Pollution:  The Silent Killer of Millions in Poor Countries (10 slides)
Pollution: The Silent Killer of Millions in Poor Countries (10 slides)
 
Big Data: Experiencias (académicas) reales
Big Data: Experiencias (académicas) realesBig Data: Experiencias (académicas) reales
Big Data: Experiencias (académicas) reales
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
Flexforms made simple
Flexforms made simpleFlexforms made simple
Flexforms made simple
 
Nuestra familia apostólica alemán
Nuestra familia apostólica    alemánNuestra familia apostólica    alemán
Nuestra familia apostólica alemán
 
Yoon & uysal modell
Yoon & uysal modellYoon & uysal modell
Yoon & uysal modell
 
Lineamientos generales para la presentacion del examen de estado saber 11 2015
Lineamientos generales para la presentacion del examen de estado saber 11 2015Lineamientos generales para la presentacion del examen de estado saber 11 2015
Lineamientos generales para la presentacion del examen de estado saber 11 2015
 
Fonda Casestudy: Das Online Vertriebsportal der Generali Deutschland
Fonda Casestudy: Das Online Vertriebsportal der Generali DeutschlandFonda Casestudy: Das Online Vertriebsportal der Generali Deutschland
Fonda Casestudy: Das Online Vertriebsportal der Generali Deutschland
 
Desert scenes 2
Desert scenes 2Desert scenes 2
Desert scenes 2
 
E Skill Education
E Skill EducationE Skill Education
E Skill Education
 
Regionale Werbemärkte: Budgets und Zufriedenheit
Regionale Werbemärkte: Budgets und ZufriedenheitRegionale Werbemärkte: Budgets und Zufriedenheit
Regionale Werbemärkte: Budgets und Zufriedenheit
 
Presentation_1370606544514
Presentation_1370606544514Presentation_1370606544514
Presentation_1370606544514
 
Stefanny
StefannyStefanny
Stefanny
 
Un Aguante al interior
Un Aguante al interiorUn Aguante al interior
Un Aguante al interior
 
Ran an den Trend! Entwicklungen rund um das Thema Elektrorad in den Niederlanden
Ran an den Trend! Entwicklungen rund um das Thema Elektrorad in den NiederlandenRan an den Trend! Entwicklungen rund um das Thema Elektrorad in den Niederlanden
Ran an den Trend! Entwicklungen rund um das Thema Elektrorad in den Niederlanden
 
Animales rafa pardo
Animales rafa pardoAnimales rafa pardo
Animales rafa pardo
 
Protokoll 1. vorstandssitzung 15.01.2012
Protokoll 1. vorstandssitzung 15.01.2012Protokoll 1. vorstandssitzung 15.01.2012
Protokoll 1. vorstandssitzung 15.01.2012
 
202 mein führungsstil 18 blickwinkel
202 mein führungsstil 18 blickwinkel202 mein führungsstil 18 blickwinkel
202 mein führungsstil 18 blickwinkel
 

Similar a 2016 ULL Cabildo KEEDIO - Arquitecturas Big Data

Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open SourceStratebi
 
Universidad de Concepción - EDUTIC 2011
Universidad de Concepción - EDUTIC 2011Universidad de Concepción - EDUTIC 2011
Universidad de Concepción - EDUTIC 2011EDUTIC
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerEduardo Castro
 
Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"Javier Peña
 
¿Cuál es el futuro de la estrategia de datos?
¿Cuál es el futuro de la estrategia de datos?¿Cuál es el futuro de la estrategia de datos?
¿Cuál es el futuro de la estrategia de datos?Denodo
 
Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoDatalytics
 
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdfeBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdfNubiral
 
Marcos Macedo Entregable final Analítica de Datos
Marcos Macedo Entregable final Analítica de DatosMarcos Macedo Entregable final Analítica de Datos
Marcos Macedo Entregable final Analítica de DatosMarcos Macedo
 
Adaptive Big Data Pipelines
Adaptive Big Data PipelinesAdaptive Big Data Pipelines
Adaptive Big Data PipelinesCarlos Fuentes
 
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6Dell EMC
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...CICE
 

Similar a 2016 ULL Cabildo KEEDIO - Arquitecturas Big Data (20)

Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
Querona
QueronaQuerona
Querona
 
Business Analytics 101
Business Analytics 101Business Analytics 101
Business Analytics 101
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
Universidad de Concepción - EDUTIC 2011
Universidad de Concepción - EDUTIC 2011Universidad de Concepción - EDUTIC 2011
Universidad de Concepción - EDUTIC 2011
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
 
Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"
 
¿Cuál es el futuro de la estrategia de datos?
¿Cuál es el futuro de la estrategia de datos?¿Cuál es el futuro de la estrategia de datos?
¿Cuál es el futuro de la estrategia de datos?
 
Big data
Big dataBig data
Big data
 
Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con Pentaho
 
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdfeBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
 
Marcos Macedo Entregable final Analítica de Datos
Marcos Macedo Entregable final Analítica de DatosMarcos Macedo Entregable final Analítica de Datos
Marcos Macedo Entregable final Analítica de Datos
 
Adaptive Big Data Pipelines
Adaptive Big Data PipelinesAdaptive Big Data Pipelines
Adaptive Big Data Pipelines
 
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
 
Claves para entender el actual big data
Claves para entender el actual big dataClaves para entender el actual big data
Claves para entender el actual big data
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
Funciones de un DBA y tipos de BD
Funciones de un DBA y tipos de BDFunciones de un DBA y tipos de BD
Funciones de un DBA y tipos de BD
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
S15 bi v1-1
S15 bi v1-1S15 bi v1-1
S15 bi v1-1
 

Último

La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxJOSEFERNANDOARENASCA
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 

Último (20)

La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptx
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 

2016 ULL Cabildo KEEDIO - Arquitecturas Big Data

  • 1. Arquitecturas Big Data Daniel Tardón dtardon@keedio.com @danikeedio
  • 2. RESUMEN Lo que es Big Data La cadena de valor de Big Data Casos de uso – Con éxitos y fracasos Roles de Big Data y el cambio en las organizaciones Cómo lo hacemos: Con una plataforma y metodología
  • 3. Solving Big Data Issues 3 LA CADENA DE VALOR BIG DATA INGESTIÓN ALMACENAMIENTO Datos en crudo, sin tratar HDFS BBDD NoSQL Almacenamiento Operacional CONSULTA VISUALIZACIÓN APLICACIONES EXTERNAS MACHINE LEARNING Y PREDICITVE TRATAMIENTO Computación y tratamiento de los datos. Batch, Tiempo Real, Streaming.
  • 4. Solving Big Data Issues 4 INGESTIÓN La ingesta es quizás la parte más importante en un proyecto Big Data. Puede consumir hasta un 80% de esfuerzos del proyecto. La calidad del dato en la fase de ingesta marca gran parte del éxito analítico posterior. Big Data vs Clean Data. Es muy importante el metadatado. Es un proceso iterativo que busca aumentar la calidad de la información.
  • 5. Solving Big Data Issues 5 INGESTIÓN Es crítico la elección de la herramienta adecuada según el caso de uso o necesidades de ingesta. Herramientas de flujo continuo o herramientas de “ELT” (no ETL) Desacoplamiento de la fuente del dato del Data Lake Apache Kafka como elemento crítico en las arquitecturas de ingesta Apache Flume y Apache NiFi son las principales opciones, pero no las únicas.
  • 6. Solving Big Data Issues 6 ALMACENAMIENTO PERSISTENTE Importante el concepto de almacenamiento en RAW. Información cruda sin procesar para poder ser reutilizada. Los eventos/información RAW se deben tratar como ”hechos” inmutables. Este almacenamiento de información supone una “golden source”. Se hace en almacenamientos distribuidos por SW (bajo coste). HDFS es el estándar del ecosistema Hadoop, pero hay alternativas como CEPH o GLUSTERFS En cloud imperan S3 (Amazon) y Blob Storage (Azure).
  • 7. Solving Big Data Issues 7 PROCESAMIENTO Dos modelos principales de procesamiento §  BATCH §  STREAMING Aunque tienen objetivos analíticos diferentes, existe una corriente en auge de convergencia entre ambos . 11 100 01 0001 11 01 001 110 11 100 01 01 001 110 11 100 01 STREAM PROCESS BATCH PROCESS horas< min OPERATIONAL STORAGE
  • 8. Solving Big Data Issues 8 PROCESAMIENTO: BATCH El procesamiento en Batch tiene un objetivo principal atemporal. Trabaja con grandes volúmenes de datos sin tener tanta relevancia la latencia u obtención de resultados rápidos. El origen está en el paradigma de MapReduce pero hay nuevos frameworks que lo optimizan. En estos framework de procesamiento se prima el throughput sobre la latencia. Existen herramientas de abstracción a MapReduce como Hive para establecer consultas SQL like sobre los datos.
  • 9. Solving Big Data Issues 9 PROCESAMIENTO: STREAMING En los frameworks de Streaming prima la baja latencia sobre el throughput. Habitualmente los resultados de los procesos son enviados a apps externas o a BBDD NoSQL de baja latencia de consulta. Según el modelo se pueden utilizar diferentes herramientas: §  Spark Streaming - Micro Batches §  Storm – Real Time, basado en eventos En ocasiones se complementa la funcionalidad de los framworks con el uso de herramientas CEP.
  • 10. Solving Big Data Issues LENGUAJES, FRAMEWORKS E IDES/NOTEBOOKS - ENCUESTA 10 Languages Python R Scala Frameworks Map Reduce: under the hood in most services/applications Spark §  Spark-Scala §  PySpark §  SparkR Flink (Java & Scala) IDEs/notebooks Jupyter Zeppelin RStudio Spyder Other IDEs: IntelliJ & Eclipse Reported usage & Big Data roles Python è data engineers/scientists R è data scientists (biased towards analysis) Scala è data engineers Python + {R|Scala} è data engineers/scientists No Framework: Python (pandas) or R Spark single flavor: PySpark typically Multiple Spark: PySpark + Scala-Spark Python: Jupyter (70%), Spyder (25%) Scala: Zeppelin (40%), IntelliJ (30%), Jupyter (25%) R: RStudio (75%)
  • 11. Solving Big Data Issues 11 MACHINE LEARNING Machine Learning Conjunto de técnicas estadístico- matemáticas que permiten aprender a sistemas informáticos las características de usuarios, procesos, fenómenos… para Predecir Anticiparse a tendencias, decisiones o demandas del mercado/clientes a partir de un modelo y unas entradas predefinidas Clasificar Reconocer el grupo/clase de individuos, sucesos o eventos para responder/ gestionarlos de forma más eficiente Sistemas de recomendación Aprendizaje contínuo para adaptar sugerencias, presentación de productos, etc. que permite amoldarse automáticamente a gustos/ necesidades del cliente
  • 12. Solving Big Data Issues 12 MACHINE LEARNING Analytics: Statistics, Math & Machine Learning Distributed computation Batch or stream: offline or online analytics Spark MLlib Language specific APIs •  Scala: ScalaNLP •  Python: Scikit-learn, SciPy, NumPy… •  R: CRAN packages such as caret, randomForest, glmnet MLlib Backend implementation w/ interfaces to Scala, Python & R
  • 13. Solving Big Data Issues 13 BBDD OPERACIONALES – NoSQL Son BBDD de baja latencia (escritura y/o lectura). Hay algunas que lo que almacenan son “documentos” y otras utilizadas para almacenar y manipular series temporales. Non ACID Existe multitud de alternativas y no necesariamente hay una mejor que otras para propósito general. Elasticsearch vs Solr (indexadores no BD), Couchbase vs MongoDB, Cassandra vs Riak
  • 14. Solving Big Data Issues 14 EXPLOTACIÓN Cada vez existen más conectores con el ecosistema HADOOP. Normalmente hay compatibilidad JDBC/ODBC con la mayoría de las NoSQL y frameworks de computación. Las APIs son la otra gran solución de explotación. Aquí es donde BI se convierte en un actor importante como complemento con Big Data. Hay proyectos de Big Data que no se pueden hacer con BI. Hay proyectos de BI que sí se pueden hacer con Big Data.
  • 16. Solving Big Data Issues 16 ARQUITECTURAS: LAMBDA – KAPPA – What’s next? What’s next?
  • 17. Solving Big Data Issues 17 ARQUITECTURA AD-HOC BI Tools Dashboard s & Reports Monitoring Services Aplicaciones Externas SUBSEQUEN T ANALISYS (Data Science Tools) FUENTES INTERNAS FUENTES EXTERNAS AGENTESDEINGESTA BROKERMENSAJERÍA OP STORAGE NoSQL HDFS HDFS HDFS STREAMING BATCH Y ALMACENAMIENTO
  • 21. Calle Virgilio 25 Edificio Ayessa I, Bajo D Pozuelo de Alarcón 28223 Madrid @keedioinfo@keedio.comwww.keedio.com keedio