SlideShare una empresa de Scribd logo
1 de 32
Descargar para leer sin conexión
PANORAMA BIGDATA, CONOCE
EL PROBLEMA ANTES DE
ELEGIR TU SOLUCIÓN
Javier Gómez Santos
Formador técnico
Panorama Big Data
Panorama Big Data
Hadoop, su historia
• 2002: Doug Cutting crea Nutch
• 2003: Google publica un White paper
sobre su GFS
• 2004: nace NDFS, precursor del HDFS
• 2004: Google publica un White Paper
con la metodología MapReduce
• 2005: se implementa MapReduce sobre
NDFS
• 2008: Yahoo contrata a Doug Cutting
para usar Hadoop a nivel web
• Hadoop era el nombre del peluche que
tenía el hijo de Doug Cutting, un elefante
amarillo
Hadoop, ¿Qué es?
• Hadoop es un Data Lake, un sistema que
almacena datos tal y como son
originados por una fuente.
• Estos datos, no son modificados, y serán
explotados por distintos procesos para
labores analíticas
• Los componentes principales de Hadoop
son el HDFS y el YARN
• Está escrito en Java
Hadoop, HDFS
HDFS es un sistema de ficheros distribuido.
Almacena los ficheros partiéndolos en
bloques de tamaño fijo, y distribuyéndolos
a través de múltiples nodos.
Es muy fiable, ya que realiza múltiples
copias de los datos (réplicas)
Tiene operaciones que se encargan de
reparar los bloques defectuosos
Hadoop, HDFS
HDFS, arquitectura
HDFS posee tres tipos de nodos:
• Namenode, un único nodo que conoce
los ficheros y los bloques que lo forman
• Datanode, cada uno de los nodos
susceptibles de recibir bloques
• Secondary Namenode, un único nodo
que realiza labores de compactación
para el Namenode
Hadoop, YARN
YARN gestiona los recursos de procesador
y memoria de los nodos del clúster.
Cuando un proceso se planifica, se
distribuye en varios nodos, en
contendedores.
Cada contenedor, tiene una serie de
recursos asignados.
Prioriza la cercanía, se mueve el proceso al
dato y no al revés.
Hadoop, YARN
MapReduce
Es la metodología que se usa para explotar
un clúster Hadoop. Permite distribuir la
computación
Ecosistema Hadoop
Hadoop, ¿Cuándo?
Hadoop es de utilidad cuando:
• Tienes un conjunto de datos muy grande
• Datos muy diversos (desde ficheros de
logs hasta xml…)
• Te ves obligado a deshacerte de
información que podría ser útil
• Realizas labores analíticas sobre la
información almacenada
Hadoop, ¿Cuándo no?
Hadoop NO debe usarse si:
• Buscas un sistema de consulta en
tiempo real
• Vas a almacenar información sensible
• Vas a modificar la información
almacenada
• Si tienes intención de sustituir un
Warehouse (se complementan)
Mongo, su historia
• 2007: 10gen comienda a desarrollar
MongoDB
• 2009: Cambian el modelo de negocio a
Open Source, con soporte commercial
• 2013: 10gen cambia su nombre a
MongoDB Inc.
• Mongo viene de la palabra humongous
(gigantesco)
MongoDB, ¿qué es?
MongoDB es una base de datos NoSQL, de
tipo documental, que permite un gran
escalado
Los documentos se almacenan en
colecciones, y no tienen por qué tener un
patrón definido. Se define este patrón como
Esquema Dinámico.
Permite modificar los datos insertados,
crear índices y posee un framework de
agregación
MongoDB, query
language
MongoDB, Arquitectura
MongoDB permite el escalado usando
Shards, formados por Replica Set
MongoDB, Aggregation
MongoDB permite realizar labores
analíticas, mediante su framework de
agregación
MongoDB, ¿Cuándo?
MongoDB es de utilidad cuando:
• Necesitamos realizar
lecturas/escrituras en tiempo real.
• Vamos a modificar la información
almacenada.
• Los requisitos nos obligan a tener un
esquema altamente cambiante.
• Buscamos un sistema que escale con
facilidad
MongoDB, ¿Cuándo
no?
MongoDB NO debe usarse si:
• Necesitamos realizar labores analíticas
pesadas
• Los datos no son transformados desde
la fuente, y necesitamos guardarlos tal
como se generan
• Tenemos miedo de que los
desarrolladores no sigan unas reglas
(MongoDB no les fuerza)
Cassandra, su historia
• 2004: Comienza a desarrollarse BigTable
• 2007: Amazon presenta Dynamo
• 2008: Facebook libera Cassandra, como
proyecto Open Source (basado en BigTable
y Dynamo)
• 2011: Se presenta CQL, lenguaje de acceso
a datos basado en SQL
Cassandra, ¿qué es?
Una base de datos NoSQL basada en
Column Families.
Posee un esquema definido, pero flexible,
que permite su alteración.
Usa un modelo totalmente distribuido, sin
nodos maestros.
Cassandra, CQL
Un lenguaje de consultas similar a SQL
Cassandra, arquitectura
Node 4 Node 2
127.0.0.2
Node 3
127.0.0.3
127.0.0.4
Seed
Node 1
127.0.0.1
Cassandra, distribución
Node 1
Node 3
Node 2Node 4
- 263+ 263
Cassandra, acceso
Node 1
Node 3
Node 2Node 4
Client
RF=3
CL=QUORUM
Cassandra, analíticas
Cassandra no permite realizar operaciones
analíticas directamente, pero es compatible
con Spark, con lo que podemos delegar en
él para dicha tarea
Cassandra, ¿cuándo?
Cassandra es de utilidad cuando:
• Necesitamos un acceso en tiempo real
de escritura o lectura.
• Conocemos de antemano cómo vamos
a atacar a nuestro modelo de datos
• Buscamos un modelo que ofrezca el
mejor rendimiento, escalado y
disponibilidad
Cassandra, ¿cuándo no?
Cassandra NO debe usarse cuando:
• Cuando queramos guardar los datos tal
como se generan en el origen.
• No tengamos claro cómo vamos a
realizar las consultas
• Necesitemos realizar analíticas y no
podamos implantar Spark
• Nuestro modelo de datos cambia de
manera drástica en poco tiempo
En definitiva:
Hadoop MongoDB Cassandra
Analíticas Si Limitadas Si (Spark)
Acceso TR No Si Si
Modificar No Si Si
Modelo de datos Puede con
todo
Muy flexible Flexible
Alta
disponibilidad
Soluciones
complejas
Caídas de
hasta 10s
Si
Definir workflow
previamente
No es
necesario
No es
necesario
Es obligatorio
para modelar
Panorama BigData (OpenExpo2017)

Más contenido relacionado

La actualidad más candente

Big table por Matias tesoriero
Big table por Matias tesorieroBig table por Matias tesoriero
Big table por Matias tesorieromtesoriero
 
Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016Ángel Rayo
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Curso de Ajax
Curso de AjaxCurso de Ajax
Curso de Ajaxcamposer
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveWellness Telecom
 
Enterprise Ready Data Warehousing in the Cloud
Enterprise Ready Data Warehousing in the CloudEnterprise Ready Data Warehousing in the Cloud
Enterprise Ready Data Warehousing in the CloudRaul Martin Sarachaga Diaz
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopArsys
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Guillermo Alvarado Mejía
 
Sql Saturday Guatemala 2018 - Azure SQL Data Warehouse
Sql Saturday Guatemala 2018 - Azure SQL Data WarehouseSql Saturday Guatemala 2018 - Azure SQL Data Warehouse
Sql Saturday Guatemala 2018 - Azure SQL Data WarehouseJOSE AHIAS LOPEZ PORTILLO
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
 
DocumentDB la base de datos NoSql de Microsoft Azure
DocumentDB la base de datos NoSql de Microsoft AzureDocumentDB la base de datos NoSql de Microsoft Azure
DocumentDB la base de datos NoSql de Microsoft AzureGustavo Alzate Sandoval
 
Introducción al mundo NoSQL
Introducción al mundo NoSQLIntroducción al mundo NoSQL
Introducción al mundo NoSQLCésar Rodas
 
Primeros pasos con Apache Spark - Madrid Meetup
Primeros pasos con Apache Spark - Madrid MeetupPrimeros pasos con Apache Spark - Madrid Meetup
Primeros pasos con Apache Spark - Madrid Meetupdhiguero
 
Introducción a NoSQL
Introducción a NoSQLIntroducción a NoSQL
Introducción a NoSQLCycle-IT
 
Tech tuesday Big data with horton works
Tech tuesday Big data with horton worksTech tuesday Big data with horton works
Tech tuesday Big data with horton worksnetmind
 

La actualidad más candente (20)

Big table por Matias tesoriero
Big table por Matias tesorieroBig table por Matias tesoriero
Big table por Matias tesoriero
 
Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
 
Hadoop
HadoopHadoop
Hadoop
 
Introducción a hadoop
Introducción a hadoopIntroducción a hadoop
Introducción a hadoop
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Curso de Ajax
Curso de AjaxCurso de Ajax
Curso de Ajax
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y Hive
 
Enterprise Ready Data Warehousing in the Cloud
Enterprise Ready Data Warehousing in the CloudEnterprise Ready Data Warehousing in the Cloud
Enterprise Ready Data Warehousing in the Cloud
 
Intro cassandra
Intro cassandraIntro cassandra
Intro cassandra
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar Hadoop
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack
 
Sql Saturday Guatemala 2018 - Azure SQL Data Warehouse
Sql Saturday Guatemala 2018 - Azure SQL Data WarehouseSql Saturday Guatemala 2018 - Azure SQL Data Warehouse
Sql Saturday Guatemala 2018 - Azure SQL Data Warehouse
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
 
DocumentDB la base de datos NoSql de Microsoft Azure
DocumentDB la base de datos NoSql de Microsoft AzureDocumentDB la base de datos NoSql de Microsoft Azure
DocumentDB la base de datos NoSql de Microsoft Azure
 
Introducción al mundo NoSQL
Introducción al mundo NoSQLIntroducción al mundo NoSQL
Introducción al mundo NoSQL
 
Primeros pasos con Apache Spark - Madrid Meetup
Primeros pasos con Apache Spark - Madrid MeetupPrimeros pasos con Apache Spark - Madrid Meetup
Primeros pasos con Apache Spark - Madrid Meetup
 
NoSQL - MongoDB
NoSQL - MongoDBNoSQL - MongoDB
NoSQL - MongoDB
 
Introducción a NoSQL
Introducción a NoSQLIntroducción a NoSQL
Introducción a NoSQL
 
Tech tuesday Big data with horton works
Tech tuesday Big data with horton worksTech tuesday Big data with horton works
Tech tuesday Big data with horton works
 

Similar a Panorama BigData (OpenExpo2017)

Similar a Panorama BigData (OpenExpo2017) (20)

Sistemas distribuidos
Sistemas distribuidosSistemas distribuidos
Sistemas distribuidos
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Polybase
PolybasePolybase
Polybase
 
Act4 bd teo
Act4 bd teoAct4 bd teo
Act4 bd teo
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Clase Hadoop
Clase HadoopClase Hadoop
Clase Hadoop
 
Mongo bd michael landeo vargas
Mongo bd michael landeo vargasMongo bd michael landeo vargas
Mongo bd michael landeo vargas
 
Base de datos no sql
Base de datos no sqlBase de datos no sql
Base de datos no sql
 
Actividad 4
Actividad 4Actividad 4
Actividad 4
 
MongoDB
MongoDBMongoDB
MongoDB
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big Data
 
Modernizando el rol de un Data Lake en una arquitectura Data Fabric
Modernizando el rol de un Data Lake en una arquitectura Data FabricModernizando el rol de un Data Lake en una arquitectura Data Fabric
Modernizando el rol de un Data Lake en una arquitectura Data Fabric
 
Sistemas gestores de bases de datos
Sistemas gestores de bases de datosSistemas gestores de bases de datos
Sistemas gestores de bases de datos
 
Hadoop barcamp 2011
Hadoop   barcamp 2011Hadoop   barcamp 2011
Hadoop barcamp 2011
 
Introducción mongodb y desarrollo
Introducción mongodb y desarrolloIntroducción mongodb y desarrollo
Introducción mongodb y desarrollo
 
Principales bases de datos existentes
Principales bases de datos existentesPrincipales bases de datos existentes
Principales bases de datos existentes
 
1 tutorial de mongo db
1 tutorial de mongo db1 tutorial de mongo db
1 tutorial de mongo db
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"
 

Último

5. MATERIAL COMPLEMENTARIO - PPT de la Sesión 02.pptx
5. MATERIAL COMPLEMENTARIO - PPT  de la Sesión 02.pptx5. MATERIAL COMPLEMENTARIO - PPT  de la Sesión 02.pptx
5. MATERIAL COMPLEMENTARIO - PPT de la Sesión 02.pptxJOSLUISCALLATAENRIQU
 
Tema 7 Plantas Industriales (2).pptx ingenieria
Tema 7 Plantas Industriales (2).pptx ingenieriaTema 7 Plantas Industriales (2).pptx ingenieria
Tema 7 Plantas Industriales (2).pptx ingenieriaLissetteMorejonLeon
 
594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...
594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...
594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...humberto espejo
 
MUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptx
MUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptxMUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptx
MUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptxIcelaMartnezVictorin
 
Historia de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdfHistoria de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdfIsbelRodrguez
 
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...Arquitecto Alejandro Gomez cornejo muñoz
 
Introduccion-a-los-tipos-de-cemento (1).pdf
Introduccion-a-los-tipos-de-cemento (1).pdfIntroduccion-a-los-tipos-de-cemento (1).pdf
Introduccion-a-los-tipos-de-cemento (1).pdfjhorbycoralsanchez
 
I LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptx
I LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptxI LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptx
I LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptxPATRICIAKARIMESTELAL
 
EJERCICIOS DE -LEY-DE-OHM aplicaciones prácticas
EJERCICIOS DE -LEY-DE-OHM aplicaciones prácticasEJERCICIOS DE -LEY-DE-OHM aplicaciones prácticas
EJERCICIOS DE -LEY-DE-OHM aplicaciones prácticasEfrain Yungan
 
POBLACIONES CICLICAS Y NO CICLICAS ......
POBLACIONES CICLICAS Y NO CICLICAS ......POBLACIONES CICLICAS Y NO CICLICAS ......
POBLACIONES CICLICAS Y NO CICLICAS ......dianamontserratmayor
 
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023ANDECE
 
ESTUDIO TÉCNICO DEL PROYECTO DE CREACION DE SOFTWARE PARA MANTENIMIENTO
ESTUDIO TÉCNICO DEL PROYECTO DE CREACION DE SOFTWARE PARA MANTENIMIENTOESTUDIO TÉCNICO DEL PROYECTO DE CREACION DE SOFTWARE PARA MANTENIMIENTO
ESTUDIO TÉCNICO DEL PROYECTO DE CREACION DE SOFTWARE PARA MANTENIMIENTOCamiloSaavedra30
 
Edificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCEdificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCANDECE
 
FORMACION-INTEGRAL-DE-LINIEROS modelo de curso.pdf
FORMACION-INTEGRAL-DE-LINIEROS modelo de curso.pdfFORMACION-INTEGRAL-DE-LINIEROS modelo de curso.pdf
FORMACION-INTEGRAL-DE-LINIEROS modelo de curso.pdfEfrain Yungan
 
Procedimientos constructivos superestructura, columnas
Procedimientos constructivos superestructura, columnasProcedimientos constructivos superestructura, columnas
Procedimientos constructivos superestructura, columnasAhmedMontaoSnchez1
 
La mineralogia y minerales, clasificacion
La mineralogia y minerales, clasificacionLa mineralogia y minerales, clasificacion
La mineralogia y minerales, clasificacionnewspotify528
 
CUENCAS HIDROGRAFICAS CARACTERIZACION GEOMORFOLOGIAS DE LA CUENTA
CUENCAS HIDROGRAFICAS CARACTERIZACION GEOMORFOLOGIAS DE LA CUENTACUENCAS HIDROGRAFICAS CARACTERIZACION GEOMORFOLOGIAS DE LA CUENTA
CUENCAS HIDROGRAFICAS CARACTERIZACION GEOMORFOLOGIAS DE LA CUENTAvanessaecharry2511
 
Proyecto de Base de Datos de César Guzmán
Proyecto de Base de Datos de César GuzmánProyecto de Base de Datos de César Guzmán
Proyecto de Base de Datos de César Guzmáncesarguzmansierra751
 
Diseño de un aerogenerador de 400w de eje vertical
Diseño de un aerogenerador de 400w de eje verticalDiseño de un aerogenerador de 400w de eje vertical
Diseño de un aerogenerador de 400w de eje verticalEfrain Yungan
 
Revista estudiantil, trabajo final Materia ingeniería de Proyectos
Revista estudiantil, trabajo final Materia ingeniería de ProyectosRevista estudiantil, trabajo final Materia ingeniería de Proyectos
Revista estudiantil, trabajo final Materia ingeniería de ProyectosJeanCarlosLorenzo1
 

Último (20)

5. MATERIAL COMPLEMENTARIO - PPT de la Sesión 02.pptx
5. MATERIAL COMPLEMENTARIO - PPT  de la Sesión 02.pptx5. MATERIAL COMPLEMENTARIO - PPT  de la Sesión 02.pptx
5. MATERIAL COMPLEMENTARIO - PPT de la Sesión 02.pptx
 
Tema 7 Plantas Industriales (2).pptx ingenieria
Tema 7 Plantas Industriales (2).pptx ingenieriaTema 7 Plantas Industriales (2).pptx ingenieria
Tema 7 Plantas Industriales (2).pptx ingenieria
 
594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...
594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...
594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...
 
MUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptx
MUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptxMUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptx
MUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptx
 
Historia de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdfHistoria de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdf
 
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...
 
Introduccion-a-los-tipos-de-cemento (1).pdf
Introduccion-a-los-tipos-de-cemento (1).pdfIntroduccion-a-los-tipos-de-cemento (1).pdf
Introduccion-a-los-tipos-de-cemento (1).pdf
 
I LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptx
I LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptxI LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptx
I LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptx
 
EJERCICIOS DE -LEY-DE-OHM aplicaciones prácticas
EJERCICIOS DE -LEY-DE-OHM aplicaciones prácticasEJERCICIOS DE -LEY-DE-OHM aplicaciones prácticas
EJERCICIOS DE -LEY-DE-OHM aplicaciones prácticas
 
POBLACIONES CICLICAS Y NO CICLICAS ......
POBLACIONES CICLICAS Y NO CICLICAS ......POBLACIONES CICLICAS Y NO CICLICAS ......
POBLACIONES CICLICAS Y NO CICLICAS ......
 
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023
 
ESTUDIO TÉCNICO DEL PROYECTO DE CREACION DE SOFTWARE PARA MANTENIMIENTO
ESTUDIO TÉCNICO DEL PROYECTO DE CREACION DE SOFTWARE PARA MANTENIMIENTOESTUDIO TÉCNICO DEL PROYECTO DE CREACION DE SOFTWARE PARA MANTENIMIENTO
ESTUDIO TÉCNICO DEL PROYECTO DE CREACION DE SOFTWARE PARA MANTENIMIENTO
 
Edificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCEdificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRC
 
FORMACION-INTEGRAL-DE-LINIEROS modelo de curso.pdf
FORMACION-INTEGRAL-DE-LINIEROS modelo de curso.pdfFORMACION-INTEGRAL-DE-LINIEROS modelo de curso.pdf
FORMACION-INTEGRAL-DE-LINIEROS modelo de curso.pdf
 
Procedimientos constructivos superestructura, columnas
Procedimientos constructivos superestructura, columnasProcedimientos constructivos superestructura, columnas
Procedimientos constructivos superestructura, columnas
 
La mineralogia y minerales, clasificacion
La mineralogia y minerales, clasificacionLa mineralogia y minerales, clasificacion
La mineralogia y minerales, clasificacion
 
CUENCAS HIDROGRAFICAS CARACTERIZACION GEOMORFOLOGIAS DE LA CUENTA
CUENCAS HIDROGRAFICAS CARACTERIZACION GEOMORFOLOGIAS DE LA CUENTACUENCAS HIDROGRAFICAS CARACTERIZACION GEOMORFOLOGIAS DE LA CUENTA
CUENCAS HIDROGRAFICAS CARACTERIZACION GEOMORFOLOGIAS DE LA CUENTA
 
Proyecto de Base de Datos de César Guzmán
Proyecto de Base de Datos de César GuzmánProyecto de Base de Datos de César Guzmán
Proyecto de Base de Datos de César Guzmán
 
Diseño de un aerogenerador de 400w de eje vertical
Diseño de un aerogenerador de 400w de eje verticalDiseño de un aerogenerador de 400w de eje vertical
Diseño de un aerogenerador de 400w de eje vertical
 
Revista estudiantil, trabajo final Materia ingeniería de Proyectos
Revista estudiantil, trabajo final Materia ingeniería de ProyectosRevista estudiantil, trabajo final Materia ingeniería de Proyectos
Revista estudiantil, trabajo final Materia ingeniería de Proyectos
 

Panorama BigData (OpenExpo2017)

  • 1. PANORAMA BIGDATA, CONOCE EL PROBLEMA ANTES DE ELEGIR TU SOLUCIÓN Javier Gómez Santos Formador técnico
  • 4. Hadoop, su historia • 2002: Doug Cutting crea Nutch • 2003: Google publica un White paper sobre su GFS • 2004: nace NDFS, precursor del HDFS • 2004: Google publica un White Paper con la metodología MapReduce • 2005: se implementa MapReduce sobre NDFS • 2008: Yahoo contrata a Doug Cutting para usar Hadoop a nivel web • Hadoop era el nombre del peluche que tenía el hijo de Doug Cutting, un elefante amarillo
  • 5. Hadoop, ¿Qué es? • Hadoop es un Data Lake, un sistema que almacena datos tal y como son originados por una fuente. • Estos datos, no son modificados, y serán explotados por distintos procesos para labores analíticas • Los componentes principales de Hadoop son el HDFS y el YARN • Está escrito en Java
  • 6. Hadoop, HDFS HDFS es un sistema de ficheros distribuido. Almacena los ficheros partiéndolos en bloques de tamaño fijo, y distribuyéndolos a través de múltiples nodos. Es muy fiable, ya que realiza múltiples copias de los datos (réplicas) Tiene operaciones que se encargan de reparar los bloques defectuosos
  • 8. HDFS, arquitectura HDFS posee tres tipos de nodos: • Namenode, un único nodo que conoce los ficheros y los bloques que lo forman • Datanode, cada uno de los nodos susceptibles de recibir bloques • Secondary Namenode, un único nodo que realiza labores de compactación para el Namenode
  • 9. Hadoop, YARN YARN gestiona los recursos de procesador y memoria de los nodos del clúster. Cuando un proceso se planifica, se distribuye en varios nodos, en contendedores. Cada contenedor, tiene una serie de recursos asignados. Prioriza la cercanía, se mueve el proceso al dato y no al revés.
  • 11. MapReduce Es la metodología que se usa para explotar un clúster Hadoop. Permite distribuir la computación
  • 13. Hadoop, ¿Cuándo? Hadoop es de utilidad cuando: • Tienes un conjunto de datos muy grande • Datos muy diversos (desde ficheros de logs hasta xml…) • Te ves obligado a deshacerte de información que podría ser útil • Realizas labores analíticas sobre la información almacenada
  • 14. Hadoop, ¿Cuándo no? Hadoop NO debe usarse si: • Buscas un sistema de consulta en tiempo real • Vas a almacenar información sensible • Vas a modificar la información almacenada • Si tienes intención de sustituir un Warehouse (se complementan)
  • 15. Mongo, su historia • 2007: 10gen comienda a desarrollar MongoDB • 2009: Cambian el modelo de negocio a Open Source, con soporte commercial • 2013: 10gen cambia su nombre a MongoDB Inc. • Mongo viene de la palabra humongous (gigantesco)
  • 16. MongoDB, ¿qué es? MongoDB es una base de datos NoSQL, de tipo documental, que permite un gran escalado Los documentos se almacenan en colecciones, y no tienen por qué tener un patrón definido. Se define este patrón como Esquema Dinámico. Permite modificar los datos insertados, crear índices y posee un framework de agregación
  • 18. MongoDB, Arquitectura MongoDB permite el escalado usando Shards, formados por Replica Set
  • 19. MongoDB, Aggregation MongoDB permite realizar labores analíticas, mediante su framework de agregación
  • 20. MongoDB, ¿Cuándo? MongoDB es de utilidad cuando: • Necesitamos realizar lecturas/escrituras en tiempo real. • Vamos a modificar la información almacenada. • Los requisitos nos obligan a tener un esquema altamente cambiante. • Buscamos un sistema que escale con facilidad
  • 21. MongoDB, ¿Cuándo no? MongoDB NO debe usarse si: • Necesitamos realizar labores analíticas pesadas • Los datos no son transformados desde la fuente, y necesitamos guardarlos tal como se generan • Tenemos miedo de que los desarrolladores no sigan unas reglas (MongoDB no les fuerza)
  • 22. Cassandra, su historia • 2004: Comienza a desarrollarse BigTable • 2007: Amazon presenta Dynamo • 2008: Facebook libera Cassandra, como proyecto Open Source (basado en BigTable y Dynamo) • 2011: Se presenta CQL, lenguaje de acceso a datos basado en SQL
  • 23. Cassandra, ¿qué es? Una base de datos NoSQL basada en Column Families. Posee un esquema definido, pero flexible, que permite su alteración. Usa un modelo totalmente distribuido, sin nodos maestros.
  • 24. Cassandra, CQL Un lenguaje de consultas similar a SQL
  • 25. Cassandra, arquitectura Node 4 Node 2 127.0.0.2 Node 3 127.0.0.3 127.0.0.4 Seed Node 1 127.0.0.1
  • 26. Cassandra, distribución Node 1 Node 3 Node 2Node 4 - 263+ 263
  • 27. Cassandra, acceso Node 1 Node 3 Node 2Node 4 Client RF=3 CL=QUORUM
  • 28. Cassandra, analíticas Cassandra no permite realizar operaciones analíticas directamente, pero es compatible con Spark, con lo que podemos delegar en él para dicha tarea
  • 29. Cassandra, ¿cuándo? Cassandra es de utilidad cuando: • Necesitamos un acceso en tiempo real de escritura o lectura. • Conocemos de antemano cómo vamos a atacar a nuestro modelo de datos • Buscamos un modelo que ofrezca el mejor rendimiento, escalado y disponibilidad
  • 30. Cassandra, ¿cuándo no? Cassandra NO debe usarse cuando: • Cuando queramos guardar los datos tal como se generan en el origen. • No tengamos claro cómo vamos a realizar las consultas • Necesitemos realizar analíticas y no podamos implantar Spark • Nuestro modelo de datos cambia de manera drástica en poco tiempo
  • 31. En definitiva: Hadoop MongoDB Cassandra Analíticas Si Limitadas Si (Spark) Acceso TR No Si Si Modificar No Si Si Modelo de datos Puede con todo Muy flexible Flexible Alta disponibilidad Soluciones complejas Caídas de hasta 10s Si Definir workflow previamente No es necesario No es necesario Es obligatorio para modelar