SlideShare una empresa de Scribd logo
1 de 67
Descargar para leer sin conexión
Centros de Competencia - BA
Introducción a Apache Hadoop
Introducción a Apache Spark | 2
OBJETIVOS
 Obtener una visión general de Apache
Hadoop y su amplio y complejo ecosistema
Introducción a Apache Spark | 3
AGENDA
 Big Data
 Apache Hadoop
 Ecosistema de Hadoop
 Hadoop 2.0
Introducción a Apache Spark | 4
CARACTERÍSTICAS - VOLUMEN
 Capacidad de almacenar una gran cantidad de datos
 El volumen de datos se incrementa exponencialmente:
(44x de 2009 a 2020)
Big Data
Introducción a Apache Spark | 5
CARACTERÍSTICAS - VOLUMEN
 Capacidad de almacenar una gran cantidad de datos
 El volumen de datos se incrementa exponencialmente:
(44x de 2009 a 2020)
Big Data
Introducción a Apache Spark | 6
CARACTERÍSTICAS - VARIEDAD
 Capacidad de combinar datos en los diferentes formatos que se
generan (textos, imágenes, vídeos, audios, logs, json, xml, pdf, bbdd,
emails, etc.)
Big Data
Introducción a Apache Spark | 7
CARACTERÍSTICAS - VARIEDAD
 Capacidad de combinar datos en los diferentes formatos que se
generan (textos, imágenes, vídeos, audios, logs, json, xml, pdf, bbdd,
emails, etc.)
Big Data
Introducción a Apache Spark | 8
CARACTERÍSTICAS - VARIEDAD
 Capacidad de combinar datos en los diferentes formatos que se
generan (textos, imágenes, vídeos, audios, logs, json, xml, pdf, bbdd,
emails, etc.)
Big Data
http://www.slideshare.net/dellenterprise/maximizing-return-on-information
Introducción a Apache Spark | 9
CARACTERÍSTICAS - VARIEDAD
Big Data
http://www.slideshare.net/franmod/tendencias-storage
Introducción a Apache Spark | 10
CARACTERÍSTICAS - VELOCIDAD
 Capacidad para poder capturar, almacenar y analizar los datos a la
mayor velocidad posible
Big Data
Introducción a Apache Spark | 11
CARACTERÍSTICAS - VERACIDAD
 Capacidad para tratar con datos desfasados, inconsistentes,
incompletos, inciertos o ambiguos
Big Data
http://www.tylervigen.com/spurious-correlations
Introducción a Apache Spark | 12
CARACTERÍSTICAS - VALOR
Big Data
Introducción a Apache Spark | 13
Problema
Introducción a Apache Spark | 14
SOLUCION TRADICIONAL
 La meta es tener una máquina cada vez más poderosa (memoria,
procesador, etc.)
Big Data
Introducción a Apache Spark | 15
SOLUCION TRADICIONAL
 La meta es tener una máquina cada vez más poderosa (memoria,
procesador, etc.)
 Escalabilidad limitada
 Alto coste
Big Data
Introducción a Apache Spark | 16
COMPUTACIÓN DISTRIBUIDA TRADICIONAL
 La meta es que muchas máquinas se puedan encargar de realizar un
solo proceso
Big Data
Introducción a Apache Spark | 17
COMPUTACIÓN DISTRIBUIDA TRADICIONAL
 La meta es que muchas máquinas se puedan encargar de realizar un
solo proceso
 Hardware muy caro tolerante a fallos
 Programación compleja
 Escalabilidad limitada
Big Data
Introducción a Apache Spark | 18
AGENDA
 Big Data
 Apache Hadoop
 Ecosistema de Hadoop
 Hadoop 2.0
Introducción a Apache Spark | 19
HISTORIA DE HADOOP
Hadoop y su ecosistema
2002 2003 2004 2005 2006 2007 2008 2009 2010
Dog Cutting y Mike Carafella
empiezan a trabajar en Nutch
Google publica detalles
sobre GFS y MapReduce
Doug Cutting añade
DFS y MapReduce a
Nutch
Yahoo! Contrata a Doug
Hadoop se sale de Nutch
Facebook crea Hive – el
soporte SQL para Hadoop
Ordenación más rápida de 1 TB
3:30 minutos sobre 910 nodos
Ordenación más rápida de 1 TB
62 segundos sobre 1460 nodos
Introducción a Apache Spark | 20
¿QUÉ ES HADOOP?
 Hadoop es un sistema para el almacenamiento y el procesamiento
distribuido de datos a gran escala
 Hadoop proporciona dos componentes:
 Almacenamiento de datos: HDFS
 Procesamiento de datos: MapReduce
Hadoop y su ecosistema
Introducción a Apache Spark | 21
HDFS
 HDFS es el sistema de archivos distribuido de Hadoop que se
encarga de almacenar los datos
Hadoop y su ecosistema
Introducción a Apache Spark | 22
HDFS
 HDFS es el sistema de archivos distribuido de Hadoop que se
encarga de almacenar los datos
Hadoop y su ecosistema
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Nodo servidor
Driver
Introducción a Apache Spark | 23
HDFS
 HDFS es el sistema de archivos distribuido de Hadoop que se
encarga de almacenar los datos
Hadoop y su ecosistema
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Datos.txt: B1, B2
Nodo servidor
Driver
Datos.txt
B1
B2
Introducción a Apache Spark | 24
HDFS
 HDFS es el sistema de archivos distribuido de Hadoop que se
encarga de almacenar los datos
Hadoop y su ecosistema
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Datos.txt: B1, B2
B1: Nodo 1
B2: Nodo 3
Nodo servidor
Driver
Datos.txt
B1
B2
B1 B2
Introducción a Apache Spark | 25
HDFS
 HDFS es el sistema de archivos distribuido de Hadoop que se
encarga de almacenar los datos
Hadoop y su ecosistema
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Datos.txt: B1, B2
B1: Nodo 1, Nodo 2
B2: Nodo 3, Nodo 4
Nodo servidor
Driver
Datos.txt
B1
B2
B1 B2B1 B2
Introducción a Apache Spark | 26
MAPREDUCE
 MapReduce es el sistema que utiliza Hadoop para procesar los datos
en un clúster
Hadoop y su ecosistema
Introducción a Apache Spark | 27
MAPREDUCE - EJEMPLO
 ¿Cómo cuento el número de ocurrencias de cada palabra en un
documento?
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
Te gustan
los perros?”
{Me: 4,
llamo: 4,
Lola: 1,
Claudia: 1,
Aimar: 1,
Pilar: 1,
…}
Introducción a Apache Spark | 28
MAPREDUCE - EJEMPLO
 Primera aproximación: Uso de una colección de claves / valores
Hadoop y su ecosistema
Colección Clave / Valor
Introducción a Apache Spark | 29
MAPREDUCE - EJEMPLO
 Primera aproximación: Uso de una colección de claves / valores
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?”
{}
Introducción a Apache Spark | 30
MAPREDUCE - EJEMPLO
 Primera aproximación: Uso de una colección de claves / valores
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?”
{Me: 1}
Introducción a Apache Spark | 31
MAPREDUCE - EJEMPLO
 Primera aproximación: Uso de una colección de claves / valores
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?”
{Me: 1,
llamo: 1}
Introducción a Apache Spark | 32
MAPREDUCE - EJEMPLO
 Primera aproximación: Uso de una hashtable
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?”
{Me: 1,
llamo: 1,
Lola: 1}
Introducción a Apache Spark | 33
MAPREDUCE - EJEMPLO
 Primera aproximación: Uso de una hashtable
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?”
{Me: 2,
llamo: 1,
Lola: 1}
Introducción a Apache Spark | 34
MAPREDUCE - EJEMPLO
 Pero .. ¿qué ocurre si el documento es realmente GRANDE?
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?
¿Y los caballos?
A mí me gustan
mucho los perros
Sobre todos los
caballitos de mar
¿Y a ti?”
{Me: 3,
Llamo:3,
Lola: 3
{Pilar:1,
Me: 1,
… }
{Y:1,
… }
{Sobre: 1,
… }
{Me: 5,
Llamo:3,
Lola: 3,
Pilar: 1
…
Máquinas 1-4
Máquina 5
Introducción a Apache Spark | 35
MAPREDUCE - EJEMPLO
 Pero .. ¿qué ocurre si el documento es realmente GRANDE?
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?
¿Y los caballos?
A mí me gustan
mucho los perros
Sobre todos los
caballitos de mar
¿Y a ti?”
{Me: 3,
Llamo:3,
Lola: 3
{Pilar:1,
Me: 1,
… }
{Y:1,
… }
{Sobre: 1,
… }
{Me: 5,
Llamo:3,
Lola: 3,
Pilar: 1
…
Máquinas 1-4
Máquina 5
Los resultados tienen
que caber en una sola
máquina
Introducción a Apache Spark | 36
MAPREDUCE - EJEMPLO
 Pero .. ¿qué ocurre si el documento es realmente GRANDE?
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?
¿Y los caballitos?
A mí me gustan
mucho los perros
Sobre todos los
caballitos de mar
¿Y a ti?”
{Me: 3,
Llamo:3,
Lola: 3
{Pilar:1,
Me: 1,
… }
{Y:1,
… }
{Sobre: 1,
… }
{A : 2,
Aimar : 1,
Claudia: 1}
Máquinas 1-4 Máquina 1-4
Introducción a Apache Spark | 37
MAPREDUCE - EJEMPLO
 Pero .. ¿qué ocurre si el documento es realmente GRANDE?
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?
¿Y los caballitos?
A mí me gustan
mucho los perros
Sobre todos los
caballitos de mar
¿Y a ti?”
{Me: 3,
Llamo:3,
Lola: 3
{Pilar:1,
Me: 1,
… }
{Y:1,
… }
{Sobre: 1,
… }
{A : 2,
Aimar : 1,
Claudia: 1}
{Pilar: 1,
Sobre: 1,
…}
{Lola: 1,
Los: 4,…}
{mucho: 1,
mi: 1, …}
Máquinas 1-4 Máquina 1-4
Introducción a Apache Spark | 38
MAPREDUCE - EJEMPLO
 Pero .. ¿qué ocurre si el documento es realmente GRANDE?
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?
¿Y los caballitos?
A mí me gustan
mucho los perros
Sobre todos los
caballitos de mar
¿Y a ti?”
{Me: 3,
Llamo:3,
Lola: 3
{Pilar:1,
Me: 1,
… }
{Y:1,
… }
{Sobre: 1,
… }
{A : 2,
Aimar : 1,
Claudia: 1}
{Pilar: 1,
Sobre: 1,
…}
{Lola: 1,
Los: 4,…}
{mucho: 1,
mi: 1, …}
Máquinas 1-4 Máquina 1-4
MAP REDUCE
Introducción a Apache Spark | 39
MAPREDUCE
Hadoop y su ecosistema
Introducción a Apache Spark | 40
MAPREDUCE
Hadoop y su ecosistema
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Nodo servidor
Driver
B1
Map
B2
Map Red.
Introducción a Apache Spark | 41
CARACTERÍSTICAS
Hadoop y su ecosistema
Característica Descripción
Automático Un trabajo se realiza completamente sin que sea
necesaria una intervención manual
Transparente Las tareas asignadas a un nodo que falla son retomadas
por otras tareas
Grácil Los fallos sólo representan una perdida proporcional en la
capacidad de proceso
Recuperable Esta capacidad se recupera cuando el componente es
reemplazado más tarde
Consistente El fallo no produce corrupción o resultados inválidos
Introducción a Apache Spark | 42
HADOOP / BASE DE DATOS TRADICIONAL
Hadoop y su ecosistema
BD Tradicional Hadoop
Tamaño Gigabytes Petabytes
Acceso Interactivo y Batch Batch
Actualización de la
información
Escritura/Lectura
(muchas veces)
Escritura - 1 vez /
Lectura
Estructura Estática Dinámica
Integridad Alta (ACID) Baja
Escalado Vertical Horizontal
Tiempo de respuesta Prácticamente
inmediato
Tiene latencia (proceso
Batch)
Acceso a la información Partes de información Toda la información
Introducción a Apache Spark | 43
AGENDA
 Big Data
 Apache Hadoop
 Ecosistema de Hadoop
 Evolución
Framework de procesamiento
distribuido
Sistema de ficheros distribuido
de Hadoop
Introducción a Apache Spark | 44
SQOOP
Hadoop y su ecosistema
PROCESOHDFS HDFS
SCOOP
DB
Introducción a Apache Spark | 45
FLUME
Hadoop y su ecosistema
PROCESOHDFS HDFS
FLUME
Introducción a Apache Spark | 46
HIVE
Hadoop y su ecosistema
Introducción a Apache Spark | 47
HIVE
Hadoop y su ecosistema
Introducción a Apache Spark | 48
ECOSISTEMA DE HADOOP
Hadoop y su ecosistema
Framework de procesamiento
distribuido
Sistema de ficheros distribuido
de Hadoop
Querys SQL
ODBC
Introducción a Apache Spark | 49
PIG
Hadoop y su ecosistema
PROCESOENTRADA SALIDA
Introducción a Apache Spark | 50
OZZIE
Hadoop y su ecosistema
PROCESO 1 PROCESO 2
Introducción a Apache Spark | 51
MAHOUT
Hadoop y su ecosistema
Introducción a Apache Spark | 52
MAHOUT
Hadoop y su ecosistema
Introducción a Apache Spark | 53
HBASE
Hadoop y su ecosistema
Framework de procesamiento
distribuido
Sistema de ficheros distribuido
de Hadoop
Introducción a Apache Spark | 54
HBASE
Hadoop y su ecosistema
Framework de procesamiento
distribuido
Sistema de ficheros distribuido
de Hadoop
Base de datos NoSQL
De tipo columnar
Introducción a Apache Spark | 55
HUE
Hadoop y su ecosistema
Introducción a Apache Spark | 56
HUE
Hadoop y su ecosistema
Introducción a Apache Spark | 57
AMBARI
Hadoop y su ecosistema
Introducción a Apache Spark | 58
ZOOKEEPER
Hadoop y su ecosistema
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Nodo servidor
Introducción a Apache Spark | 59
ZOOKEEPER
Hadoop y su ecosistema
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Nodo servidor Nodo servidor
ZooKeeper
Servidor Servidor Servidor
Introducción a Apache Spark | 60
ECOSISTEMA DE HADOOP
Hadoop y su ecosistema
https://hadoopecosystemtable.github.io/
Introducción a Apache Spark | 61
DISTRIBUCIONES DE HADOOP
Hadoop y su ecosistema
Introducción a Apache Spark | 62
AGENDA
 Big Data
 Apache Hadoop
 Ecosistema de Hadoop
 Hadoop 2.0
Introducción a Apache Spark | 63
EVOLUCIÓN DE HADOOP
Hadoop y su ecosistema
Hadoop 1
- Proceso Batch
- Un único motor de procesamiento
HDFS
(Sistema de ficheros de Hadoop)
MapReduce
(Gestor de Recursos del Clúster /
Procesamiento de datos Batch)
Hadoop 2 con YARN
- Proceso Batch
HDFS
(Sistema de ficheros de Hadoop)
YARN
(Gestor de Recursos del Clúster)
Introducción a Apache Spark | 64
EVOLUCIÓN DE HADOOP
Hadoop y su ecosistema
Hadoop 1
- Proceso Batch
- Un único motor de procesamiento
HDFS
(Sistema de ficheros de Hadoop)
MapReduce
(Gestor de Recursos del Clúster /
Procesamiento de datos Batch)
Hadoop 2 con YARN
- Proceso Batch, Interactivo
- Muchos motores
HDFS
(Sistema de ficheros de Hadoop)
YARN
(Gestor de Recursos del Clúster)
Introducción a Apache Spark | 65
EVOLUCIÓN DE HADOOP
Hadoop y su ecosistema
Hadoop 1
- Proceso Batch
- Un único motor de procesamiento
HDFS
(Sistema de ficheros de Hadoop)
MapReduce
(Gestor de Recursos del Clúster /
Procesamiento de datos Batch)
Hadoop 2 con YARN
- Batch, Interactivo, Tiempo Real
- Muchos motores
HDFS
(Sistema de ficheros de Hadoop)
YARN
(Gestor de Recursos del Clúster)
Introducción a Apache Spark | 66
EVOLUCIÓN DE HADOOP
Hadoop y su ecosistema
Hadoop 1
- Proceso Batch
- Un único motor de procesamiento
HDFS
(Sistema de ficheros de Hadoop)
MapReduce
(Gestor de Recursos del Clúster /
Procesamiento de datos Batch)
Hadoop 2 con YARN
- Batch, Interactivo, Tiempo Real
- Muchos motores
HDFS
(Sistema de ficheros de Hadoop)
YARN
(Gestor de Recursos del Clúster)
Muchas gracias
Centros de Competencia / Business Analytics
Daniel Villanueva Jiménez
dvillanuevaj@indra.es
Avda. de Bruselas 35
28108 Alcobendas,
Madrid España
T +34 91 480 50 00
F +34 91 480 50 80
www.indracompany.com

Más contenido relacionado

La actualidad más candente

¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
 
Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016Ángel Rayo
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Guillermo Alvarado Mejía
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveWellness Telecom
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Meetup Spark y la Combinación de sus Distintos Módulos
Meetup Spark y la Combinación de sus Distintos MódulosMeetup Spark y la Combinación de sus Distintos Módulos
Meetup Spark y la Combinación de sus Distintos MódulosJorge Lopez-Malla
 
Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Miguel Pastor
 
Meetup errores en proyectos Big Data
Meetup errores en proyectos Big DataMeetup errores en proyectos Big Data
Meetup errores en proyectos Big DataJorge Lopez-Malla
 
Tecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup CassandraTecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup CassandraStratebi
 

La actualidad más candente (20)

HDFS
HDFSHDFS
HDFS
 
Hadoop
HadoopHadoop
Hadoop
 
Open analytics. data analytics con hadoop
Open analytics. data analytics con hadoopOpen analytics. data analytics con hadoop
Open analytics. data analytics con hadoop
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
 
Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y Hive
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Hadoop
HadoopHadoop
Hadoop
 
BigData y MapReduce
BigData y MapReduceBigData y MapReduce
BigData y MapReduce
 
Meetup Spark y la Combinación de sus Distintos Módulos
Meetup Spark y la Combinación de sus Distintos MódulosMeetup Spark y la Combinación de sus Distintos Módulos
Meetup Spark y la Combinación de sus Distintos Módulos
 
Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Hadoop, Cloud y Spring
Hadoop, Cloud y Spring
 
Meetup errores en proyectos Big Data
Meetup errores en proyectos Big DataMeetup errores en proyectos Big Data
Meetup errores en proyectos Big Data
 
Spark meetup barcelona
Spark meetup barcelonaSpark meetup barcelona
Spark meetup barcelona
 
Tecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup CassandraTecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup Cassandra
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 

Destacado

Herramientas y ejemplos de trabajos MapReduce con Apache Hadoop
Herramientas y ejemplos de trabajos MapReduce con Apache HadoopHerramientas y ejemplos de trabajos MapReduce con Apache Hadoop
Herramientas y ejemplos de trabajos MapReduce con Apache HadoopDavid Albela Pérez
 
G te c sesion3b- mapreduce
G te c sesion3b- mapreduceG te c sesion3b- mapreduce
G te c sesion3b- mapreduceVictoria López
 
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOPMONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOPJorge E. López de Vergara Méndez
 
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION IITECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION IIChristian Garcia Gamio
 
Programación orientada a objetos
Programación orientada a objetosProgramación orientada a objetos
Programación orientada a objetosNanda Moran
 
Comparacion Entre Rmi Y Api De Sockets
Comparacion Entre Rmi Y Api De SocketsComparacion Entre Rmi Y Api De Sockets
Comparacion Entre Rmi Y Api De Socketsmallita
 
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume  Elasticsearch HDFS KibanaLog -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume Elasticsearch HDFS KibanaFelix Rodriguez
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Map reduce (from Google)
Map reduce (from Google)Map reduce (from Google)
Map reduce (from Google)Sri Prasanna
 
Mallorca MUG: MapReduce y Aggregation Framework
Mallorca MUG: MapReduce y Aggregation FrameworkMallorca MUG: MapReduce y Aggregation Framework
Mallorca MUG: MapReduce y Aggregation FrameworkEmilio Torrens
 
nerdear.la 2016 - Docker workshop
nerdear.la 2016 - Docker workshopnerdear.la 2016 - Docker workshop
nerdear.la 2016 - Docker workshopRestorando
 
Polybase
PolybasePolybase
PolybaseSolidQ
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datosAntonio Rodriguez
 
Big table
Big tableBig table
Big tablePSIT
 
Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Stratebi
 

Destacado (20)

Herramientas y ejemplos de trabajos MapReduce con Apache Hadoop
Herramientas y ejemplos de trabajos MapReduce con Apache HadoopHerramientas y ejemplos de trabajos MapReduce con Apache Hadoop
Herramientas y ejemplos de trabajos MapReduce con Apache Hadoop
 
G te c sesion3b- mapreduce
G te c sesion3b- mapreduceG te c sesion3b- mapreduce
G te c sesion3b- mapreduce
 
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOPMONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
 
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION IITECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
 
Programación orientada a objetos
Programación orientada a objetosProgramación orientada a objetos
Programación orientada a objetos
 
Comparacion Entre Rmi Y Api De Sockets
Comparacion Entre Rmi Y Api De SocketsComparacion Entre Rmi Y Api De Sockets
Comparacion Entre Rmi Y Api De Sockets
 
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume  Elasticsearch HDFS KibanaLog -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Map reduce (from Google)
Map reduce (from Google)Map reduce (from Google)
Map reduce (from Google)
 
Mallorca MUG: MapReduce y Aggregation Framework
Mallorca MUG: MapReduce y Aggregation FrameworkMallorca MUG: MapReduce y Aggregation Framework
Mallorca MUG: MapReduce y Aggregation Framework
 
MapReduce en Hadoop
MapReduce en HadoopMapReduce en Hadoop
MapReduce en Hadoop
 
nerdear.la 2016 - Docker workshop
nerdear.la 2016 - Docker workshopnerdear.la 2016 - Docker workshop
nerdear.la 2016 - Docker workshop
 
Polybase
PolybasePolybase
Polybase
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
 
The google MapReduce
The google MapReduceThe google MapReduce
The google MapReduce
 
Introducción a Docker
Introducción a DockerIntroducción a Docker
Introducción a Docker
 
Big table
Big tableBig table
Big table
 
Casos big data
Casos big dataCasos big data
Casos big data
 
Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)
 

Similar a Aula virtual apache_hadoop_v3 1

Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?Fernando Alfonso Casas De la Torre
 
Taller: Limpieza y preparación de datos con Optimus y Apache Spark
Taller: Limpieza y preparación de datos con Optimus y Apache SparkTaller: Limpieza y preparación de datos con Optimus y Apache Spark
Taller: Limpieza y preparación de datos con Optimus y Apache SparkSoftware Guru
 
Codemotion 2016 - Big Data para Javeros con Apache Flink
Codemotion 2016 - Big Data para Javeros con Apache FlinkCodemotion 2016 - Big Data para Javeros con Apache Flink
Codemotion 2016 - Big Data para Javeros con Apache FlinkLuis Roldán
 
11- Unidad 3: Webservices - 3.2 Uso de Web services (aplicaciones))
11- Unidad 3: Webservices - 3.2 Uso de Web services (aplicaciones)) 11- Unidad 3: Webservices - 3.2 Uso de Web services (aplicaciones))
11- Unidad 3: Webservices - 3.2 Uso de Web services (aplicaciones)) Luis Fernando Aguas Bucheli
 
Meetup Junio Apache Spark Fundamentals
Meetup Junio Apache Spark FundamentalsMeetup Junio Apache Spark Fundamentals
Meetup Junio Apache Spark FundamentalsDataLab Community
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkJose Manuel Ortega Candel
 
OpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con HadoopOpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con HadoopOpenAnalytics Spain
 
Big Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStackBig Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStackSoftware Guru
 
Why Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén CasadoWhy Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén CasadoBig Data Spain
 
Caso de éxito Drupal - Procomún - DrupalCamp Spain 2016
Caso de éxito Drupal - Procomún - DrupalCamp Spain 2016Caso de éxito Drupal - Procomún - DrupalCamp Spain 2016
Caso de éxito Drupal - Procomún - DrupalCamp Spain 2016La Drupalera
 
11-Unidad 3: Diseños de Vista-3.2 Usos Web Services
11-Unidad 3: Diseños de Vista-3.2 Usos Web Services11-Unidad 3: Diseños de Vista-3.2 Usos Web Services
11-Unidad 3: Diseños de Vista-3.2 Usos Web ServicesLuis Fernando Aguas Bucheli
 
Drupal theming
Drupal  themingDrupal  theming
Drupal themingYuri Ever
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datosBBVA API Market
 

Similar a Aula virtual apache_hadoop_v3 1 (20)

Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
 
Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017
 
Presentacion
PresentacionPresentacion
Presentacion
 
Taller: Limpieza y preparación de datos con Optimus y Apache Spark
Taller: Limpieza y preparación de datos con Optimus y Apache SparkTaller: Limpieza y preparación de datos con Optimus y Apache Spark
Taller: Limpieza y preparación de datos con Optimus y Apache Spark
 
Codemotion 2016 - Big Data para Javeros con Apache Flink
Codemotion 2016 - Big Data para Javeros con Apache FlinkCodemotion 2016 - Big Data para Javeros con Apache Flink
Codemotion 2016 - Big Data para Javeros con Apache Flink
 
11- Unidad 3: Webservices - 3.2 Uso de Web services (aplicaciones))
11- Unidad 3: Webservices - 3.2 Uso de Web services (aplicaciones)) 11- Unidad 3: Webservices - 3.2 Uso de Web services (aplicaciones))
11- Unidad 3: Webservices - 3.2 Uso de Web services (aplicaciones))
 
Meetup Junio Apache Spark Fundamentals
Meetup Junio Apache Spark FundamentalsMeetup Junio Apache Spark Fundamentals
Meetup Junio Apache Spark Fundamentals
 
3. Hadoop
3.  Hadoop3.  Hadoop
3. Hadoop
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a Spark
 
Big data2
Big data2Big data2
Big data2
 
OpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con HadoopOpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con Hadoop
 
Big Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStackBig Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStack
 
Why Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén CasadoWhy Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén Casado
 
Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)
 
Sistemas distribuidos
Sistemas distribuidosSistemas distribuidos
Sistemas distribuidos
 
Caso de éxito Drupal - Procomún - DrupalCamp Spain 2016
Caso de éxito Drupal - Procomún - DrupalCamp Spain 2016Caso de éxito Drupal - Procomún - DrupalCamp Spain 2016
Caso de éxito Drupal - Procomún - DrupalCamp Spain 2016
 
11-Unidad 3: Diseños de Vista-3.2 Usos Web Services
11-Unidad 3: Diseños de Vista-3.2 Usos Web Services11-Unidad 3: Diseños de Vista-3.2 Usos Web Services
11-Unidad 3: Diseños de Vista-3.2 Usos Web Services
 
Drupal theming
Drupal  themingDrupal  theming
Drupal theming
 
Theming drupal 7
Theming drupal 7Theming drupal 7
Theming drupal 7
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datos
 

Aula virtual apache_hadoop_v3 1

  • 1. Centros de Competencia - BA Introducción a Apache Hadoop
  • 2. Introducción a Apache Spark | 2 OBJETIVOS  Obtener una visión general de Apache Hadoop y su amplio y complejo ecosistema
  • 3. Introducción a Apache Spark | 3 AGENDA  Big Data  Apache Hadoop  Ecosistema de Hadoop  Hadoop 2.0
  • 4. Introducción a Apache Spark | 4 CARACTERÍSTICAS - VOLUMEN  Capacidad de almacenar una gran cantidad de datos  El volumen de datos se incrementa exponencialmente: (44x de 2009 a 2020) Big Data
  • 5. Introducción a Apache Spark | 5 CARACTERÍSTICAS - VOLUMEN  Capacidad de almacenar una gran cantidad de datos  El volumen de datos se incrementa exponencialmente: (44x de 2009 a 2020) Big Data
  • 6. Introducción a Apache Spark | 6 CARACTERÍSTICAS - VARIEDAD  Capacidad de combinar datos en los diferentes formatos que se generan (textos, imágenes, vídeos, audios, logs, json, xml, pdf, bbdd, emails, etc.) Big Data
  • 7. Introducción a Apache Spark | 7 CARACTERÍSTICAS - VARIEDAD  Capacidad de combinar datos en los diferentes formatos que se generan (textos, imágenes, vídeos, audios, logs, json, xml, pdf, bbdd, emails, etc.) Big Data
  • 8. Introducción a Apache Spark | 8 CARACTERÍSTICAS - VARIEDAD  Capacidad de combinar datos en los diferentes formatos que se generan (textos, imágenes, vídeos, audios, logs, json, xml, pdf, bbdd, emails, etc.) Big Data http://www.slideshare.net/dellenterprise/maximizing-return-on-information
  • 9. Introducción a Apache Spark | 9 CARACTERÍSTICAS - VARIEDAD Big Data http://www.slideshare.net/franmod/tendencias-storage
  • 10. Introducción a Apache Spark | 10 CARACTERÍSTICAS - VELOCIDAD  Capacidad para poder capturar, almacenar y analizar los datos a la mayor velocidad posible Big Data
  • 11. Introducción a Apache Spark | 11 CARACTERÍSTICAS - VERACIDAD  Capacidad para tratar con datos desfasados, inconsistentes, incompletos, inciertos o ambiguos Big Data http://www.tylervigen.com/spurious-correlations
  • 12. Introducción a Apache Spark | 12 CARACTERÍSTICAS - VALOR Big Data
  • 13. Introducción a Apache Spark | 13 Problema
  • 14. Introducción a Apache Spark | 14 SOLUCION TRADICIONAL  La meta es tener una máquina cada vez más poderosa (memoria, procesador, etc.) Big Data
  • 15. Introducción a Apache Spark | 15 SOLUCION TRADICIONAL  La meta es tener una máquina cada vez más poderosa (memoria, procesador, etc.)  Escalabilidad limitada  Alto coste Big Data
  • 16. Introducción a Apache Spark | 16 COMPUTACIÓN DISTRIBUIDA TRADICIONAL  La meta es que muchas máquinas se puedan encargar de realizar un solo proceso Big Data
  • 17. Introducción a Apache Spark | 17 COMPUTACIÓN DISTRIBUIDA TRADICIONAL  La meta es que muchas máquinas se puedan encargar de realizar un solo proceso  Hardware muy caro tolerante a fallos  Programación compleja  Escalabilidad limitada Big Data
  • 18. Introducción a Apache Spark | 18 AGENDA  Big Data  Apache Hadoop  Ecosistema de Hadoop  Hadoop 2.0
  • 19. Introducción a Apache Spark | 19 HISTORIA DE HADOOP Hadoop y su ecosistema 2002 2003 2004 2005 2006 2007 2008 2009 2010 Dog Cutting y Mike Carafella empiezan a trabajar en Nutch Google publica detalles sobre GFS y MapReduce Doug Cutting añade DFS y MapReduce a Nutch Yahoo! Contrata a Doug Hadoop se sale de Nutch Facebook crea Hive – el soporte SQL para Hadoop Ordenación más rápida de 1 TB 3:30 minutos sobre 910 nodos Ordenación más rápida de 1 TB 62 segundos sobre 1460 nodos
  • 20. Introducción a Apache Spark | 20 ¿QUÉ ES HADOOP?  Hadoop es un sistema para el almacenamiento y el procesamiento distribuido de datos a gran escala  Hadoop proporciona dos componentes:  Almacenamiento de datos: HDFS  Procesamiento de datos: MapReduce Hadoop y su ecosistema
  • 21. Introducción a Apache Spark | 21 HDFS  HDFS es el sistema de archivos distribuido de Hadoop que se encarga de almacenar los datos Hadoop y su ecosistema
  • 22. Introducción a Apache Spark | 22 HDFS  HDFS es el sistema de archivos distribuido de Hadoop que se encarga de almacenar los datos Hadoop y su ecosistema Nodo 1 Nodo 2 Nodo 3 Nodo 4 Nodo servidor Driver
  • 23. Introducción a Apache Spark | 23 HDFS  HDFS es el sistema de archivos distribuido de Hadoop que se encarga de almacenar los datos Hadoop y su ecosistema Nodo 1 Nodo 2 Nodo 3 Nodo 4 Datos.txt: B1, B2 Nodo servidor Driver Datos.txt B1 B2
  • 24. Introducción a Apache Spark | 24 HDFS  HDFS es el sistema de archivos distribuido de Hadoop que se encarga de almacenar los datos Hadoop y su ecosistema Nodo 1 Nodo 2 Nodo 3 Nodo 4 Datos.txt: B1, B2 B1: Nodo 1 B2: Nodo 3 Nodo servidor Driver Datos.txt B1 B2 B1 B2
  • 25. Introducción a Apache Spark | 25 HDFS  HDFS es el sistema de archivos distribuido de Hadoop que se encarga de almacenar los datos Hadoop y su ecosistema Nodo 1 Nodo 2 Nodo 3 Nodo 4 Datos.txt: B1, B2 B1: Nodo 1, Nodo 2 B2: Nodo 3, Nodo 4 Nodo servidor Driver Datos.txt B1 B2 B1 B2B1 B2
  • 26. Introducción a Apache Spark | 26 MAPREDUCE  MapReduce es el sistema que utiliza Hadoop para procesar los datos en un clúster Hadoop y su ecosistema
  • 27. Introducción a Apache Spark | 27 MAPREDUCE - EJEMPLO  ¿Cómo cuento el número de ocurrencias de cada palabra en un documento? Hadoop y su ecosistema “Me llamo Lola Me llamo Claudia Me llamo Aimar Pilar me llamo Te gustan los perros?” {Me: 4, llamo: 4, Lola: 1, Claudia: 1, Aimar: 1, Pilar: 1, …}
  • 28. Introducción a Apache Spark | 28 MAPREDUCE - EJEMPLO  Primera aproximación: Uso de una colección de claves / valores Hadoop y su ecosistema Colección Clave / Valor
  • 29. Introducción a Apache Spark | 29 MAPREDUCE - EJEMPLO  Primera aproximación: Uso de una colección de claves / valores Hadoop y su ecosistema “Me llamo Lola Me llamo Claudia Me llamo Aimar Pilar me llamo ¿Te gustan los perros?” {}
  • 30. Introducción a Apache Spark | 30 MAPREDUCE - EJEMPLO  Primera aproximación: Uso de una colección de claves / valores Hadoop y su ecosistema “Me llamo Lola Me llamo Claudia Me llamo Aimar Pilar me llamo ¿Te gustan los perros?” {Me: 1}
  • 31. Introducción a Apache Spark | 31 MAPREDUCE - EJEMPLO  Primera aproximación: Uso de una colección de claves / valores Hadoop y su ecosistema “Me llamo Lola Me llamo Claudia Me llamo Aimar Pilar me llamo ¿Te gustan los perros?” {Me: 1, llamo: 1}
  • 32. Introducción a Apache Spark | 32 MAPREDUCE - EJEMPLO  Primera aproximación: Uso de una hashtable Hadoop y su ecosistema “Me llamo Lola Me llamo Claudia Me llamo Aimar Pilar me llamo ¿Te gustan los perros?” {Me: 1, llamo: 1, Lola: 1}
  • 33. Introducción a Apache Spark | 33 MAPREDUCE - EJEMPLO  Primera aproximación: Uso de una hashtable Hadoop y su ecosistema “Me llamo Lola Me llamo Claudia Me llamo Aimar Pilar me llamo ¿Te gustan los perros?” {Me: 2, llamo: 1, Lola: 1}
  • 34. Introducción a Apache Spark | 34 MAPREDUCE - EJEMPLO  Pero .. ¿qué ocurre si el documento es realmente GRANDE? Hadoop y su ecosistema “Me llamo Lola Me llamo Claudia Me llamo Aimar Pilar me llamo ¿Te gustan los perros? ¿Y los caballos? A mí me gustan mucho los perros Sobre todos los caballitos de mar ¿Y a ti?” {Me: 3, Llamo:3, Lola: 3 {Pilar:1, Me: 1, … } {Y:1, … } {Sobre: 1, … } {Me: 5, Llamo:3, Lola: 3, Pilar: 1 … Máquinas 1-4 Máquina 5
  • 35. Introducción a Apache Spark | 35 MAPREDUCE - EJEMPLO  Pero .. ¿qué ocurre si el documento es realmente GRANDE? Hadoop y su ecosistema “Me llamo Lola Me llamo Claudia Me llamo Aimar Pilar me llamo ¿Te gustan los perros? ¿Y los caballos? A mí me gustan mucho los perros Sobre todos los caballitos de mar ¿Y a ti?” {Me: 3, Llamo:3, Lola: 3 {Pilar:1, Me: 1, … } {Y:1, … } {Sobre: 1, … } {Me: 5, Llamo:3, Lola: 3, Pilar: 1 … Máquinas 1-4 Máquina 5 Los resultados tienen que caber en una sola máquina
  • 36. Introducción a Apache Spark | 36 MAPREDUCE - EJEMPLO  Pero .. ¿qué ocurre si el documento es realmente GRANDE? Hadoop y su ecosistema “Me llamo Lola Me llamo Claudia Me llamo Aimar Pilar me llamo ¿Te gustan los perros? ¿Y los caballitos? A mí me gustan mucho los perros Sobre todos los caballitos de mar ¿Y a ti?” {Me: 3, Llamo:3, Lola: 3 {Pilar:1, Me: 1, … } {Y:1, … } {Sobre: 1, … } {A : 2, Aimar : 1, Claudia: 1} Máquinas 1-4 Máquina 1-4
  • 37. Introducción a Apache Spark | 37 MAPREDUCE - EJEMPLO  Pero .. ¿qué ocurre si el documento es realmente GRANDE? Hadoop y su ecosistema “Me llamo Lola Me llamo Claudia Me llamo Aimar Pilar me llamo ¿Te gustan los perros? ¿Y los caballitos? A mí me gustan mucho los perros Sobre todos los caballitos de mar ¿Y a ti?” {Me: 3, Llamo:3, Lola: 3 {Pilar:1, Me: 1, … } {Y:1, … } {Sobre: 1, … } {A : 2, Aimar : 1, Claudia: 1} {Pilar: 1, Sobre: 1, …} {Lola: 1, Los: 4,…} {mucho: 1, mi: 1, …} Máquinas 1-4 Máquina 1-4
  • 38. Introducción a Apache Spark | 38 MAPREDUCE - EJEMPLO  Pero .. ¿qué ocurre si el documento es realmente GRANDE? Hadoop y su ecosistema “Me llamo Lola Me llamo Claudia Me llamo Aimar Pilar me llamo ¿Te gustan los perros? ¿Y los caballitos? A mí me gustan mucho los perros Sobre todos los caballitos de mar ¿Y a ti?” {Me: 3, Llamo:3, Lola: 3 {Pilar:1, Me: 1, … } {Y:1, … } {Sobre: 1, … } {A : 2, Aimar : 1, Claudia: 1} {Pilar: 1, Sobre: 1, …} {Lola: 1, Los: 4,…} {mucho: 1, mi: 1, …} Máquinas 1-4 Máquina 1-4 MAP REDUCE
  • 39. Introducción a Apache Spark | 39 MAPREDUCE Hadoop y su ecosistema
  • 40. Introducción a Apache Spark | 40 MAPREDUCE Hadoop y su ecosistema Nodo 1 Nodo 2 Nodo 3 Nodo 4 Nodo servidor Driver B1 Map B2 Map Red.
  • 41. Introducción a Apache Spark | 41 CARACTERÍSTICAS Hadoop y su ecosistema Característica Descripción Automático Un trabajo se realiza completamente sin que sea necesaria una intervención manual Transparente Las tareas asignadas a un nodo que falla son retomadas por otras tareas Grácil Los fallos sólo representan una perdida proporcional en la capacidad de proceso Recuperable Esta capacidad se recupera cuando el componente es reemplazado más tarde Consistente El fallo no produce corrupción o resultados inválidos
  • 42. Introducción a Apache Spark | 42 HADOOP / BASE DE DATOS TRADICIONAL Hadoop y su ecosistema BD Tradicional Hadoop Tamaño Gigabytes Petabytes Acceso Interactivo y Batch Batch Actualización de la información Escritura/Lectura (muchas veces) Escritura - 1 vez / Lectura Estructura Estática Dinámica Integridad Alta (ACID) Baja Escalado Vertical Horizontal Tiempo de respuesta Prácticamente inmediato Tiene latencia (proceso Batch) Acceso a la información Partes de información Toda la información
  • 43. Introducción a Apache Spark | 43 AGENDA  Big Data  Apache Hadoop  Ecosistema de Hadoop  Evolución Framework de procesamiento distribuido Sistema de ficheros distribuido de Hadoop
  • 44. Introducción a Apache Spark | 44 SQOOP Hadoop y su ecosistema PROCESOHDFS HDFS SCOOP DB
  • 45. Introducción a Apache Spark | 45 FLUME Hadoop y su ecosistema PROCESOHDFS HDFS FLUME
  • 46. Introducción a Apache Spark | 46 HIVE Hadoop y su ecosistema
  • 47. Introducción a Apache Spark | 47 HIVE Hadoop y su ecosistema
  • 48. Introducción a Apache Spark | 48 ECOSISTEMA DE HADOOP Hadoop y su ecosistema Framework de procesamiento distribuido Sistema de ficheros distribuido de Hadoop Querys SQL ODBC
  • 49. Introducción a Apache Spark | 49 PIG Hadoop y su ecosistema PROCESOENTRADA SALIDA
  • 50. Introducción a Apache Spark | 50 OZZIE Hadoop y su ecosistema PROCESO 1 PROCESO 2
  • 51. Introducción a Apache Spark | 51 MAHOUT Hadoop y su ecosistema
  • 52. Introducción a Apache Spark | 52 MAHOUT Hadoop y su ecosistema
  • 53. Introducción a Apache Spark | 53 HBASE Hadoop y su ecosistema Framework de procesamiento distribuido Sistema de ficheros distribuido de Hadoop
  • 54. Introducción a Apache Spark | 54 HBASE Hadoop y su ecosistema Framework de procesamiento distribuido Sistema de ficheros distribuido de Hadoop Base de datos NoSQL De tipo columnar
  • 55. Introducción a Apache Spark | 55 HUE Hadoop y su ecosistema
  • 56. Introducción a Apache Spark | 56 HUE Hadoop y su ecosistema
  • 57. Introducción a Apache Spark | 57 AMBARI Hadoop y su ecosistema
  • 58. Introducción a Apache Spark | 58 ZOOKEEPER Hadoop y su ecosistema Nodo 1 Nodo 2 Nodo 3 Nodo 4 Nodo servidor
  • 59. Introducción a Apache Spark | 59 ZOOKEEPER Hadoop y su ecosistema Nodo 1 Nodo 2 Nodo 3 Nodo 4 Nodo servidor Nodo servidor ZooKeeper Servidor Servidor Servidor
  • 60. Introducción a Apache Spark | 60 ECOSISTEMA DE HADOOP Hadoop y su ecosistema https://hadoopecosystemtable.github.io/
  • 61. Introducción a Apache Spark | 61 DISTRIBUCIONES DE HADOOP Hadoop y su ecosistema
  • 62. Introducción a Apache Spark | 62 AGENDA  Big Data  Apache Hadoop  Ecosistema de Hadoop  Hadoop 2.0
  • 63. Introducción a Apache Spark | 63 EVOLUCIÓN DE HADOOP Hadoop y su ecosistema Hadoop 1 - Proceso Batch - Un único motor de procesamiento HDFS (Sistema de ficheros de Hadoop) MapReduce (Gestor de Recursos del Clúster / Procesamiento de datos Batch) Hadoop 2 con YARN - Proceso Batch HDFS (Sistema de ficheros de Hadoop) YARN (Gestor de Recursos del Clúster)
  • 64. Introducción a Apache Spark | 64 EVOLUCIÓN DE HADOOP Hadoop y su ecosistema Hadoop 1 - Proceso Batch - Un único motor de procesamiento HDFS (Sistema de ficheros de Hadoop) MapReduce (Gestor de Recursos del Clúster / Procesamiento de datos Batch) Hadoop 2 con YARN - Proceso Batch, Interactivo - Muchos motores HDFS (Sistema de ficheros de Hadoop) YARN (Gestor de Recursos del Clúster)
  • 65. Introducción a Apache Spark | 65 EVOLUCIÓN DE HADOOP Hadoop y su ecosistema Hadoop 1 - Proceso Batch - Un único motor de procesamiento HDFS (Sistema de ficheros de Hadoop) MapReduce (Gestor de Recursos del Clúster / Procesamiento de datos Batch) Hadoop 2 con YARN - Batch, Interactivo, Tiempo Real - Muchos motores HDFS (Sistema de ficheros de Hadoop) YARN (Gestor de Recursos del Clúster)
  • 66. Introducción a Apache Spark | 66 EVOLUCIÓN DE HADOOP Hadoop y su ecosistema Hadoop 1 - Proceso Batch - Un único motor de procesamiento HDFS (Sistema de ficheros de Hadoop) MapReduce (Gestor de Recursos del Clúster / Procesamiento de datos Batch) Hadoop 2 con YARN - Batch, Interactivo, Tiempo Real - Muchos motores HDFS (Sistema de ficheros de Hadoop) YARN (Gestor de Recursos del Clúster)
  • 67. Muchas gracias Centros de Competencia / Business Analytics Daniel Villanueva Jiménez dvillanuevaj@indra.es Avda. de Bruselas 35 28108 Alcobendas, Madrid España T +34 91 480 50 00 F +34 91 480 50 80 www.indracompany.com