Aula virtual apache_hadoop_v3 1

Centros de Competencia - BA
Introducción a Apache Hadoop

Introducción a Apache Spark | 2
OBJETIVOS
 Obtener una visión general de Apache
Hadoop y su amplio y complejo ecosistema

AGENDA
 Big Data
 Apache Hadoop
 Ecosistema de Hadoop
 Hadoop 2.0

CARACTERÍSTICAS - VOLUMEN
 Capacidad de almacenar una gran cantidad de datos
 El volumen de datos se incrementa exponencialmente:
(44x de 2009 a 2020)
Big Data

CARACTERÍSTICAS - VARIEDAD
 Capacidad de combinar datos en los diferentes formatos que se
generan (textos, imágenes, vídeos, audios, logs, json, xml, pdf, bbdd,
emails, etc.)
Big Data

emails, etc.)
Big Data

emails, etc.)
Big Data
http://www.slideshare.net/dellenterprise/maximizing-return-on-information

Big Data
http://www.slideshare.net/franmod/tendencias-storage

CARACTERÍSTICAS - VELOCIDAD
 Capacidad para poder capturar, almacenar y analizar los datos a la
mayor velocidad posible
Big Data

CARACTERÍSTICAS - VERACIDAD
 Capacidad para tratar con datos desfasados, inconsistentes,
incompletos, inciertos o ambiguos
Big Data
http://www.tylervigen.com/spurious-correlations

CARACTERÍSTICAS - VALOR
Big Data

Problema

SOLUCION TRADICIONAL
 La meta es tener una máquina cada vez más poderosa (memoria,
procesador, etc.)
Big Data

SOLUCION TRADICIONAL
 La meta es tener una máquina cada vez más poderosa (memoria,
procesador, etc.)
 Escalabilidad limitada
 Alto coste
Big Data

COMPUTACIÓN DISTRIBUIDA TRADICIONAL
 La meta es que muchas máquinas se puedan encargar de realizar un
solo proceso
Big Data

COMPUTACIÓN DISTRIBUIDA TRADICIONAL
 La meta es que muchas máquinas se puedan encargar de realizar un
solo proceso
 Hardware muy caro tolerante a fallos
 Programación compleja
 Escalabilidad limitada
Big Data

AGENDA
 Big Data
 Apache Hadoop
 Hadoop 2.0

HISTORIA DE HADOOP
Hadoop y su ecosistema
2002 2003 2004 2005 2006 2007 2008 2009 2010
Dog Cutting y Mike Carafella
empiezan a trabajar en Nutch
Google publica detalles
sobre GFS y MapReduce
Doug Cutting añade
DFS y MapReduce a
Nutch
Yahoo! Contrata a Doug
Hadoop se sale de Nutch
Facebook crea Hive – el
soporte SQL para Hadoop
Ordenación más rápida de 1 TB
3:30 minutos sobre 910 nodos
Ordenación más rápida de 1 TB
62 segundos sobre 1460 nodos

¿QUÉ ES HADOOP?
 Hadoop es un sistema para el almacenamiento y el procesamiento
distribuido de datos a gran escala
 Hadoop proporciona dos componentes:
 Almacenamiento de datos: HDFS
 Procesamiento de datos: MapReduce

HDFS
 HDFS es el sistema de archivos distribuido de Hadoop que se
encarga de almacenar los datos

HDFS
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Nodo servidor
Driver

HDFS
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Datos.txt: B1, B2
Nodo servidor
Driver
Datos.txt
B1
B2

HDFS
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Datos.txt: B1, B2
B1: Nodo 1
B2: Nodo 3
Nodo servidor
Driver
Datos.txt
B1
B2
B1 B2

HDFS
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Datos.txt: B1, B2
B1: Nodo 1, Nodo 2
B2: Nodo 3, Nodo 4
Nodo servidor
Driver
Datos.txt
B1
B2
B1 B2B1 B2

MAPREDUCE
 MapReduce es el sistema que utiliza Hadoop para procesar los datos
en un clúster

MAPREDUCE - EJEMPLO
 ¿Cómo cuento el número de ocurrencias de cada palabra en un
documento?
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
Te gustan
los perros?”
{Me: 4,
llamo: 4,
Lola: 1,
Claudia: 1,
Aimar: 1,
Pilar: 1,
…}

MAPREDUCE - EJEMPLO
 Primera aproximación: Uso de una colección de claves / valores
Colección Clave / Valor

MAPREDUCE - EJEMPLO
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?”
{}

MAPREDUCE - EJEMPLO
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?”
{Me: 1}

MAPREDUCE - EJEMPLO
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?”
{Me: 1,
llamo: 1}

MAPREDUCE - EJEMPLO
 Primera aproximación: Uso de una hashtable
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?”
{Me: 1,
llamo: 1,
Lola: 1}

MAPREDUCE - EJEMPLO
 Primera aproximación: Uso de una hashtable
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?”
{Me: 2,
llamo: 1,
Lola: 1}

MAPREDUCE - EJEMPLO
 Pero .. ¿qué ocurre si el documento es realmente GRANDE?
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?
¿Y los caballos?
A mí me gustan
mucho los perros
Sobre todos los
caballitos de mar
¿Y a ti?”
{Me: 3,
Llamo:3,
Lola: 3
{Pilar:1,
Me: 1,
… }
{Y:1,
… }
{Sobre: 1,
… }
{Me: 5,
Llamo:3,
Lola: 3,
Pilar: 1
…
Máquinas 1-4
Máquina 5

MAPREDUCE - EJEMPLO
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?
¿Y los caballos?
A mí me gustan
mucho los perros
Sobre todos los
caballitos de mar
¿Y a ti?”
{Me: 3,
Llamo:3,
Lola: 3
{Pilar:1,
Me: 1,
… }
{Y:1,
… }
{Sobre: 1,
… }
{Me: 5,
Llamo:3,
Lola: 3,
Pilar: 1
…
Máquinas 1-4
Máquina 5
Los resultados tienen
que caber en una sola
máquina

MAPREDUCE - EJEMPLO
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?
¿Y los caballitos?
A mí me gustan
mucho los perros
Sobre todos los
caballitos de mar
¿Y a ti?”
{Me: 3,
Llamo:3,
Lola: 3
{Pilar:1,
Me: 1,
… }
{Y:1,
… }
{Sobre: 1,
… }
{A : 2,
Aimar : 1,
Claudia: 1}
Máquinas 1-4 Máquina 1-4

MAPREDUCE - EJEMPLO
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?
¿Y los caballitos?
A mí me gustan
mucho los perros
Sobre todos los
caballitos de mar
¿Y a ti?”
{Me: 3,
Llamo:3,
Lola: 3
{Pilar:1,
Me: 1,
… }
{Y:1,
… }
{Sobre: 1,
… }
{A : 2,
Aimar : 1,
Claudia: 1}
{Pilar: 1,
Sobre: 1,
…}
{Lola: 1,
Los: 4,…}
{mucho: 1,
mi: 1, …}

MAPREDUCE - EJEMPLO
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?
¿Y los caballitos?
A mí me gustan
mucho los perros
Sobre todos los
caballitos de mar
¿Y a ti?”
{Me: 3,
Llamo:3,
Lola: 3
{Pilar:1,
Me: 1,
… }
{Y:1,
… }
{Sobre: 1,
… }
{A : 2,
Aimar : 1,
Claudia: 1}
{Pilar: 1,
Sobre: 1,
…}
{Lola: 1,
Los: 4,…}
{mucho: 1,
mi: 1, …}
MAP REDUCE

MAPREDUCE

MAPREDUCE
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Nodo servidor
Driver
B1
Map
B2
Map Red.

CARACTERÍSTICAS
Característica Descripción
Automático Un trabajo se realiza completamente sin que sea
necesaria una intervención manual
Transparente Las tareas asignadas a un nodo que falla son retomadas
por otras tareas
Grácil Los fallos sólo representan una perdida proporcional en la
capacidad de proceso
Recuperable Esta capacidad se recupera cuando el componente es
reemplazado más tarde
Consistente El fallo no produce corrupción o resultados inválidos

HADOOP / BASE DE DATOS TRADICIONAL
BD Tradicional Hadoop
Tamaño Gigabytes Petabytes
Acceso Interactivo y Batch Batch
Actualización de la
información
Escritura/Lectura
(muchas veces)
Escritura - 1 vez /
Lectura
Estructura Estática Dinámica
Integridad Alta (ACID) Baja
Escalado Vertical Horizontal
Tiempo de respuesta Prácticamente
inmediato
Tiene latencia (proceso
Batch)
Acceso a la información Partes de información Toda la información

AGENDA
 Big Data
 Apache Hadoop
 Evolución
Framework de procesamiento
distribuido
Sistema de ficheros distribuido
de Hadoop

SQOOP
PROCESOHDFS HDFS
SCOOP
DB

FLUME
PROCESOHDFS HDFS
FLUME

HIVE

ECOSISTEMA DE HADOOP
distribuido
de Hadoop
Querys SQL
ODBC

PIG
PROCESOENTRADA SALIDA

OZZIE
PROCESO 1 PROCESO 2

MAHOUT

HBASE
distribuido
de Hadoop

HBASE
distribuido
de Hadoop
Base de datos NoSQL
De tipo columnar

HUE

AMBARI

ZOOKEEPER
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Nodo servidor

ZOOKEEPER
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Nodo servidor Nodo servidor
ZooKeeper
Servidor Servidor Servidor

ECOSISTEMA DE HADOOP
https://hadoopecosystemtable.github.io/

DISTRIBUCIONES DE HADOOP

AGENDA
 Big Data
 Apache Hadoop
 Hadoop 2.0

EVOLUCIÓN DE HADOOP
Hadoop 1
- Proceso Batch
- Un único motor de procesamiento
HDFS
(Sistema de ficheros de Hadoop)
MapReduce
(Gestor de Recursos del Clúster /
Procesamiento de datos Batch)
Hadoop 2 con YARN
- Proceso Batch
HDFS
YARN
(Gestor de Recursos del Clúster)

Hadoop 1
- Proceso Batch
HDFS
MapReduce
Hadoop 2 con YARN
- Proceso Batch, Interactivo
- Muchos motores
HDFS
YARN

Hadoop 1
- Proceso Batch
HDFS
MapReduce
Hadoop 2 con YARN
- Batch, Interactivo, Tiempo Real
- Muchos motores
HDFS
YARN

Muchas gracias
Centros de Competencia / Business Analytics
Daniel Villanueva Jiménez
dvillanuevaj@indra.es
Avda. de Bruselas 35
28108 Alcobendas,
Madrid España
T +34 91 480 50 00
F +34 91 480 50 80
www.indracompany.com

Aula virtual apache_hadoop_v3 1

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Aula virtual apache_hadoop_v3 1

Similar a Aula virtual apache_hadoop_v3 1 (20)

Aula virtual apache_hadoop_v3 1