Hadoop_Introduction_pptx.pptx

Certified Big Data & Hadoop Training – DataFlair
Hadoop Tutorial

Agenda
 Introducción a Hadoop
 Nodos y demos de Hadoop
 Arquitectura de Hadoop
 Características
 Características de Hadoop


What is Hadoop?
La tecnología que empodera a Yahoo, Facebook, Twitter, Walmart y otros
Hadoop

What is Hadoop?
Un marco de código abierto que
permite el procesamiento distribuido
de grandes conjuntos de datos en
todo el clúster de hardware básico

What is Hadoop?
Código abierto
El código fuente está disponible
gratuitamente
Puede ser redistribuido y
modificado

What is Hadoop?
Procesamiento distribuido
Los datos se procesan
distribuidamente en múltiples
nodos / servidores
Varias máquinas procesan los datos
de forma independiente

What is Hadoop?
Cluster
Múltiples máquinas conectadas
entre sí
Los nodos se conectan a través de
LAN

What is Hadoop?
An open source framework that
allows distributed processing of
large data-sets across the cluster
of Commodity Hardware
Hardware básico
Máquinas económicas /
asequibles
Normalmente hardware de bajo
rendimiento

¿Qué es Hadoop?
• Marco de código abierto escrito en Java
• Inspirado en el modelo de programación Map-Reduce de Google, así
como en su sistema de archivos (GFS)
•

Hadoop defeated
Super computer
Hadoop se convirtió en
proyecto de primer nivel
lanzó Hive,
Compatibilidad con SQL para Hadoop
Desarrollo de
comenzó como subproyecto Lucene
publicado GFS &
Documentos de MapReduce
2002 2003 2005 2006 2008
Doug Cutting comenzó
trabajando en
Doug Cutting agregó
DFS y MapReduce
en
convertido 4TB de
archivos de imágenes sobre
100 instancias EC2
Doug Cutting
Se unio a Cloudera
2009
2004
Historia de Hadoop
2007

Componentes de Hadoop
Hadoop consta de tres partes clave

Nodo maestro Nodo esclavo
Hadoop Nodes
Nodes

Nodo maestro
Slave Node
Hadoop Daemons
Administrador
de recursos
NombreNode
Nodo
Director
DataNode
Nodes

Sub Work Sub Work Sub Work Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Work
Sub Work Sub Work Sub Work Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Arquitectura básica de Hadoop

Características de Hadoop

Código abierto
• El código fuente está
disponible gratuitamente
• Se puede redistribuir
• Se puede modificar
•
Free
Affordable
Community
Transparent
Inter-
operable
No vendor
lock
Open
Source

Procesamiento distribuido
• Los datos se procesan de
forma distribuida en el clúster
• Varios nodos del clúster
procesan los datos de forma
independiente
• Centralized Processing
Distributed Processing

Fault Tolerance
• La falla de los nodos se
recupera automáticamente
• Framework se encarga de la
falla del hardware, así como de
las tareas
•

Reliability
• Los datos se almacenan de
forma fiable en el clúster de
máquinas a pesar de los fallos
de la máquina
• La falla de los nodos no causa
pérdida de datos
•

High Availability
• Los datos son de alta
disponibilidad y accesibles a
pesar de la falla de hardware
• No habrá tiempo de inactividad
para la aplicación del usuario
final debido a los datos
•

Scalability
• Escalabilidad vertical: se
puede agregar nuevo
hardware a los nodos
• Escalabilidad horizontal: se
pueden agregar nuevos
nodos sobre la marcha
•

Economic
• No es necesario comprar una licencia costosa
• No es necesario comprar hardware costoso
•
Economic
Open Source
Commodity
Hardware =
+

Easy to Use
• Los desafíos de la computación
distribuida son manejados por el
marco
• El cliente solo necesita
concentrarse en la lógica de
negocios
•

Data Locality
• Mover la computación a los datos
en lugar de los datos a la
computación
• Los datos se procesan en los
nodos donde se almacenan
•
Storage Servers App Servers
Data Data
Data
Data
Servers
Data Data
Data
Data
Algorithm
Algo Algo
Algo
Algo

Summary
• Todos los días generamos 2,3 billones de GB de datos
• Hadoop maneja grandes volúmenes de datos de manera eficiente
• Hadoop utiliza el poder de la computación distribuida
• HDFS y Yarn son dos componentes principales de Hadoop
• Es altamente tolerante a fallos, confiable y disponible
•

Thank You
DataFlair
/c/DataFlairWS /DataFlairWS

Hadoop_Introduction_pptx.pptx

Recomendados

Recomendados

Más contenido relacionado

Similar a Hadoop_Introduction_pptx.pptx

Similar a Hadoop_Introduction_pptx.pptx (20)

Último

Último (6)

Hadoop_Introduction_pptx.pptx