SlideShare una empresa de Scribd logo
Certified Big Data & Hadoop Training – DataFlair
Hadoop Tutorial
Certified Big Data & Hadoop Training – DataFlair
Agenda
 Introducción a Hadoop
 Nodos y demos de Hadoop
 Arquitectura de Hadoop
 Características
 Características de Hadoop

Certified Big Data & Hadoop Training – DataFlair
What is Hadoop?
La tecnología que empodera a Yahoo, Facebook, Twitter, Walmart y otros
Hadoop
Certified Big Data & Hadoop Training – DataFlair
What is Hadoop?
Un marco de código abierto que
permite el procesamiento distribuido
de grandes conjuntos de datos en
todo el clúster de hardware básico
Certified Big Data & Hadoop Training – DataFlair
What is Hadoop?
Un marco de código abierto que
permite el procesamiento distribuido
de grandes conjuntos de datos en
todo el clúster de hardware básico
Código abierto
El código fuente está disponible
gratuitamente
Puede ser redistribuido y
modificado
Certified Big Data & Hadoop Training – DataFlair
What is Hadoop?
Un marco de código abierto que
permite el procesamiento distribuido
de grandes conjuntos de datos en
todo el clúster de hardware básico
Procesamiento distribuido
Los datos se procesan
distribuidamente en múltiples
nodos / servidores
Varias máquinas procesan los datos
de forma independiente
Certified Big Data & Hadoop Training – DataFlair
What is Hadoop?
Un marco de código abierto que
permite el procesamiento distribuido
de grandes conjuntos de datos en
todo el clúster de hardware básico
Cluster
Múltiples máquinas conectadas
entre sí
Los nodos se conectan a través de
LAN
Certified Big Data & Hadoop Training – DataFlair
What is Hadoop?
An open source framework that
allows distributed processing of
large data-sets across the cluster
of Commodity Hardware
Hardware básico
Máquinas económicas /
asequibles
Normalmente hardware de bajo
rendimiento
Certified Big Data & Hadoop Training – DataFlair
¿Qué es Hadoop?
• Marco de código abierto escrito en Java
• Inspirado en el modelo de programación Map-Reduce de Google, así
como en su sistema de archivos (GFS)
•
Certified Big Data & Hadoop Training – DataFlair
Hadoop defeated
Super computer
Hadoop se convirtió en
proyecto de primer nivel
lanzó Hive,
Compatibilidad con SQL para Hadoop
Desarrollo de
comenzó como subproyecto Lucene
publicado GFS &
Documentos de MapReduce
2002 2003 2005 2006 2008
Doug Cutting comenzó
trabajando en
Doug Cutting agregó
DFS y MapReduce
en
convertido 4TB de
archivos de imágenes sobre
100 instancias EC2
Doug Cutting
Se unio a Cloudera
2009
2004
Historia de Hadoop
2007
Certified Big Data & Hadoop Training – DataFlair
Componentes de Hadoop
Hadoop consta de tres partes clave
Certified Big Data & Hadoop Training – DataFlair
Nodo maestro Nodo esclavo
Hadoop Nodes
Nodes
Certified Big Data & Hadoop Training – DataFlair
Nodo maestro
Slave Node
Hadoop Daemons
Administrador
de recursos
NombreNode
Nodo
Director
DataNode
Nodes
Certified Big Data & Hadoop Training – DataFlair
Sub Work Sub Work Sub Work Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Work
Sub Work Sub Work Sub Work Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Arquitectura básica de Hadoop
Certified Big Data & Hadoop Training – DataFlair
Características de Hadoop
Certified Big Data & Hadoop Training – DataFlair
Código abierto
• El código fuente está
disponible gratuitamente
• Se puede redistribuir
• Se puede modificar
•
Free
Affordable
Community
Transparent
Inter-
operable
No vendor
lock
Open
Source
Certified Big Data & Hadoop Training – DataFlair
Procesamiento distribuido
• Los datos se procesan de
forma distribuida en el clúster
• Varios nodos del clúster
procesan los datos de forma
independiente
• Centralized Processing
Distributed Processing
Certified Big Data & Hadoop Training – DataFlair
Fault Tolerance
• La falla de los nodos se
recupera automáticamente
• Framework se encarga de la
falla del hardware, así como de
las tareas
•
Certified Big Data & Hadoop Training – DataFlair
Reliability
• Los datos se almacenan de
forma fiable en el clúster de
máquinas a pesar de los fallos
de la máquina
• La falla de los nodos no causa
pérdida de datos
•
Certified Big Data & Hadoop Training – DataFlair
High Availability
• Los datos son de alta
disponibilidad y accesibles a
pesar de la falla de hardware
• No habrá tiempo de inactividad
para la aplicación del usuario
final debido a los datos
•
Certified Big Data & Hadoop Training – DataFlair
Scalability
• Escalabilidad vertical: se
puede agregar nuevo
hardware a los nodos
• Escalabilidad horizontal: se
pueden agregar nuevos
nodos sobre la marcha
•
Certified Big Data & Hadoop Training – DataFlair
Economic
• No es necesario comprar una licencia costosa
• No es necesario comprar hardware costoso
•
Economic
Open Source
Commodity
Hardware =
+
Certified Big Data & Hadoop Training – DataFlair
Easy to Use
• Los desafíos de la computación
distribuida son manejados por el
marco
• El cliente solo necesita
concentrarse en la lógica de
negocios
•
Certified Big Data & Hadoop Training – DataFlair
Data Locality
• Mover la computación a los datos
en lugar de los datos a la
computación
• Los datos se procesan en los
nodos donde se almacenan
•
Storage Servers App Servers
Data Data
Data
Data
Servers
Data Data
Data
Data
Algorithm
Algo Algo
Algo
Algo
Certified Big Data & Hadoop Training – DataFlair
Summary
• Todos los días generamos 2,3 billones de GB de datos
• Hadoop maneja grandes volúmenes de datos de manera eficiente
• Hadoop utiliza el poder de la computación distribuida
• HDFS y Yarn son dos componentes principales de Hadoop
• Es altamente tolerante a fallos, confiable y disponible
•
Certified Big Data & Hadoop Training – DataFlair
Thank You
DataFlair
/c/DataFlairWS /DataFlairWS

Más contenido relacionado

Similar a Hadoop_Introduction_pptx.pptx

Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
Cedes cloud 2013 ronald vargas quesada
Cedes cloud 2013 ronald vargas quesadaCedes cloud 2013 ronald vargas quesada
Cedes cloud 2013 ronald vargas quesada
Ronald Francisco Vargas Quesada
 
computacion en nube
computacion en nubecomputacion en nube
computacion en nube
thania michaell valero caixba
 
Webinar Oracle Data Integrator 12c (ODI)
Webinar Oracle Data Integrator 12c (ODI)Webinar Oracle Data Integrator 12c (ODI)
Webinar Oracle Data Integrator 12c (ODI)
avanttic Consultoría Tecnológica
 
SQL Server 2014 y La Plataforma de Datos
SQL Server 2014 y La Plataforma de DatosSQL Server 2014 y La Plataforma de Datos
SQL Server 2014 y La Plataforma de Datos
Joseph Lopez
 
Sql server 2014 y la plataforma de datos
Sql server 2014 y la plataforma de datosSql server 2014 y la plataforma de datos
Sql server 2014 y la plataforma de datos
SpanishPASSVC
 
Clase Hadoop
Clase HadoopClase Hadoop
Clase Hadoop
JorgeAntonioCabreraG2
 
Drupalcamp 2014 reconstruir un medio digital idealista news
Drupalcamp 2014   reconstruir un medio digital idealista newsDrupalcamp 2014   reconstruir un medio digital idealista news
Drupalcamp 2014 reconstruir un medio digital idealista news
Martín .
 
Reconstruir un medio digital: idealista/news - Drupalcamp Spain 2014
Reconstruir un medio digital: idealista/news - Drupalcamp Spain 2014Reconstruir un medio digital: idealista/news - Drupalcamp Spain 2014
Reconstruir un medio digital: idealista/news - Drupalcamp Spain 2014
Rodrigo Alfaro
 
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIGAzure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
Freddy Angarita
 
computacion en la nube
computacion en la nubecomputacion en la nube
computacion en la nube
pverdymariaedit
 
Clases de bases de datos
Clases de bases de datosClases de bases de datos
Clases de bases de datos
tatiana_arevalo
 
Sistemas gestores de base de datos (sgbd)
Sistemas gestores de base de datos (sgbd)Sistemas gestores de base de datos (sgbd)
Sistemas gestores de base de datos (sgbd)
Henry Cumbicus Rivera
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
Gustavo Alzate Sandoval
 
Optimizando con Open Source y Postgres en espanol
Optimizando con Open Source y Postgres en espanolOptimizando con Open Source y Postgres en espanol
Optimizando con Open Source y Postgres en espanol
EDB
 
Presentacion cloud computer
Presentacion cloud computerPresentacion cloud computer
Presentacion cloud computer
Cielo Gris
 
Bases de datos
Bases de datosBases de datos
Bases de datos
Diego Ccalla Auqui
 
Nunsys HP Day - Un nuevo estilo de IT
Nunsys HP Day - Un nuevo estilo de ITNunsys HP Day - Un nuevo estilo de IT
Nunsys HP Day - Un nuevo estilo de IT
Nunsys S.L.
 
Taller 2
Taller 2Taller 2
Taller 2
brayanpalomino
 
Webinar Migración de Forms & Reports a Oracle Cloud
Webinar Migración de Forms & Reports a Oracle CloudWebinar Migración de Forms & Reports a Oracle Cloud
Webinar Migración de Forms & Reports a Oracle Cloud
avanttic Consultoría Tecnológica
 

Similar a Hadoop_Introduction_pptx.pptx (20)

Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Cedes cloud 2013 ronald vargas quesada
Cedes cloud 2013 ronald vargas quesadaCedes cloud 2013 ronald vargas quesada
Cedes cloud 2013 ronald vargas quesada
 
computacion en nube
computacion en nubecomputacion en nube
computacion en nube
 
Webinar Oracle Data Integrator 12c (ODI)
Webinar Oracle Data Integrator 12c (ODI)Webinar Oracle Data Integrator 12c (ODI)
Webinar Oracle Data Integrator 12c (ODI)
 
SQL Server 2014 y La Plataforma de Datos
SQL Server 2014 y La Plataforma de DatosSQL Server 2014 y La Plataforma de Datos
SQL Server 2014 y La Plataforma de Datos
 
Sql server 2014 y la plataforma de datos
Sql server 2014 y la plataforma de datosSql server 2014 y la plataforma de datos
Sql server 2014 y la plataforma de datos
 
Clase Hadoop
Clase HadoopClase Hadoop
Clase Hadoop
 
Drupalcamp 2014 reconstruir un medio digital idealista news
Drupalcamp 2014   reconstruir un medio digital idealista newsDrupalcamp 2014   reconstruir un medio digital idealista news
Drupalcamp 2014 reconstruir un medio digital idealista news
 
Reconstruir un medio digital: idealista/news - Drupalcamp Spain 2014
Reconstruir un medio digital: idealista/news - Drupalcamp Spain 2014Reconstruir un medio digital: idealista/news - Drupalcamp Spain 2014
Reconstruir un medio digital: idealista/news - Drupalcamp Spain 2014
 
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIGAzure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
 
computacion en la nube
computacion en la nubecomputacion en la nube
computacion en la nube
 
Clases de bases de datos
Clases de bases de datosClases de bases de datos
Clases de bases de datos
 
Sistemas gestores de base de datos (sgbd)
Sistemas gestores de base de datos (sgbd)Sistemas gestores de base de datos (sgbd)
Sistemas gestores de base de datos (sgbd)
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Optimizando con Open Source y Postgres en espanol
Optimizando con Open Source y Postgres en espanolOptimizando con Open Source y Postgres en espanol
Optimizando con Open Source y Postgres en espanol
 
Presentacion cloud computer
Presentacion cloud computerPresentacion cloud computer
Presentacion cloud computer
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Nunsys HP Day - Un nuevo estilo de IT
Nunsys HP Day - Un nuevo estilo de ITNunsys HP Day - Un nuevo estilo de IT
Nunsys HP Day - Un nuevo estilo de IT
 
Taller 2
Taller 2Taller 2
Taller 2
 
Webinar Migración de Forms & Reports a Oracle Cloud
Webinar Migración de Forms & Reports a Oracle CloudWebinar Migración de Forms & Reports a Oracle Cloud
Webinar Migración de Forms & Reports a Oracle Cloud
 

Último

TECLADO ERGONÓMICO Y PANTALLAS TACTILES.
TECLADO ERGONÓMICO Y PANTALLAS TACTILES.TECLADO ERGONÓMICO Y PANTALLAS TACTILES.
TECLADO ERGONÓMICO Y PANTALLAS TACTILES.
FransuaPeralta
 
Manual Soporte y mantenimiento de computo.pdf
Manual Soporte y mantenimiento de computo.pdfManual Soporte y mantenimiento de computo.pdf
Manual Soporte y mantenimiento de computo.pdf
rmurillojesus
 
Manual de mantenimiento hadware xperts pdf
Manual de mantenimiento hadware xperts pdfManual de mantenimiento hadware xperts pdf
Manual de mantenimiento hadware xperts pdf
cbtistechserv
 
trabajo de mantenimiento de equipos ....
trabajo de mantenimiento de equipos ....trabajo de mantenimiento de equipos ....
trabajo de mantenimiento de equipos ....
luzmilalopez043tamar
 
Partes de una Computadora.documento.word.drive
Partes de una Computadora.documento.word.drivePartes de una Computadora.documento.word.drive
Partes de una Computadora.documento.word.drive
MiguelDoloriert
 
mi hermoso sector victor raul ,calle san jose
mi hermoso sector victor raul ,calle san josemi hermoso sector victor raul ,calle san jose
mi hermoso sector victor raul ,calle san jose
Ariana yglesias azañero
 

Último (6)

TECLADO ERGONÓMICO Y PANTALLAS TACTILES.
TECLADO ERGONÓMICO Y PANTALLAS TACTILES.TECLADO ERGONÓMICO Y PANTALLAS TACTILES.
TECLADO ERGONÓMICO Y PANTALLAS TACTILES.
 
Manual Soporte y mantenimiento de computo.pdf
Manual Soporte y mantenimiento de computo.pdfManual Soporte y mantenimiento de computo.pdf
Manual Soporte y mantenimiento de computo.pdf
 
Manual de mantenimiento hadware xperts pdf
Manual de mantenimiento hadware xperts pdfManual de mantenimiento hadware xperts pdf
Manual de mantenimiento hadware xperts pdf
 
trabajo de mantenimiento de equipos ....
trabajo de mantenimiento de equipos ....trabajo de mantenimiento de equipos ....
trabajo de mantenimiento de equipos ....
 
Partes de una Computadora.documento.word.drive
Partes de una Computadora.documento.word.drivePartes de una Computadora.documento.word.drive
Partes de una Computadora.documento.word.drive
 
mi hermoso sector victor raul ,calle san jose
mi hermoso sector victor raul ,calle san josemi hermoso sector victor raul ,calle san jose
mi hermoso sector victor raul ,calle san jose
 

Hadoop_Introduction_pptx.pptx

  • 1. Certified Big Data & Hadoop Training – DataFlair Hadoop Tutorial
  • 2. Certified Big Data & Hadoop Training – DataFlair Agenda  Introducción a Hadoop  Nodos y demos de Hadoop  Arquitectura de Hadoop  Características  Características de Hadoop 
  • 3. Certified Big Data & Hadoop Training – DataFlair What is Hadoop? La tecnología que empodera a Yahoo, Facebook, Twitter, Walmart y otros Hadoop
  • 4. Certified Big Data & Hadoop Training – DataFlair What is Hadoop? Un marco de código abierto que permite el procesamiento distribuido de grandes conjuntos de datos en todo el clúster de hardware básico
  • 5. Certified Big Data & Hadoop Training – DataFlair What is Hadoop? Un marco de código abierto que permite el procesamiento distribuido de grandes conjuntos de datos en todo el clúster de hardware básico Código abierto El código fuente está disponible gratuitamente Puede ser redistribuido y modificado
  • 6. Certified Big Data & Hadoop Training – DataFlair What is Hadoop? Un marco de código abierto que permite el procesamiento distribuido de grandes conjuntos de datos en todo el clúster de hardware básico Procesamiento distribuido Los datos se procesan distribuidamente en múltiples nodos / servidores Varias máquinas procesan los datos de forma independiente
  • 7. Certified Big Data & Hadoop Training – DataFlair What is Hadoop? Un marco de código abierto que permite el procesamiento distribuido de grandes conjuntos de datos en todo el clúster de hardware básico Cluster Múltiples máquinas conectadas entre sí Los nodos se conectan a través de LAN
  • 8. Certified Big Data & Hadoop Training – DataFlair What is Hadoop? An open source framework that allows distributed processing of large data-sets across the cluster of Commodity Hardware Hardware básico Máquinas económicas / asequibles Normalmente hardware de bajo rendimiento
  • 9. Certified Big Data & Hadoop Training – DataFlair ¿Qué es Hadoop? • Marco de código abierto escrito en Java • Inspirado en el modelo de programación Map-Reduce de Google, así como en su sistema de archivos (GFS) •
  • 10. Certified Big Data & Hadoop Training – DataFlair Hadoop defeated Super computer Hadoop se convirtió en proyecto de primer nivel lanzó Hive, Compatibilidad con SQL para Hadoop Desarrollo de comenzó como subproyecto Lucene publicado GFS & Documentos de MapReduce 2002 2003 2005 2006 2008 Doug Cutting comenzó trabajando en Doug Cutting agregó DFS y MapReduce en convertido 4TB de archivos de imágenes sobre 100 instancias EC2 Doug Cutting Se unio a Cloudera 2009 2004 Historia de Hadoop 2007
  • 11. Certified Big Data & Hadoop Training – DataFlair Componentes de Hadoop Hadoop consta de tres partes clave
  • 12. Certified Big Data & Hadoop Training – DataFlair Nodo maestro Nodo esclavo Hadoop Nodes Nodes
  • 13. Certified Big Data & Hadoop Training – DataFlair Nodo maestro Slave Node Hadoop Daemons Administrador de recursos NombreNode Nodo Director DataNode Nodes
  • 14. Certified Big Data & Hadoop Training – DataFlair Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Sub Work Arquitectura básica de Hadoop
  • 15. Certified Big Data & Hadoop Training – DataFlair Características de Hadoop
  • 16. Certified Big Data & Hadoop Training – DataFlair Código abierto • El código fuente está disponible gratuitamente • Se puede redistribuir • Se puede modificar • Free Affordable Community Transparent Inter- operable No vendor lock Open Source
  • 17. Certified Big Data & Hadoop Training – DataFlair Procesamiento distribuido • Los datos se procesan de forma distribuida en el clúster • Varios nodos del clúster procesan los datos de forma independiente • Centralized Processing Distributed Processing
  • 18. Certified Big Data & Hadoop Training – DataFlair Fault Tolerance • La falla de los nodos se recupera automáticamente • Framework se encarga de la falla del hardware, así como de las tareas •
  • 19. Certified Big Data & Hadoop Training – DataFlair Reliability • Los datos se almacenan de forma fiable en el clúster de máquinas a pesar de los fallos de la máquina • La falla de los nodos no causa pérdida de datos •
  • 20. Certified Big Data & Hadoop Training – DataFlair High Availability • Los datos son de alta disponibilidad y accesibles a pesar de la falla de hardware • No habrá tiempo de inactividad para la aplicación del usuario final debido a los datos •
  • 21. Certified Big Data & Hadoop Training – DataFlair Scalability • Escalabilidad vertical: se puede agregar nuevo hardware a los nodos • Escalabilidad horizontal: se pueden agregar nuevos nodos sobre la marcha •
  • 22. Certified Big Data & Hadoop Training – DataFlair Economic • No es necesario comprar una licencia costosa • No es necesario comprar hardware costoso • Economic Open Source Commodity Hardware = +
  • 23. Certified Big Data & Hadoop Training – DataFlair Easy to Use • Los desafíos de la computación distribuida son manejados por el marco • El cliente solo necesita concentrarse en la lógica de negocios •
  • 24. Certified Big Data & Hadoop Training – DataFlair Data Locality • Mover la computación a los datos en lugar de los datos a la computación • Los datos se procesan en los nodos donde se almacenan • Storage Servers App Servers Data Data Data Data Servers Data Data Data Data Algorithm Algo Algo Algo Algo
  • 25. Certified Big Data & Hadoop Training – DataFlair Summary • Todos los días generamos 2,3 billones de GB de datos • Hadoop maneja grandes volúmenes de datos de manera eficiente • Hadoop utiliza el poder de la computación distribuida • HDFS y Yarn son dos componentes principales de Hadoop • Es altamente tolerante a fallos, confiable y disponible •
  • 26. Certified Big Data & Hadoop Training – DataFlair Thank You DataFlair /c/DataFlairWS /DataFlairWS