SlideShare una empresa de Scribd logo
1 de 27
Descargar para leer sin conexión
Hadoop en acción

  Cluster de bajo perfil para el
análisis de grandes volúmenes de
               datos
¿Quién soy yo?

● Sergio Navarrete Suárez
● Estudiante de Ingeniería de Sistemas de la Universidad
  Distrital Francisco José de Caldas
● Usuario de Linux desde hace tres años aproximadamente
● Coordinador General Grupo GNU/Linux Universidad
  Distrital Francisco José de Caldas
● Equipo Webmaster - Red de Datos Universidad Distrital
Contenido

● ¿Qué es MapReduce?
● ¿Qué es HDFS?
● ¿Cuándo usar HDFS?
● ¿Cuándo NO usar HDFS?
● Partes de un HDFS
● Optimización por distancia física
● ¿Qué es Hadoop?
● ¿Por qué Hadoop?
Contenido

● ¿Cuándo utilizar Hadoop?
● Arquitectura de Hadoop
● La implementación de Hadoop de MapReduce
● Anatomía de un trabajo de Hadoop
● Ejemplo en Hadoop
● ¿Qué sigue?
● Fuentes
● Conclusiones
● Preguntas
● Agradecimientos especiales
¿Qué es MapReduce?

● Algoritmo desarrollado por Google para procesar pequeñas
  cantidades de archivos de gran tamaño.
● Muy rápido comparado con scripts de shell
● Implementación rápida, comparado con multiprocesamiento
  (preparación de los datos)
● Hace uso de hardware de bajo perfil
¿Qué es HDFS?

● Sistema de archivos distribuido
● Diseñado para trabajar de manera eficiente con
  MapReduce
● Trabaja con bloques (64 MB por defecto)
¿Cuándo usar HDFS?

● Archivos muy, muy grandes (GB o más)
● Necesidad de particionar archivos
● Fallo de nodos sin perder información
● Una escritura, muchas lecturas
¿Cuándo NO usar HDFS?

● Baja latencia
● Muchos archivos pequeños
● Multiples "escritores"
● Modificaciones arbitrarias a los archivos
Partes de un HDFS

● Namenode: Mantiene el árbol del sistema de archivos y los
  metadatos.
   ○ Namespace image
   ○ Edit log
● Datanodes: Contienen los datos. Reportan al Namenode
  con la información acerca de los bloques actuales.
● Secondary namenode: En el cual se descarga información
  del edit log para que no se vuelva muy grande en el
  namenode.
   ○ Puede funcionar como namenode en caso de que este
      falle, pero puede haber pérdida de información (no fue
      diseñado para cumplir esta tarea).
Optimización por distancia física
¿Qué es Hadoop?

● Framework para almacenar y procesar grandes volúmenes
  de datos.
● Don't make better hardware. Use more hardware instead.
● Orientado a los datos: se enfoca en el uso de disco y el
  ancho de banda de la red más que en el procesamiento
  (aunque esto también puede optimizarse)
Breve historia de Hadoop
● Empieza en 2002 con Doug Cutting y Mike Cafarella
● Inspirado por los papers de Google en MapReduce y
  Google File System
● Proyecto nombrado a partir de el elefante de peluche
  amarillo del hijo de Doug (de ahí el logo)
● Empieza como parte de la manera de manejar los datos de
  un motor de búsqueda web (Notch)
● Proyecto Apache Hadoop inicia - 2006
● Desarrollado y bastante usado en Yahoo!
● Usado también en LastFM, Facebook y The New York
  Times
● 1 TB sort benchmark - 209 seg. - 2008
● Minute sort - 500 GB en 59 seg. (1400 nodos)
● 100 TB sort benchmark - 173 min. (3400 nodos) - 2009
¿Por qué Hadoop?

● Más rápido que un RDBMS para grandes volúmenes de
  datos (especialmente datos no organizados)
● Más rápido que un HPC tradicional, ya que implementa
  optimizaciones teniendo en cuenta la topología de la red
  (optimiza el uso de la red)
● Evita la pérdida de información a través de replicación
● API fácil de aprender
● Posibilidad de trabajar con lenguajes diferentes a Java
¿Cuándo usar Hadoop?

● Se tienen grandes archivos (GB para arriba)
● No se tiene un RDBMS
● Se tiene el hardware
● Se van a hacer muchas más lecturas que escrituras
● Programas de tipo clave -> valor
Arquitectura - Software




                     Fuente: Wikipedia.org
Arquitectura - Hardware
Implementación de Hadoop de
MapReduce
● Fase "map"
   ○ Se toma la entrada, se divide en subproblemas y se
     distribuyen a los "worker nodes". Estos a su vez pueden
     hacer lo mismo.
   ○ Los "worker nodes" procesan los datos y retornan un
     resultado a su nodo maestro.
   ○ En algunos casos, esta fase sólo prepara la información
     para ser procesada por el reductor.
Implementación de Hadoop de
MapReduce
● Fase "reduce"
   ○ El nodo maestro toma los resultados de la fase "map" de
     los "worker nodes" y los combina de alguna manera
     programada.
   ○ Si todos los mapeos son independientes entre sí, se
     puede decir que todos pueden correr en paralelo.
Implementación de Hadoop de
MapReduce
Anatomia de un trabajo de Hadoop

● Datos de entrada, programa MapReduce e información de
  configuración
● Tareas de mapeo y reducción (pap and reduce tasks)
● Jobtracker: Coordina las tareas y las programa para que
  sean resueltas por los tasktrackers.
● Tasktracker: Resuelve tareas y envía el resultado al
  jobtracker.
● Cualquier lenguaje que pueda leer desde stdin y escribir a
  stdout puede ser utilizado con Hadoop
Ejemplo en hadoop

● Construir el cluster
   ○ Instalar software de virtualización
   ○ Copiar la máquina virtual con Hadoop
   ○ Correr la máquina
   ○ Mirar la configuración de Hadoop
   ○ Dar las direcciones IP al maestro
   ○ Añadir llave de ssh a hosts confiables
   ○ Iniciar los demonios (dfs y mapred)
   ○ Hacer prueba de verificación
Ejemplo en hadoop

● Descargar e instalar Hadoop
● Crear usuario hadoop
● Instalar los paquetes adicionales
● Configurar el sistema de archivos en red (NFS)
● Probar la instalación
● Guardar los datos en el HDFS
● Entender el problema
● Correr el programa
● Obtener los resultados
● Analizar los resultados
¿Qué sigue?

● Análisis de datos astronómicos (Gamma-ray bursts) en el
  Centro de Computación de Alto Desempeño (CECAD)
● Clasificación de correos electrónicos en la Red de Datos
  (Universidad Distrital FJC).
● Análisis de logs con el grupo de seguridad del Grupo
  GNU/Linux de la Universidad Distrital FJC
Recursos fuente

1. White, Tom. Hadoop, the definitive guide. O'Reilly - Yahoo!
   Press. 2nd Edition
2. Project Gutenberg www.gutenberg.org
Conclusiones
Preguntas
Agradecimientos especiales

Más contenido relacionado

La actualidad más candente

Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
 
Creación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con ClouderaCreación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con ClouderaDavid Albela Pérez
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIUrko Zurutuza
 
Hadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datosHadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datosRaul Ochoa
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopArsys
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveWellness Telecom
 

La actualidad más candente (20)

Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Creación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con ClouderaCreación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con Cloudera
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión II
 
Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1
 
Hadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datosHadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datos
 
Introducción a Apache HBase
Introducción a Apache HBaseIntroducción a Apache HBase
Introducción a Apache HBase
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar Hadoop
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y Hive
 
Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)
 
OpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: SparkOpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: Spark
 
Hadoop
HadoopHadoop
Hadoop
 
Hadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadasHadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadas
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
 
BigData y MapReduce
BigData y MapReduceBigData y MapReduce
BigData y MapReduce
 
Presentacion
PresentacionPresentacion
Presentacion
 
HDFS
HDFSHDFS
HDFS
 

Similar a Hadoop en accion

Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?Fernando Alfonso Casas De la Torre
 
G te c sesion3b- mapreduce
G te c sesion3b- mapreduceG te c sesion3b- mapreduce
G te c sesion3b- mapreduceVictoria López
 
Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Miguel Pastor
 
Big Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStackBig Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStackSoftware Guru
 
Entonamiento y perfilado de Drupal
Entonamiento y perfilado de DrupalEntonamiento y perfilado de Drupal
Entonamiento y perfilado de Drupalcamposer
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdfAntonioSotoRodriguez1
 
Polybase
PolybasePolybase
PolybaseSolidQ
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop MeetupArkhotech
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big DataStratebi
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkJose Manuel Ortega Candel
 

Similar a Hadoop en accion (20)

Programación Disribuida
Programación DisribuidaProgramación Disribuida
Programación Disribuida
 
Clase Hadoop
Clase HadoopClase Hadoop
Clase Hadoop
 
Sistemas distribuidos
Sistemas distribuidosSistemas distribuidos
Sistemas distribuidos
 
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
 
Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017
 
G te c sesion3b- mapreduce
G te c sesion3b- mapreduceG te c sesion3b- mapreduce
G te c sesion3b- mapreduce
 
introduction to hadoop
introduction to hadoopintroduction to hadoop
introduction to hadoop
 
Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Hadoop, Cloud y Spring
Hadoop, Cloud y Spring
 
Big Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStackBig Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStack
 
3. Hadoop
3.  Hadoop3.  Hadoop
3. Hadoop
 
Entonamiento y perfilado de Drupal
Entonamiento y perfilado de DrupalEntonamiento y perfilado de Drupal
Entonamiento y perfilado de Drupal
 
Paralela9
Paralela9Paralela9
Paralela9
 
Taller hadoop
Taller hadoopTaller hadoop
Taller hadoop
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Polybase
PolybasePolybase
Polybase
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop Meetup
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big Data
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Spark Hands-on
Spark Hands-onSpark Hands-on
Spark Hands-on
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a Spark
 

Más de campus party

¿Qué es SCADA y cómo me afecta su (in)seguridad?
¿Qué es SCADA y cómo me afecta su (in)seguridad? ¿Qué es SCADA y cómo me afecta su (in)seguridad?
¿Qué es SCADA y cómo me afecta su (in)seguridad? campus party
 
Producción del largometraje pequeñas voces
Producción del largometraje pequeñas vocesProducción del largometraje pequeñas voces
Producción del largometraje pequeñas vocescampus party
 
Conferencia: Aplicaciones y el reto del desarrollo móvil
Conferencia: Aplicaciones y el reto del desarrollo móvilConferencia: Aplicaciones y el reto del desarrollo móvil
Conferencia: Aplicaciones y el reto del desarrollo móvilcampus party
 
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel ContrerasComo sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contrerascampus party
 
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel ContrerasComo sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contrerascampus party
 
X taller bluevialiminal
X taller bluevialiminalX taller bluevialiminal
X taller bluevialiminalcampus party
 
X liminal buevia 2 (dllo.)-taller
X liminal buevia 2 (dllo.)-tallerX liminal buevia 2 (dllo.)-taller
X liminal buevia 2 (dllo.)-tallercampus party
 
X elalgoritmodelamemoria maria juliana soto (social media) (1) 1
X elalgoritmodelamemoria maria juliana soto (social media) (1) 1X elalgoritmodelamemoria maria juliana soto (social media) (1) 1
X elalgoritmodelamemoria maria juliana soto (social media) (1) 1campus party
 
Theremin Alfredo Vargas
Theremin Alfredo Vargas Theremin Alfredo Vargas
Theremin Alfredo Vargas campus party
 
Sonido y cine Ricardo Escallon
Sonido y cine Ricardo Escallon Sonido y cine Ricardo Escallon
Sonido y cine Ricardo Escallon campus party
 
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Bautista
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés BautistaPhotoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Bautista
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Bautistacampus party
 
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Fonseca
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés FonsecaPhotoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Fonseca
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Fonsecacampus party
 
Aseguramiento de Vulnerabilidades Web con tecnologías OWASP
Aseguramiento de Vulnerabilidades Web con tecnologías OWASPAseguramiento de Vulnerabilidades Web con tecnologías OWASP
Aseguramiento de Vulnerabilidades Web con tecnologías OWASPcampus party
 
Mundos virtuales inmersivos y social shopping
Mundos virtuales inmersivos y social shopping Mundos virtuales inmersivos y social shopping
Mundos virtuales inmersivos y social shopping campus party
 
Creación transmediática y comunidades en práctica
Creación transmediática y comunidades en prácticaCreación transmediática y comunidades en práctica
Creación transmediática y comunidades en prácticacampus party
 
Implementación de Cloud Computing con Software Libre y medidas de seguridad p...
Implementación de Cloud Computing con Software Libre y medidas de seguridad p...Implementación de Cloud Computing con Software Libre y medidas de seguridad p...
Implementación de Cloud Computing con Software Libre y medidas de seguridad p...campus party
 

Más de campus party (20)

Titulo
Titulo Titulo
Titulo
 
¿Qué es SCADA y cómo me afecta su (in)seguridad?
¿Qué es SCADA y cómo me afecta su (in)seguridad? ¿Qué es SCADA y cómo me afecta su (in)seguridad?
¿Qué es SCADA y cómo me afecta su (in)seguridad?
 
Producción del largometraje pequeñas voces
Producción del largometraje pequeñas vocesProducción del largometraje pequeñas voces
Producción del largometraje pequeñas voces
 
Conferencia: Aplicaciones y el reto del desarrollo móvil
Conferencia: Aplicaciones y el reto del desarrollo móvilConferencia: Aplicaciones y el reto del desarrollo móvil
Conferencia: Aplicaciones y el reto del desarrollo móvil
 
Liminal Bluevia 1
Liminal Bluevia 1Liminal Bluevia 1
Liminal Bluevia 1
 
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel ContrerasComo sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
 
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel ContrerasComo sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
Como sería un viaje a la velocidad de la luz - Miguel Ángel Contreras
 
X taller bluevialiminal
X taller bluevialiminalX taller bluevialiminal
X taller bluevialiminal
 
X liminal buevia 2 (dllo.)-taller
X liminal buevia 2 (dllo.)-tallerX liminal buevia 2 (dllo.)-taller
X liminal buevia 2 (dllo.)-taller
 
X elalgoritmodelamemoria maria juliana soto (social media) (1) 1
X elalgoritmodelamemoria maria juliana soto (social media) (1) 1X elalgoritmodelamemoria maria juliana soto (social media) (1) 1
X elalgoritmodelamemoria maria juliana soto (social media) (1) 1
 
Theremin Alfredo Vargas
Theremin Alfredo Vargas Theremin Alfredo Vargas
Theremin Alfredo Vargas
 
Sonido y cine Ricardo Escallon
Sonido y cine Ricardo Escallon Sonido y cine Ricardo Escallon
Sonido y cine Ricardo Escallon
 
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Bautista
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés BautistaPhotoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Bautista
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Bautista
 
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Fonseca
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés FonsecaPhotoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Fonseca
Photoshop para fotógrafos. Del cuarto oscuro al cuarto digital - Andrés Fonseca
 
Aseguramiento de Vulnerabilidades Web con tecnologías OWASP
Aseguramiento de Vulnerabilidades Web con tecnologías OWASPAseguramiento de Vulnerabilidades Web con tecnologías OWASP
Aseguramiento de Vulnerabilidades Web con tecnologías OWASP
 
Mundos virtuales inmersivos y social shopping
Mundos virtuales inmersivos y social shopping Mundos virtuales inmersivos y social shopping
Mundos virtuales inmersivos y social shopping
 
Creación transmediática y comunidades en práctica
Creación transmediática y comunidades en prácticaCreación transmediática y comunidades en práctica
Creación transmediática y comunidades en práctica
 
Android+Arduino
Android+ArduinoAndroid+Arduino
Android+Arduino
 
Implementación de Cloud Computing con Software Libre y medidas de seguridad p...
Implementación de Cloud Computing con Software Libre y medidas de seguridad p...Implementación de Cloud Computing con Software Libre y medidas de seguridad p...
Implementación de Cloud Computing con Software Libre y medidas de seguridad p...
 
Linux en caja
Linux en cajaLinux en caja
Linux en caja
 

Último

LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramDIDIERFERNANDOGUERRE
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxMariaBurgos55
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxAlexander López
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxJOSEFERNANDOARENASCA
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 

Último (20)

LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ram
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptx
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel taller
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptx
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 

Hadoop en accion

  • 1. Hadoop en acción Cluster de bajo perfil para el análisis de grandes volúmenes de datos
  • 2. ¿Quién soy yo? ● Sergio Navarrete Suárez ● Estudiante de Ingeniería de Sistemas de la Universidad Distrital Francisco José de Caldas ● Usuario de Linux desde hace tres años aproximadamente ● Coordinador General Grupo GNU/Linux Universidad Distrital Francisco José de Caldas ● Equipo Webmaster - Red de Datos Universidad Distrital
  • 3. Contenido ● ¿Qué es MapReduce? ● ¿Qué es HDFS? ● ¿Cuándo usar HDFS? ● ¿Cuándo NO usar HDFS? ● Partes de un HDFS ● Optimización por distancia física ● ¿Qué es Hadoop? ● ¿Por qué Hadoop?
  • 4. Contenido ● ¿Cuándo utilizar Hadoop? ● Arquitectura de Hadoop ● La implementación de Hadoop de MapReduce ● Anatomía de un trabajo de Hadoop ● Ejemplo en Hadoop ● ¿Qué sigue? ● Fuentes ● Conclusiones ● Preguntas ● Agradecimientos especiales
  • 5. ¿Qué es MapReduce? ● Algoritmo desarrollado por Google para procesar pequeñas cantidades de archivos de gran tamaño. ● Muy rápido comparado con scripts de shell ● Implementación rápida, comparado con multiprocesamiento (preparación de los datos) ● Hace uso de hardware de bajo perfil
  • 6. ¿Qué es HDFS? ● Sistema de archivos distribuido ● Diseñado para trabajar de manera eficiente con MapReduce ● Trabaja con bloques (64 MB por defecto)
  • 7. ¿Cuándo usar HDFS? ● Archivos muy, muy grandes (GB o más) ● Necesidad de particionar archivos ● Fallo de nodos sin perder información ● Una escritura, muchas lecturas
  • 8. ¿Cuándo NO usar HDFS? ● Baja latencia ● Muchos archivos pequeños ● Multiples "escritores" ● Modificaciones arbitrarias a los archivos
  • 9. Partes de un HDFS ● Namenode: Mantiene el árbol del sistema de archivos y los metadatos. ○ Namespace image ○ Edit log ● Datanodes: Contienen los datos. Reportan al Namenode con la información acerca de los bloques actuales. ● Secondary namenode: En el cual se descarga información del edit log para que no se vuelva muy grande en el namenode. ○ Puede funcionar como namenode en caso de que este falle, pero puede haber pérdida de información (no fue diseñado para cumplir esta tarea).
  • 11. ¿Qué es Hadoop? ● Framework para almacenar y procesar grandes volúmenes de datos. ● Don't make better hardware. Use more hardware instead. ● Orientado a los datos: se enfoca en el uso de disco y el ancho de banda de la red más que en el procesamiento (aunque esto también puede optimizarse)
  • 12. Breve historia de Hadoop ● Empieza en 2002 con Doug Cutting y Mike Cafarella ● Inspirado por los papers de Google en MapReduce y Google File System ● Proyecto nombrado a partir de el elefante de peluche amarillo del hijo de Doug (de ahí el logo) ● Empieza como parte de la manera de manejar los datos de un motor de búsqueda web (Notch) ● Proyecto Apache Hadoop inicia - 2006 ● Desarrollado y bastante usado en Yahoo! ● Usado también en LastFM, Facebook y The New York Times ● 1 TB sort benchmark - 209 seg. - 2008 ● Minute sort - 500 GB en 59 seg. (1400 nodos) ● 100 TB sort benchmark - 173 min. (3400 nodos) - 2009
  • 13. ¿Por qué Hadoop? ● Más rápido que un RDBMS para grandes volúmenes de datos (especialmente datos no organizados) ● Más rápido que un HPC tradicional, ya que implementa optimizaciones teniendo en cuenta la topología de la red (optimiza el uso de la red) ● Evita la pérdida de información a través de replicación ● API fácil de aprender ● Posibilidad de trabajar con lenguajes diferentes a Java
  • 14. ¿Cuándo usar Hadoop? ● Se tienen grandes archivos (GB para arriba) ● No se tiene un RDBMS ● Se tiene el hardware ● Se van a hacer muchas más lecturas que escrituras ● Programas de tipo clave -> valor
  • 15. Arquitectura - Software Fuente: Wikipedia.org
  • 17. Implementación de Hadoop de MapReduce ● Fase "map" ○ Se toma la entrada, se divide en subproblemas y se distribuyen a los "worker nodes". Estos a su vez pueden hacer lo mismo. ○ Los "worker nodes" procesan los datos y retornan un resultado a su nodo maestro. ○ En algunos casos, esta fase sólo prepara la información para ser procesada por el reductor.
  • 18. Implementación de Hadoop de MapReduce ● Fase "reduce" ○ El nodo maestro toma los resultados de la fase "map" de los "worker nodes" y los combina de alguna manera programada. ○ Si todos los mapeos son independientes entre sí, se puede decir que todos pueden correr en paralelo.
  • 20. Anatomia de un trabajo de Hadoop ● Datos de entrada, programa MapReduce e información de configuración ● Tareas de mapeo y reducción (pap and reduce tasks) ● Jobtracker: Coordina las tareas y las programa para que sean resueltas por los tasktrackers. ● Tasktracker: Resuelve tareas y envía el resultado al jobtracker. ● Cualquier lenguaje que pueda leer desde stdin y escribir a stdout puede ser utilizado con Hadoop
  • 21. Ejemplo en hadoop ● Construir el cluster ○ Instalar software de virtualización ○ Copiar la máquina virtual con Hadoop ○ Correr la máquina ○ Mirar la configuración de Hadoop ○ Dar las direcciones IP al maestro ○ Añadir llave de ssh a hosts confiables ○ Iniciar los demonios (dfs y mapred) ○ Hacer prueba de verificación
  • 22. Ejemplo en hadoop ● Descargar e instalar Hadoop ● Crear usuario hadoop ● Instalar los paquetes adicionales ● Configurar el sistema de archivos en red (NFS) ● Probar la instalación ● Guardar los datos en el HDFS ● Entender el problema ● Correr el programa ● Obtener los resultados ● Analizar los resultados
  • 23. ¿Qué sigue? ● Análisis de datos astronómicos (Gamma-ray bursts) en el Centro de Computación de Alto Desempeño (CECAD) ● Clasificación de correos electrónicos en la Red de Datos (Universidad Distrital FJC). ● Análisis de logs con el grupo de seguridad del Grupo GNU/Linux de la Universidad Distrital FJC
  • 24. Recursos fuente 1. White, Tom. Hadoop, the definitive guide. O'Reilly - Yahoo! Press. 2nd Edition 2. Project Gutenberg www.gutenberg.org