Taller hadoop

•Descargar como PPTX, PDF•

0 recomendaciones•1,135 vistas

Christian Ariza Porras

Pequeña introducción al taller práctico de Hadoop, para el curso Big Data Analytics 2014-10

Tecnología

MAPREDUCE CON HADOOP

Introducción y ejemplo práctico de MapReduce con
Hadoop

Christian Fernando Ariza Porras
http://www.christian-ariza.net
cf.ariza975@uniandes.edu.co
@cronosnull

Las preguntas que responderemos hoy:
•
•
•
•

¿Cuáles son los componentes de Hadoop?
¿Cuál es la principal diferencia entre Hadoop 1.x y 2.x?
¿Cómo crear una aplicación MapReduce en Java?
¿Cuáles son los problemas más frecuentes?¿Cómo evitarlos?

Componentes de Hadoop

Imagen tomada de: http://hortonworks.com/hadoop/yarn/

Hadoop 2.0

Imagen tomada de: http://www.ibm.com/developerworks/library/bd-hadoopyarn/

En el curso trabajaremos con
Hadoop 1.1.2.21

Contador de palabras

PRIMERA APLICACIÓN
MAPREDUCE

Contador de palabras
• Cuenta cuántas veces aparece cada palabra dentro de un texto.
• Entrada: Archivo(s) de texto.
• Salida: Archivo de texto, separado por tabulaciones, con parejas
palabra -> cantidad

Diseño
• Map: Recibe una línea de texto, la divide por palabras, cuenta
cuántas veces aparece cada palabra y genera la salida, palabra
-> cantidad, para esa línea.
• Reduce: recibe una palabra y su conjunto de valores, los agrega
y genera la salida palabra->cantidad.

Configuración del proyecto

Librerías de
Hadoop +
Dependencias

Map
Extiende la clase org.apache.hadoop.mapreduce.Mapper;
Tipo de: <llaveEntrada, valorEntrada, llaveSalida, ValorSalida>
Los tipos de datos de las entradas y las
salidas deben implementar la interfaz
Writable.

Map

Cada map recibe una pareja
llave, valor y el contexto de la
tarea

Map

Usando el contexto escribe
la salida como parejas
llave, valor.

Reduce

Cada reduce recibe una
llave, el conjunto de valores y
el contexto de la tarea

Reduce

Y escribe la respuesta en
forma de parejas llave, valor

CONFIGURACIÓN DEL TRABAJO

Objetos de configuración, jar, y
nombre del Trabajo
Mapper y tipos de datos de las
salidas del maper.
Reducer y tipos de datos de las
llaves y los valores de salida

Formato y carpeta de
entrada
Formato y carpeta de salida
Ejecutar el trabajo y esperar

Hora de ejecutar el trabajo
• Conectarse a la máquina cliente
• Subir los datos al hdfs
– hadoop fs -put <carpetalocal> <carpetaRemota>

• Ejecutar el jar en hadoop
– hadoop jar <archivo.jar> <clase> <parámetros>
– hadoop jar wordcount.jar uniandes.reuters.job.WordCounter input
output

• Ver la salida:
– Descargarla usando get: hadoop fs -get <archivoRemoto>
<carpetaLocal>
– Verla usando cat: hadoop fs -cat output/* | sort -k 2 -n

Problemas comunes
• Los tipos de datos no coinciden.
– Revisar el stacktrace, los tipos de datos de salida del mapper deben
coincidir con los de entrada del reducer. Revisar la documentación
de los InputFormat.

• La versión de java no es soportada (Unsupported major.minor
versión)
– Compilar usando una versión soportada por el jdk que está en el
cluster (la misma instalada, una menor también puede funcionar.)

• La ejecución en Hadoop es más lenta que una solución standalone.
– No todos los problemas deben resolverse con Hadoop.

• La carpeta de salida ya existe...

Más contenido relacionado

La actualidad más candente

Introduction to dockerInstruqt

Introduction to Docker ComposeAjeet Singh Raina

Hive Bucketing in Apache Spark with Tejas PatilDatabricks

Top 5 Mistakes to Avoid When Writing Apache Spark ApplicationsCloudera, Inc.

Introduction to Docker storage, volume and imageejlp12

Ankara Spark Meetup - Big Data & Apache Spark Mimarisi SunumuSerkan Sakınmaz

Oracle 12c PDB insightsKirill Loifman

Docker Commands With Examples | Docker Tutorial | DevOps Tutorial | Docker Tr...Edureka!

Hive: Loading DataBenjamin Leonhardi

Introduction to Spark with PythonGokhan Atil

Apache web serverRishabh Bahukhandi

DSpace 4.2 Transmission: Import/ExportDuraSpace

Multi-tenant, Multi-cluster and Multi-container Apache HBase DeploymentsDataWorks Summit

Drilling into Data with Apache DrillDataWorks Summit

Sistema de archivos distribuido o DFSRosariio92

Docker Swarm For High Availability | Docker Tutorial | DevOps Tutorial | EdurekaEdureka!

Oracle GoldenGate for Zero Downtime MigrationFumiko Yamashita

Druid and Hive Together : Use Cases and Best PracticesDataWorks Summit

Microsoft Offical Course 20410C_09gameaxt

Introducción a hadoopCarlos Meseguer Gimenez

La actualidad más candente (20)

Introduction to docker

Introduction to Docker Compose

Hive Bucketing in Apache Spark with Tejas Patil

Top 5 Mistakes to Avoid When Writing Apache Spark Applications

Introduction to Docker storage, volume and image

Ankara Spark Meetup - Big Data & Apache Spark Mimarisi Sunumu

Oracle 12c PDB insights

Docker Commands With Examples | Docker Tutorial | DevOps Tutorial | Docker Tr...

Hive: Loading Data

Introduction to Spark with Python

Apache web server

DSpace 4.2 Transmission: Import/Export

Multi-tenant, Multi-cluster and Multi-container Apache HBase Deployments

Drilling into Data with Apache Drill

Sistema de archivos distribuido o DFS

Docker Swarm For High Availability | Docker Tutorial | DevOps Tutorial | Edureka

Oracle GoldenGate for Zero Downtime Migration

Druid and Hive Together : Use Cases and Best Practices

Microsoft Offical Course 20410C_09

Introducción a hadoop

Destacado

Amazon Elastic Computing 2Athanasios Anastasiou

Hadoop Cluster Configuration and Data Loading - Module 2Rohit Agrawal

Big Data and Hadoop - An IntroductionNagarjuna Kanamarlapudi

Hadoop administrationAneesh Pulickal Karunakaran

Introduction to Hadoop and Hadoop component rebeccatho

Hadoop TrendsHortonworks

Hadoop fault-toleranceRavindra Bandara

Introduction to Apache Hadoop EcosystemMahabubur Rahaman

Hadoop, HDFS and MapReducefvanvollenhoven

Hadoop as data refinerySteve Loughran

Integrate Hue with your Hadoop cluster - Yahoo! Hadoop Meetupgethue

Hadoop World 2011: The Hadoop Stack - Then, Now and in the Future - Eli Colli...Cloudera, Inc.

Distributed Data Analysis with Hadoop and R - Strangeloop 2011Jonathan Seidman

Hadoop adminBalaji Rajan

Simplified Data Management And Process Scheduling in HadoopGetInData

Scaling up with hadoop and banyan at ITRIX-2015, College of Engineering, GuindyRohit Kulkarni

Learn Hadoop AdministrationEdureka!

Hadoop Administration pdfEdureka!

Store and Process Big Data with Hadoop and CassandraDeependra Ariyadewa

How Big Data and Hadoop Integrated into BMC ControlM at CARFAXBMC Software

Destacado (20)

Amazon Elastic Computing 2

Hadoop Cluster Configuration and Data Loading - Module 2

Big Data and Hadoop - An Introduction

Hadoop administration

Introduction to Hadoop and Hadoop component

Hadoop Trends

Hadoop fault-tolerance

Introduction to Apache Hadoop Ecosystem

Hadoop, HDFS and MapReduce

Hadoop as data refinery

Integrate Hue with your Hadoop cluster - Yahoo! Hadoop Meetup

Hadoop World 2011: The Hadoop Stack - Then, Now and in the Future - Eli Colli...

Distributed Data Analysis with Hadoop and R - Strangeloop 2011

Hadoop admin

Simplified Data Management And Process Scheduling in Hadoop

Scaling up with hadoop and banyan at ITRIX-2015, College of Engineering, Guindy

Learn Hadoop Administration

Hadoop Administration pdf

Store and Process Big Data with Hadoop and Cassandra

How Big Data and Hadoop Integrated into BMC ControlM at CARFAX

Similar a Taller hadoop

Hadoop en accioncampus party

Hadoop en accionGLUD - Grupo de Trabajo Académico GNU/Linux Universidad Distrital

Meetup errores en proyectos Big DataJorge Lopez-Malla

MapReduce en HadoopTomás Fernández Pena

3. HadoopCristian González García

Introducción a HadoopTomás Fernández Pena

Clase HadoopJorgeAntonioCabreraG2

Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza

Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez

Programación DisribuidaJonathan Narvaez

¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix

Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza

Creación de un clúster de Hadoop con ClouderaDavid Albela Pérez

PresentacionDavid Albela Pérez

Hadoop, Cloud y Spring Miguel Pastor

Open analytics. data analytics con hadoopFco. Javier Lahoz Sevilla

OpenAnalytics 04/2015 - Data Analytics con HadoopOpenAnalytics Spain

introduction to hadoopProfessional Guru

Tecnicas Big Data: Meetup CassandraStratebi

Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez

Similar a Taller hadoop (20)

Hadoop en accion

Meetup errores en proyectos Big Data

MapReduce en Hadoop

3. Hadoop

Introducción a Hadoop

Clase Hadoop

Monta una Infraestructura para Big Data en tu Empresa

Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...

Programación Disribuida

¿Por que cambiar de Apache Hadoop a Apache Spark?

Monta una Infraestructura Big Data para tu Empresa - Sesión I

Creación de un clúster de Hadoop con Cloudera

Presentacion

Hadoop, Cloud y Spring

Open analytics. data analytics con hadoop

OpenAnalytics 04/2015 - Data Analytics con Hadoop

introduction to hadoop

Tecnicas Big Data: Meetup Cassandra

Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...

Último

CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega

Plan de aula informatica segundo periodo.docxpabonheidy28

Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho

Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48

PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770

SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín

Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11

Proyecto integrador. Las TIC en la sociedad S4.pptx241521559

Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology

KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD

Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez

La era de la educación digital y sus desafiosFundación YOD YOD

trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill

ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1

Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9

Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg

ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2

International Women's Day Sucre 2024 (IWD)GDGSucre

guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM

El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15

Taller hadoop

1. MAPREDUCE CON HADOOP Introducción y ejemplo práctico de MapReduce con Hadoop Christian Fernando Ariza Porras http://www.christian-ariza.net cf.ariza975@uniandes.edu.co @cronosnull

2. Las preguntas que responderemos hoy: • • • • ¿Cuáles son los componentes de Hadoop? ¿Cuál es la principal diferencia entre Hadoop 1.x y 2.x? ¿Cómo crear una aplicación MapReduce en Java? ¿Cuáles son los problemas más frecuentes?¿Cómo evitarlos?

3. Componentes de Hadoop Imagen tomada de: http://hortonworks.com/hadoop/yarn/

4. Hadoop 1.0

5. Hadoop 2.0 Imagen tomada de: http://www.ibm.com/developerworks/library/bd-hadoopyarn/

6. En el curso trabajaremos con Hadoop 1.1.2.21

7. Contador de palabras PRIMERA APLICACIÓN MAPREDUCE

8. Contador de palabras • Cuenta cuántas veces aparece cada palabra dentro de un texto. • Entrada: Archivo(s) de texto. • Salida: Archivo de texto, separado por tabulaciones, con parejas palabra -> cantidad

9. Diseño • Map: Recibe una línea de texto, la divide por palabras, cuenta cuántas veces aparece cada palabra y genera la salida, palabra -> cantidad, para esa línea. • Reduce: recibe una palabra y su conjunto de valores, los agrega y genera la salida palabra->cantidad.

10. Configuración del proyecto Librerías de Hadoop + Dependencias

11. Map

12. Map Extiende la clase org.apache.hadoop.mapreduce.Mapper; Tipo de: <llaveEntrada, valorEntrada, llaveSalida, ValorSalida> Los tipos de datos de las entradas y las salidas deben implementar la interfaz Writable.

13. Map Cada map recibe una pareja llave, valor y el contexto de la tarea

14. Map Usando el contexto escribe la salida como parejas llave, valor.

15. Reduce Cada reduce recibe una llave, el conjunto de valores y el contexto de la tarea

16. Reduce Y escribe la respuesta en forma de parejas llave, valor

17. CONFIGURACIÓN DEL TRABAJO Objetos de configuración, jar, y nombre del Trabajo Mapper y tipos de datos de las salidas del maper. Reducer y tipos de datos de las llaves y los valores de salida Formato y carpeta de entrada Formato y carpeta de salida Ejecutar el trabajo y esperar

18. Main…

19. Hora de ejecutar el trabajo • Conectarse a la máquina cliente • Subir los datos al hdfs – hadoop fs -put <carpetalocal> <carpetaRemota> • Ejecutar el jar en hadoop – hadoop jar <archivo.jar> <clase> <parámetros> – hadoop jar wordcount.jar uniandes.reuters.job.WordCounter input output • Ver la salida: – Descargarla usando get: hadoop fs -get <archivoRemoto> <carpetaLocal> – Verla usando cat: hadoop fs -cat output/* | sort -k 2 -n

20. Problemas comunes • Los tipos de datos no coinciden. – Revisar el stacktrace, los tipos de datos de salida del mapper deben coincidir con los de entrada del reducer. Revisar la documentación de los InputFormat. • La versión de java no es soportada (Unsupported major.minor versión) – Compilar usando una versión soportada por el jdk que está en el cluster (la misma instalada, una menor también puede funcionar.) • La ejecución en Hadoop es más lenta que una solución standalone. – No todos los problemas deben resolverse con Hadoop. • La carpeta de salida ya existe...

21. ¿Preguntas?

22. Manos a la obra

Taller hadoop

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Taller hadoop

Similar a Taller hadoop (20)

Último

Último (20)

Taller hadoop