Hadoop: MapReduce para procesar grandes cantidades de datos

1. Hadoop MapReducepara procesar grandes cantidades dedatos Raúl Ochoa

2. Antecedentes

3. Antecedentes Sistemas Distribuidos

4. Antecedentes Sistemas Distribuidos Programación Funcional

5. Antecedentes Sistemas Distribuidos Programación Funcional Álgebra

6. Antecedentes Sistemas Distribuidos Programación Funcional Álgebra Java

7. Antecedentes Sistemas Distribuidos Programación Funcional Álgebra Java Google

8. Antecedentes Sistemas Distribuidos Programación Funcional Álgebra Java Google

9. Antecedentes Sistemas Distribuidos Programación Funcional Álgebra Java Google Crédito de Libre Elección

10. Antecedentes Sistemas Distribuidos Programación Funcional Álgebra Java Google Crédito de Libre Elección

11. Contenidos Introducción a Hadoop MapReduce HadoopDistributed File System MapReduce + HDFS Subproyectos Demo

13. Introducción

14. Introducción Objetivos Base Características Historia Powered by Comparación con otros sistemas

15. Objetivos Open Source Computación distribuida Procesar grandes cantidades de datos

18. Base MapReduce GFS

19. Características Escalable Económico Eficiente Fiable

23. Historia Creador: Doug Cutting 2002-2004: Nutch 2004-2006: GFS & MapReducePapers 2006-2008: Yahoo!

27. Powered by Hadoop http://wiki.apache.org/hadoop/PoweredBy

28. Comparación RDBMS GridComputing SETI@home et al.

32. MapReduce

33. MapReduce Computación distribuida

35. DEAD LOCK

36. MapReduce Computación distribuida Programación Funcional

37. MapReduce Computación distribuida Programación Funcional Funciones Map y Reduce

38. Map Input map() Output

39. Reduce Input reduce() Output

40. MapReduce Computación distribuida Programación Funcional Funciones Map y Reduce map() y reduce() en Python

42. HDFS

43. HDFS Suposiciones y Objetivos Arquitectura NameNodes DataNodes Otras características

44. Suposiciones y Objetivos El hardware falla Grandes cantidades de datos Máquinas comunes Mover la computación, no los datos Portabilidad

49. Arquitectura

50. Arquitectura Espacio de nombres único Escribir una vez, leer varias Archivos divididos en bloques Acceso directo a los datos

54. Arquitectura

55. NameNode Controla el espacio de nombres Ficheros <> Bloques Bloques <> DataNodes Configuración de cluster Metadata

56. NameNodeMetadata En memoria Ficheros Atributos: creación, factor de replica. Bloques Bloques <> DataNodes LOG

57. Arquitectura

58. DataNode Servidor de bloques Reportes al NameNode Envió de datos a otros DataNodes

61. Arquitectura

62. Otras características Disposición de los bloques Heartbeats Replicación Validación de los datos Balanceo Interfaz web

67. Otras características Disposición de los bloques Heartbeats Replicación Validación de los datos Balanceo Interfaz de acceso

68. Fallos en NameNode Single Point of Failure LOG NameNode secundario

69. Lectura/Escritura Lectura Escritura

70. Lectura/Escritura Lectura Escritura

71. Más HDFS HDFS APIs MountableHDFS

73. MapReduce + HDFS

74. Nuevos componentes JobTracker TaskTracker

75. Job Tracker Cliente Task Tracker map Task Tracker sort Input Formar ram split region region split reduce() combine() reduce() read split Output Formar Task Tracker region region Input Files Output File Task Tracker region region

78. Job Tracker Cliente MapTask Task Tracker map Task Tracker sort Input Formar ram split region region split reduce() combine() reduce() read split Output Formar Task Tracker region region Input Files Output File Task Tracker region region

79. Job Tracker Cliente MapTask Task Tracker map Task Tracker sort Input Format ram split region region split reduce() combine() reduce() read split Output Formar Task Tracker region region Input Files Output File Task Tracker region region

87. HadoopStreaming Utilidad Sencillez Pensar en tuberías (à la POSIX) Prototipado rápido No Java Demo

89. Subproyectos

90. Subproyectos Pig Hive HBase MapReduce HDFS ZooKeeper Core

91. Pig Hive HBase ZooKeeper Core MapReduce HDFS Core

92. ZooKeeper Pig Hive HBase MapReduce HDFS ZooKeeper Core

93. ZooKeeper A. distribuidas: fallos parciales Simple Expresivo Alta disponibilidad Looselycoupled Alto rendimiento

99. Pig Pig Hive HBase MapReduce HDFS ZooKeeper Core

100. Pig Lenguaje de script: PigLatin Nivel de abstracción Operaciones y transformaciones MapReduce Jobs No es SQL

101. Hive Pig Hive HBase MapReduce HDFS ZooKeeper Core

102. Hive Análisis de datos Datos estructurados Query Language (à la SQL) No es un sistema Real Time

103. HBase Pig Hive HBase MapReduce HDFS ZooKeeper Core

104. HBase Base de Datos Distribuida Orientada a columnas Basada en BigTable

106. Demo

107. Documentación Hadoop Homepagehttp://hadoop.apache.org/ HadoopWikihttp://wiki.apache.org/hadoop/

108. Libros Hadoop: TheDefinitiveGuideTom White – O’Reilly (Julio 2009)http://oreilly.com/catalog/9780596521998/ Hadoop in ActionChuck Lam y James Warren –Manning (Octubre 2009)http://www.manning.com/lam/ Pro HadoopJason Venner–Apress (No publicado)http://www.apress.com/book/view/1430219424

109. Preguntas?

110. Créditos imágenes Deadlock – Unknown Licensevia reddit: http://www.reddit.com/r/programming/comments/65pcg/deadlock_traffic_version_pic

111. Gracias Raúl Ochoa rochoaf@gmail.com

Hadoop: MapReduce para procesar grandes cantidades de datos

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (6)

Similar a Hadoop: MapReduce para procesar grandes cantidades de datos

Similar a Hadoop: MapReduce para procesar grandes cantidades de datos (20)

Último

Último (20)

Hadoop: MapReduce para procesar grandes cantidades de datos