Este documento presenta una introducción a Hadoop, incluyendo qué es MapReduce, HDFS, y Hadoop. Explica que Hadoop es un framework para almacenar y procesar grandes volúmenes de datos usando hardware de bajo costo. Describe la arquitectura de Hadoop, incluyendo el jobtracker, tasktracker y HDFS. También presenta un ejemplo de cómo construir un cluster Hadoop y ejecutar un trabajo.
Introducción (en Español) al framework de procesamiento distribuido en memoria Apache Spark. Elementos básicos de Spark, RDD, incluye demo de las librerías SparkSQL y Spark Streaming
Presentado en www.nardoz.com
Introducción a Hadoop y sus herramientas. Presentación de las herramientas de integración que ofrece SQL Server Integration Services 2016 con Hadoop y HDInsight
Taller sobre la creación de un clúster de Apache Hadoop y aplicaciones de su entorno de las XIII Xornadas Libres de Gpul en la Universidade da Coruña http://gpul.es/e/2014/xornadas-libres/
Introducción (en Español) al framework de procesamiento distribuido en memoria Apache Spark. Elementos básicos de Spark, RDD, incluye demo de las librerías SparkSQL y Spark Streaming
Presentado en www.nardoz.com
Introducción a Hadoop y sus herramientas. Presentación de las herramientas de integración que ofrece SQL Server Integration Services 2016 con Hadoop y HDInsight
Taller sobre la creación de un clúster de Apache Hadoop y aplicaciones de su entorno de las XIII Xornadas Libres de Gpul en la Universidade da Coruña http://gpul.es/e/2014/xornadas-libres/
Tutorial Introductorio a Big Data, Hadoop y sus tecnologías asociadas (Hive, Pig, HBase, HDFS), etc. Presentado en el XVIII Congreso Iberoamericano de Ingenieria del Software (CIBSE). Peru. Lima. Abril del 2015.
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Primera Sesión sobre el Curso de Enpresa Digitala "Monta una Infraestructura Big Data en tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea. Hablaremos de Hadoop y de su ecosistema de herramientas.
Monta una Infraestructura Big Data para tu Empresa - Sesión IIUrko Zurutuza
Segunda parte del Taller "Monta una Infraestructura Big Data para tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea en Enpresa Digitala. En esta segunda parte, se aborda la instalación de un cluster mediante Cloudera Manager 5
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
Tercera y última sesión del curso "Monta una Infraestructura para Big Data en tu Empresa" impartida por Urko Zurutuza de Mondragon Unibertsitatea para Enpresa Digitala. En esta sesión se muestran ejercicios prácticos y guiados que darán pie a probar algunas de las herramientas que dispone la distribucion Hadoop Cloudera CDH5.
En esta presentación se incentiva el desarrollo de aplicaciones para la resolución de problemas comunes de hoy en día que implican el manejo de grandes volúmenes de información, desde el enfoque de Big Data.
Se propone la combinación de OpenStack y Hadoop para apoyar el desarrollo de soluciones, que permitan extraer información valiosa a partir de grandes volúmenes de datos.
Breve descripción de programación distribuida en las que se incluye, Spark, MapReduce, Storm, BSP.
Brief description of the distributed programming included, Spark, MapReduce, Storm, BSP.
Tutorial Introductorio a Big Data, Hadoop y sus tecnologías asociadas (Hive, Pig, HBase, HDFS), etc. Presentado en el XVIII Congreso Iberoamericano de Ingenieria del Software (CIBSE). Peru. Lima. Abril del 2015.
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Primera Sesión sobre el Curso de Enpresa Digitala "Monta una Infraestructura Big Data en tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea. Hablaremos de Hadoop y de su ecosistema de herramientas.
Monta una Infraestructura Big Data para tu Empresa - Sesión IIUrko Zurutuza
Segunda parte del Taller "Monta una Infraestructura Big Data para tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea en Enpresa Digitala. En esta segunda parte, se aborda la instalación de un cluster mediante Cloudera Manager 5
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
Tercera y última sesión del curso "Monta una Infraestructura para Big Data en tu Empresa" impartida por Urko Zurutuza de Mondragon Unibertsitatea para Enpresa Digitala. En esta sesión se muestran ejercicios prácticos y guiados que darán pie a probar algunas de las herramientas que dispone la distribucion Hadoop Cloudera CDH5.
En esta presentación se incentiva el desarrollo de aplicaciones para la resolución de problemas comunes de hoy en día que implican el manejo de grandes volúmenes de información, desde el enfoque de Big Data.
Se propone la combinación de OpenStack y Hadoop para apoyar el desarrollo de soluciones, que permitan extraer información valiosa a partir de grandes volúmenes de datos.
Breve descripción de programación distribuida en las que se incluye, Spark, MapReduce, Storm, BSP.
Brief description of the distributed programming included, Spark, MapReduce, Storm, BSP.
La presente investigación es para determinar si es más conveniente usar las herramientas que ofrece Apache Hadoop o escoger a su rival a decir de muchos: Apache Spark.
“Apache Spark es el motor más rápido y de uso general para el procesamiento de datos a gran escala.”
...O al menos es de lo que se informa en el sitio oficial pero ¿es eso cierto? En esta época del BigData aparecen y se ven muchas soluciones y tecnologías que enriquecen el entorno ampliamente dominado por Apache Hadoop, sin embargo en la era de los metadatos Spark brilla con una luz diferente y empieza a hacerle sombra a Hadoop en el negocio del BigData.
Hadoop is an Apache open source framework written in java that allows distributed processing of large datasets across clusters of computers using simple programming models. A Hadoop frame- worked application works in an environment that provides distributed storage and computation.
Big Data para desarrolladores utilizando Hadoop y OpenStackSoftware Guru
En esta presentación se incentivará el desarrollo de aplicaciones para la resolución de problemas comunes de hoy en día que implican el manejo de grandes volúmenes de información, desde el enfoque de Big Data.
Se propone la combinación de OpenStack y Hadoop para apoyar el desarrollo de soluciones, que permitan extraer información valiosa a partir de grandes volúmenes de datos.
Openstack es un proyecto global para crear una plataforma de cómputo en la Nube para desplegar tanto nubes públicas como privadas, independientemente de su tamaño, que sea fácil de implementar y masivamente escalable. Por otra parte, Hadoop es una plataforma para el procesamiento distribuido de enormes conjuntos de datos. Tanto OpenStack como Hadoop son de código abierto y están desarrollados en Python y Java, respectivamente.
Al finalizar la presentación, el oyente tendrá un panorama general de cómo utilizar la nube y un entorno de almacenamiento distribuido, en concreto, OpenStack y Hadoop para hacer frente a problemas de Big Data.
Víctor Barrera es ingeniero con estudios de posgrado en toma de decisiones basada en datos y modelos estadísticos. Actualmente se desempeña como Científico de Datos en KIO Networks.
Guillermo Alvarado es Ingeniero en sistemas computacionales con especialidad en ingeniería de software, egresado del Instituto Tecnológico de Morelia. Actualmente se desempeña como DevOps en la Dirección de Tecnología en KIO Networks donde participa en el despliegue de la nube pública de KIO Networks basada en la tecnología OpenStack.
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
Abstract de la charla realizada en SUGAR - Scala User Group Argentina
Apache Spark [1] es un framework para procesamiento distribuído diseñado para ser amigable para Data-Scientists y programadores, con soporte nativo a muchos lenguajes y diversidad de formatos de datos es extramadamente flexible. Cambiando el modelo establecido por Hadoop v1 de Map-Reduce por un grafo de ejecución (DAG) y manteniendo los pasos intermédios en RAM, Spark brinda excelente performance y una API muy expresiva.
Gustavo Arjones [2], CTO de Socialmetrix, va contar la experiencia que tuvieron al cambiarse de Hadoop a Spark y lo que los llevaron a este cambio. Esta charla es una introducción teorica y practica a Spark y sus distintos componentes.
Los tópicos a discutir son:
• Qué és?
• Aspectos que hacen Spark tan atractivo para la comunidad
• Plataforma unificada para Data Science (Batch, Stream, ML, Graph)
• Soporte a distintos lenguajes
• Ejecución: RDD y DAG / Task Scheduller
• Tracción de la comunidad (# commits, # commiters)
• testing, etc
• Demos:
• Spark-shell: Explicar paso a paso el WordCount
• LogAnalytics - compilar y submeter al cluster
• SQL/DataFrames: Demostrar que se puede consumir directamente JSON y hacer queries con SQL
[1] http://spark.apache.org
[2] https://linkedin.com/in/arjones
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
Breve sinopsis sobre como comprender todo el escenario en la manipulación de datos procedentes del Big Data, de los Almacenes de Datos Empresariales con motor de datos SQL Azure bajo Plataforma BI
Hadoop es un framework Open Source diseñado para el almacenamiento de datos de manera distribuida. Su capacidad para gestionar rápidamente enormes cantidades de información lo han convertido en una de las mejores opciones para las aplicaciones Big Data, donde encuentra en las soluciones Cloud Computing a su mejor aliado. En este whitepaper te explicamos las principales características de Hadoop, sus componentes y casos de uso, para que puedas sacarle el máximo partido.
Más información en el blog de Arsys: https://www.arsys.es/blog
Libro sobre Python (lenguaje de programación), escrito por Bruce Eckel. Fuente: http://docs.linuxtone.org/ebooks/Python/Thinking_In_Python.pdf. Traducción de cáracter libre para su uso o modificación.
Plantilla simple de caso de uso para ser utilizada en procesos iterativos e incrementales guiados por casos de uso.
Desarrollada por GLUD en el marco del curso Procesos de Desarrollo de Software.
Presentación para ser utilizada en el curso de seguridad de la información. Grupo de trabajo académico GNU/Linux de la Universidad Distrital Francsico José de Caldas
Aspectos básicos sobre Plan de desarrollo de Educación Virtual. Presentación realizada or el grupo de trabajo académico GNU/Linux de la Universidad Distrital GLUD, ante la Facultad de Ingeniería
Presentación para una Introducción al software libre. Compilada por el grupo de trabajo académico GNU/Linux (GLUD) de la Universidad Distrital Francisco José de Caldas.
Breve presentación para cursos de introducción al software libre. Elaborada por el Grupo de Trabajo Académico GNU/Linux (GLUD), de la Universidad Distrital Francisco José de Caldas
Propuesta preliminar para el proyecto de Coordinación Virtual en la Universidad Distrital Francisco José de Caldas, realizada por integrantes del grupo de trabajo académico GNU/Linux - GLUD
Presentación sobre el mundo virtual SUA, construido por el grupo de trabajo académico GNU/Linux de la Universidad Distrital - GLUD. Y socializado en el PRIMER ENCUENTRO DE SOCIALIZACIÓN DE EXPERIENCIAS EDUCATIVAS Y PRÁCTICAS PEDAGÓGICAS, obteniendo un reconocimiento especial como una de las mejores prácticas.
Más de GLUD - Grupo de Trabajo Académico GNU/Linux Universidad Distrital (20)
1. Hadoop en acción
Cluster de bajo perfil para el
análisis de grandes volúmenes de
datos
2. ¿Quién soy yo?
● Sergio Navarrete Suárez
● Estudiante de Ingeniería de Sistemas de la Universidad
Distrital Francisco José de Caldas
● Usuario de Linux desde hace tres años aproximadamente
● Coordinador General Grupo GNU/Linux Universidad
Distrital Francisco José de Caldas
● Equipo Webmaster - Red de Datos Universidad Distrital
3. Contenido
● ¿Qué es MapReduce?
● ¿Qué es HDFS?
● ¿Cuándo usar HDFS?
● ¿Cuándo NO usar HDFS?
● Partes de un HDFS
● Optimización por distancia física
● ¿Qué es Hadoop?
● ¿Por qué Hadoop?
4. Contenido
● ¿Cuándo utilizar Hadoop?
● Arquitectura de Hadoop
● La implementación de Hadoop de MapReduce
● Anatomía de un trabajo de Hadoop
● Ejemplo en Hadoop
● ¿Qué sigue?
● Fuentes
● Conclusiones
● Preguntas
● Agradecimientos especiales
5. ¿Qué es MapReduce?
● Algoritmo desarrollado por Google para procesar pequeñas
cantidades de archivos de gran tamaño.
● Muy rápido comparado con scripts de shell
● Implementación rápida, comparado con multiprocesamiento
(preparación de los datos)
● Hace uso de hardware de bajo perfil
6. ¿Qué es HDFS?
● Sistema de archivos distribuido
● Diseñado para trabajar de manera eficiente con
MapReduce
● Trabaja con bloques (64 MB por defecto)
7. ¿Cuándo usar HDFS?
● Archivos muy, muy grandes (GB o más)
● Necesidad de particionar archivos
● Fallo de nodos sin perder información
● Una escritura, muchas lecturas
8. ¿Cuándo NO usar HDFS?
● Baja latencia
● Muchos archivos pequeños
● Multiples "escritores"
● Modificaciones arbitrarias a los archivos
9. Partes de un HDFS
● Namenode: Mantiene el árbol del sistema de archivos y los
metadatos.
○ Namespace image
○ Edit log
● Datanodes: Contienen los datos. Reportan al Namenode
con la información acerca de los bloques actuales.
● Secondary namenode: En el cual se descarga información
del edit log para que no se vuelva muy grande en el
namenode.
○ Puede funcionar como namenode en caso de que este
falle, pero puede haber pérdida de información (no fue
diseñado para cumplir esta tarea).
11. ¿Qué es Hadoop?
● Framework para almacenar y procesar grandes volúmenes
de datos.
● Don't make better hardware. Use more hardware instead.
● Orientado a los datos: se enfoca en el uso de disco y el
ancho de banda de la red más que en el procesamiento
(aunque esto también puede optimizarse)
12. Breve historia de Hadoop
● Empieza en 2002 con Doug Cutting y Mike Cafarella
● Inspirado por los papers de Google en MapReduce y
Google File System
● Proyecto nombrado a partir de el elefante de peluche
amarillo del hijo de Doug (de ahí el logo)
● Empieza como parte de la manera de manejar los datos de
un motor de búsqueda web (Notch)
● Proyecto Apache Hadoop inicia - 2006
● Desarrollado y bastante usado en Yahoo!
● Usado también en LastFM, Facebook y The New York
Times
● 1 TB sort benchmark - 209 seg. - 2008
● Minute sort - 500 GB en 59 seg. (1400 nodos)
● 100 TB sort benchmark - 173 min. (3400 nodos) - 2009
13. ¿Por qué Hadoop?
● Más rápido que un RDBMS para grandes volúmenes de
datos (especialmente datos no organizados)
● Más rápido que un HPC tradicional, ya que implementa
optimizaciones teniendo en cuenta la topología de la red
(optimiza el uso de la red)
● Evita la pérdida de información a través de replicación
● API fácil de aprender
● Posibilidad de trabajar con lenguajes diferentes a Java
14. ¿Cuándo usar Hadoop?
● Se tienen grandes archivos (GB para arriba)
● No se tiene un RDBMS
● Se tiene el hardware
● Se van a hacer muchas más lecturas que escrituras
● Programas de tipo clave -> valor
17. Implementación de Hadoop de
MapReduce
● Fase "map"
○ Se toma la entrada, se divide en subproblemas y se
distribuyen a los "worker nodes". Estos a su vez pueden
hacer lo mismo.
○ Los "worker nodes" procesan los datos y retornan un
resultado a su nodo maestro.
○ En algunos casos, esta fase sólo prepara la información
para ser procesada por el reductor.
18. Implementación de Hadoop de
MapReduce
● Fase "reduce"
○ El nodo maestro toma los resultados de la fase "map" de
los "worker nodes" y los combina de alguna manera
programada.
○ Si todos los mapeos son independientes entre sí, se
puede decir que todos pueden correr en paralelo.
20. Anatomia de un trabajo de Hadoop
● Datos de entrada, programa MapReduce e información de
configuración
● Tareas de mapeo y reducción (map and reduce tasks)
● Jobtracker: Coordina las tareas y las programa para que
sean resueltas por los tasktrackers.
● Tasktracker: Resuelve tareas y envía el resultado al
jobtracker.
● Cualquier lenguaje que pueda leer desde stdin y escribir a
stdout puede ser utilizado con Hadoop
21. Ejemplo en hadoop
● Construir el cluster
○ Instalar software de virtualización
○ Copiar la máquina virtual, configurar e iniciar
○ Descargar Hadoop
○ Crear usuario hadoop
○ Extraer contenidos de Hadoop
○ Instalar java y ssh (servidor y cliente)
○ Añadir el servidor DNS
○ Montar el sistema de archivos en red
○ Implementar ssh sin contraseña
○ Exportar variables de Hadoop
● Echar un vistazo a la configuración
● Correr el ejemplo
22. ¿Qué sigue?
● Análisis de datos astronómicos (Gamma-ray bursts) en el
Centro de Computación de Alto Desempeño (CECAD)
● Clasificación de correos electrónicos en la Red de Datos
(Universidad Distrital FJC).
● Análisis de logs con el grupo de seguridad del Grupo
GNU/Linux de la Universidad Distrital FJC
● Almacenamiento distribuido en espejos y repositorios de
distribuciones Linux con el GLUD en el CECAD