Taller sobre la creación de un clúster de Apache Hadoop y aplicaciones de su entorno de las XIII Xornadas Libres de Gpul en la Universidade da Coruña http://gpul.es/e/2014/xornadas-libres/
Tutorial Introductorio a Big Data, Hadoop y sus tecnologías asociadas (Hive, Pig, HBase, HDFS), etc. Presentado en el XVIII Congreso Iberoamericano de Ingenieria del Software (CIBSE). Peru. Lima. Abril del 2015.
Taller sobre la creación de un clúster de Apache Hadoop y aplicaciones de su entorno de las XIII Xornadas Libres de Gpul en la Universidade da Coruña http://gpul.es/e/2014/xornadas-libres/
Tutorial Introductorio a Big Data, Hadoop y sus tecnologías asociadas (Hive, Pig, HBase, HDFS), etc. Presentado en el XVIII Congreso Iberoamericano de Ingenieria del Software (CIBSE). Peru. Lima. Abril del 2015.
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
Abstract de la charla realizada en SUGAR - Scala User Group Argentina
Apache Spark [1] es un framework para procesamiento distribuído diseñado para ser amigable para Data-Scientists y programadores, con soporte nativo a muchos lenguajes y diversidad de formatos de datos es extramadamente flexible. Cambiando el modelo establecido por Hadoop v1 de Map-Reduce por un grafo de ejecución (DAG) y manteniendo los pasos intermédios en RAM, Spark brinda excelente performance y una API muy expresiva.
Gustavo Arjones [2], CTO de Socialmetrix, va contar la experiencia que tuvieron al cambiarse de Hadoop a Spark y lo que los llevaron a este cambio. Esta charla es una introducción teorica y practica a Spark y sus distintos componentes.
Los tópicos a discutir son:
• Qué és?
• Aspectos que hacen Spark tan atractivo para la comunidad
• Plataforma unificada para Data Science (Batch, Stream, ML, Graph)
• Soporte a distintos lenguajes
• Ejecución: RDD y DAG / Task Scheduller
• Tracción de la comunidad (# commits, # commiters)
• testing, etc
• Demos:
• Spark-shell: Explicar paso a paso el WordCount
• LogAnalytics - compilar y submeter al cluster
• SQL/DataFrames: Demostrar que se puede consumir directamente JSON y hacer queries con SQL
[1] http://spark.apache.org
[2] https://linkedin.com/in/arjones
Introducción a Hadoop y sus herramientas. Presentación de las herramientas de integración que ofrece SQL Server Integration Services 2016 con Hadoop y HDInsight
En esta presentación se incentiva el desarrollo de aplicaciones para la resolución de problemas comunes de hoy en día que implican el manejo de grandes volúmenes de información, desde el enfoque de Big Data.
Se propone la combinación de OpenStack y Hadoop para apoyar el desarrollo de soluciones, que permitan extraer información valiosa a partir de grandes volúmenes de datos.
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
Tercera y última sesión del curso "Monta una Infraestructura para Big Data en tu Empresa" impartida por Urko Zurutuza de Mondragon Unibertsitatea para Enpresa Digitala. En esta sesión se muestran ejercicios prácticos y guiados que darán pie a probar algunas de las herramientas que dispone la distribucion Hadoop Cloudera CDH5.
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Primera Sesión sobre el Curso de Enpresa Digitala "Monta una Infraestructura Big Data en tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea. Hablaremos de Hadoop y de su ecosistema de herramientas.
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
Breve sinopsis sobre como comprender todo el escenario en la manipulación de datos procedentes del Big Data, de los Almacenes de Datos Empresariales con motor de datos SQL Azure bajo Plataforma BI
Meetup de Apache Spark Madrid sobre los errores que todos cometemos en proyectos Big Data.
Como las animaciones no van muy bien podeis verla en el siguiente enlace:
https://docs.google.com/presentation/d/1W4Foy9u0NkZziQ36I5_00b_e-JlwhSshSFv-hcxaBpM/edit?usp=sharing
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
Abstract de la charla realizada en SUGAR - Scala User Group Argentina
Apache Spark [1] es un framework para procesamiento distribuído diseñado para ser amigable para Data-Scientists y programadores, con soporte nativo a muchos lenguajes y diversidad de formatos de datos es extramadamente flexible. Cambiando el modelo establecido por Hadoop v1 de Map-Reduce por un grafo de ejecución (DAG) y manteniendo los pasos intermédios en RAM, Spark brinda excelente performance y una API muy expresiva.
Gustavo Arjones [2], CTO de Socialmetrix, va contar la experiencia que tuvieron al cambiarse de Hadoop a Spark y lo que los llevaron a este cambio. Esta charla es una introducción teorica y practica a Spark y sus distintos componentes.
Los tópicos a discutir son:
• Qué és?
• Aspectos que hacen Spark tan atractivo para la comunidad
• Plataforma unificada para Data Science (Batch, Stream, ML, Graph)
• Soporte a distintos lenguajes
• Ejecución: RDD y DAG / Task Scheduller
• Tracción de la comunidad (# commits, # commiters)
• testing, etc
• Demos:
• Spark-shell: Explicar paso a paso el WordCount
• LogAnalytics - compilar y submeter al cluster
• SQL/DataFrames: Demostrar que se puede consumir directamente JSON y hacer queries con SQL
[1] http://spark.apache.org
[2] https://linkedin.com/in/arjones
Introducción a Hadoop y sus herramientas. Presentación de las herramientas de integración que ofrece SQL Server Integration Services 2016 con Hadoop y HDInsight
En esta presentación se incentiva el desarrollo de aplicaciones para la resolución de problemas comunes de hoy en día que implican el manejo de grandes volúmenes de información, desde el enfoque de Big Data.
Se propone la combinación de OpenStack y Hadoop para apoyar el desarrollo de soluciones, que permitan extraer información valiosa a partir de grandes volúmenes de datos.
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
Tercera y última sesión del curso "Monta una Infraestructura para Big Data en tu Empresa" impartida por Urko Zurutuza de Mondragon Unibertsitatea para Enpresa Digitala. En esta sesión se muestran ejercicios prácticos y guiados que darán pie a probar algunas de las herramientas que dispone la distribucion Hadoop Cloudera CDH5.
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Primera Sesión sobre el Curso de Enpresa Digitala "Monta una Infraestructura Big Data en tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea. Hablaremos de Hadoop y de su ecosistema de herramientas.
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
Breve sinopsis sobre como comprender todo el escenario en la manipulación de datos procedentes del Big Data, de los Almacenes de Datos Empresariales con motor de datos SQL Azure bajo Plataforma BI
Meetup de Apache Spark Madrid sobre los errores que todos cometemos en proyectos Big Data.
Como las animaciones no van muy bien podeis verla en el siguiente enlace:
https://docs.google.com/presentation/d/1W4Foy9u0NkZziQ36I5_00b_e-JlwhSshSFv-hcxaBpM/edit?usp=sharing
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION IIChristian Garcia Gamio
FUNCIONALIDAD EN FACEBOOK, LA MARAVILLA DE ADMINISTRAR ENORME CANTIDAD DE DATOS DE LA MANERA MAS EFECTIVA Y DESARROLLANDO NUEVAS SOLUCIONES EN SU PLATAFORMA.
Log -Analytics with Apache-Flume Elasticsearch HDFS KibanaFelix Rodriguez
I’ve recently started learning more about the tools and technologies that fall under the loose umbrella term of Big Data, let´s try to get Apache log data into Hadoop, and bringing Info data into Hadoop via ElasticSearch.
Workshop de introducción a docker, desde lo más básico hasta un dockerfile de producción no muy sofisticado.
Incluye link a un repositorio para seguir un ejercicio a lo largo de la presentación
http://summit.solidq.com
Es innegable que los motores de BBDD transaccionales deben adaptarse a la posibilidad de gestionar datos no estructurados. Microsoft en SQL Server 2016 incluye un motor nuevo (llamado Polybase) que permite acceder con lenguaje Transact SQL a datos no estructurados y poder mezclarlos con datos estructurados. En esta sesión conocerá este nuevo motor y cómo empezar a integrar datos no estructurados en sus bases de datos transaccionales.
Una introducción a Docker, los principales conceptos e ideas y como se lo puede utilizar desde Microsoft Azure. Esta presentación fue parte del Global Azure Bootcamp 2016 en Buenos Aires, Argentina
La presente investigación es para determinar si es más conveniente usar las herramientas que ofrece Apache Hadoop o escoger a su rival a decir de muchos: Apache Spark.
“Apache Spark es el motor más rápido y de uso general para el procesamiento de datos a gran escala.”
...O al menos es de lo que se informa en el sitio oficial pero ¿es eso cierto? En esta época del BigData aparecen y se ven muchas soluciones y tecnologías que enriquecen el entorno ampliamente dominado por Apache Hadoop, sin embargo en la era de los metadatos Spark brilla con una luz diferente y empieza a hacerle sombra a Hadoop en el negocio del BigData.
Taller: Limpieza y preparación de datos con Optimus y Apache SparkSoftware Guru
En este taller, impartido por uno de los desarrolladores de Optimus, aprenderás a realizar limpieza y preparación de datos utilizando Optimus en conjunto con Apache Spark y Python (PySpark).
Por Favio Vázquez
Javier Lahoz. Arquitecto Big Data actualmente trabajando en una entidad financiera en el diseño e implantación de soluciones Big Data para el tratamiento analítico de la información bancaria.
Big Data para desarrolladores utilizando Hadoop y OpenStackSoftware Guru
En esta presentación se incentivará el desarrollo de aplicaciones para la resolución de problemas comunes de hoy en día que implican el manejo de grandes volúmenes de información, desde el enfoque de Big Data.
Se propone la combinación de OpenStack y Hadoop para apoyar el desarrollo de soluciones, que permitan extraer información valiosa a partir de grandes volúmenes de datos.
Openstack es un proyecto global para crear una plataforma de cómputo en la Nube para desplegar tanto nubes públicas como privadas, independientemente de su tamaño, que sea fácil de implementar y masivamente escalable. Por otra parte, Hadoop es una plataforma para el procesamiento distribuido de enormes conjuntos de datos. Tanto OpenStack como Hadoop son de código abierto y están desarrollados en Python y Java, respectivamente.
Al finalizar la presentación, el oyente tendrá un panorama general de cómo utilizar la nube y un entorno de almacenamiento distribuido, en concreto, OpenStack y Hadoop para hacer frente a problemas de Big Data.
Víctor Barrera es ingeniero con estudios de posgrado en toma de decisiones basada en datos y modelos estadísticos. Actualmente se desempeña como Científico de Datos en KIO Networks.
Guillermo Alvarado es Ingeniero en sistemas computacionales con especialidad en ingeniería de software, egresado del Instituto Tecnológico de Morelia. Actualmente se desempeña como DevOps en la Dirección de Tecnología en KIO Networks donde participa en el despliegue de la nube pública de KIO Networks basada en la tecnología OpenStack.
Caso de éxito Drupal - Procomún - DrupalCamp Spain 2016La Drupalera
Nuestro compañero Antonio J. Rodríguez analiza uno de nuestros casos de éxito Drupal, el proyecto Procomún.
https://procomun.educalab.es/
http://www.ladrupalera.com/
¿Eres desarrollador y emprendedor? En este ebook se recopilan tres análisis en profundidad con las mejores herramientas y las más populares entre los científicos de datos. Más información en http://bbva.info/2t1NEv7
Si bien los hospitales conjuntan a profesionales de salud que atienden a la población, existe un equipo de organización, coordinación y administración que permite que los cuidados clínicos se otorguen de manera constante y sin obstáculos.
Mario García Baltazar, director del área de Tecnología (TI) del Hospital Victoria La Salle, relató la manera en la que el departamento que él lidera, apoyado en Cirrus y Estela, brinda servicio a los clientes internos de la institución e impulsa una experiencia positiva en el paciente.
Conoce el Hospital Victoria La Salle
Ubicado en Ciudad Victoria, Tamaulipas, México
Inició operaciones en el 2016
Forma parte del Consorcio Mexicanos de Hospitales
Hospital de segundo nivel
21 habitaciones para estancia
31 camas censables
13 camillas
2 quirófanos
+174 integrantes en su plantilla
+120 equipos médicos de alta tecnología
+900 pacientes atendidos
Servicios de +20 especialidades
Módulos utilizados de Cirrus
HIS
EHR
ERP
Estela - Business Intelligence
Escaneo y eliminación de malware en el equiponicromante2000
El malware tiene muchas caras, y es que los programas maliciosos se reproducen en los ordenadores de diferentes formas. Ya se trate de virus, de programas espía o de troyanos, la presencia de software malicioso en los sistemas informáticos siempre debería evitarse. Aquí te muestro como trabaja un anti malware a la hora de analizar tu equipo
2. Introducción a Apache Spark | 2
OBJETIVOS
Obtener una visión general de Apache
Hadoop y su amplio y complejo ecosistema
3. Introducción a Apache Spark | 3
AGENDA
Big Data
Apache Hadoop
Ecosistema de Hadoop
Hadoop 2.0
4. Introducción a Apache Spark | 4
CARACTERÍSTICAS - VOLUMEN
Capacidad de almacenar una gran cantidad de datos
El volumen de datos se incrementa exponencialmente:
(44x de 2009 a 2020)
Big Data
5. Introducción a Apache Spark | 5
CARACTERÍSTICAS - VOLUMEN
Capacidad de almacenar una gran cantidad de datos
El volumen de datos se incrementa exponencialmente:
(44x de 2009 a 2020)
Big Data
6. Introducción a Apache Spark | 6
CARACTERÍSTICAS - VARIEDAD
Capacidad de combinar datos en los diferentes formatos que se
generan (textos, imágenes, vídeos, audios, logs, json, xml, pdf, bbdd,
emails, etc.)
Big Data
7. Introducción a Apache Spark | 7
CARACTERÍSTICAS - VARIEDAD
Capacidad de combinar datos en los diferentes formatos que se
generan (textos, imágenes, vídeos, audios, logs, json, xml, pdf, bbdd,
emails, etc.)
Big Data
8. Introducción a Apache Spark | 8
CARACTERÍSTICAS - VARIEDAD
Capacidad de combinar datos en los diferentes formatos que se
generan (textos, imágenes, vídeos, audios, logs, json, xml, pdf, bbdd,
emails, etc.)
Big Data
http://www.slideshare.net/dellenterprise/maximizing-return-on-information
9. Introducción a Apache Spark | 9
CARACTERÍSTICAS - VARIEDAD
Big Data
http://www.slideshare.net/franmod/tendencias-storage
10. Introducción a Apache Spark | 10
CARACTERÍSTICAS - VELOCIDAD
Capacidad para poder capturar, almacenar y analizar los datos a la
mayor velocidad posible
Big Data
11. Introducción a Apache Spark | 11
CARACTERÍSTICAS - VERACIDAD
Capacidad para tratar con datos desfasados, inconsistentes,
incompletos, inciertos o ambiguos
Big Data
http://www.tylervigen.com/spurious-correlations
14. Introducción a Apache Spark | 14
SOLUCION TRADICIONAL
La meta es tener una máquina cada vez más poderosa (memoria,
procesador, etc.)
Big Data
15. Introducción a Apache Spark | 15
SOLUCION TRADICIONAL
La meta es tener una máquina cada vez más poderosa (memoria,
procesador, etc.)
Escalabilidad limitada
Alto coste
Big Data
16. Introducción a Apache Spark | 16
COMPUTACIÓN DISTRIBUIDA TRADICIONAL
La meta es que muchas máquinas se puedan encargar de realizar un
solo proceso
Big Data
17. Introducción a Apache Spark | 17
COMPUTACIÓN DISTRIBUIDA TRADICIONAL
La meta es que muchas máquinas se puedan encargar de realizar un
solo proceso
Hardware muy caro tolerante a fallos
Programación compleja
Escalabilidad limitada
Big Data
18. Introducción a Apache Spark | 18
AGENDA
Big Data
Apache Hadoop
Ecosistema de Hadoop
Hadoop 2.0
19. Introducción a Apache Spark | 19
HISTORIA DE HADOOP
Hadoop y su ecosistema
2002 2003 2004 2005 2006 2007 2008 2009 2010
Dog Cutting y Mike Carafella
empiezan a trabajar en Nutch
Google publica detalles
sobre GFS y MapReduce
Doug Cutting añade
DFS y MapReduce a
Nutch
Yahoo! Contrata a Doug
Hadoop se sale de Nutch
Facebook crea Hive – el
soporte SQL para Hadoop
Ordenación más rápida de 1 TB
3:30 minutos sobre 910 nodos
Ordenación más rápida de 1 TB
62 segundos sobre 1460 nodos
20. Introducción a Apache Spark | 20
¿QUÉ ES HADOOP?
Hadoop es un sistema para el almacenamiento y el procesamiento
distribuido de datos a gran escala
Hadoop proporciona dos componentes:
Almacenamiento de datos: HDFS
Procesamiento de datos: MapReduce
Hadoop y su ecosistema
21. Introducción a Apache Spark | 21
HDFS
HDFS es el sistema de archivos distribuido de Hadoop que se
encarga de almacenar los datos
Hadoop y su ecosistema
22. Introducción a Apache Spark | 22
HDFS
HDFS es el sistema de archivos distribuido de Hadoop que se
encarga de almacenar los datos
Hadoop y su ecosistema
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Nodo servidor
Driver
23. Introducción a Apache Spark | 23
HDFS
HDFS es el sistema de archivos distribuido de Hadoop que se
encarga de almacenar los datos
Hadoop y su ecosistema
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Datos.txt: B1, B2
Nodo servidor
Driver
Datos.txt
B1
B2
24. Introducción a Apache Spark | 24
HDFS
HDFS es el sistema de archivos distribuido de Hadoop que se
encarga de almacenar los datos
Hadoop y su ecosistema
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Datos.txt: B1, B2
B1: Nodo 1
B2: Nodo 3
Nodo servidor
Driver
Datos.txt
B1
B2
B1 B2
25. Introducción a Apache Spark | 25
HDFS
HDFS es el sistema de archivos distribuido de Hadoop que se
encarga de almacenar los datos
Hadoop y su ecosistema
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Datos.txt: B1, B2
B1: Nodo 1, Nodo 2
B2: Nodo 3, Nodo 4
Nodo servidor
Driver
Datos.txt
B1
B2
B1 B2B1 B2
26. Introducción a Apache Spark | 26
MAPREDUCE
MapReduce es el sistema que utiliza Hadoop para procesar los datos
en un clúster
Hadoop y su ecosistema
27. Introducción a Apache Spark | 27
MAPREDUCE - EJEMPLO
¿Cómo cuento el número de ocurrencias de cada palabra en un
documento?
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
Te gustan
los perros?”
{Me: 4,
llamo: 4,
Lola: 1,
Claudia: 1,
Aimar: 1,
Pilar: 1,
…}
28. Introducción a Apache Spark | 28
MAPREDUCE - EJEMPLO
Primera aproximación: Uso de una colección de claves / valores
Hadoop y su ecosistema
Colección Clave / Valor
29. Introducción a Apache Spark | 29
MAPREDUCE - EJEMPLO
Primera aproximación: Uso de una colección de claves / valores
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?”
{}
30. Introducción a Apache Spark | 30
MAPREDUCE - EJEMPLO
Primera aproximación: Uso de una colección de claves / valores
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?”
{Me: 1}
31. Introducción a Apache Spark | 31
MAPREDUCE - EJEMPLO
Primera aproximación: Uso de una colección de claves / valores
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?”
{Me: 1,
llamo: 1}
32. Introducción a Apache Spark | 32
MAPREDUCE - EJEMPLO
Primera aproximación: Uso de una hashtable
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?”
{Me: 1,
llamo: 1,
Lola: 1}
33. Introducción a Apache Spark | 33
MAPREDUCE - EJEMPLO
Primera aproximación: Uso de una hashtable
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?”
{Me: 2,
llamo: 1,
Lola: 1}
34. Introducción a Apache Spark | 34
MAPREDUCE - EJEMPLO
Pero .. ¿qué ocurre si el documento es realmente GRANDE?
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?
¿Y los caballos?
A mí me gustan
mucho los perros
Sobre todos los
caballitos de mar
¿Y a ti?”
{Me: 3,
Llamo:3,
Lola: 3
{Pilar:1,
Me: 1,
… }
{Y:1,
… }
{Sobre: 1,
… }
{Me: 5,
Llamo:3,
Lola: 3,
Pilar: 1
…
Máquinas 1-4
Máquina 5
35. Introducción a Apache Spark | 35
MAPREDUCE - EJEMPLO
Pero .. ¿qué ocurre si el documento es realmente GRANDE?
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?
¿Y los caballos?
A mí me gustan
mucho los perros
Sobre todos los
caballitos de mar
¿Y a ti?”
{Me: 3,
Llamo:3,
Lola: 3
{Pilar:1,
Me: 1,
… }
{Y:1,
… }
{Sobre: 1,
… }
{Me: 5,
Llamo:3,
Lola: 3,
Pilar: 1
…
Máquinas 1-4
Máquina 5
Los resultados tienen
que caber en una sola
máquina
36. Introducción a Apache Spark | 36
MAPREDUCE - EJEMPLO
Pero .. ¿qué ocurre si el documento es realmente GRANDE?
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?
¿Y los caballitos?
A mí me gustan
mucho los perros
Sobre todos los
caballitos de mar
¿Y a ti?”
{Me: 3,
Llamo:3,
Lola: 3
{Pilar:1,
Me: 1,
… }
{Y:1,
… }
{Sobre: 1,
… }
{A : 2,
Aimar : 1,
Claudia: 1}
Máquinas 1-4 Máquina 1-4
37. Introducción a Apache Spark | 37
MAPREDUCE - EJEMPLO
Pero .. ¿qué ocurre si el documento es realmente GRANDE?
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?
¿Y los caballitos?
A mí me gustan
mucho los perros
Sobre todos los
caballitos de mar
¿Y a ti?”
{Me: 3,
Llamo:3,
Lola: 3
{Pilar:1,
Me: 1,
… }
{Y:1,
… }
{Sobre: 1,
… }
{A : 2,
Aimar : 1,
Claudia: 1}
{Pilar: 1,
Sobre: 1,
…}
{Lola: 1,
Los: 4,…}
{mucho: 1,
mi: 1, …}
Máquinas 1-4 Máquina 1-4
38. Introducción a Apache Spark | 38
MAPREDUCE - EJEMPLO
Pero .. ¿qué ocurre si el documento es realmente GRANDE?
Hadoop y su ecosistema
“Me llamo Lola
Me llamo Claudia
Me llamo Aimar
Pilar me llamo
¿Te gustan
los perros?
¿Y los caballitos?
A mí me gustan
mucho los perros
Sobre todos los
caballitos de mar
¿Y a ti?”
{Me: 3,
Llamo:3,
Lola: 3
{Pilar:1,
Me: 1,
… }
{Y:1,
… }
{Sobre: 1,
… }
{A : 2,
Aimar : 1,
Claudia: 1}
{Pilar: 1,
Sobre: 1,
…}
{Lola: 1,
Los: 4,…}
{mucho: 1,
mi: 1, …}
Máquinas 1-4 Máquina 1-4
MAP REDUCE
40. Introducción a Apache Spark | 40
MAPREDUCE
Hadoop y su ecosistema
Nodo
1
Nodo
2
Nodo
3
Nodo
4
Nodo servidor
Driver
B1
Map
B2
Map Red.
41. Introducción a Apache Spark | 41
CARACTERÍSTICAS
Hadoop y su ecosistema
Característica Descripción
Automático Un trabajo se realiza completamente sin que sea
necesaria una intervención manual
Transparente Las tareas asignadas a un nodo que falla son retomadas
por otras tareas
Grácil Los fallos sólo representan una perdida proporcional en la
capacidad de proceso
Recuperable Esta capacidad se recupera cuando el componente es
reemplazado más tarde
Consistente El fallo no produce corrupción o resultados inválidos
42. Introducción a Apache Spark | 42
HADOOP / BASE DE DATOS TRADICIONAL
Hadoop y su ecosistema
BD Tradicional Hadoop
Tamaño Gigabytes Petabytes
Acceso Interactivo y Batch Batch
Actualización de la
información
Escritura/Lectura
(muchas veces)
Escritura - 1 vez /
Lectura
Estructura Estática Dinámica
Integridad Alta (ACID) Baja
Escalado Vertical Horizontal
Tiempo de respuesta Prácticamente
inmediato
Tiene latencia (proceso
Batch)
Acceso a la información Partes de información Toda la información
43. Introducción a Apache Spark | 43
AGENDA
Big Data
Apache Hadoop
Ecosistema de Hadoop
Evolución
Framework de procesamiento
distribuido
Sistema de ficheros distribuido
de Hadoop
44. Introducción a Apache Spark | 44
SQOOP
Hadoop y su ecosistema
PROCESOHDFS HDFS
SCOOP
DB
45. Introducción a Apache Spark | 45
FLUME
Hadoop y su ecosistema
PROCESOHDFS HDFS
FLUME
48. Introducción a Apache Spark | 48
ECOSISTEMA DE HADOOP
Hadoop y su ecosistema
Framework de procesamiento
distribuido
Sistema de ficheros distribuido
de Hadoop
Querys SQL
ODBC
53. Introducción a Apache Spark | 53
HBASE
Hadoop y su ecosistema
Framework de procesamiento
distribuido
Sistema de ficheros distribuido
de Hadoop
54. Introducción a Apache Spark | 54
HBASE
Hadoop y su ecosistema
Framework de procesamiento
distribuido
Sistema de ficheros distribuido
de Hadoop
Base de datos NoSQL
De tipo columnar
62. Introducción a Apache Spark | 62
AGENDA
Big Data
Apache Hadoop
Ecosistema de Hadoop
Hadoop 2.0
63. Introducción a Apache Spark | 63
EVOLUCIÓN DE HADOOP
Hadoop y su ecosistema
Hadoop 1
- Proceso Batch
- Un único motor de procesamiento
HDFS
(Sistema de ficheros de Hadoop)
MapReduce
(Gestor de Recursos del Clúster /
Procesamiento de datos Batch)
Hadoop 2 con YARN
- Proceso Batch
HDFS
(Sistema de ficheros de Hadoop)
YARN
(Gestor de Recursos del Clúster)
64. Introducción a Apache Spark | 64
EVOLUCIÓN DE HADOOP
Hadoop y su ecosistema
Hadoop 1
- Proceso Batch
- Un único motor de procesamiento
HDFS
(Sistema de ficheros de Hadoop)
MapReduce
(Gestor de Recursos del Clúster /
Procesamiento de datos Batch)
Hadoop 2 con YARN
- Proceso Batch, Interactivo
- Muchos motores
HDFS
(Sistema de ficheros de Hadoop)
YARN
(Gestor de Recursos del Clúster)
65. Introducción a Apache Spark | 65
EVOLUCIÓN DE HADOOP
Hadoop y su ecosistema
Hadoop 1
- Proceso Batch
- Un único motor de procesamiento
HDFS
(Sistema de ficheros de Hadoop)
MapReduce
(Gestor de Recursos del Clúster /
Procesamiento de datos Batch)
Hadoop 2 con YARN
- Batch, Interactivo, Tiempo Real
- Muchos motores
HDFS
(Sistema de ficheros de Hadoop)
YARN
(Gestor de Recursos del Clúster)
66. Introducción a Apache Spark | 66
EVOLUCIÓN DE HADOOP
Hadoop y su ecosistema
Hadoop 1
- Proceso Batch
- Un único motor de procesamiento
HDFS
(Sistema de ficheros de Hadoop)
MapReduce
(Gestor de Recursos del Clúster /
Procesamiento de datos Batch)
Hadoop 2 con YARN
- Batch, Interactivo, Tiempo Real
- Muchos motores
HDFS
(Sistema de ficheros de Hadoop)
YARN
(Gestor de Recursos del Clúster)
67. Muchas gracias
Centros de Competencia / Business Analytics
Daniel Villanueva Jiménez
dvillanuevaj@indra.es
Avda. de Bruselas 35
28108 Alcobendas,
Madrid España
T +34 91 480 50 00
F +34 91 480 50 80
www.indracompany.com