OpenAnalytics Madrid 2014: Spark

Lightning-fast cluster computing
@javituiter
www.franciscojavierpulido.com www.exploradata.com

Sobre mí
Graduado en
Ingeniera del
Software

Sobre mí
Graduado en
Ingeniera del
Software
Master en
Sistemas en
Ingeniería de
la Información

Sobre mí
Graduado en
Ingeniera del
Software
Especialista
en
Tecnologías
Big Data
Master en
Sistemas en
Ingeniería de
la Información

Sobre mí
Graduado en
Ingeniera del
Software
Master en
Sistemas en
Ingeniería de
la Información
Especialista
en
Tecnologías
Big Data
Bloguero
&
Tuitero
@javituiter
www.franciscojavierpulido.com

Sobre mí
Miembro del equipo
www.ExploraData.com

Hadoop
Precio
Volumen
de datos

Primer Problema: La Persistencia

Segundo Problema: MapReduce
<k1, v1> -> map -> <k2, v2>
<k2, v2> -> combine -> <k2, v2>
<k2, v2> -> reduce -> <k3, v3>

Tercer Problema: Cálculos iterativos
MAP
COMBINE
REDUCE

Spark
· Es un motor para el procesamiento en memoria de grandes
volúmenes de datos.
· Se facilita el paradigma MapReduce (reduciendo costes y
tiempos de ejecución) a gracias a los RDDs.
· Tiene API´s para Scala, Java & Python.

La “magia”:
Resilient Distributed Datasets

¿Qué es un RDD?
· Colecciones lógicas, inmutables y particionadas de los
registros a lo largo del clúster.
Datos
Paper RDD 2011. Matei Zaharia…

Beneficios
· La consistencia se vuelve más sencilla gracias a la
inmutabilidad.
· Tolerante a fallos: a través del “Lineage” los RDDs se pueden
reconstruir si alguna partición se pierde.
· A pesar de que Batch Processing es un modelo restringido a una
serie de casos de uso por defecto, gracias a los RDDs se puede
utilizar en multitud de aplicaciones.
· Es bueno para algoritmos iterativos.
· Más rápido que Hadoop.

Operaciones sobre RDDs
Transformations Actions
Map
Filter
Sample
Union
groupByKey
reduceByKey
Join
Cache
…
Reduce
Collect
Count
Save
lookupKey
…

Características adicionales de
Spark

Análisis Interactivo de los Datos
· Exploración de datos mediante una Shell interactiva en Scala.

Además…
· Spark es agnóstico.
· Si las operaciones no caben en memoria, pagina a disco.
· Aplicaciones aisladas: cada aplicación tiene su propio
Executor.

Variables
Broadcast:
Accumulators:

Ejemplo 1: Paralelizar una colección

Creamos la
colleción

Action

Ejemplo 2: Utilizar Datasets
Cargar archivo en
variable

Ejemplo 2: Utilizar Datasets
Action

Ejemplo 3: Utilizar Datasets de HDFS

Cargar archivo de
HDFS en variable

Action

Ejemplo 4: MapReduce Wordcount

Leemos de HDFS

“MapReducimos”
el texto

Guardamos en
HDFS

Lanzar una Query
https://amplab.cs.berkeley.edu/benchma
rk/

Agrupaciones
rk/

Join
rk/

Lanzar una Query desde un Script
rk/

Migrando de Hadoop a Spark
https://blogs.apache.org/foundation/entry
/…

Ya lo tienen en producción
https://blogs.apache.org/foundation/entry
/…

Conclusiones
· Spark está ahí fuera.
· Extremadamente sencillo de instalar para jugar con el >>
Para pasar a producción hacen falta especialistas.
· Spark es más rápido para ciertos casos de uso.
· Si utilizas Hadoop, prueba Spark.
· Es sencillo mezclar Batch Processing con Real Time.
· Se puede utilizar Scala, Java & Python.

Gracias
@javituiter
www.franciscojavierpulido.com www.exploradata.com

OpenAnalytics Madrid 2014: Spark

Más contenido relacionado

La actualidad más candente

Similar a OpenAnalytics Madrid 2014: Spark

Último

OpenAnalytics Madrid 2014: Spark

Notas del editor