Primeros pasos con Apache Spark - Madrid Meetup

Primeros pasos con Spark
Apache Spark Madrid Meetup
Daniel Higuero dhiguero@stratio.com @dhiguero
1

•Introducción
•Conceptos básicos
•Ecosistema Spark
•Instalación del entorno
•Errores comunes
Agenda
2

3
VIEWER DISCRETION IS ADVISED
All elephants are innocent until proven guilty in a court of development
Opinions expressed are solely my own and do not express the views or opinions of my employer.

o¿Qué es Spark?
oFramework de procesamiento paralelo
oHistoria
Introducción
5
https://spark.apache.org/
Apache Software Foundation

oConcepto de programación funcional
oPopularizado por Google
Map-reduce
6
(map 'list (lambda (x) (+ x 10)) '(1 2 3 4)) => (11 12 13 14) (reduce #'+ '(1 2 3 4)) => 10
Jeff Dean and Sanjay Ghemawat. "MapReduce: Simplified Data Processing on Large Clusters." OSDI (2004)

Map-Reduce
7
Input data
Map
Map
Map
Map
Reduce
Reduce
Reduce
result

oMayor flexibilidad en la definición de transformaciones
oMenor uso de almacenamiento en disco
oAprovechamiento de la memoria
oTolerancia a fallos
oTracción de la comunidad
Ventajas de Spark
8

oAbstracción básica en Spark
oContiene las transformaciones que se van a realizar sobre un conjunto de datos
•Inmutable
•Lazy evaluation
•En caso de fallo se puede recuperar el estado
•Control de persistencia y particionado
RDD
10

oRepresenta la conexión a un cluster Spark
oPermite crear distintos tipos de variables
•RDD
•Acumuladores
•Broadcast
SparkContext
11
new SparkContext(master: String, appName: String, conf: SparkConf)

Ecosistema Spark
13
© databricks

oProporciona las abstracciones básicas y se encarga del scheduling
Spark core engine
14
RDD
DAG Scheduling
Cluster manager
Threads
Block manager
Task scheduling
Worker

oPermite transformar una fuente streaming en un conjunto de mini-batch
•Definición de una ventana
Temporal
Spark Streaming
15

Spark Streaming
16
Window = 5
batch0
batch1
batch2
batch3
batch4
batch5
batch6
batch7
tiempo
tiempo

oLibrería para Machine Learning
oAbstracciones útiles para cómputo
oVectores, Matrices dispersas
oImplementación de algoritmos conocidos
oClasificación, regresión, collaborative filtering y clustering
MLlib
17

oCapa de acceso SQL para ejecutar operaciones sobre RDD
oSchemaRDD
SparkSQL
18
sqlCtx = new HiveContext(sc) results = sqlCtx.sql( "SELECT * FROM people") names = results.map(lambda p: p.name)
© databricks

SparkSQL (II)
19
val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.createSchemaRDD case class Person(name: String, age: Int) val people = sc.textFile("examples/src/main/resources/people.txt") .map(_.split(",")) .map(p => Person(p(0), p(1).trim.toInt)) people.registerAsTable("people") val teenagers = sqlContext .sql("SELECT name FROM people WHERE age >= 13 AND age <= 19") teenagers.map(t => "Name: " + t(0)).collect().foreach(println)

oGraphX
•Soporte para grafos
oSparkR
•Permite conectar R con Spark
oBlinkDB
•Base de datos que ofrece funciones aproximadas
Otros
20
graph = Graph(vertices, edges) messages = spark.textFile("hdfs://...") graph2 = graph.joinVertices(messages) { (id, vertex, msg) => ... }

oURL del master
oNo distribuir los JAR entre los workers
oFunciones con clases no serializables
oFunciona en local -> funciona en distribuido
oMemory leaks y eficiencia GC en operadores
oConfusión operadores (reduce vs group-by)
Errores comunes
#CassandraSummit 2014
22

oDistribuciones certificadas
oCertificación de desarrolladores
oCentros de formación certificados
Certificaciones
#CassandraSummit 2014
24

Primeros pasos con Spark
Daniel Higuero dhiguero@stratio.com @dhiguero
25

Primeros pasos con Apache Spark - Madrid Meetup

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (15)

Destacado

Destacado (20)

Similar a Primeros pasos con Apache Spark - Madrid Meetup

Similar a Primeros pasos con Apache Spark - Madrid Meetup (20)

Último

Último (20)

Primeros pasos con Apache Spark - Madrid Meetup