Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014

•

0 recomendaciones•1,206 vistas

Este documento presenta una introducción a Apache Spark. Explica conceptos clave como RDD, SparkContext y el ecosistema de Spark, incluyendo Spark Core, Spark Streaming, MLlib, SparkSQL y GraphX. También identifica errores comunes como configurar incorrectamente el URL del master o no distribuir los JAR entre los nodos del cluster. El objetivo es proporcionar una visión general de Spark para desarrolladores.

Tecnología

Primeros pasos con Spark
Apache Spark Madrid Meetup
Daniel Higuero dhiguero@stratio.com @dhiguero
1

•Introducción
•Conceptos básicos
•Ecosistema Spark
•Instalación del entorno
•Errores comunes
Agenda
2

3
VIEWER DISCRETION IS ADVISED
All elephants are innocent until proven guilty in a court of development
Opinions expressed are solely my own and do not express the views or opinions of my employer.

o¿Qué es Spark?
oFramework de procesamiento paralelo
oHistoria
Introducción
Apache Spark Madrid Meetup
5
https://spark.apache.org/
Apache Software Foundation

oConcepto de programación funcional
oPopularizado por Google
Map-reduce
6
(map 'list (lambda (x) (+ x 10)) '(1 2 3 4)) => (11 12 13 14) (reduce #'+ '(1 2 3 4)) => 10
Jeff Dean and Sanjay Ghemawat. "MapReduce: Simplified Data Processing on Large Clusters." OSDI (2004)
Apache Spark Madrid Meetup

Map-Reduce
7
Input data
Map
Map
Map
Map
Reduce
Reduce
Reduce
result
Apache Spark Madrid Meetup

oMayor flexibilidad en la definición de transformaciones
oMenor uso de almacenamiento en disco
oAprovechamiento de la memoria
oTolerancia a fallos
oTracción de la comunidad
Ventajas de Spark
Apache Spark Madrid Meetup
8

oAbstracción básica en Spark
oContiene las transformaciones que se van a realizar sobre un conjunto de datos
•Inmutable
•Lazy evaluation
•En caso de fallo se puede recuperar el estado
•Control de persistencia y particionado
RDD
Apache Spark Madrid Meetup
10

oRepresenta la conexión a un cluster Spark
oPermite crear distintos tipos de variables
•RDD
•Acumuladores
•Broadcast
SparkContext
Apache Spark Madrid Meetup
11
new SparkContext(master: String, appName: String, conf: SparkConf)

Ecosistema Spark
13
Apache Spark Madrid Meetup
© databricks

oProporciona las abstracciones básicas y se encarga del scheduling
Spark core engine
14
Apache Spark Madrid Meetup
RDD
DAG Scheduling
Cluster manager
Threads
Block manager
Task scheduling
Worker

oPermite transformar una fuente streaming en un conjunto de mini-batch
•Definición de una ventana
Temporal
Spark Streaming
15
Apache Spark Madrid Meetup

Spark Streaming
16
Apache Spark Madrid Meetup
Window = 5
batch0
batch1
batch2
batch3
batch4
batch5
batch6
batch7
tiempo
tiempo

oLibrería para Machine Learning
oAbstracciones útiles para cómputo
oVectores, Matrices dispersas
oImplementación de algoritmos conocidos
oClasificación, regresión, collaborative filtering y clustering
MLlib
17
Apache Spark Madrid Meetup

oCapa de acceso SQL para ejecutar operaciones sobre RDD
oSchemaRDD
SparkSQL
18
Apache Spark Madrid Meetup
sqlCtx = new HiveContext(sc) results = sqlCtx.sql( "SELECT * FROM people") names = results.map(lambda p: p.name)
© databricks

SparkSQL (II)
19
Apache Spark Madrid Meetup
val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.createSchemaRDD case class Person(name: String, age: Int) val people = sc.textFile("examples/src/main/resources/people.txt") .map(_.split(",")) .map(p => Person(p(0), p(1).trim.toInt)) people.registerAsTable("people") val teenagers = sqlContext .sql("SELECT name FROM people WHERE age >= 13 AND age <= 19") teenagers.map(t => "Name: " + t(0)).collect().foreach(println)

oGraphX
•Soporte para grafos
oSparkR
•Permite conectar R con Spark
oBlinkDB
•Base de datos que ofrece funciones aproximadas
Otros
20
Apache Spark Madrid Meetup
graph = Graph(vertices, edges) messages = spark.textFile("hdfs://...") graph2 = graph.joinVertices(messages) { (id, vertex, msg) => ... }

oURL del master
oNo distribuir los JAR entre los workers
oFunciones con clases no serializables
oFunciona en local -> funciona en distribuido
oMemory leaks y eficiencia GC en operadores
oConfusión operadores (reduce vs group-by)
Errores comunes
#CassandraSummit 2014
22

oDistribuciones certificadas
oCertificación de desarrolladores
oCentros de formación certificados
Certificaciones
#CassandraSummit 2014
24

Primeros pasos con Spark
Apache Spark Madrid Meetup
Daniel Higuero dhiguero@stratio.com @dhiguero
25

Más contenido relacionado

La actualidad más candente

Kafka and KSQL - Apache Kafka MeetupStratio

Conociendo los servicios adicionales en big dataSpanishPASSVC

Taller de Big Data y Ciencia de Datos en COLMEX dia 2Abel Alejandro Coronado Iruegas

Búsqueda completa con Enterprise Search de ElasticElasticsearch

Arquitectura a escalaElasticsearch

Búsqueda completa con Workplace Search de Elastic Elasticsearch

Fernando Gandia - Airflow - PyData Mallorca 18-10-2016Fernando Gandia

Sql azure data warehouse gab jorge muchaypinaMUG Perú

La actualidad más candente (9)

Kafka and KSQL - Apache Kafka Meetup

Conociendo los servicios adicionales en big data

Taller de Big Data y Ciencia de Datos en COLMEX dia 2

Búsqueda completa con Enterprise Search de Elastic

Arquitectura a escala

Búsqueda completa con Workplace Search de Elastic

Fernando Gandia - Airflow - PyData Mallorca 18-10-2016

Sql azure data warehouse gab jorge muchaypina

Destacado

Functional programming in scalaStratio

Spark Streaming @ Berlin Apache Spark Meetup, March 2015Stratio

Advanced search and Top-K queries in CassandraStratio

Introduction to Asynchronous scalaStratio

Stratio's Cassandra Lucene index: Geospatial use cases - Big Data Spain 2016Stratio

Apache Spark & Cassandra use case at Telefónica Cbs by Antonio AlcacerStratio

Multiplaform Solution for Graph DatasourcesStratio

Lunch&Learn: Combinación de modelosStratio

Stratio platform overview v4.1Stratio

[Strata] SparktaStratio

Stratio CrossData: an efficient distributed datahub with batch and streaming ...Stratio

Distributed Logistic Model TreesStratio

On-the-fly ETL con EFK: ElasticSearch, Flume, KibanaStratio

[Spark meetup] Spark Streaming OverviewStratio

Kerberizing Spark: Spark Summit East talk by Abel Rincon and Jorge Lopez-MallaSpark Summit

Meetup: Spark + KerberosStratio

Spark + Parquet In Depth: Spark Summit East Talk by Emily Curtin and Robbie S...Spark Summit

Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...MongoDB

OpenStack ArchitectureMirantis

Spark Summit - Stratio Streaming Stratio

Destacado (20)

Functional programming in scala

Spark Streaming @ Berlin Apache Spark Meetup, March 2015

Advanced search and Top-K queries in Cassandra

Introduction to Asynchronous scala

Stratio's Cassandra Lucene index: Geospatial use cases - Big Data Spain 2016

Apache Spark & Cassandra use case at Telefónica Cbs by Antonio Alcacer

Multiplaform Solution for Graph Datasources

Lunch&Learn: Combinación de modelos

Stratio platform overview v4.1

[Strata] Sparkta

Stratio CrossData: an efficient distributed datahub with batch and streaming ...

Distributed Logistic Model Trees

On-the-fly ETL con EFK: ElasticSearch, Flume, Kibana

[Spark meetup] Spark Streaming Overview

Kerberizing Spark: Spark Summit East talk by Abel Rincon and Jorge Lopez-Malla

Meetup: Spark + Kerberos

Spark + Parquet In Depth: Spark Summit East Talk by Emily Curtin and Robbie S...

Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...

OpenStack Architecture

Spark Summit - Stratio Streaming

Similar a Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014

Spark Hands-onGaspar Muñoz Soria

Meetup Spark y la Combinación de sus Distintos MódulosJorge Lopez-Malla

Spark meetup barcelonaJorge Lopez-Malla

Análisis de datos con Apache SparkEduardo Castro

Fun[ctional] spark with scalaDavid Vallejo Navarro

Meetup Fun[ctional] spark with scalaJosé Carlos García Serrano

Introducción a Apache SparkSocialmetrix

Tutorial en Apache Spark - Clasificando tweets en realtimeSocialmetrix

Parallel ProgrammingJuan Luis Rivero Antonio

Computación distribuida usando PythonJose Manuel Ortega Candel

Cassandra MeetupStratebi

Resilient Distributed Dataset - Analisis paper Javier de la Rosa Fernandez

Sparkmanuelbazaga

Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?Fernando Alfonso Casas De la Torre

Congreso Academy Journal Celaya 2017Fernando Alfonso Casas De la Torre

Taller: Limpieza y preparación de datos con Optimus y Apache SparkSoftware Guru

Herramientas de visualización de datosBBVA API Market

Introduccion a databricksEduardo Castro

Meetup Real Time Aggregations Spark Streaming + Spark SqlJosé Carlos García Serrano

Taller desarrollo de apisCloudAppi

Similar a Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014 (20)

Spark Hands-on

Meetup Spark y la Combinación de sus Distintos Módulos

Spark meetup barcelona

Análisis de datos con Apache Spark

Fun[ctional] spark with scala

Meetup Fun[ctional] spark with scala

Introducción a Apache Spark

Tutorial en Apache Spark - Clasificando tweets en realtime

Parallel Programming

Computación distribuida usando Python

Cassandra Meetup

Resilient Distributed Dataset - Analisis paper

Spark

Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?

Congreso Academy Journal Celaya 2017

Taller: Limpieza y preparación de datos con Optimus y Apache Spark

Herramientas de visualización de datos

Introduccion a databricks

Meetup Real Time Aggregations Spark Streaming + Spark Sql

Taller desarrollo de apis

Más de Stratio

Mesos Meetup - Building an enterprise-ready analytics and operational ecosyst...Stratio

Can an intelligent system exist without awareness? BDS18Stratio

Wild Data - The Data Science MeetupStratio

Using Kafka on Event-driven Microservices Architectures - Apache Kafka MeetupStratio

Ensemble methods in Machine Learning Stratio

Stratio Sparta 2.0Stratio

Big Data Security: Facing the challengeStratio

Operationalizing Big DataStratio

Artificial Intelligence on Data Centric PlatformStratio

Introduction to Artificial Neural NetworksStratio

“A Distributed Operational and Informational Technological Stack” Stratio

Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...Stratio

Why spark by Stratio - v.1.0Stratio

Más de Stratio (13)

Mesos Meetup - Building an enterprise-ready analytics and operational ecosyst...

Can an intelligent system exist without awareness? BDS18

Wild Data - The Data Science Meetup

Using Kafka on Event-driven Microservices Architectures - Apache Kafka Meetup

Ensemble methods in Machine Learning

Stratio Sparta 2.0

Big Data Security: Facing the challenge

Operationalizing Big Data

Artificial Intelligence on Data Centric Platform

Introduction to Artificial Neural Networks

“A Distributed Operational and Informational Technological Stack”

Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...

Why spark by Stratio - v.1.0

Último

ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaYeimys Ch

El camino a convertirse en Microsoft MVPCristopher Coronado Moreira

Análisis de los artefactos (nintendo NES)JuanStevenTrujilloCh

Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxtjcesar1

Viguetas Pretensadas en concreto armadob7fwtwtfxf

_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdfBetianaJuarez1

Guía de Registro slideshare paso a paso 1ivanapaterninar

Trabajo de tecnología excel avanzado.pdfedepmariaperez

Nomisam: Base de Datos para Gestión de Nóminacuellosameidy

Clasificación de Conjuntos de Datos Desequilibrados.pptxCarolina Bujaico

certificado de oracle academy cetrificado.pdfFernandoOblitasVivan

Actividades de computación para alumnos de preescolar24roberto21

PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxhasbleidit

Herramientas que posibilitan la información y la investigación.pdfKarinaCambero3

Slideshare y Scribd - Noli Cubillan Gerenciacubillannoly

Trabajando con Formasy Smart art en power PointValerioIvanDePazLoja

Documentacion Electrónica en Actos JuridicosAlbanyMartinez7

David_Gallegos - tarea de la sesión 11.pptxDAVIDROBERTOGALLEGOS

La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997

La electricidad y la electronica.10-7.pdfcristianrb0324

Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014

1. Primeros pasos con Spark Apache Spark Madrid Meetup Daniel Higuero dhiguero@stratio.com @dhiguero 1

2. •Introducción •Conceptos básicos •Ecosistema Spark •Instalación del entorno •Errores comunes Agenda 2

3. 3 VIEWER DISCRETION IS ADVISED All elephants are innocent until proven guilty in a court of development Opinions expressed are solely my own and do not express the views or opinions of my employer.

4. Introducción 4

5. o¿Qué es Spark? oFramework de procesamiento paralelo oHistoria Introducción Apache Spark Madrid Meetup 5 https://spark.apache.org/ Apache Software Foundation

6. oConcepto de programación funcional oPopularizado por Google Map-reduce 6 (map 'list (lambda (x) (+ x 10)) '(1 2 3 4)) => (11 12 13 14) (reduce #'+ '(1 2 3 4)) => 10 Jeff Dean and Sanjay Ghemawat. "MapReduce: Simplified Data Processing on Large Clusters." OSDI (2004) Apache Spark Madrid Meetup

7. Map-Reduce 7 Input data Map Map Map Map Reduce Reduce Reduce result Apache Spark Madrid Meetup

8. oMayor flexibilidad en la definición de transformaciones oMenor uso de almacenamiento en disco oAprovechamiento de la memoria oTolerancia a fallos oTracción de la comunidad Ventajas de Spark Apache Spark Madrid Meetup 8

9. Conceptos básicos 9

10. oAbstracción básica en Spark oContiene las transformaciones que se van a realizar sobre un conjunto de datos •Inmutable •Lazy evaluation •En caso de fallo se puede recuperar el estado •Control de persistencia y particionado RDD Apache Spark Madrid Meetup 10

11. oRepresenta la conexión a un cluster Spark oPermite crear distintos tipos de variables •RDD •Acumuladores •Broadcast SparkContext Apache Spark Madrid Meetup 11 new SparkContext(master: String, appName: String, conf: SparkConf)

12. Ecosistema 12

14. oProporciona las abstracciones básicas y se encarga del scheduling Spark core engine 14 Apache Spark Madrid Meetup RDD DAG Scheduling Cluster manager Threads Block manager Task scheduling Worker

15. oPermite transformar una fuente streaming en un conjunto de mini-batch •Definición de una ventana Temporal Spark Streaming 15 Apache Spark Madrid Meetup

16. Spark Streaming 16 Apache Spark Madrid Meetup Window = 5 batch0 batch1 batch2 batch3 batch4 batch5 batch6 batch7 tiempo tiempo

17. oLibrería para Machine Learning oAbstracciones útiles para cómputo oVectores, Matrices dispersas oImplementación de algoritmos conocidos oClasificación, regresión, collaborative filtering y clustering MLlib 17 Apache Spark Madrid Meetup

18. oCapa de acceso SQL para ejecutar operaciones sobre RDD oSchemaRDD SparkSQL 18 Apache Spark Madrid Meetup sqlCtx = new HiveContext(sc) results = sqlCtx.sql( "SELECT * FROM people") names = results.map(lambda p: p.name) © databricks

19. SparkSQL (II) 19 Apache Spark Madrid Meetup val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.createSchemaRDD case class Person(name: String, age: Int) val people = sc.textFile("examples/src/main/resources/people.txt") .map(_.split(",")) .map(p => Person(p(0), p(1).trim.toInt)) people.registerAsTable("people") val teenagers = sqlContext .sql("SELECT name FROM people WHERE age >= 13 AND age <= 19") teenagers.map(t => "Name: " + t(0)).collect().foreach(println)

20. oGraphX •Soporte para grafos oSparkR •Permite conectar R con Spark oBlinkDB •Base de datos que ofrece funciones aproximadas Otros 20 Apache Spark Madrid Meetup graph = Graph(vertices, edges) messages = spark.textFile("hdfs://...") graph2 = graph.joinVertices(messages) { (id, vertex, msg) => ... }

21. Errores comunes 21

22. oURL del master oNo distribuir los JAR entre los workers oFunciones con clases no serializables oFunciona en local -> funciona en distribuido oMemory leaks y eficiencia GC en operadores oConfusión operadores (reduce vs group-by) Errores comunes #CassandraSummit 2014 22

23. Certificaciones 23

24. oDistribuciones certificadas oCertificación de desarrolladores oCentros de formación certificados Certificaciones #CassandraSummit 2014 24

25. Primeros pasos con Spark Apache Spark Madrid Meetup Daniel Higuero dhiguero@stratio.com @dhiguero 25

Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (9)

Destacado

Destacado (20)

Similar a Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014

Similar a Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014 (20)

Más de Stratio

Más de Stratio (13)

Último

Último (20)

Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014