SlideShare una empresa de Scribd logo
1 de 19
Descargar para leer sin conexión
Apache Spark Fundamentals
Bruno Ramírez
Agenda
- Acerca de mi
- ¿Qué es Apache Spark?
- Conceptos y arquitectura
- Ejemplos Básicos
- Preguntas y respuestas
Imagen extraida de Apache Spark Doc
¿Qué es Apache Spark?
➔ Es un motor de cómputo unificado y
un conjunto de librerías para el
procesamiento paralelo de datos.
➔ Es el motor open source más
desarrollado para esta tarea.
➔ Soporta múltiples lenguajes de
programación.
➔ Corre donde sea, desde una laptop
hasta en un cluster con cientos de
servidores.
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
El Problema
➔ Ley de Moore
➔ Esta tendencia se detuvo alrededor
del 2005
➔ Recolectar datos es extremadamente
barato
➔ Requiere de procesamientos largos y
paralelos
Imagen extraida de Tech Story
Historia
➔ UC Berkeley en 2009
➔ Spark: Cluster Computing with Working Sets, UC Berkeley AMPlab
➔ Cluster Computing - gran potencial
➔ MapReduce era desafiante e ineficiente al construir aplicaciones a larga
escala
➔ Functional Programming
➔ Eficiente intercambio de datos in-memory mediante pasos computados
➔ En 2013 - más de 100 contribuidores de más de 30 orgs
➔ Apache Software Foundation
Arquitectura Básica
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
La API
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
Empecemos con Spark
SparkSession
La instancia de SparkSession es la manera en que Spark ejecuta manipulaciones
definidas por el usuarios en el cluster.
Distributed Collections of Data
➔ Datasets
➔ DataFrames
➔ SQL Tables
➔ Resilient Distributed Datasets (RDDs)
Transformations
➔ Las transformaciones son la forma abstracta de expresar la logica de negocio
(plan lógico) usando Spark.
➔ Partitions
➔ Lazy Evaluation
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
Actions
➔ Las transformaciones nos permiten construir nuestro plan lógico de
transformación.
➔ Para desencadenar la computación, corremos una acción.
➔ Una acción ordena a Spark procesar un resultado de una serie de
transformaciones.
➔ Hay tres tipos de acciones:
◆ Acciones para ver datos en la consola
◆ Acciones para colectar datos en objetos nativos del lenguaje usado
◆ Acciones para escribir datos en destinos externos
Planeación Lógica
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
SparkUI
➔ La SparkUI muestra información del estado de los Spark jobs, su ambiente y el
estado del cluster
➔ Es muy útil para debuggear y mejorar el desempeño
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
Ejemplos Básicos
Ejemplo Básico con RDDs
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
Data Pipeline Básico con DataFrames
Imagen extraida de Spark: The Definitive Guide
by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
Qué más se puede hacer con Apache Spark?
¿Preguntas?
Gracias

Más contenido relacionado

Similar a Apache Spark Fundamentals: Spark Concepts and Architecture in 40 Characters

Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?Fernando Alfonso Casas De la Torre
 
Introducción a Apache Spark
Introducción a Apache SparkIntroducción a Apache Spark
Introducción a Apache SparkSocialmetrix
 
Why Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén CasadoWhy Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén CasadoBig Data Spain
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Guillermo Alvarado Mejía
 
Big Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStackBig Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStackSoftware Guru
 
Herramientas BigData.pptx
Herramientas BigData.pptxHerramientas BigData.pptx
Herramientas BigData.pptxMauricio Bedoya
 
Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...
Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...
Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...Stratio
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datosBBVA API Market
 
Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014
Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014
Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014Stratio
 
Motor De Bases De Datos Oracle
Motor De Bases De Datos OracleMotor De Bases De Datos Oracle
Motor De Bases De Datos Oracletriana25
 
Motor De Bases De Datos Oracle
Motor De Bases De Datos OracleMotor De Bases De Datos Oracle
Motor De Bases De Datos Oracletriana25
 
Motor De Bases De Datos Oracle
Motor De Bases De Datos OracleMotor De Bases De Datos Oracle
Motor De Bases De Datos Oracletriana25
 

Similar a Apache Spark Fundamentals: Spark Concepts and Architecture in 40 Characters (20)

Spark meetup barcelona
Spark meetup barcelonaSpark meetup barcelona
Spark meetup barcelona
 
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
 
Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017
 
Introducción a Apache Spark
Introducción a Apache SparkIntroducción a Apache Spark
Introducción a Apache Spark
 
Why Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén CasadoWhy Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén Casado
 
OpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: SparkOpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: Spark
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack
 
Big Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStackBig Data para desarrolladores utilizando Hadoop y OpenStack
Big Data para desarrolladores utilizando Hadoop y OpenStack
 
Spark Hands-on
Spark Hands-onSpark Hands-on
Spark Hands-on
 
Herramientas BigData.pptx
Herramientas BigData.pptxHerramientas BigData.pptx
Herramientas BigData.pptx
 
Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...
Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...
Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...
 
Spark web meetup
Spark web meetupSpark web meetup
Spark web meetup
 
IBM Spectrum Conductor with Spark
IBM Spectrum Conductor  with SparkIBM Spectrum Conductor  with Spark
IBM Spectrum Conductor with Spark
 
IBM Spectrum Conductor with Spark
IBM Spectrum Conductor with SparkIBM Spectrum Conductor with Spark
IBM Spectrum Conductor with Spark
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datos
 
Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014
Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014
Primeros pasos con Spark - Spark Meetup Madrid 30-09-2014
 
Motor De Bases De Datos Oracle
Motor De Bases De Datos OracleMotor De Bases De Datos Oracle
Motor De Bases De Datos Oracle
 
Motor De Bases De Datos Oracle
Motor De Bases De Datos OracleMotor De Bases De Datos Oracle
Motor De Bases De Datos Oracle
 
Motor De Bases De Datos Oracle
Motor De Bases De Datos OracleMotor De Bases De Datos Oracle
Motor De Bases De Datos Oracle
 
ORACLE
ORACLEORACLE
ORACLE
 

Más de DataLab Community

Meetup Julio Algoritmos Genéticos
Meetup Julio Algoritmos GenéticosMeetup Julio Algoritmos Genéticos
Meetup Julio Algoritmos GenéticosDataLab Community
 
Meetup Junio Data Analysis with python 2018
Meetup Junio Data Analysis with python 2018Meetup Junio Data Analysis with python 2018
Meetup Junio Data Analysis with python 2018DataLab Community
 
Procesar e interpretar señales biológicas para hacer predicción de movimiento...
Procesar e interpretar señales biológicas para hacer predicción de movimiento...Procesar e interpretar señales biológicas para hacer predicción de movimiento...
Procesar e interpretar señales biológicas para hacer predicción de movimiento...DataLab Community
 
Metodos de kernel en machine learning by MC Luis Ricardo Peña Llamas
Metodos de kernel en machine learning by MC Luis Ricardo Peña LlamasMetodos de kernel en machine learning by MC Luis Ricardo Peña Llamas
Metodos de kernel en machine learning by MC Luis Ricardo Peña LlamasDataLab Community
 
Curse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaCurse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaDataLab Community
 
Tensor models and other dreams by PhD Andres Mendez-Vazquez
Tensor models and other dreams by PhD Andres Mendez-VazquezTensor models and other dreams by PhD Andres Mendez-Vazquez
Tensor models and other dreams by PhD Andres Mendez-VazquezDataLab Community
 
Quiénes somos - DataLab Community
Quiénes somos - DataLab CommunityQuiénes somos - DataLab Community
Quiénes somos - DataLab CommunityDataLab Community
 
Profesiones de la ciencia de datos
Profesiones de la ciencia de datosProfesiones de la ciencia de datos
Profesiones de la ciencia de datosDataLab Community
 
El arte de la Ciencia de Datos
El arte de la Ciencia de DatosEl arte de la Ciencia de Datos
El arte de la Ciencia de DatosDataLab Community
 
Presentación de DataLab Community
Presentación de DataLab CommunityPresentación de DataLab Community
Presentación de DataLab CommunityDataLab Community
 
De qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data ScienceDe qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data ScienceDataLab Community
 

Más de DataLab Community (11)

Meetup Julio Algoritmos Genéticos
Meetup Julio Algoritmos GenéticosMeetup Julio Algoritmos Genéticos
Meetup Julio Algoritmos Genéticos
 
Meetup Junio Data Analysis with python 2018
Meetup Junio Data Analysis with python 2018Meetup Junio Data Analysis with python 2018
Meetup Junio Data Analysis with python 2018
 
Procesar e interpretar señales biológicas para hacer predicción de movimiento...
Procesar e interpretar señales biológicas para hacer predicción de movimiento...Procesar e interpretar señales biológicas para hacer predicción de movimiento...
Procesar e interpretar señales biológicas para hacer predicción de movimiento...
 
Metodos de kernel en machine learning by MC Luis Ricardo Peña Llamas
Metodos de kernel en machine learning by MC Luis Ricardo Peña LlamasMetodos de kernel en machine learning by MC Luis Ricardo Peña Llamas
Metodos de kernel en machine learning by MC Luis Ricardo Peña Llamas
 
Curse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaCurse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando Garcia
 
Tensor models and other dreams by PhD Andres Mendez-Vazquez
Tensor models and other dreams by PhD Andres Mendez-VazquezTensor models and other dreams by PhD Andres Mendez-Vazquez
Tensor models and other dreams by PhD Andres Mendez-Vazquez
 
Quiénes somos - DataLab Community
Quiénes somos - DataLab CommunityQuiénes somos - DataLab Community
Quiénes somos - DataLab Community
 
Profesiones de la ciencia de datos
Profesiones de la ciencia de datosProfesiones de la ciencia de datos
Profesiones de la ciencia de datos
 
El arte de la Ciencia de Datos
El arte de la Ciencia de DatosEl arte de la Ciencia de Datos
El arte de la Ciencia de Datos
 
Presentación de DataLab Community
Presentación de DataLab CommunityPresentación de DataLab Community
Presentación de DataLab Community
 
De qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data ScienceDe qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data Science
 

Último

LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaSilvia García
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfRodrigoBenitez38
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 

Último (20)

LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y química
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 

Apache Spark Fundamentals: Spark Concepts and Architecture in 40 Characters

  • 2. Agenda - Acerca de mi - ¿Qué es Apache Spark? - Conceptos y arquitectura - Ejemplos Básicos - Preguntas y respuestas Imagen extraida de Apache Spark Doc
  • 3. ¿Qué es Apache Spark? ➔ Es un motor de cómputo unificado y un conjunto de librerías para el procesamiento paralelo de datos. ➔ Es el motor open source más desarrollado para esta tarea. ➔ Soporta múltiples lenguajes de programación. ➔ Corre donde sea, desde una laptop hasta en un cluster con cientos de servidores. Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 4. El Problema ➔ Ley de Moore ➔ Esta tendencia se detuvo alrededor del 2005 ➔ Recolectar datos es extremadamente barato ➔ Requiere de procesamientos largos y paralelos Imagen extraida de Tech Story
  • 5. Historia ➔ UC Berkeley en 2009 ➔ Spark: Cluster Computing with Working Sets, UC Berkeley AMPlab ➔ Cluster Computing - gran potencial ➔ MapReduce era desafiante e ineficiente al construir aplicaciones a larga escala ➔ Functional Programming ➔ Eficiente intercambio de datos in-memory mediante pasos computados ➔ En 2013 - más de 100 contribuidores de más de 30 orgs ➔ Apache Software Foundation
  • 6. Arquitectura Básica Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 7. La API Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 9. SparkSession La instancia de SparkSession es la manera en que Spark ejecuta manipulaciones definidas por el usuarios en el cluster. Distributed Collections of Data ➔ Datasets ➔ DataFrames ➔ SQL Tables ➔ Resilient Distributed Datasets (RDDs)
  • 10. Transformations ➔ Las transformaciones son la forma abstracta de expresar la logica de negocio (plan lógico) usando Spark. ➔ Partitions ➔ Lazy Evaluation Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 11. Actions ➔ Las transformaciones nos permiten construir nuestro plan lógico de transformación. ➔ Para desencadenar la computación, corremos una acción. ➔ Una acción ordena a Spark procesar un resultado de una serie de transformaciones. ➔ Hay tres tipos de acciones: ◆ Acciones para ver datos en la consola ◆ Acciones para colectar datos en objetos nativos del lenguaje usado ◆ Acciones para escribir datos en destinos externos
  • 12. Planeación Lógica Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 13. SparkUI ➔ La SparkUI muestra información del estado de los Spark jobs, su ambiente y el estado del cluster ➔ Es muy útil para debuggear y mejorar el desempeño Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 15. Ejemplo Básico con RDDs Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 16. Data Pipeline Básico con DataFrames Imagen extraida de Spark: The Definitive Guide by Matei Zaharia; Bill Chambers. Published by O'Reilly Media, Inc., 2018
  • 17. Qué más se puede hacer con Apache Spark?