Apache Spark y Big Data

www.sgcampus.com.mx @sgcampus
www.sgcampus.com.mx
@sgcampus
Hector Cuesta
Apache Spark y BigData

• Maestro en Ciencias de la Computación
• Autor del libro Practical Data Analysis
http://amzn.to/1k69HWn
• Estancia de Investigación en el Laboratorio de
Epidemiologia Computacional de la Universidad
del Norte de Texas (2011)
• Investigador Invitado en el SDSC 2012 Summer
Institute: Discover Big Data, Universidad de
California
• Revisor Técnico de los libros:
Raspberry Pi Networking Cookbook
Raspberry Pi Robotic Projects
Hadoop Operations and Cluster Management
Acerca del Ponente

¿qué es big data?
“Cuando más es diferente”

3 V’s del BigData

Variedad

Que es Spark?
Apache Spark es un motor para procesamiento distribuido
de datos a gran escala
• Procesamiento In-Memory
• Basado en Scala y con soporte para Python, Java y R
• Framework de procesamiento unificado
• Para Ingenieros y Data Scientist

Componentes principales
RDD (Resilient Distributed Datasets)
• In-memory
• Tolerante a fallos
• Estructura de datos en paralelo
• Transformaciones
• Acciones
Task Scheduler
• Prepara los Jobs a través de DAG (Direct acyclic graph)
• Concatenación de funciones para ejecutar los stages
• Cache-aware, considera utilización & localización de datos
(data locality)
• Partitioning-aware para reducir shuffles por la red

Ecosistema Spark

Spark Core
Spark es Lazy no procesa nada entre transformaciones
hasta que se ejecuta una acción(TOP).
API Transformaciones y Acciones

Runs Everywhere
Compatibilidad con prácticamente todas las fuentes

Instalando Apache Spark
Descargar Spark from https://spark.apache.org/downloads.html
tar -xvzf spark-1.1.1.tar
cd spark-1.1.1
InstalandoApache Spark
sbt/sbt clean assembly
Ejecutar Spark
Scala shell:
./bin/spark-shell
Python shell:
./bin/pyspark

Calcular Pi:
./bin/run-example org.apache.spark.examples.SparkPi
Ejemplos MLlib Correlations:
./bin/run-example org.apache.spark.examples.mllib.Correlations
Ejemplos

Spark SQL

Spark Streaming

HDFS
• HDFS es un sistema de archivos distribuido, escalable y
portátil escrito en Java y creado especialmente para
trabajar con archivos de gran tamaño.
• Una de sus principales características es un tamaño de
bloque muy superior al habitual (100 MB) para no perder
tiempo en los accesos de lectura.
Sistema de Archivos que sigue el patrón
“Write once read many”

Contando Palabras

Apache Spark y Big Data

Más contenido relacionado

La actualidad más candente

Similar a Apache Spark y Big Data

Más de Software Guru

Apache Spark y Big Data