Enviar búsqueda
Cargar
Be watter with Spark
•
0 recomendaciones
•
681 vistas
Sergio Gómez
Seguir
Talk about Apache Spark for Codemotion Madrid 2015
Leer menos
Leer más
Software
Denunciar
Compartir
Denunciar
Compartir
1 de 33
Descargar ahora
Descargar para leer sin conexión
Recomendados
Instalando Datastax Analytics (Cassandra Y Spark) Con Azure Templates
Instalando Datastax Analytics (Cassandra Y Spark) Con Azure Templates
Gustavo Arjones
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
Socialmetrix
Engineering Fast Indexes for Big-Data Applications: Spark Summit East talk by...
Engineering Fast Indexes for Big-Data Applications: Spark Summit East talk by...
Spark Summit
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...
Spark Summit
Virtualizing Analytics with Apache Spark: Keynote by Arsalan Tavakoli
Virtualizing Analytics with Apache Spark: Keynote by Arsalan Tavakoli
Spark Summit
Creando su primera aplicación de Big Data en AWS
Creando su primera aplicación de Big Data en AWS
Amazon Web Services LATAM
Flowics - Jornada en Big Data 2016 - ITBA
Flowics - Jornada en Big Data 2016 - ITBA
Andres Moratti
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Socialmetrix
Recomendados
Instalando Datastax Analytics (Cassandra Y Spark) Con Azure Templates
Instalando Datastax Analytics (Cassandra Y Spark) Con Azure Templates
Gustavo Arjones
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
Socialmetrix
Engineering Fast Indexes for Big-Data Applications: Spark Summit East talk by...
Engineering Fast Indexes for Big-Data Applications: Spark Summit East talk by...
Spark Summit
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...
Spark Summit
Virtualizing Analytics with Apache Spark: Keynote by Arsalan Tavakoli
Virtualizing Analytics with Apache Spark: Keynote by Arsalan Tavakoli
Spark Summit
Creando su primera aplicación de Big Data en AWS
Creando su primera aplicación de Big Data en AWS
Amazon Web Services LATAM
Flowics - Jornada en Big Data 2016 - ITBA
Flowics - Jornada en Big Data 2016 - ITBA
Andres Moratti
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Socialmetrix
AWS Analytics Experience Argentina
AWS Analytics Experience Argentina
Amazon Web Services LATAM
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
AntonioSotoRodriguez1
Aplicaciones web altamente escalables con Redis
Aplicaciones web altamente escalables con Redis
Alberto Gimeno
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Socialmetrix
S8-DAW-2022S1.pptx
S8-DAW-2022S1.pptx
Luis Fernando Aguas Bucheli
VI Foro Evidencias Electrónicas en la Investigación Policial. Análisis forens...
VI Foro Evidencias Electrónicas en la Investigación Policial. Análisis forens...
Internet Security Auditors
Integración de Oracle Data Integrator con Oracle GoldenGate 12c
Integración de Oracle Data Integrator con Oracle GoldenGate 12c
Edelweiss Kammermann
Arquitectura Lambda
Arquitectura Lambda
Israel Gaytan
SGNext Elasticsearch
SGNext Elasticsearch
Domingo Suarez Torres
Herramientas para la medicion de desempeño PHPConMX 2012
Herramientas para la medicion de desempeño PHPConMX 2012
Carlos Nacianceno
Social Erlang
Social Erlang
Carlos Abalde
Oracle GG presentacion
Oracle GG presentacion
Ana Patricia Guerrero Baldera
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Software Guru
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Javier Mijail Espadas Pech
24 HOP edición Español - Optimizacion de motores sql server desde el codigo h...
24 HOP edición Español - Optimizacion de motores sql server desde el codigo h...
SpanishPASSVC
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Antoni Riveros
Subiendo el rendimiento y la productividad Herramientas estratégicas automa...
Subiendo el rendimiento y la productividad Herramientas estratégicas automa...
Esri España
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Gonzalo Marcos Ansoain
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Gonzalo Marcos
Escalando hasta las 10.000 peticiones por segundo
Escalando hasta las 10.000 peticiones por segundo
TAPTAP Networks
Más contenido relacionado
Similar a Be watter with Spark
AWS Analytics Experience Argentina
AWS Analytics Experience Argentina
Amazon Web Services LATAM
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
AntonioSotoRodriguez1
Aplicaciones web altamente escalables con Redis
Aplicaciones web altamente escalables con Redis
Alberto Gimeno
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Socialmetrix
S8-DAW-2022S1.pptx
S8-DAW-2022S1.pptx
Luis Fernando Aguas Bucheli
VI Foro Evidencias Electrónicas en la Investigación Policial. Análisis forens...
VI Foro Evidencias Electrónicas en la Investigación Policial. Análisis forens...
Internet Security Auditors
Integración de Oracle Data Integrator con Oracle GoldenGate 12c
Integración de Oracle Data Integrator con Oracle GoldenGate 12c
Edelweiss Kammermann
Arquitectura Lambda
Arquitectura Lambda
Israel Gaytan
SGNext Elasticsearch
SGNext Elasticsearch
Domingo Suarez Torres
Herramientas para la medicion de desempeño PHPConMX 2012
Herramientas para la medicion de desempeño PHPConMX 2012
Carlos Nacianceno
Social Erlang
Social Erlang
Carlos Abalde
Oracle GG presentacion
Oracle GG presentacion
Ana Patricia Guerrero Baldera
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Software Guru
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Javier Mijail Espadas Pech
24 HOP edición Español - Optimizacion de motores sql server desde el codigo h...
24 HOP edición Español - Optimizacion de motores sql server desde el codigo h...
SpanishPASSVC
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Antoni Riveros
Subiendo el rendimiento y la productividad Herramientas estratégicas automa...
Subiendo el rendimiento y la productividad Herramientas estratégicas automa...
Esri España
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Gonzalo Marcos Ansoain
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Gonzalo Marcos
Escalando hasta las 10.000 peticiones por segundo
Escalando hasta las 10.000 peticiones por segundo
TAPTAP Networks
Similar a Be watter with Spark
(20)
AWS Analytics Experience Argentina
AWS Analytics Experience Argentina
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
Aplicaciones web altamente escalables con Redis
Aplicaciones web altamente escalables con Redis
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
S8-DAW-2022S1.pptx
S8-DAW-2022S1.pptx
VI Foro Evidencias Electrónicas en la Investigación Policial. Análisis forens...
VI Foro Evidencias Electrónicas en la Investigación Policial. Análisis forens...
Integración de Oracle Data Integrator con Oracle GoldenGate 12c
Integración de Oracle Data Integrator con Oracle GoldenGate 12c
Arquitectura Lambda
Arquitectura Lambda
SGNext Elasticsearch
SGNext Elasticsearch
Herramientas para la medicion de desempeño PHPConMX 2012
Herramientas para la medicion de desempeño PHPConMX 2012
Social Erlang
Social Erlang
Oracle GG presentacion
Oracle GG presentacion
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
24 HOP edición Español - Optimizacion de motores sql server desde el codigo h...
24 HOP edición Español - Optimizacion de motores sql server desde el codigo h...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Subiendo el rendimiento y la productividad Herramientas estratégicas automa...
Subiendo el rendimiento y la productividad Herramientas estratégicas automa...
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Escalando hasta las 10.000 peticiones por segundo
Escalando hasta las 10.000 peticiones por segundo
Be watter with Spark
1.
Be water with Apache
Spark™ in the Real World
2.
¡Hola! • Sergio Gómez •
Software Architect at • @pulsarin • linkedin.com/in/bedeveloper
3.
Contenido • Un proyecto
Big Data • Lecciones aprendidas • Búsqueda de rendimiento
4.
¿De qué va
esto?
5.
¿De qué va
esto?
6.
Un proyecto
7.
Un proyecto • Telco
internacional • Información de la sondas • 10 millones de usuarios registrados
8.
Volumen • ~10K millones
de eventos diarios • 17 nodos, 360 cores, 2’4 TB ram • Ejecuciones diarias
9.
Volumen
10.
Objetivos • Monetización • Calidad
de las infraestructuras • Detección de potenciales problemas
11.
Lecciones aprendidas
12.
Diseña • Piensa en
los datos • Piensa en el flujo • Piensa en tu storage
13.
Caso 1: ETL •
Descarga diaria de las sondas • Procesado y enriquecido con los usuarios • Guardado para futuros procesos • Métricas de sanidad
14.
Caso 1: ETL •
Gran volumen de datos • Errores de parseo • Reprocesing
15.
Caso 1: ETL CPU RAM RED
16.
Caso II: K-Means •
Muchas iteraciones • Ensayo - error • Datos precocinados
17.
Los errores
18.
Los errores
19.
No falles • Tu
aplicación no puede fallar • Un error puede suponer horas… • … o incluso perder información
20.
Datos reales • Usa
samples reales • Reduce la magnitud para extrapolar
21.
“Qué sea barato
fallar”
22.
Volumen real • Usa
el volumen real • Necesitas ser escalable
23.
Evitaremos • PermGen • OOM •
Tiempos de proceso demasiado altos • No escalamos • Uso asimétrico del cluster
24.
“Falla rápido”
25.
Buscando rendimiento
26.
Cachea • Cachea cuando
sea posible • Usa broadcast • Coalesce
27.
Gestiona el cluster •
Mesos /YARN • Prueba diferentes configuraciones • JVM tuning
28.
Suffle • Piensa en
la distribución de keys • Partitioner • ¿Qué voy a hacer con los datos? • groupByKey
29.
SparkSQL • Select *
from… ¿seriously? • Bueno si tenemos datos parcialmente estructurados • Trabajar con un subset
30.
¿Dudas?
31.
32.
Linkazos :) • http://es.slideshare.net/pulsarin/be- watter-with-spark •
http://kcy.me/29czy • Insultos aquí: http://kcy.me/29d01
33.
¡Gracias! @pulsarin
Descargar ahora