Speaker
Gustavo Arjones, CTO Socialmetrix
@arjones | gustavo@socialmetrix.com
Arquitectura de Big Data
Creando una Arquite...
Quién soy?
GUSTAVO ARJONES, CTO
•  Lic. Ciencia Computación
•  MBA Marketing
•  2008 startup de Analytics à Big Data
•  B...
Porqué una arquitectura de Big Data?
•  Dashboards
•  Históricos (big joins)
•  Modelos Predictivos
•  Consumo/Análise Rea...
Nuevos paradigmas
Necesitamos una nueva forma de
pensar los datos, los procesos y la
arquitectura
Características esperadas de la plataforma
•  Simple de pensar (ê sistemas, ê tecnologias)
•  Escalable (~linear) y Mant...
Simple de Pensar
Simple de Pensar
Escalable
•  Más workload se resuelve con más servers (partition)
•  Más datos se almacenan en más servers
Fault-Tolerant
•  Job no se interrumpe por
la falla de hardware
•  Podemos recuperarnos
de errores humanos!
Soportar Exploración de Datos
•  Herramientas que permitan Data Scientists “jugar”
con los datos
•  Fácil acceso a datos
•...
Conceptos asociados a
estas características
Immutability / Append Only
•  No hay estado compartido
=
•  No es necesario locking
=
•  Jobs Paralelizables!!!
Events / Facts
•  Hechos aislados y atomicos
•  Verdad en un momento determinado
•  When?
•  What?
•  Who?
•  How?
Data Schemas
•  Enforcement de tipos de datos y constrains
•  Ser/Deserialize +rápido y +seguro (comparado a
JSON)
•  Clar...
Messaging Bus de Eventos … (Event Sourcing)
•  Paralelizar procesamiento
•  Posibilidad de reprocesamiento (errores, new f...
Source of Truth
•  Almacenar toda la
información cruda (HDFS, S3)
•  Permite reprocesamiento y
evolución de métricas
•  Re...
Materialized Views para Métricas Conocidas
•  Generar Materialized Views con las métricas que YA
SABEMOS que necesitamos
•...
Mezclando Todo
Evn	
   Ev3	
  …	
   Ev2	
   Ev1	
   Messaging	
  Bus	
  
HDFS	
  
/event/2015/04/30/19/35/	
  
Processing	
  (filter,	
  g...
/event/2015/04/30/19/35/	
  
Evn	
   Ev3	
  …	
   Ev2	
   Ev1	
   Messaging	
  Bus	
  
HDFS	
  
Processing	
  (filter,	
  g...
Evn	
   Ev3	
  …	
   Ev2	
   Ev1	
   Messaging	
  Bus	
  
HDFS	
  
Processing	
  (filter,	
  group,	
  sum,	
  …)	
  
Views...
Evn	
   Ev3	
  …	
   Ev2	
   Ev1	
   Messaging	
  Bus	
  
HDFS	
  
Processing	
  (filter,	
  group,	
  sum,	
  …)	
  
Views...
Principales Tecnologías
•  Data Schema: Apache Avro
•  Message Bus: Apache Kafka
•  Storage: Amazon S3 (o HDFS)
•  Process...
REFERENCIAS
http://arjon.es/2015/04/30/big-
data-architecture-reading-list/
__
¡Muchas Gracias! Obrigado!
Gustavo Arjones, CTO
@arjones | gustavo@socialmetrix.com
Próxima SlideShare
Cargando en…5
×

ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics

1.025 visualizaciones

Publicado el

Hay cientos de opciones de frameworks e sistemas de Big Data, cuando se empieza a estudiar como armar la solución completa, rápidamente nos encontramos con la necesidad de tomar muchas decisiones que van afectar el proyecto a largo plazo, preguntas como: dónde y cómo almacenar, cómo procesar en batch y realtime; Map-Reduce, DAG, Hadoop, Spark, Storm, Hive, NoSQL, son algunos de los términos que hay que conocer cuando se arma una arquitectura de Big Data. Esta charla irá presentar brevemente estas tecnologías y opiniones para utilizar en su próxima plataforma de análisis de datos. http://arjon.es/2015/05/10/material-de-la-charla-creando-una-arquitectura-para-big-data-analytics-en-arqconf-2015/

Publicado en: Tecnología
0 comentarios
0 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Sin descargas
Visualizaciones
Visualizaciones totales
1.025
En SlideShare
0
De insertados
0
Número de insertados
502
Acciones
Compartido
0
Descargas
17
Comentarios
0
Recomendaciones
0
Insertados 0
No insertados

No hay notas en la diapositiva.

ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics

  1. 1. Speaker Gustavo Arjones, CTO Socialmetrix @arjones | gustavo@socialmetrix.com Arquitectura de Big Data Creando una Arquitectura Moderna para Big Data Analytics
  2. 2. Quién soy? GUSTAVO ARJONES, CTO •  Lic. Ciencia Computación •  MBA Marketing •  2008 startup de Analytics à Big Data •  Brasileño
  3. 3. Porqué una arquitectura de Big Data? •  Dashboards •  Históricos (big joins) •  Modelos Predictivos •  Consumo/Análise Realtime •  Streams •  …
  4. 4. Nuevos paradigmas
  5. 5. Necesitamos una nueva forma de pensar los datos, los procesos y la arquitectura
  6. 6. Características esperadas de la plataforma •  Simple de pensar (ê sistemas, ê tecnologias) •  Escalable (~linear) y Mantenible •  Fault-Tolerance: Sistemas y Humanos •  Soportar Dashboards y Exploración de Datos •  Soportar operaciones batch y near-realtime*
  7. 7. Simple de Pensar
  8. 8. Simple de Pensar
  9. 9. Escalable •  Más workload se resuelve con más servers (partition) •  Más datos se almacenan en más servers
  10. 10. Fault-Tolerant •  Job no se interrumpe por la falla de hardware •  Podemos recuperarnos de errores humanos!
  11. 11. Soportar Exploración de Datos •  Herramientas que permitan Data Scientists “jugar” con los datos •  Fácil acceso a datos •  Integración con otros data-sources (conectores, file formats, etc) •  Soporte a algoritimos de Machine Learning •  Soporte a lenguajes conocidos: R, SQL, Python …
  12. 12. Conceptos asociados a estas características
  13. 13. Immutability / Append Only •  No hay estado compartido = •  No es necesario locking = •  Jobs Paralelizables!!!
  14. 14. Events / Facts •  Hechos aislados y atomicos •  Verdad en un momento determinado •  When? •  What? •  Who? •  How?
  15. 15. Data Schemas •  Enforcement de tipos de datos y constrains •  Ser/Deserialize +rápido y +seguro (comparado a JSON) •  Clara evolución de los Datos (versioning)
  16. 16. Messaging Bus de Eventos … (Event Sourcing) •  Paralelizar procesamiento •  Posibilidad de reprocesamiento (errores, new features) •  Aislamento, Particionado, Escalabilidad
  17. 17. Source of Truth •  Almacenar toda la información cruda (HDFS, S3) •  Permite reprocesamiento y evolución de métricas •  Redundante a falla humana
  18. 18. Materialized Views para Métricas Conocidas •  Generar Materialized Views con las métricas que YA SABEMOS que necesitamos •  Views se guardan en datastore escalable y fast-read
  19. 19. Mezclando Todo
  20. 20. Evn   Ev3  …   Ev2   Ev1   Messaging  Bus   HDFS   /event/2015/04/30/19/35/   Processing  (filter,  group,  sum,  …)   Views   Search   Cache   Apache  Log  Lines   Apache  Log  Lines   Page  Views   Unique  Users   Page  Title   Page  Content   Key  Metrics   Web Analytics (ie: G. Analytics)
  21. 21. /event/2015/04/30/19/35/   Evn   Ev3  …   Ev2   Ev1   Messaging  Bus   HDFS   Processing  (filter,  group,  sum,  …)   Views   Search   Cache   ReporRng   UI  
  22. 22. Evn   Ev3  …   Ev2   Ev1   Messaging  Bus   HDFS   Processing  (filter,  group,  sum,  …)   Views   Search   Cache   Análise   Exploratoria   /event/2015/04/30/19/35/  
  23. 23. Evn   Ev3  …   Ev2   Ev1   Messaging  Bus   HDFS   Processing  (filter,  group,  sum,  …)   Views   Search   Cache   /event/2015/04/30/19/35/  
  24. 24. Principales Tecnologías •  Data Schema: Apache Avro •  Message Bus: Apache Kafka •  Storage: Amazon S3 (o HDFS) •  Processing: Apache Spark + Spark Streaming •  Data Store: –  Apache Cassandra –  ElasticSearch (o Apache Solr) –  Redis
  25. 25. REFERENCIAS http://arjon.es/2015/04/30/big- data-architecture-reading-list/
  26. 26. __ ¡Muchas Gracias! Obrigado! Gustavo Arjones, CTO @arjones | gustavo@socialmetrix.com

×