Big Data analítica streaming

Analítica y toma de
decisiones en tiempo
real sobre plataformas
Big Data

José Carlos García Serrano
Líder técnico en Stratio.
Nací en Granada y estudié informática en la ETSII, hice
un master en Big Data y me certifiqué en Spark y AWS.
def fanBoy(): Seq[Skills] = {
val functional = Seq(Scala, Akka)
val processing = Seq(Spark)
val noSql = Seq(MongoDB, Cassandra)
functional ++ processing ++ noSql
}
def aLongTimeAgo(): Seq[Skills] = {
val programming = Seq(Delphi, C++)
val processing = Seq(Hadoop)
val sql = Seq(Interbase, FireBird)
programming ++ processing ++ sql
}

INDEXINDEX
1. Introducción
2. Messaging frameworks
3. Ingestion tools
4. Stream processing frameworks
5. Plataformas Big Data
6. Seguridad
7. Demo

Los datos en streaming
guían nuestras vidas!!
Móviles, PCs, sensores, redes sociales ….

Introducción
Los datos en streaming tienen más valor

Introducción
Arquitectura clásica

Introducción
Arquitectura clásica mejor vestida ….

Introducción
Arquitectura moderna: lambda

Introducción
Arquitectura moderna: machine learning en tiempo real

Introducción
Si el tiempo es la clave -> Hay que elegir bien la tecnología

Messaging frameworks
Apache ActiveMQ
● Alto rendimiento
● Alta disponibilidad
● Mensajes persistentes
● Integrado con JMS y multiprotocolo AMQP, MQTT, STOMP
● Envío asíncrono o síncrono
● Escalable
● Es un estándar
● Seguridad: JAAS

RabbitMQ
● Alto rendimiento
● Mensajes persistentes
● Integrado con múltiples lenguajes de programación
● Escalable
● Permite la creación de complejas topologías
● Bien empaquetado
● Seguridad: TLS y LDAP

Apache Kafka
● Mejor rendimiento que los demás
● Persistencia configurable
● Integrado con múltiples lenguajes de programación
● Escalable
● Integrado con los frameworks de procesamiento
● Múltiples consumidores sobre el mismo topic
● Seguridad: TLS

Que no nos vendan humo:
● Middlewares
● Buses
● Publish-subscribe (Redis)

Kafka es el presente, en el futuro puede haber un invitado ...
No hay que olvidar a Kinesis de Amazon

“
La elección de una correcta
herramienta de ingestión puede
determinar el tiempo de latencia
global

Ingestion Tools
Apache Flume
● Buena latencia
● Permite enrutado y creación de topologías
● Estable
● Distribuido y escalable
● Fault tolerance
● Integrado con la mayoría de frameworks
● Seguridad: Kerberos

Ingestion Tools
Apache Nifi
● Data pipelines visuales
● Backpressure
● Distribuido y escalable
● Fault tolerance
● Permite monitorizar cada paso
● Baja latencia y alto throughput
● Permite modo cluster o single node
● Security: TLS, Kerberos, LDAP...

Ingestion Tools
Kafka Connect
● Integrado en el Stack de Kafka
● Escalable y distribuido
● Fácil de implementar en Java y Scala
● Permite modo cluster o single node
● Integrado con las principales fuentes de datos (files y BBDD)
● Fault tolerance
● Seguridad: TLS

No debemos usar las
herramientas para el
propósito que no fueron
creadas

Stream processing
frameworks
4

Stream processing frameworks
Apache Storm
● Estabilidad
● Rapidez
● Evento a evento
● Agnóstico al lenguaje de programación
● Integrado con otras herramientas
● Escalable horizontalmente
● Fault tolerance
● Disponible en las plataformas Big Data

Sin operaciones stateful,
CEP, agregaciones y SQL….
No nos vale!
Ejemplo claro de tecnología que se va quedando atrás

Apache Kafka Streams
● Integradas operaciones básicas de streams (map, flatMap, filter ...)
● Simplicidad y velocidad en ETLs
● Permite creación de topologías entre topics con procesamiento
● Java y Scala API
● Operaciones de ventana
● SQL sobre streaming con KSQL
● JOINS entre streams
● Fault tolerance
● Disponible en las plataformas Big Data (solo parte open source) y en Confluent
Enterprise

Pobre con operaciones
stateful, agregaciones y SQL.
No CEP...
Quizás esté lejos de sus competidores, pero para ETLs
que no requieren estado es una gran elección

Apache Flink
● Alto rendimiento (Incluye optimizador de memoria y SQL y un scheduler)
● Procesamiento evento a evento
● Scala y Java API
● Operaciones de ventana
● Operaciones stateful (agregaciones)
● SQL sobre streaming y batch
● JOINS entre streams
● CEP
● Fault tolerance
● Integrado con Mesos y YARN

Backpressure Stateful
Windowing

Falta madurez, pobre en ML,
rendimiento SQL y
agregaciones continuas …
Quizás esté lejos de Spark, para streaming y CEP es
una gran elección

Apache Spark
● Estabilidad
● Rapidez con Structured Streaming o Batch
● Streaming continuo o por micro batch (ventana)
● API en Java, Scala, Python y R
● Machine Learning en Batch y Streaming
● Fault tolerance
● Integrado con Mesos, YARN y Kubernetes.
● Integrado con las Cloud

Una API de Streaming para
gobernarlos a todos
Spark Core + Spark SQL + Spark Streaming =
Spark Structured Streaming

Principales características de Streaming
● Integrado en la API de SQL
● Fácil de usar
● Garantía ‘exactly one’
● Queries interactivas
● Joins static data y streams
● Agregaciones continuas
● Borrado de duplicados
● Operaciones Stateful
● Baja latencia (<1ms)

Ejemplo de agregación por ventana
val words : DataFrame = …..
words.groupBy(
window(
timeColumn = $"timestamp",
windowDuration = "10 minutes",
slideDuration = "5 minutes"
),$"word"
).count()
6 líneas de código en Scala!!!

Con watermarks Spark y Flink expiran datos antiguos

Spark Streaming y
Structured Streaming
deberían ser usados con
Kafka

No es oro todo lo que
reluce!!

Plataformas Big Data
Empresas que adoptan frameworks y los ofrecen como servicios

El futuro y presente puede pasar por estas tecnologías

En base a eso estamos otros que ofrecemos frameworks y
microservicios dentro de un PAAS

Por encima están los gigantes

Seguridad
La seguridad en Big Data es un gran reto
ADMINISTRATION
AUTHENTICATION
AUTHORIZATION AUDIT
DATA PROTECTION
IT SECURITY
LINEAGE
SINGLE SIGN ON

Seguridad
¿Qué necesitamos?
● Integrar los frameworks y microservicios con Kerberos-TLS…
● Securizar las BBDD NoSql
● Single sign on
● Gestión de usuarios LDAP-Active Directory …
● Gestión de perfiles, ACLs y roles.
● Aislamiento de redes para comunicación entre servicios
● Gestión de secretos
● Autorización y autenticación (usuarios y dinámica de servicios)
● Impersonación

Seguridad
Proteger del dato
ADMIN
NETWORK
PUBLIC NETWORK
PRIVATE NETWORK
GOSSEC
SSO
AUDIT
KAFKA
KMS
LDAP KERBEROS
TABLEAU
MARATHON-LB
GOSEC
MANAGEMENT
ZOOKEEPER
HDFS
ADMIN
ROUTER
ZOOKEEPER
Admin
Perimeter security
Authentication,
Authorization, Audit
Ciphered communications

Seguridad
Proteger el servicio
NETWORK B
2 CORES
5Gb RAM
NETWORK A
0.5 CORES
1Gb RAM
MESOS
CONTAINER 1
Developer
2. Launches FRAMEWORK 1
CALICO &
DOCKER ENGINE
CONTAINER 2
1. Manages resources
and frameworks ACLs.
Manage networks
and policies
Admin
Developer
2. Launches FRAMEWORK 2
Framework authentication
Check resources for the role
Authorization to launch tasks
Authorization to use the
network
Audit (logs and Mesos API)

THANKS !!!
Cualquier duda:
● gserranojc@gmail.com
● jcgarcia@stratio.com
● www.linkedin.com/in/gserranojc
● https://github.com/compae

Big Data analítica streaming

Recomendados

Recomendados

Más contenido relacionado

Similar a Big Data analítica streaming

Similar a Big Data analítica streaming (20)

Big Data analítica streaming