PLATAFORMA
KEEDIO DATA STACK
Luca Rosellini
lrosellini@keedio.com
@luca_rosellini
Solving Big Data Issues 2
KEEDIO DATA STACK (KDS) - HERRAMIENTAS
Solving Big Data Issues 3
KEEDIO DATA STACK (KDS) – MÓDULOS
MESSAGE
BUS
BROKER
BATCH DATA
PROCESING
BATCH
REAL TIME DATA
PROCESSING
STREAM
MACHINE LEARNING & PREDICTIVE
NEURONA
LONG TERM DATA STORAGE
ARCHIVE
DATA
ORCHESTATION
WORKFLOW
OPERATIONAL
DATA
STORAGE
OPSTORE
DATA GOVERNANCE
AUDITOR
KEEDIO MANAGER & SECURITY
KEEDIO MANAGER
REST API KIO
DATA
INGESTION
ENTRY
BI Tools
Dashboard
s & Reports
Monitoring
Services
JDBC /ODBC
clients
SUBSEQUENT
ANALISYS
(Data Science
Tools)
Solving Big Data Issues 4
KEEDIO DATA STACK (KDS) - VENTAJAS
No Vendor Lock-in
• Sólo se usan herramientas estables
ampliamente usadas y contrastadas
• Nuestros parches y plugins son liberados
como open source
Distribuciones a medida para cada cliente
• KDS no es monolítica y se puede adaptar
a las necesidades de cada cliente o caso
de uso.
• Una distribución o plataforma compacta
y enfocada es más fácil de mantener
Distribuciones Apache Spark
• Integración con librerías de terceros necesarias
en escenarios y casos específicos
• Bugfixes y personalizaciones
No reinventar la rueda
• Aprovechamos la potencia y capacidad
de desarrollo de la comunidad para cada
módulo de KDS.
Integración entre módulos
• A pesar de poder desplegarse de forma
independiente, cuidamos la estrecha
integración entre cada uno de los
módulos.
Herramientas Big Data
• Incluye una selección de las principales
herramientas Big Data para la
construcción de una arquitectura y
plataforma analítica modular.
Analítica avanzada de datos en
tiempo real
• Batch, tiempo real, streaming y
predictivo.
Solving Big Data Issues 5
KEEDIO DATA STACK (KDS) – KEEDIO MANAGER
KEEDIO Manager está basado en Apache Ambari
Integración nativa con Kerberos y FreeIPA.
Soporte nativo para full HA.
Se apoya en la capacidad de desarrollo de la comunidad y las
líneas estratégicas globales de evolución.
Mejoras introducidas por KEEDIO.
Estandarización en la gestión de los servicios gestionados.
Adaptaciones para gestionar fácilmente nuevas
herramientas Big Data.
Integración con herramientas no disponibles en la versión de
la comunidad.
Despliegues on-premise avanzados.
Solving Big Data Issues 6
KEEDIO DATA STACK (KDS) – KEEDIO MANAGER
Gestión avanzada de los servicios de la plataforma
Despliegue centralizado de la plataforma.
Monitorización y métricas.
Control de versiones de la configuración.
Gestión del HA, decomisionado y posibilidad de extensión de
la arquitectura.
Acceso centralizado
Control de usuarios y la seguridad.
Acceso a las GUIs de cada uno de los servicios y
herramientas.
API de gestión y administración.
Demo
Solving Big Data Issues 8
DEMO
SIMULADOR
AGENTESDEFLUME
KAFKA
HDFS HDFS HDFS
KIBANA
SPARK STREAMING
Tarjeta Transferencia
MOTOR TR
Parser
Indexación
Solving Big Data Issues 9
SIEM - ARQUITECTURA
Procesado Batch
§  Archivado de todo el histórico de
eventos.
Procesado Real-time
§  Filtrado horizontal de la información:
descarte de eventos no relevantes
§  Filtrado vertical de la información:
descarte de campos no relevantes
dentro de eventos.
Analítica
§  Analítica exploratoria de los eventos
históricos.
§  Dashboards de seguridad y
correlación eventos en Splunk.
CMDB
Demo
Solving Big Data Issues 11
KEEDIO DATA STACK (KDS) – ENTRY
Arquitectura de ingesta unificada basada en Apache Flume
Con la potencia y versatilidad de docenas de componentes
soportados por la comunidad.
20+ componentes contribuidos por KEEDIO y desplegados en
los entornos más exigentes.
Full HA cuando es necesario
Integración con Apache NiFi
Motor de ingesta distribuido.
Atractiva interfaz gráfica de configuración de pipelines de
ingesta y transformación.
Componentes open-source contribuidos por KEEDIO.
Solving Big Data Issues 12
KEEDIO DATA STACK (KDS) – ENTRY
Agentes recolectores
Multifuente: FTP, SFTP, SQL, Single & Multi File, http, Apache Kafka,
Netcat, JMS, Avro, SNMP, Thrift, etc.
Amplio abanico de agentes open-source de flume desarrollados ad-hoc
por KEEDIO.
Componentes activos (pull) y componentes pasivos (push).
Procesos para el enriquecimiento y metadatado en tiempo real
con mecanismos de cache.
Integración con fuentes de datos de terceros.
Enriquecimiento y metadatado de la información
Integración con los diferentes módulos de KDS de
almacenamiento y procesamiento.
Backends legacy (Oracle, MySQL, DB2, DWH, etc.)
Integración con múltiples backends
DATA
INGESTION
ENTRY
Solving Big Data Issues 13
KEEDIO DATA STACK (KDS) – BROKER
Se apoya en Apache Kafka
Persistencia temporal de los datos.
Mensajería multicanal de alto rendimiento.
Desacopla la capa de ingestión de la capa de procesamiento
y/o consolidación.
MESSAGE BUS
BROKER
DATA INGESTION
ENTRY
publicadores
consumidores
Solving Big Data Issues 14
KEEDIO DATA STACK (KDS) – ARCHIVE
Basado en Apache Hadoop HDFS
Asegura que la información es almacenada de forma
redundante y con alta disponibilidad.
Compatible con todos los módulos de KDS y ampliamente
integrado con herramientas de terceros.
Control de accesos “fine grained”.
Almacenamiento persistente de los datos raw procedentes de
Entry
Opcional pero siempre recomendado.
DATA
INGESTION
ENTRY
RAW DATA
BUMPER
HDFS HDFS HDFS
MESSAGE
BUS
BROKER
Solving Big Data Issues 15
KEEDIO DATA STACK (KDS) – BATCH
Basado en Apache Spark
Tiene toda la potencia de Apache Spark para la carga,
transformación y análisis de datos.
Compatible con pipelines MapReduce preexistentes
Escalado automático hacia arriba para trabajos
computacionalmente intensivos.
Escalado automático hacia abajo para ahorrar en costes
(especialmente en entornos cloud).
Data locality awareness: para un uso eficiente de los
recursos de red, los datos no se mueven de una VM o de un
rack (según configuración), es la computación que se mueve
hacia el dato.
Solving Big Data Issues 16
KEEDIO DATA STACK (KDS) – STREAM
Procesamiento de los datos en streaming
Módulo adaptable dependiendo de las necesidades de cada caso
de uso.
Alternativas a diferentes frameworks de procesamiento como
Apache Spark Streaming y Apache Storm.
Se puede usar más de un framework de procesamiento en
streaming a la vez.
Apache Spark Streaming
Semántica de exactly-once.
API sofisticada de procesamiento de ventanas deslizantes.
Apache Storm
Semántica de at-least-once.
Facilita la lógica de diseño para el procesamiento por eventos.
Solving Big Data Issues 17
KEEDIO DATA STACK (KDS) – NEURONA
Estado del arte de las APIs de Machine Learning y predicción
Algoritmos distribuidos con un crecimiento en rendimiento lineal
acorde al crecimiento del cluster.
Estrechamente integrado con los módulos Batch y Stream
Neurona une lo mejor de los dos mundos Spark MLlib y R
Prácticamente todos los paquetes disponibles en CRAN se
pueden usar en un entorno distribuido basado en Apache Spark.
Con las distribuciones de Apache Spark a medida de KDS se
construyen sofisticados y potentes frameworks para el
procesamiento de datos con técnicas de Machine Learning y
predictiva.
MLlib
Solving Big Data Issues 18
KEEDIO DATA STACK (KDS) – WORKFLOW & OP STORAGE
WORKFLOW
Gestión de procesos y workflows para la ejecución de pipelines
complejos en la plataforma.
OPSTORE
Bases de Datos NoSQL
Almacenamiento de información “desestructurada”
Elasticsearch como ejemplo:
•  Basado en Apache Lucene
•  Índices, tipos, documentos y campos como abstracciones
similares a bases de datos, tablas, filas y columnas.
Solving Big Data Issues 19
KEEDIO DATA STACK (KDS) – Next Steps (I)
AUDITOR
Trazabilidad de los datos.
Informes de manipulación de datos.
BATCH OVER STREAMING
API de procesamiento Batch/Streaming unificada, basada en
Apache Flink.
Shift hacia una arquitectura streaming centric que trate todo los
datos como un “flujo”.
Simplificación del paradigma de tratamiento de los datos: el
procesado batch es un caso especial del procesado en streaming.
Solving Big Data Issues 20
KEEDIO DATA STACK (KDS) – Next Steps (II)
KIO
API REST unificada de gestión y explotación de la plataforma.
Abstracción de los módulos subyacentes.
Documentación centralizada para la administración,
configuración y explotación de todos los módulos de la
plataforma.
Contribución de KEEDIO a la comunidad, 100% Open Source.
ODPi
Compliance con la Open Data Platform initiative.
Simplificación y estandarización de ecosistemas Big Data.
Calle Virgilio 25
Edificio Ayessa I, Bajo D
Pozuelo de Alarcón
28223 Madrid
@keedioinfo@keedio.comwww.keedio.com keedio

2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK

  • 1.
    PLATAFORMA KEEDIO DATA STACK LucaRosellini lrosellini@keedio.com @luca_rosellini
  • 2.
    Solving Big DataIssues 2 KEEDIO DATA STACK (KDS) - HERRAMIENTAS
  • 3.
    Solving Big DataIssues 3 KEEDIO DATA STACK (KDS) – MÓDULOS MESSAGE BUS BROKER BATCH DATA PROCESING BATCH REAL TIME DATA PROCESSING STREAM MACHINE LEARNING & PREDICTIVE NEURONA LONG TERM DATA STORAGE ARCHIVE DATA ORCHESTATION WORKFLOW OPERATIONAL DATA STORAGE OPSTORE DATA GOVERNANCE AUDITOR KEEDIO MANAGER & SECURITY KEEDIO MANAGER REST API KIO DATA INGESTION ENTRY BI Tools Dashboard s & Reports Monitoring Services JDBC /ODBC clients SUBSEQUENT ANALISYS (Data Science Tools)
  • 4.
    Solving Big DataIssues 4 KEEDIO DATA STACK (KDS) - VENTAJAS No Vendor Lock-in • Sólo se usan herramientas estables ampliamente usadas y contrastadas • Nuestros parches y plugins son liberados como open source Distribuciones a medida para cada cliente • KDS no es monolítica y se puede adaptar a las necesidades de cada cliente o caso de uso. • Una distribución o plataforma compacta y enfocada es más fácil de mantener Distribuciones Apache Spark • Integración con librerías de terceros necesarias en escenarios y casos específicos • Bugfixes y personalizaciones No reinventar la rueda • Aprovechamos la potencia y capacidad de desarrollo de la comunidad para cada módulo de KDS. Integración entre módulos • A pesar de poder desplegarse de forma independiente, cuidamos la estrecha integración entre cada uno de los módulos. Herramientas Big Data • Incluye una selección de las principales herramientas Big Data para la construcción de una arquitectura y plataforma analítica modular. Analítica avanzada de datos en tiempo real • Batch, tiempo real, streaming y predictivo.
  • 5.
    Solving Big DataIssues 5 KEEDIO DATA STACK (KDS) – KEEDIO MANAGER KEEDIO Manager está basado en Apache Ambari Integración nativa con Kerberos y FreeIPA. Soporte nativo para full HA. Se apoya en la capacidad de desarrollo de la comunidad y las líneas estratégicas globales de evolución. Mejoras introducidas por KEEDIO. Estandarización en la gestión de los servicios gestionados. Adaptaciones para gestionar fácilmente nuevas herramientas Big Data. Integración con herramientas no disponibles en la versión de la comunidad. Despliegues on-premise avanzados.
  • 6.
    Solving Big DataIssues 6 KEEDIO DATA STACK (KDS) – KEEDIO MANAGER Gestión avanzada de los servicios de la plataforma Despliegue centralizado de la plataforma. Monitorización y métricas. Control de versiones de la configuración. Gestión del HA, decomisionado y posibilidad de extensión de la arquitectura. Acceso centralizado Control de usuarios y la seguridad. Acceso a las GUIs de cada uno de los servicios y herramientas. API de gestión y administración.
  • 7.
  • 8.
    Solving Big DataIssues 8 DEMO SIMULADOR AGENTESDEFLUME KAFKA HDFS HDFS HDFS KIBANA SPARK STREAMING Tarjeta Transferencia MOTOR TR Parser Indexación
  • 9.
    Solving Big DataIssues 9 SIEM - ARQUITECTURA Procesado Batch §  Archivado de todo el histórico de eventos. Procesado Real-time §  Filtrado horizontal de la información: descarte de eventos no relevantes §  Filtrado vertical de la información: descarte de campos no relevantes dentro de eventos. Analítica §  Analítica exploratoria de los eventos históricos. §  Dashboards de seguridad y correlación eventos en Splunk. CMDB
  • 10.
  • 11.
    Solving Big DataIssues 11 KEEDIO DATA STACK (KDS) – ENTRY Arquitectura de ingesta unificada basada en Apache Flume Con la potencia y versatilidad de docenas de componentes soportados por la comunidad. 20+ componentes contribuidos por KEEDIO y desplegados en los entornos más exigentes. Full HA cuando es necesario Integración con Apache NiFi Motor de ingesta distribuido. Atractiva interfaz gráfica de configuración de pipelines de ingesta y transformación. Componentes open-source contribuidos por KEEDIO.
  • 12.
    Solving Big DataIssues 12 KEEDIO DATA STACK (KDS) – ENTRY Agentes recolectores Multifuente: FTP, SFTP, SQL, Single & Multi File, http, Apache Kafka, Netcat, JMS, Avro, SNMP, Thrift, etc. Amplio abanico de agentes open-source de flume desarrollados ad-hoc por KEEDIO. Componentes activos (pull) y componentes pasivos (push). Procesos para el enriquecimiento y metadatado en tiempo real con mecanismos de cache. Integración con fuentes de datos de terceros. Enriquecimiento y metadatado de la información Integración con los diferentes módulos de KDS de almacenamiento y procesamiento. Backends legacy (Oracle, MySQL, DB2, DWH, etc.) Integración con múltiples backends DATA INGESTION ENTRY
  • 13.
    Solving Big DataIssues 13 KEEDIO DATA STACK (KDS) – BROKER Se apoya en Apache Kafka Persistencia temporal de los datos. Mensajería multicanal de alto rendimiento. Desacopla la capa de ingestión de la capa de procesamiento y/o consolidación. MESSAGE BUS BROKER DATA INGESTION ENTRY publicadores consumidores
  • 14.
    Solving Big DataIssues 14 KEEDIO DATA STACK (KDS) – ARCHIVE Basado en Apache Hadoop HDFS Asegura que la información es almacenada de forma redundante y con alta disponibilidad. Compatible con todos los módulos de KDS y ampliamente integrado con herramientas de terceros. Control de accesos “fine grained”. Almacenamiento persistente de los datos raw procedentes de Entry Opcional pero siempre recomendado. DATA INGESTION ENTRY RAW DATA BUMPER HDFS HDFS HDFS MESSAGE BUS BROKER
  • 15.
    Solving Big DataIssues 15 KEEDIO DATA STACK (KDS) – BATCH Basado en Apache Spark Tiene toda la potencia de Apache Spark para la carga, transformación y análisis de datos. Compatible con pipelines MapReduce preexistentes Escalado automático hacia arriba para trabajos computacionalmente intensivos. Escalado automático hacia abajo para ahorrar en costes (especialmente en entornos cloud). Data locality awareness: para un uso eficiente de los recursos de red, los datos no se mueven de una VM o de un rack (según configuración), es la computación que se mueve hacia el dato.
  • 16.
    Solving Big DataIssues 16 KEEDIO DATA STACK (KDS) – STREAM Procesamiento de los datos en streaming Módulo adaptable dependiendo de las necesidades de cada caso de uso. Alternativas a diferentes frameworks de procesamiento como Apache Spark Streaming y Apache Storm. Se puede usar más de un framework de procesamiento en streaming a la vez. Apache Spark Streaming Semántica de exactly-once. API sofisticada de procesamiento de ventanas deslizantes. Apache Storm Semántica de at-least-once. Facilita la lógica de diseño para el procesamiento por eventos.
  • 17.
    Solving Big DataIssues 17 KEEDIO DATA STACK (KDS) – NEURONA Estado del arte de las APIs de Machine Learning y predicción Algoritmos distribuidos con un crecimiento en rendimiento lineal acorde al crecimiento del cluster. Estrechamente integrado con los módulos Batch y Stream Neurona une lo mejor de los dos mundos Spark MLlib y R Prácticamente todos los paquetes disponibles en CRAN se pueden usar en un entorno distribuido basado en Apache Spark. Con las distribuciones de Apache Spark a medida de KDS se construyen sofisticados y potentes frameworks para el procesamiento de datos con técnicas de Machine Learning y predictiva. MLlib
  • 18.
    Solving Big DataIssues 18 KEEDIO DATA STACK (KDS) – WORKFLOW & OP STORAGE WORKFLOW Gestión de procesos y workflows para la ejecución de pipelines complejos en la plataforma. OPSTORE Bases de Datos NoSQL Almacenamiento de información “desestructurada” Elasticsearch como ejemplo: •  Basado en Apache Lucene •  Índices, tipos, documentos y campos como abstracciones similares a bases de datos, tablas, filas y columnas.
  • 19.
    Solving Big DataIssues 19 KEEDIO DATA STACK (KDS) – Next Steps (I) AUDITOR Trazabilidad de los datos. Informes de manipulación de datos. BATCH OVER STREAMING API de procesamiento Batch/Streaming unificada, basada en Apache Flink. Shift hacia una arquitectura streaming centric que trate todo los datos como un “flujo”. Simplificación del paradigma de tratamiento de los datos: el procesado batch es un caso especial del procesado en streaming.
  • 20.
    Solving Big DataIssues 20 KEEDIO DATA STACK (KDS) – Next Steps (II) KIO API REST unificada de gestión y explotación de la plataforma. Abstracción de los módulos subyacentes. Documentación centralizada para la administración, configuración y explotación de todos los módulos de la plataforma. Contribución de KEEDIO a la comunidad, 100% Open Source. ODPi Compliance con la Open Data Platform initiative. Simplificación y estandarización de ecosistemas Big Data.
  • 21.
    Calle Virgilio 25 EdificioAyessa I, Bajo D Pozuelo de Alarcón 28223 Madrid @keedioinfo@keedio.comwww.keedio.com keedio