SlideShare una empresa de Scribd logo
Simplifying
architectures
for real-time decisions
Handling high volume and high load environments
Decisiones reales en tiempo real
“¿Debo incluir más estaciones de producción?”“¿Puedo conceder ese
microcrédito?”
“¿A qué usuarios debo dirigir mi campaña?” “¿Qué conductor es el más
apropiado para atender un viaje?”
“¿Debo entrar en esa operación?”
...
“¿Es aceptable este riesgo?¿Cuál es la elección más apropiada?¿Es este el
mejor momento para actuar?”
Requisitos
• Velocidad de ingestión.
• Volumen de datos.
• Análisis en tiempo real.
• Análisis batch.
Solución habitual: Arquitecturas lambda
Arquitecturas lambda
• Ventajas: Resuelven el problema.
• Desventajas:
• Complejidad:
• Multiples datastores → Multiples pipelines → Multiples
frameworks
• Código duplicado
• ETLs
• Acoplamiento al framework
• Dificultad de Mantenimiento.
• Baja flexibilidad
Alternativa a lambda
• Unificar datastores
• Elimina complejidad.
• Elimina ETLs.
• Elimina código duplicado.
• Simplifica el framework
• Situación inicial: Requisitos del datastore
• Ingestión masiva
• Grandes volúmenes de datos
• Análisis en tiempo real
• Análisis batch
LeanXcale
• LeanXcale es una BBDD ultraescalable con
capacidades SQL y NoSQL e ingestión masiva.
• Características y funcionalidades
● Escalabilidad lineal
● Particionamiento inteligente
● Ingestión masiva
● Capacidades GIS
● Operaciones vectoriales
● Customización
● Estructura de datos híbrida
● Operaciones vectoriales
● …
● Interfaz SQL & NoSQL
● Agregados Online
● HTAP → OLTP + OLAP
● MVCC
● Gestión eficiente de NUMA
● Elasticidad
● Queries políglotas
● ...
Componentes
• Query engine: Motor SQL
• Basado en Apache Calcite
• Interpreta SQL (ANSI 2003)
• Genera y optimiza planes de ejecución
• Datastore: Kivi
• Motor clave/valor
• Estructura de datos híbrida (B+Tree ~ LSM Tree)
• Capacidad de ejecución de predicados
• Transaction Manager
• Permite escalado lineal
• Implementa el MVCC
• Conectores/Drivers:
• Proporcionan acceso desde diferentes
ecosistemas (JDBC/ODBC, PHP, Kafka, Spark, etc)
Query Engine
Transaction
Manager
Data Storage (Kivi)
Conector directo
Driver SQL
Escalado lineal
• Otras BBDD transaccionales
• Escalabilidad asintótica → Cada nuevo nodo aporta menos al
cluster
• Límite de escalabilidad
• LeanXcale:
• Escalabilidad lineal → Cada nuevo nodo mantiene la aportación
cluster
• Algoritmo de escalado: https://www.youtube.com/watch?v=ScLthWjXdCE
Particionamiento inteligente
Optimizar la inserción sin penalizar la lectura
• Mantiene la organización de los datos basada en la
clave primaria.
•Permite operaciones de scan paralelo
• Particiona automáticamente aprovechando la
localidad temporal.
• Optimiza el uso de la cache para inserción.
Agregados online
• El cálculo de agregados es costoso, especialmente
en entornos con gran volumen.
• Alternativas:
• Cálculo en tiempo de consulta:
• Requiere procesar el dataset completo en consulta.
• En grandes volúmenes cambiantes requiere procesar cada vez.
• Cálculo en tiempo de inserción:
• Requiere bloqueos para garantizar consistencia → Penaliza la inserción
• LeanXcale: Agregados online
• Precalcula en inserción (sin bloqueo).
• Lectura directa.
Tiempo real vs LeanXcale
• Inserción masiva:
• API key-value directa al datastore
• Particionamiento inteligente
• Estructura de datos híbrida
• Grandes volúmenes de datos
• Escalado lineal
• Particionamiento inteligente
• Análitica en tiempo real
• Agregados online
• Análisis batch
• Motor SQL
• Estructura de datos híbrida
Caso de uso: Análisis de viajes Taxi
Viajes
- Fecha de Inicio y Fin
- Coordenadas de inicio y fin
- Conductor
- Compañía
- Distancia
- Puntuación (0 - 5)
Arquitectura LeanXcale
Indicadores
- Número de viajes
- Mejores conductores
- Datos por compañía
- Pasajeros
- Viajes
- Distribución temporal
- Horaria
- Diaria
- Semanal
Tiempo Real
Arquitectura
Proceso
inserción
KVDS KVDS KVDS KVDS
KVDS KVDS KVDS KVDS
Proceso Java
Tiempo real: 100 viajes/s
Inserción: 60k viajes/s
.csv
Viajes Taxi NYC 2013
12 archivos: 15M viajes/mes
Total: 160M viajes
Score aleatorio
Key-value
2 servidores LX
- 4 cores
- 16 Gb
- 300 Gb disco
Dashboard
Apache Superset
Python
SQL
Particionamiento primario: Información geográfica.
Particionamiento automático: Información temporal.
Agregados online
• Agregados online:
• Número total de viajes.
• Información de conductor (viajes realizados, puntuación
acumulada)
• Información temporal (viajes acumulados por día, hora y semana)
• Información de compañía (viajes realizados, pasajeros
acumulados).
Modelo de datos
• Tabla principal: TRIP_DATA_MEETUP
• Agregados online:
• TRIP_DATA_MEDALLION: Agregados agrupados por conductor.
• TRIP_DATA_VENDOR: Agregados por compañía.
• TRIP_DATA_DAILY: Agregados por día de la semana.
• TRIP_DATA_HOURLY: Agregados por hora del día.
•TRIP_DATA_WEEKLY: Agregados por hora del día.
• TRIP_DATA_DELTA: Agregados totales.
Dashboard
Demo
From demo to market
• Volumen y carga
• Escalabilidad y elasticidad
• Desarrollo de aplicaciones:
• SQL: JDBC / ODBC / SQL Alchemy
• Key-Value: Librería Java/Python/PHP/C
• Kafka
• Spark
• Despliegue:
• On cloud
• On premise
•Trial y plan para Startups
Otras aplicaciones
• Smart Grid.
• Análisis de riesgo al crédito.
• Perfilado de usuarios.
• Gestión de inversiones.
• Smart cities.

Más contenido relacionado

Similar a Madrid DataEng - LeanXcale, Simplifying architectures for real time decisions

AWS Summit Bogotá Track Básico: EC2 & Servicios de Computación.
AWS Summit Bogotá Track Básico: EC2 & Servicios de Computación. AWS Summit Bogotá Track Básico: EC2 & Servicios de Computación.
AWS Summit Bogotá Track Básico: EC2 & Servicios de Computación.
Amazon Web Services
 
AWS Summits América Latina 2015- EC2 Computo en la nube
AWS Summits América Latina 2015- EC2 Computo en la nubeAWS Summits América Latina 2015- EC2 Computo en la nube
AWS Summits América Latina 2015- EC2 Computo en la nube
Amazon Web Services LATAM
 
KCDS 2021- Escalando workloads serverless en Kubernetes con KEDA
KCDS 2021- Escalando workloads serverless en Kubernetes con KEDAKCDS 2021- Escalando workloads serverless en Kubernetes con KEDA
KCDS 2021- Escalando workloads serverless en Kubernetes con KEDA
Eduard Tomàs
 
JIRA data center (AWS)
JIRA data center (AWS)JIRA data center (AWS)
JIRA data center (AWS)
Carlos Raúl Aparicio Hernández
 
ASP.NET MVC Workshop Día 3
ASP.NET MVC Workshop Día 3ASP.NET MVC Workshop Día 3
ASP.NET MVC Workshop Día 3
Rodolfo Finochietti
 
Sistema de Bases de Datos AWS
Sistema de Bases de Datos AWSSistema de Bases de Datos AWS
Sistema de Bases de Datos AWS
Amazon Web Services LATAM
 
Escalabilidad en azure sql database con elastic scale
Escalabilidad en azure sql database con elastic scaleEscalabilidad en azure sql database con elastic scale
Escalabilidad en azure sql database con elastic scale
Eduardo Castro
 
Datawarehouse como servicio en azure (sqldw)
Datawarehouse como servicio en azure (sqldw)Datawarehouse como servicio en azure (sqldw)
Datawarehouse como servicio en azure (sqldw)
Enrique Catala Bañuls
 
Datawarehouse como servicio en Azure (sqldw)
Datawarehouse como servicio en Azure (sqldw)Datawarehouse como servicio en Azure (sqldw)
Datawarehouse como servicio en Azure (sqldw)
SolidQ
 
Contenedores y el Futuro del Despliegue de Aplicaciones
Contenedores y el Futuro del Despliegue de AplicacionesContenedores y el Futuro del Despliegue de Aplicaciones
Contenedores y el Futuro del Despliegue de Aplicaciones
Bitnami
 
Casos de bodegas de datos con SQL Server
Casos de bodegas de datos con SQL ServerCasos de bodegas de datos con SQL Server
Casos de bodegas de datos con SQL Server
Eduardo Castro
 
Calidad de servicio en redes
Calidad de servicio en redesCalidad de servicio en redes
Calidad de servicio en redes
Edgar Rissiotti Velasquez
 
Calidad de servicio en redes
Calidad de servicio en redesCalidad de servicio en redes
Calidad de servicio en redes
Candy Pizarro
 
Calidad de servicio en redes
Calidad de servicio en redesCalidad de servicio en redes
Calidad de servicio en redes
Candy Pizarro
 
R users Galicia 2018
R users Galicia 2018R users Galicia 2018
R users Galicia 2018
Antonio Vidal Vidal
 
¿Cómo se despliega y autoescala Couchbase en Cloud? ¡Aprende de manera práctica!
¿Cómo se despliega y autoescala Couchbase en Cloud? ¡Aprende de manera práctica!¿Cómo se despliega y autoescala Couchbase en Cloud? ¡Aprende de manera práctica!
¿Cómo se despliega y autoescala Couchbase en Cloud? ¡Aprende de manera práctica!
Paradigma Digital
 
Open platform - Conferencia Esri 2016
Open platform  - Conferencia Esri 2016Open platform  - Conferencia Esri 2016
Open platform - Conferencia Esri 2016
Esri España
 
Mejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWSMejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWS
Amazon Web Services LATAM
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data Warehouse
Joseph Lopez
 
Data Platform de BEEVA
Data Platform de BEEVAData Platform de BEEVA
Data Platform de BEEVA
BEEVA_es
 

Similar a Madrid DataEng - LeanXcale, Simplifying architectures for real time decisions (20)

AWS Summit Bogotá Track Básico: EC2 & Servicios de Computación.
AWS Summit Bogotá Track Básico: EC2 & Servicios de Computación. AWS Summit Bogotá Track Básico: EC2 & Servicios de Computación.
AWS Summit Bogotá Track Básico: EC2 & Servicios de Computación.
 
AWS Summits América Latina 2015- EC2 Computo en la nube
AWS Summits América Latina 2015- EC2 Computo en la nubeAWS Summits América Latina 2015- EC2 Computo en la nube
AWS Summits América Latina 2015- EC2 Computo en la nube
 
KCDS 2021- Escalando workloads serverless en Kubernetes con KEDA
KCDS 2021- Escalando workloads serverless en Kubernetes con KEDAKCDS 2021- Escalando workloads serverless en Kubernetes con KEDA
KCDS 2021- Escalando workloads serverless en Kubernetes con KEDA
 
JIRA data center (AWS)
JIRA data center (AWS)JIRA data center (AWS)
JIRA data center (AWS)
 
ASP.NET MVC Workshop Día 3
ASP.NET MVC Workshop Día 3ASP.NET MVC Workshop Día 3
ASP.NET MVC Workshop Día 3
 
Sistema de Bases de Datos AWS
Sistema de Bases de Datos AWSSistema de Bases de Datos AWS
Sistema de Bases de Datos AWS
 
Escalabilidad en azure sql database con elastic scale
Escalabilidad en azure sql database con elastic scaleEscalabilidad en azure sql database con elastic scale
Escalabilidad en azure sql database con elastic scale
 
Datawarehouse como servicio en azure (sqldw)
Datawarehouse como servicio en azure (sqldw)Datawarehouse como servicio en azure (sqldw)
Datawarehouse como servicio en azure (sqldw)
 
Datawarehouse como servicio en Azure (sqldw)
Datawarehouse como servicio en Azure (sqldw)Datawarehouse como servicio en Azure (sqldw)
Datawarehouse como servicio en Azure (sqldw)
 
Contenedores y el Futuro del Despliegue de Aplicaciones
Contenedores y el Futuro del Despliegue de AplicacionesContenedores y el Futuro del Despliegue de Aplicaciones
Contenedores y el Futuro del Despliegue de Aplicaciones
 
Casos de bodegas de datos con SQL Server
Casos de bodegas de datos con SQL ServerCasos de bodegas de datos con SQL Server
Casos de bodegas de datos con SQL Server
 
Calidad de servicio en redes
Calidad de servicio en redesCalidad de servicio en redes
Calidad de servicio en redes
 
Calidad de servicio en redes
Calidad de servicio en redesCalidad de servicio en redes
Calidad de servicio en redes
 
Calidad de servicio en redes
Calidad de servicio en redesCalidad de servicio en redes
Calidad de servicio en redes
 
R users Galicia 2018
R users Galicia 2018R users Galicia 2018
R users Galicia 2018
 
¿Cómo se despliega y autoescala Couchbase en Cloud? ¡Aprende de manera práctica!
¿Cómo se despliega y autoescala Couchbase en Cloud? ¡Aprende de manera práctica!¿Cómo se despliega y autoescala Couchbase en Cloud? ¡Aprende de manera práctica!
¿Cómo se despliega y autoescala Couchbase en Cloud? ¡Aprende de manera práctica!
 
Open platform - Conferencia Esri 2016
Open platform  - Conferencia Esri 2016Open platform  - Conferencia Esri 2016
Open platform - Conferencia Esri 2016
 
Mejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWSMejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWS
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data Warehouse
 
Data Platform de BEEVA
Data Platform de BEEVAData Platform de BEEVA
Data Platform de BEEVA
 

Último

Manual de soporte y mantenimiento de equipo de cómputo
Manual de soporte y mantenimiento de equipo de cómputoManual de soporte y mantenimiento de equipo de cómputo
Manual de soporte y mantenimiento de equipo de cómputo
doctorsoluciones34
 
Manual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputosManual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputos
cbtechchihuahua
 
Informació Projecte Iniciativa TIC SOPRA STERIA.pdf
Informació Projecte Iniciativa TIC SOPRA STERIA.pdfInformació Projecte Iniciativa TIC SOPRA STERIA.pdf
Informació Projecte Iniciativa TIC SOPRA STERIA.pdf
Festibity
 
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador ValenciaCatalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
AMADO SALVADOR
 
Presentacion de Estado del Arte del The Clean
Presentacion de Estado del Arte del The CleanPresentacion de Estado del Arte del The Clean
Presentacion de Estado del Arte del The Clean
juanchogame18
 
HERRAMIENTAS WEB--------------------.pptx
HERRAMIENTAS WEB--------------------.pptxHERRAMIENTAS WEB--------------------.pptx
HERRAMIENTAS WEB--------------------.pptx
maralache30
 
herramientas de sitio web 3.0 2024
herramientas de sitio web 3.0  2024herramientas de sitio web 3.0  2024
herramientas de sitio web 3.0 2024
julio05042006
 
Conceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdfConceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdf
ValeriaAyala48
 
modelosdeteclados-230114024527-aa2c9553.pptx
modelosdeteclados-230114024527-aa2c9553.pptxmodelosdeteclados-230114024527-aa2c9553.pptx
modelosdeteclados-230114024527-aa2c9553.pptx
evelinglilibethpeafi
 
Computacion cuántica y sus ventajas y desventajas
Computacion cuántica y sus ventajas y desventajasComputacion cuántica y sus ventajas y desventajas
Computacion cuántica y sus ventajas y desventajas
sofiahuarancabellido
 
SISTESIS RETO4 Grupo4 co-creadores .ppsx
SISTESIS RETO4 Grupo4 co-creadores .ppsxSISTESIS RETO4 Grupo4 co-creadores .ppsx
SISTESIS RETO4 Grupo4 co-creadores .ppsx
tamarita881
 
Catalogo general Ariston Amado Salvador distribuidor oficial Valencia
Catalogo general Ariston Amado Salvador distribuidor oficial ValenciaCatalogo general Ariston Amado Salvador distribuidor oficial Valencia
Catalogo general Ariston Amado Salvador distribuidor oficial Valencia
AMADO SALVADOR
 
TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....
TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....
TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....
bendezuperezjimena
 
TECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVA
TECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVATECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVA
TECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVA
LilibethEstupian
 
Informació Projecte Iniciativa TIC HPE.pdf
Informació Projecte Iniciativa TIC HPE.pdfInformació Projecte Iniciativa TIC HPE.pdf
Informació Projecte Iniciativa TIC HPE.pdf
Festibity
 
Gabinete, puertos y dispositivos que se conectan al case
Gabinete,  puertos y  dispositivos que se conectan al caseGabinete,  puertos y  dispositivos que se conectan al case
Gabinete, puertos y dispositivos que se conectan al case
JuanaNT7
 
maestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdfmaestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdf
JimmyTejadaSalizar
 
Presentación de Tic en educación y sobre blogger
Presentación de Tic en educación y sobre bloggerPresentación de Tic en educación y sobre blogger
Presentación de Tic en educación y sobre blogger
larapalaciosmonzon28
 
Refrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y ForzadoRefrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y Forzado
NicandroMartinez2
 
Catalogo Cajas Fuertes BTV Amado Salvador Distribuidor Oficial
Catalogo Cajas Fuertes BTV Amado Salvador Distribuidor OficialCatalogo Cajas Fuertes BTV Amado Salvador Distribuidor Oficial
Catalogo Cajas Fuertes BTV Amado Salvador Distribuidor Oficial
AMADO SALVADOR
 

Último (20)

Manual de soporte y mantenimiento de equipo de cómputo
Manual de soporte y mantenimiento de equipo de cómputoManual de soporte y mantenimiento de equipo de cómputo
Manual de soporte y mantenimiento de equipo de cómputo
 
Manual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputosManual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputos
 
Informació Projecte Iniciativa TIC SOPRA STERIA.pdf
Informació Projecte Iniciativa TIC SOPRA STERIA.pdfInformació Projecte Iniciativa TIC SOPRA STERIA.pdf
Informació Projecte Iniciativa TIC SOPRA STERIA.pdf
 
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador ValenciaCatalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
 
Presentacion de Estado del Arte del The Clean
Presentacion de Estado del Arte del The CleanPresentacion de Estado del Arte del The Clean
Presentacion de Estado del Arte del The Clean
 
HERRAMIENTAS WEB--------------------.pptx
HERRAMIENTAS WEB--------------------.pptxHERRAMIENTAS WEB--------------------.pptx
HERRAMIENTAS WEB--------------------.pptx
 
herramientas de sitio web 3.0 2024
herramientas de sitio web 3.0  2024herramientas de sitio web 3.0  2024
herramientas de sitio web 3.0 2024
 
Conceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdfConceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdf
 
modelosdeteclados-230114024527-aa2c9553.pptx
modelosdeteclados-230114024527-aa2c9553.pptxmodelosdeteclados-230114024527-aa2c9553.pptx
modelosdeteclados-230114024527-aa2c9553.pptx
 
Computacion cuántica y sus ventajas y desventajas
Computacion cuántica y sus ventajas y desventajasComputacion cuántica y sus ventajas y desventajas
Computacion cuántica y sus ventajas y desventajas
 
SISTESIS RETO4 Grupo4 co-creadores .ppsx
SISTESIS RETO4 Grupo4 co-creadores .ppsxSISTESIS RETO4 Grupo4 co-creadores .ppsx
SISTESIS RETO4 Grupo4 co-creadores .ppsx
 
Catalogo general Ariston Amado Salvador distribuidor oficial Valencia
Catalogo general Ariston Amado Salvador distribuidor oficial ValenciaCatalogo general Ariston Amado Salvador distribuidor oficial Valencia
Catalogo general Ariston Amado Salvador distribuidor oficial Valencia
 
TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....
TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....
TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....
 
TECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVA
TECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVATECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVA
TECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVA
 
Informació Projecte Iniciativa TIC HPE.pdf
Informació Projecte Iniciativa TIC HPE.pdfInformació Projecte Iniciativa TIC HPE.pdf
Informació Projecte Iniciativa TIC HPE.pdf
 
Gabinete, puertos y dispositivos que se conectan al case
Gabinete,  puertos y  dispositivos que se conectan al caseGabinete,  puertos y  dispositivos que se conectan al case
Gabinete, puertos y dispositivos que se conectan al case
 
maestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdfmaestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdf
 
Presentación de Tic en educación y sobre blogger
Presentación de Tic en educación y sobre bloggerPresentación de Tic en educación y sobre blogger
Presentación de Tic en educación y sobre blogger
 
Refrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y ForzadoRefrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y Forzado
 
Catalogo Cajas Fuertes BTV Amado Salvador Distribuidor Oficial
Catalogo Cajas Fuertes BTV Amado Salvador Distribuidor OficialCatalogo Cajas Fuertes BTV Amado Salvador Distribuidor Oficial
Catalogo Cajas Fuertes BTV Amado Salvador Distribuidor Oficial
 

Madrid DataEng - LeanXcale, Simplifying architectures for real time decisions

  • 1. Simplifying architectures for real-time decisions Handling high volume and high load environments
  • 2. Decisiones reales en tiempo real “¿Debo incluir más estaciones de producción?”“¿Puedo conceder ese microcrédito?” “¿A qué usuarios debo dirigir mi campaña?” “¿Qué conductor es el más apropiado para atender un viaje?” “¿Debo entrar en esa operación?” ... “¿Es aceptable este riesgo?¿Cuál es la elección más apropiada?¿Es este el mejor momento para actuar?”
  • 3. Requisitos • Velocidad de ingestión. • Volumen de datos. • Análisis en tiempo real. • Análisis batch.
  • 5. Arquitecturas lambda • Ventajas: Resuelven el problema. • Desventajas: • Complejidad: • Multiples datastores → Multiples pipelines → Multiples frameworks • Código duplicado • ETLs • Acoplamiento al framework • Dificultad de Mantenimiento. • Baja flexibilidad
  • 6. Alternativa a lambda • Unificar datastores • Elimina complejidad. • Elimina ETLs. • Elimina código duplicado. • Simplifica el framework • Situación inicial: Requisitos del datastore • Ingestión masiva • Grandes volúmenes de datos • Análisis en tiempo real • Análisis batch
  • 7. LeanXcale • LeanXcale es una BBDD ultraescalable con capacidades SQL y NoSQL e ingestión masiva. • Características y funcionalidades ● Escalabilidad lineal ● Particionamiento inteligente ● Ingestión masiva ● Capacidades GIS ● Operaciones vectoriales ● Customización ● Estructura de datos híbrida ● Operaciones vectoriales ● … ● Interfaz SQL & NoSQL ● Agregados Online ● HTAP → OLTP + OLAP ● MVCC ● Gestión eficiente de NUMA ● Elasticidad ● Queries políglotas ● ...
  • 8. Componentes • Query engine: Motor SQL • Basado en Apache Calcite • Interpreta SQL (ANSI 2003) • Genera y optimiza planes de ejecución • Datastore: Kivi • Motor clave/valor • Estructura de datos híbrida (B+Tree ~ LSM Tree) • Capacidad de ejecución de predicados • Transaction Manager • Permite escalado lineal • Implementa el MVCC • Conectores/Drivers: • Proporcionan acceso desde diferentes ecosistemas (JDBC/ODBC, PHP, Kafka, Spark, etc) Query Engine Transaction Manager Data Storage (Kivi) Conector directo Driver SQL
  • 9. Escalado lineal • Otras BBDD transaccionales • Escalabilidad asintótica → Cada nuevo nodo aporta menos al cluster • Límite de escalabilidad • LeanXcale: • Escalabilidad lineal → Cada nuevo nodo mantiene la aportación cluster • Algoritmo de escalado: https://www.youtube.com/watch?v=ScLthWjXdCE
  • 10. Particionamiento inteligente Optimizar la inserción sin penalizar la lectura • Mantiene la organización de los datos basada en la clave primaria. •Permite operaciones de scan paralelo • Particiona automáticamente aprovechando la localidad temporal. • Optimiza el uso de la cache para inserción.
  • 11. Agregados online • El cálculo de agregados es costoso, especialmente en entornos con gran volumen. • Alternativas: • Cálculo en tiempo de consulta: • Requiere procesar el dataset completo en consulta. • En grandes volúmenes cambiantes requiere procesar cada vez. • Cálculo en tiempo de inserción: • Requiere bloqueos para garantizar consistencia → Penaliza la inserción • LeanXcale: Agregados online • Precalcula en inserción (sin bloqueo). • Lectura directa.
  • 12. Tiempo real vs LeanXcale • Inserción masiva: • API key-value directa al datastore • Particionamiento inteligente • Estructura de datos híbrida • Grandes volúmenes de datos • Escalado lineal • Particionamiento inteligente • Análitica en tiempo real • Agregados online • Análisis batch • Motor SQL • Estructura de datos híbrida
  • 13. Caso de uso: Análisis de viajes Taxi Viajes - Fecha de Inicio y Fin - Coordenadas de inicio y fin - Conductor - Compañía - Distancia - Puntuación (0 - 5) Arquitectura LeanXcale Indicadores - Número de viajes - Mejores conductores - Datos por compañía - Pasajeros - Viajes - Distribución temporal - Horaria - Diaria - Semanal Tiempo Real
  • 14. Arquitectura Proceso inserción KVDS KVDS KVDS KVDS KVDS KVDS KVDS KVDS Proceso Java Tiempo real: 100 viajes/s Inserción: 60k viajes/s .csv Viajes Taxi NYC 2013 12 archivos: 15M viajes/mes Total: 160M viajes Score aleatorio Key-value 2 servidores LX - 4 cores - 16 Gb - 300 Gb disco Dashboard Apache Superset Python SQL Particionamiento primario: Información geográfica. Particionamiento automático: Información temporal.
  • 15. Agregados online • Agregados online: • Número total de viajes. • Información de conductor (viajes realizados, puntuación acumulada) • Información temporal (viajes acumulados por día, hora y semana) • Información de compañía (viajes realizados, pasajeros acumulados).
  • 16. Modelo de datos • Tabla principal: TRIP_DATA_MEETUP • Agregados online: • TRIP_DATA_MEDALLION: Agregados agrupados por conductor. • TRIP_DATA_VENDOR: Agregados por compañía. • TRIP_DATA_DAILY: Agregados por día de la semana. • TRIP_DATA_HOURLY: Agregados por hora del día. •TRIP_DATA_WEEKLY: Agregados por hora del día. • TRIP_DATA_DELTA: Agregados totales.
  • 18. From demo to market • Volumen y carga • Escalabilidad y elasticidad • Desarrollo de aplicaciones: • SQL: JDBC / ODBC / SQL Alchemy • Key-Value: Librería Java/Python/PHP/C • Kafka • Spark • Despliegue: • On cloud • On premise •Trial y plan para Startups
  • 19. Otras aplicaciones • Smart Grid. • Análisis de riesgo al crédito. • Perfilado de usuarios. • Gestión de inversiones. • Smart cities.