Como lidiar con el crecimiento exponencial de los datos

Software Guru Data Day 2019
Francisco Padilla

 Ingeniero en Tecnologías Computacionales – Mención Honorífica
 Tec de Mty Campus Monterrey ’07
 10 años de experiencia en Estados Unidos en Inteligencia de Negocios
 Gobierno Federal de Estados Unidos (U.S. E.P.A.)
 Toys ”R” Us, The Home Depot, Citibank, AIG
 Cofundador y CTO de Konfío
 Fintech, 42 MM USD levantados de Capital, 60 MM USD de Deuda
 150 Empleados, 70 en Tecnología

 Si una empresa tiene bases de datos de capacidad industrial, ¿Porqué le sería
relevante validar el tamaño de los datasets con los que trabaja?
 La ley de Moore indica que el poder de procesamiento se duplica cada 2 años.
 ¿Una Arquitectura de clusters debería de poder resolverlo? No siempre.

OLTP
CDMX
OLTP
GDL
OLTP
MTY
OLTP
POS
CDMX
POS GDL POS MTY
12 AM – 7 AM
RW 7 AM – 12 AM
BI Reporting
RO
• Únicamente Datos Estructurados en la
Fuente
• Puntos ciegos operativos durante el día
• Agregación cada 30 minutos
• BD y BI Systems Caros (Enterprise)

HOT: Datos que requieran ingestión y procesamiento instantáneo, por lo general para alimentar
Modelos de AI de decisión crítica (Si falla el modelo, el negocio pierde dinero)
WARM: Datos que requieran ingestión y procesamiento intradía, por lo general para alimentar
decisiones tácticas (mini – micro batches): Operaciones, Finanzas, MKT
MILD: Proceso histórico tradicional, se puede consumir el dato analizado al día siguiente
COLD: Dato que se consume unas cuantas veces al mes, por lo general en grandes volúmenes
FROZEN: Dato que se consume unas cuantas veces al año, por lo general en grandes volúmenes

Predictability
Insight
Functionality
Consistency
Infrastructure

OLTP 1
OLTP n
FB Analytics
Google
Twitter
Public DBs
Call Center
Payroll
ODBC
API / WS
Streaming
FTP
Data Lake
ETL
Lambda
Files
OLTP
API
DWH
BI
Files
Fuentes Ingesta Almacenamiento Procesamiento Consumo

 El costo de almacenamiento está en el punto más bajo de su historia, y seguirá
bajando, crea las replicas que sean necesarias para poder trabajar con tus flujos.
 Gobierno de datos será más crítico que nunca
 Gestionar calidad en datos no estructurados es más complicado
 El impacto a negocio es mayor que nunca por AI
 El numero de fuentes y consumidores solo crecerá, hay que adoptar una
estructura diseñada para crecer

Como lidiar con el crecimiento exponencial de los datos

Como lidiar con el crecimiento exponencial de los datos

Recomendados

Recomendados

Más contenido relacionado

Similar a Como lidiar con el crecimiento exponencial de los datos

Similar a Como lidiar con el crecimiento exponencial de los datos (20)

Más de Software Guru

Más de Software Guru (20)

Último

Último (10)

Como lidiar con el crecimiento exponencial de los datos