En esta sesión presentaremos el caso de un cómo un startup fintech está cambiando su stack tecnológico y estrategia de data governance para poder enfrentar el crecimiento exponencial de datos.
2. Ingeniero en Tecnologías Computacionales – Mención Honorífica
Tec de Mty Campus Monterrey ’07
10 años de experiencia en Estados Unidos en Inteligencia de Negocios
Gobierno Federal de Estados Unidos (U.S. E.P.A.)
Toys ”R” Us, The Home Depot, Citibank, AIG
Cofundador y CTO de Konfío
Fintech, 42 MM USD levantados de Capital, 60 MM USD de Deuda
150 Empleados, 70 en Tecnología
3. Si una empresa tiene bases de datos de capacidad industrial, ¿Porqué le sería
relevante validar el tamaño de los datasets con los que trabaja?
La ley de Moore indica que el poder de procesamiento se duplica cada 2 años.
¿Una Arquitectura de clusters debería de poder resolverlo? No siempre.
4. OLTP
CDMX
OLTP
GDL
OLTP
MTY
OLTP
POS
CDMX
POS GDL POS MTY
12 AM – 7 AM
RW 7 AM – 12 AM
BI Reporting
RO
• Únicamente Datos Estructurados en la
Fuente
• Puntos ciegos operativos durante el día
• Agregación cada 30 minutos
• BD y BI Systems Caros (Enterprise)
5.
6.
7. HOT: Datos que requieran ingestión y procesamiento instantáneo, por lo general para alimentar
Modelos de AI de decisión crítica (Si falla el modelo, el negocio pierde dinero)
WARM: Datos que requieran ingestión y procesamiento intradía, por lo general para alimentar
decisiones tácticas (mini – micro batches): Operaciones, Finanzas, MKT
MILD: Proceso histórico tradicional, se puede consumir el dato analizado al día siguiente
COLD: Dato que se consume unas cuantas veces al mes, por lo general en grandes volúmenes
FROZEN: Dato que se consume unas cuantas veces al año, por lo general en grandes volúmenes
9. OLTP 1
OLTP n
FB Analytics
Google
Twitter
Public DBs
Call Center
Payroll
ODBC
API / WS
Streaming
FTP
Data Lake
ETL
Lambda
Files
OLTP
API
DWH
BI
Files
Fuentes Ingesta Almacenamiento Procesamiento Consumo
10. OLTP 1
OLTP n
FB Analytics
Google
Twitter
Public DBs
Call Center
Payroll
ODBC
API / WS
Streaming
FTP
Data Lake
ETL
Lambda
Files
OLTP
API
DWH
BI
Files
Fuentes Ingesta Almacenamiento Procesamiento Consumo
11. El costo de almacenamiento está en el punto más bajo de su historia, y seguirá
bajando, crea las replicas que sean necesarias para poder trabajar con tus flujos.
Gobierno de datos será más crítico que nunca
Gestionar calidad en datos no estructurados es más complicado
El impacto a negocio es mayor que nunca por AI
El numero de fuentes y consumidores solo crecerá, hay que adoptar una
estructura diseñada para crecer