1. WTF with Big Data?
Conceptos, use-cases, y advertencias para una buena práctica
Jesús Ramos
TW: @xuxoramos
FB: /xuxoramos
Email: jesus@datank.ai 1
2. Quién soy?
1. ISC02 (ITESM).
2. Financial Econometrics (UNottingham + UWashington)
3. Graduado de la Data Science Specialization de Coursera + JHU.
4. Consultado con 6 firmas para levantar capacidades analíticas (BMV, Indeval,
GBM, ConCrédito, Propiedades.com, Nestlé, etc).
5. Cofundador de @TheDataPub, la comunidad de Ciencia de Datos más grande
de México.
6. COO en Datank.ai.
7. Anti-buzzwords, anti-hype: Data Gestapo.
8. Gamer los sábados. Foodie los domingos.
2
3. Qué busco esta noche?
Que sepan la diferencia entre Big Data, Data Science, Business Intelligence,
Machine Learning y AI.
Que puedan ver más allá de los sales pitches de los IT vendors.
Que sepan qué se puede hacer y qué han hecho otras industrias con ML.
Que conozcan los retos más grandes para traer DS y ML a las empresas.
Que reconozcan por qué es crítico para México especializarse en DS y ML.
3
4. Cómo trabajaremos?
Parte I: Definiciones (para el taller y para la vida) - 40 min.
Parte II: Use cases (malos y buenos) - 20 min.
Parte III: Por qué los proyectos de ML fallan? - 20 min.
Parte IV: Qué necesita México para ser referente de ML? - 20 min.
4
5. Parte I
Definiciones
"Data is the new oil?
Qué es Big Data?
Qué es Analytics?
Qué es BI?
Qué es Data Science?
Qué es Machine Learning?
Qué es Artificial Intelligence?
5
10. @xuxoramos
Qué tiene diferente la economía de datos?
Escasez Abundancia
VS
Capital
+
Mano de obra
=
Bienes y
Servicios
Capital +
Mano de Obra +
DATA
=
Bienes y
Servicios
Inteligentes
10
11. @xuxoramos
Qué tiene diferente la economía de datos?
Escasez Abundancia
VS
Capital
+
Mano de obra
=
Bienes y
Servicios
Capital +
Mano de Obra +
DATA
=
Bienes y
Servicios
Inteligentes
11
26. @xuxoramos
Definición "Big Data"
26
Una empresa que tiene:
- Tablas (+120 columnas, 1M renglones, 6TB)
- Texto (2K páginas)
- Social (5K seguidores, 10 TW/posts x seguidor)
- Vídeo (20TB)
- Y puede/espera monetizar todo.
- Entonces si tiene Big Data.
27. "Big data needs Analytics.
Analytics doesn't need big
data"
- Carla Gentry
27
37. @xuxoramos
Qué es ML?
"Descubrimiento de funciones que partan el espacio de
datos, ajusten a una curva sin conocer su orígen, o detecten
grupos emergentes."
- Dr. Fernando Esponda (ITAM)
37
38. @xuxoramos
Qué diferencia tiene con Desarrollo de SW?
38
Máquina
Programa
Datos
Contexto
Resultado de
negocio
Proyectos de Software
Máquina
Resultado de negocio
Datos
Contexto
Programa
Proyectos de Machine Learning
44. @xuxoramos
Usos del Machine Learning
44
Agrupamiento/
Clustering
No
supervisado!
Descubrimiento
de grupos
emergentes.
45. @xuxoramos
Usos del Machine Learning
45
Reducción de
dimensionalidad
Proyectar el
espacio de datos a
una sola
dimensión y
evaluar pérdida de
información.
49. Parte II
Use Cases (buenos y malos)
- Buenos
- Banca
- Telco
- Logística
- Remesas
- Medios
- Malos
- Fashion
- Internet
- Telco
- Twitter
- Salud
49
51. Importante Financiera Mexicana
1. Conversión de cliente de nómina a TC en 29%.
2. $2.7mmdp en revenue al año desde 2010.
3. Cómo lo hizo?
4. Clasificación!
51
52. UPS
1. Ahorro de combustible haciendo que camiones
sólo den vuelta a la derecha.
2. Ahorro de $47mdd al año.
3. Cómo lo hicieron?
4. Diseño de experimentos!
52
53. Importante Telco Mexicana
1. Identificación de usrs consumiendo $7K MXN
semanales de tiempo aire en prepago.
2. Creación de producto de crédito de tiempo aire
de hasta $2K.
3. $4mmdp al año de revenue.
4. Cómo lo hicieron?
5. Clustering!
53
54. Western Union
1. Prevención de fraude en remesas en automático y
personalizado.
2. $32mdd en ahorro operativo en 2012. $21mdd son
de transacciones detenidas al momento.
3. Cómo le hicieron?
4. Clasificación!
5. Similar a algoritmos de spam/ham.
54
55. Importante Grupo Editorial
1. Bajar bounce rate y mantener al visitante en sitios
de las marcas del grupo.
2. Aumentar ad impressions.
3. Cómo lo están haciendo?
4. Recommender Systems!
55
57. Los Malos
Importante Telco Mexicana
Google
Microsoft
Google
Walmart
2008 Financial Crisis
Trump Victory
57
58. Parte III
Por qué fallan los proyectos de
ML y DS?
Una breve historia
Barreras a la adopción
58
59. Historia de un Proyecto de "Pig Data"
59
CTOs drink the "Big Data" kool-aid and call their "buddy" at an IT Vendor.
Vendor promises unprecedented return if firm buys their "fridges".
Board grants budget out of ignorance. CTO buys boxes.
CTO migrates DWH from RDBMS to Hadoop. For them, this is DS.
Next Q arrives. No ROI. Project canceled. Boxes returned.
CTO no longer able to innovate. SWEngs quit and call themselves DS.
60. Barreras a la adopción
Costo / Tiempo
Organizacionales
Culturales
60
61. Barrera de Costo / Tiempo
- Ecosistema de datos fragmentado
- Levantarlo es costoso (2 años para una organización
mediana)
- Solo sirve para fines normativos
- Operación siempre va más rápido que IT
61
66. Parte IV
El caso de México
Deficiencias en Talent Pool
Escenario Macroeconómico
66
67. Cómo anda México en DS y ML?
67
113K Ingenieros de Software al año.
350 Matemáticos, actuarios, físicos y estadísticos.
No se conoce la diferencia entre Data Scientist (DS) y Data
Engineer (DE).
Tenemos miles de Data Engineers chingones.
No tenemos casi Científicos de Datos.
Tenemos muchos DE queriendo ser DS cuando no saben ni
proba.
68. Qué tenemos en nuestra contra?
68
La frontera norte se cierra a nuestros productos y servicios.
Poco petróleo, y a precio muy bajo.
Corrupción rampante.
Mercado interno débil.
Variables macroeconómicas malas.
La "mano de obra barata" no será relevante en la era de la
automatización.
69. Cómo lo hacemos bien?
1. Estableciendo un Repositorio Central de Datos
a. Reportería normativa
b. Operativa / BI
c. Data Science / Machine Learning
2. Patrocinando estos proyectos desde el más alto nivel
a. Compromiso de recursos a largo plazo
b. No tratarlos como proyectos de SW
c. Reporte directo de Analytics / Data Science al CEO
3. Contratando correctamente
a. Business first, Math second, Technology Third.
b. IT no es suficiente.
69