(Spanish) An overview of machine/statistical learning, what it is, what's it for, and some firms that are using it to drive up revenue and create new products.
Panorama Sociodemográfico de México 2020: GUANAJUATO
ML para organizaciones: Cómo desacelerar la montaña rusa y aplicarlo de forma responsable
1. Ya eres parte de la evolución
Solid Day
#MachineLearning para
Organizaciones
Jesus Ramos
@xuxoramos
ramos.cardona@gmail.com
linkedin.com/in/xuxoramos
#sgnext
2. Y éste qué?
- Ingeniero de Software de nacimiento (ITESM).
- Econometrista Financiero por azar (Unottingham +
UWashington).
- Estadístico Computacional por convicción (Coursera, a mucha
honra).
- Consultado con 6 firmas (BMV, GBM, ConCredito, Movistar, etc)
para levantar sus capacidades analíticas.
- Co fundador de @TheDataPub, comunidad dedicada a reventar
la burbuja y detener el tren del m*** del ML y del Pig Data.
- Gamer los sábados (PSN: xuxoramos).
- Foodie los domingos.
9. Roadmap+Riesgos para la
banda
Skill
Si eres dev,
métele a stats+maths.
Si eres de maths+stats,
métele a dev.
Biz Intimacy
Olvídate de la
Herramienta.
Enfócate en el
lenguaje de negocio.
Operational
No entregues reportes,
entrega APIs.
Sin contexto
==
Hacer la pregunta
equivocada
No hay
escalamiento
Mala predicción +
Alto sesgo
==
Perder dinero/
lastimar personas
Etapa
Riesgo
10. Roadmap+Riesgos para orgs
Etapa
Riesgo
DWH
Todos los datos
en 1 solo lugar.
Gov’nance
Total apertura y
con conexiones
SelfServ-BI
Que gente de negocio
se sirva reportes sola.
Mayor sesgo
+
sin
observer
effect
DataScience
==
Reporteo/BI
Correlación
==
Causalidad
12. #MachineLearning para todos
SW Dev
Máquina
(de estados, no la
compu)
Datos
Función/
Programa
Salida
Machine/Statistical Learning Supervisado
Máquina
(de estados, no la
compu)
Salida*
Datos
Función/
Programa**
Contexto
Contexto
* No Supervisado = Sin Salida, ** Reinforcement = Función regresa a datos
14. Error Total
#MachineLearning para todos
Objetivo 2: reducir el error de la función
Error de Predicción
Error del Fenómeno
(Varianza)
Sesgo/Bias
Reducción: más/menos
variables
Reducción: más datos/
observaciones.
Reducción:
CONTEXTO!
22. #MachineLearning para todos
Metodología
Describir
Qué me parece
interesante de
mi dataset?
Explorar
Qué research
question quiero
Hacerle a mi
dataset?
Inferir
La respuesta
puede
generalizarse?
Predecir
La respuesta
aplica a nuevas
observaciones?
- Distribuciones
- Media
- Moda
- Kurtosis
- Clustering
- Kohonen
- DBSCAN
- Multidim
Scaling
- Hypo Test
- GLM
- ANOVA
- MSE
- Random
Forest
- Boosting
- Bagging
- Deep
Learning
ML ML
25. B*n*m*x
• Conversión de cliente de nómina a TC en 29%.
• $2.7mmdp en revenue al año desde 2010.
• Cómo lo hizo?
• Clasificación!
f(edad, género, monto, antigüedad, …) = tiene TC
Predictores / variables independientes variable respuesta /
dependiente
26. UPS
• Ahorro de combustible haciendo que camiones
sólo den vuelta a la derecha.
• Ahorro de $47mdd al año.
• Cómo lo hicieron?
• Diseño de experimentos!
Exploratorio -> Recolección de datos -> Hypothesis
Testing -> GLMs -> Clasificación
27. T*lc*l
• Identificación de usrs consumiendo $7K MXN
semanales de tiempo aire en prepago.
• Creación de producto de crédito de tiempo aire
de hasta $2K.
• $4mmdp al año de revenue.
• Cómo lo hicieron?
• Clustering!
Multidimensional Scaling + K-means/DBSCAN
28. Western Union
• Prevención de fraude en remesas en
automático y personalizado.
• $32mdd en ahorro operativo en 2012. $21mdd
son de transacciones detenidas al momento.
• Cómo le hicieron?
• Clasificación!
• Similar a algoritmos de spam/ham.
29. Gr*p* *xp*ns**n
• Bajar bounce rate y mantener al visitante en
sitios de las marcas del grupo.
• Aumentar ad impressions.
• Cómo lo están haciendo?
• Recommender Systems!
Clasif 1 + Clasif 2 + … + Clasif N
Qué
música
prefiere?
Qué
comida
prefiere?
Qué
pelis
ha visto?
31. En la delantera!
• Konfio, Kueski, Prestadero + ensemble
learning = credit scoring.
• Piggo + multidimensional scaling + DBSCAN =
recomendación de inversiones.
• Klustera + Filtros Kalman (un tipo de
regresión) = ubicación exacta de gente en
centros comerciales.
• HolaGus + deep convolutional neural networks
= clasificación de texto.
32. Caso interesante: FullHarvest
• Time Series de granjas y huertos en tiempo de
cosecha.
• Clasificación para planeación de recolecciones.
• Optimización heurística para trazo de rutas.
• Regresión múltiple para planeación de demanda y
pricing.
• Ensemble para transformación y saber qué
producir.
• Optimización para ruta de entrega.
35. #MachineLearning Flops
• Google Flu Trends – Contexto = predicción
fallida de AH1N1 en Francia.
• Google Image Classifier – Contexto = 2
afroamericanos taggeados como ‘gorilas’.
• Walmart + Modelo complejo de alta varianza =
productos en mal estado vendidos a clientes.
• Wall Street + Model simple de alto bias = crisis
hipotecaria de 2008
• T*lc*l – Contexto = Préstamos a sospechosos.
37. Soy dev…cómo le entro al
ML?
• Comienza por prepararte en mates y estadística. Leete
“Think Stats” de Allen Downey.
• Acércate al depto de mates de tu universidad. Seguro
encuentras diplomados en mates.
• MOOCs: “Data Science Specialization” de Coursera es la
opción.
• Síguele con el de Andrew Ng de Stanford. Piérdele el miedo
a la notación formal.
• No te cases ni con Python ni con R. Usa ambos.
• No te cases con ningún algoritmo. Primero pregunta “qué
quiero lograr?”
• Context is KING!
38. Y si ya le se al ML?
• Platícanos tu proyecto en ramos.cardona@gmail.com
para que lo presentes en @thedatapub.
• Mándame un correo. Andamos reclutando!
• Sé humilde ante lo que te falta por aprender.
• Acércate a disciplinas complementarias de la ciencia
de datos: topología, diseño de experimentos,
optimización, visualización y storytelling.
• Comparte tu conocimiento. Ojalá seas tú el próximo
acá arriba!