En esta sesión expondremos el impacto que machine learning tendra en la competividad de las empresas, así como revisar casos concretos del tipo de problemas que machine learning resuelve hoy en día. Así mismo, compartiremos un modelo de adopción de machine learning que los asistentes puedan utilizar para introducir esta práctica en sus organizaciones.
Semblanza del conferencista:
Manuel Reyes es investigador y consultor en análisis de datos. Cuenta con un doctorado en Ingeniería Eléctrica por la Universidad de Columbia y durante 7 años colaboró como investigador para el grupo de Bing en el corporativo de Microsoft en Redmond, Washington.
Emilio Osorio es Consultor Principal en Sistemas Humanos, un colectivo de profesionistas especializados en procesos de adopción y apropiación en tecnologías. Cuenta con una larga trayectoria en la industria de TI, habiendo fundado empresas como NexusNet, Nexusware y el mismo Sistemas Humanos. Emilio también gusta de participar como voluntario en una gama de proyectos y organizaciones sin fines de lucro en proyectos relacionados con educación, tecnología y cultura libres. http://mx.linkedin.com/in/minoruosorio
1. La práctica de Machine Learning
en la Empresa
Emilio Osorio García
Chief Technology Officer
Predictive Technologies
minoru@predictivecorp.com
Dr. Manuel Reyez Gomez
Chief Data Scientist
Predictive Technologies
manuel@predictivecorp.com
2. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
¿Qué imaginábamos hace 30 años?
3. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
El presente...
* Traducción Liberal
“Las mejores mentes de mi generación están
pensando en como hacer que la gente haga
click en un anuncio. Eso no esta chido”*
-Jeff Hammerback
Cofundador de Cloudera
4. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
¿Donde estaremos en 30 años?
5. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
El estado del arte
• No existen soluciones que
sean “llave en mano”
• Los datos estructurados
crecen exponencialmente
• Se requiere investigación
de los problemas
específicos de negocio
• Baja utilización de los
sistemas analíticos
existentes
• Lidiar con el cambio
constante en los datos
6. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Que es “Machine Learning”
• Es una rama de la Inteligencia artificial
• Aprender de los datos
• Descubrir, codificar y modelar patrones encontrados en
• Representación de los datos (Arte)
• Modelo probabilístico
• Genéricos: Neural Networks, SVMs, Decision Trees, etc
• A la medida usando la infraestructura de modelos gráficos “Grap
7. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Detección de fuentes de sonido
F
R
E
C
U
E
N
C
I
A
8. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Prediciendo usando el contexto
9. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Usando el modelo para hallar anomalías
Puntos donde los datos no siguen el modelo
11. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Bing Local
12. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Bing Local
13. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Bing Local
14. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Recomendación de Películas
? ? ? ?
15. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Caracterización de Variables
Es Romántica : (0,1)
Es infantil: [0,1]
Es animada: (0,1)
Tiene director famoso: (0,1)
Tiene actores famosos: (0,1)
Grado de violencia: (0,1,2,3,4,5)
Edad promedio de actores: (Continua)
Año de publicación: (Discreta)
…..
…..
…..
x0
x1
x2
x3
x4
x5
x6
x7
.
.
.
Clasificación : (0,1,2,3,4,5) y
X
16. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Estimación del modelo
X1 = [0, 1, 0, 1, 0, 3, 23.6, 1981]; y1 = 3
X2 = [1, 1, 0, 1, 1, 4, 43.3, 2013]; y2 = 5
X3 = [0, 1, 1, 1, 1, 5, 14.4, 1999]; y3 = 2
X4 = [1, 1, 1, 1, 0, 4, 35.3, 1954]; y4 = 3
X5 = [0, 1, 0, 1, 0, 3, 23.6, 2001]; y5 = 3
X6 = [0, 1, 0, 1, 0, 3, 23.6, 2001]; y6 = 1
….
f(W,X) = y’
w0+w1x1+w2x2+w3x3+…= y’
Estimar el modelo consiste
en estimar W usando los
valores de los ejemplos Xi,
yi de tal manera que
minimice:
𝑖=1
𝑁
(𝑦′𝑖 − 𝑦𝑖)2=
𝑖=1
𝑁
(𝑓(𝑊, 𝑋𝑖 ) − 𝑦𝑖)2
17. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
En producción
• Para nuevos elementos y sus representaciones X, se estim
?
x0
x1
x2
x3
x4
x5
x6
x7
.
.
.
X
w0+w1x1+w2x2+w3x3+…= y’
y’=
18. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Otras soluciones
• Estimación de riesgo crediticio
• Estimación optima de abasto de suministros
• Estimación de probabilidad de perdida del cliente
• Estimación optima de cantidades de mercancía por tipo y lo
• Selección automática de mejores candidatos para puestos
19. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
No se necesita descubrir el hilo negro
• Modelos genéricos accesibles en el mercado
• Lineal Regression
• Neural Networks
• Logistic Regression
• Support Vector Machines
• Decision Trees
• Software Libre
– R Studio
– Mahout
– Weka
– MLib
• Software Licenciado
– Oracle Data Mining
– SAS Advance Analytics
– IBM Predictive
Analytics
– Matlab
20. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
60% Arte – 40% Ciencia
• Representación (Arte)
• Representación que generalice correctamente
• Representación que induzca transferencia
• Limpieza de datos
• Normalización de valores
• Ajustar representación a las limitaciones del modelo
• Fecha de Publicación: Decision Tree-> Continua
• Logistic Regression: discretizada binaria. [1985-1990]
• Ciencia
• Selección o diseño del modelo
• Prevención de “overfitting”
• Regularización de parámetros
• Análisis de errores (experto de dominio)
• Estar consciente de las limitaciones del modelo
21. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Modelos genéricos vs. a la medida
• Modelos genéricos
• Modelos a la medida
Información
del
sistema Modelo
Información del sistema se debe transformar/adaptar al modelo
Información
del
sistema Modelo
Modelo
Modelo se diseña dada la Información del sistema
22. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Modelos genéricos vs. a la medida
• Modelos genéricos
• Pros
• Sus propiedades y características han sido ampliamente estudiadas
• Muchas implementaciones optimas disponibles
• Fáciles de entrenar y probar
• Cons
• La información del sistema requiere de un proceso adecuado de los valore
• Tienen Limitaciones, al ser genéricos no son los suficientemente ricos para
• No son apropiadas para problemas con mas de una variable de salida que
23. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Modelos genéricos vs. a la me
• Modelos a la medida
• Pros
• Como se diseñan para modelar el sistema sin las limitaciones de los mode
• Se pueden patentar
• Dan ventajas competitivas
• Apropiados para sistemas donde se requiere estimar varias variables de s
• Cons
• Requieren diseño especializado por lo tanto las soluciones son mas caras
• Soluciones
• Soluciones basadas en modelos a la medida requieren mas testeo que las
• Soluciones requieren mas tiempo de implementación
24. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Pasos para implementar en relación al
data scientist
• Fase 1
• Análisis de factibilidad en datos históricos disponibles. Determina
• Fase 2 con modelos genéricos
• Diseño e implementación de la representación de variables
• Selección del modelo
• Estimación del modelo (con regularización y “tunning” para evitar
• Análisis de errores
• Recalibración del modelo
25. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Machine Learning como Práctica
• En esencia es
investigación y
desarrollo
• El reto es como crear
una práctica que tenga
resultados de negocio
• ¿Como operacionalizar
la inteligencia artificial?
26. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Las fases de la metodología CRISP-DM
27. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Lean Machine Learning
• Eliminar el derroche
• Construir con Calidad
Incluida
• Respetar a las Personas
• Crear conocimiento
• Diferir los compromisos
• Entregar Rápido
• Optimizar el Todo
28. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Los roles de equipo en Machine Learning
• Business Product Owner
• Business Domain Expert
• Data Scientist
• Data Analyst
• Machine Learning
Engineer
• Data Engineer
29. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Nuevas habilidades requeridas
• Formulación correcta de problemas
• Cultura de Prototipaje
• Intuición para tomar realizar asunciones a
problemas no muy bien definidos
• Diseñar experimentos para probar hipótesis
• Analizar resultados y plantear mejoras
continuamente
30. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Tecnología: Software Libre para aprender
31. Manuel Reyes / manuel@predictivecorp.com SGCE 2014 Emilio Osorio / minoru@predictivecorp.com
Tecnología: Proveedores para escalar
32. Preguntas y Respuestas
Emilio Osorio García
Chief Technology Officer
Predictive Technologies
minoru@predictivecorp.com
Dr. Manuel Reyez Gomez
Chief Data Scientist
Predictive Technologies
manuel@predictivecorp.com