Modelización Predictiva. Técnica estadística para predecir el comportamiento futuro. La soluciones basadas en modelos predictivos utilizan técnicas de Data Mining para analizar información histórica y generar un modelo que sirva para predecir casos futuros.
La Modelización Predictiva como Herramienta de Innovación
1. La Modelización Predictiva como Herramienta de Innovación
Jorge Martín Arevalillo
Universidad Nacional Educación a Distancia
U.N.E.D
Lima (Perú). Junio de 2015
http://www.bigdatasummit.pe/
2. La U.N.E.D en cifras
Centro en Lima. Casa de España - Avda.
Salaverry, nº 1910-JesúsMaría, Lima (Perú)
DOCENCIA
260000 estudiantes
Más de 70 centros en
España. Presencia en
4 continentes
27 títulos de Grado
49 Másteres EEES
INVESTIGACIÓN
Una Escuela de
doctorado
163 grupos de
investigación
151 tesis doctorales
de reciente lectura
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
TRANSFERENCIA
Plan de transferencia
de conocimiento al
sector productivo
90 contratos
Facturación 2,5 MM $
12 patentes y registros
4 spin off
3. Guión
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
1. Modelización predictiva. Métodos y algoritmos
2. Aplicaciones y casos de uso
3. Soluciones innovadoras en BIO BIG DATA
4. Conclusiones
4. Modelización predictiva
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Modelización predictiva
Técnica estadística para predecir el comportamiento futuro. La soluciones basadas en modelos
predictivos utilizan técnicas de Data Mining para analizar información histórica y generar un modelo que
sirva para predecir casos futuros (Gartner IT Glossary)
Target:
abandono del
cliente
Modelo de
propensión de
abandono
Target:
Colocación de
crédito. Impago
Modelos de
propensión
adquisición y de
riesgo de mora
Target: Fraude
(Banca, Sector
seguro, Laboral)
Modelos de
detección de
anomalías
Target:
Siniestralidad
o riesgo
Modelos de
perfilamiento
del riesgo
Target: cesta de
la compra
cancelada
Modelos de
navegación web
de propensión a
la cancelación
Target: Volumen
de venta
Modelos de
forecasting para
predicción de
las ventas
5. Modelización predictiva. Una historia en evolución
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Experto
Know-how de
negocio
¿Se podrá reemplazar el
hombre por la máquina?
Modelos
lineales
Modelos
no lineales
Agregación
de Modelos
Modelos con
regularización
Modelos
algorítmicos
6. Modelización predictiva. Aspectos técnicos
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Redes
neuronales
- Toma de decisiones sobre la concesión de
préstamos
- Recibe una media de 10 solicitudes diarias. Sopesa,
valora y decide
- Recibe informes mensuales sobre los niveles de
morosidad de los créditos concedidos
- Evalúa los errores cometidos y modifica su
valoración sobre los clientes. Esto le permitirá tomar
mejores decisiones
- Este mecanismo se repite hasta que el experto está
entrenado para tomar buenas decisiones
Discriminante lineal y
Regresión logística
- Las variables predictoras se relacionan con la
respuesta (target de negocio a explicar) de una
forma aditiva
- Las técnicas están basadas en un modelo lineal,
también en hipótesis matemáticas acerca del
mecanismo estocástico que genera los datos
- Útiles cuando no hay patrones no lineales en los
datos altamente asociados con el target de
negocio a predecir (ej: relaciones no lineales entre
las característica de los clientes para predecir
fuga, captación de clientes, up-selling…)
Modelos algorítmicos y
Técnicas basadas en el bootstap
y la agregación de modelos
- ÁRBOLES. No asume la existencia
de una relación concreta entre el
target de negocio y las variables
predictoras. Útiles para identificar
potenciales interacciones en los
atributos de los clientes
- RANDOM FORESTS. Agrega las
predicciones de muchos árboles en
un solo modelo ensamblador
- TREENET. Agrega las predicciones
de muchos modelos de árboles en
un solo ensamblador mediante un
mecanismo de aprendizaje de los
errores
Técnicas de
regularización
- Técnicas basadas en la optimización de una
función de pérdida con un término de
penalización
- El método de regularización lleva incrustado un
procedimiento de selección de variables capaz
de identificar las variables inputs con mayor
relevancia
- Es una aproximación muy utilizada en bases de
datos de alta dimensión
- La modelización con SVM responde al paradigma
de la regularización. Además se pueden adaptar
mediante el uso de kernels a fin de reconocer
patrones no lineales en los datos
SVM y Kernels
7. Modelización predictiva
Algunos casos de uso
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Pérdida de productividad
de recursos humanos
Por interrupciones de
tareas debidas a la
constante recepción de
correo basura
Diseño de un detector
automático de spam que
permita filtrar el correo
no deseado
Compañía en el sector
teleco con un problema
de abandono de clientes
El esfuerzo comercial de
captación de un nuevo
cliente es cinco veces
superior al de retención
de un cliente
Se prioriza la retención de
clientes mediante la
elaboración de un modelo
de propensión de fuga
Retos y desafíos recientes en
el desarrollo de modelos
predictivos
Modelos orientados al
estudio de la respuesta
incremental (planteamiento
del problema)
Priorizar los esfuerzos
comerciales sobre los clientes
que no adquieren el producto
a menos que se les haga una
oferta comercial
8. El problema del correo basura en cifras
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Hp. Una de las mayores empresas tecnológicas del mundo con sede en Palo Alto
(California) y presencia en todo el mundo
Estimación de 350000 trabajadores en el año 2011
635 Millones de
correo basura al año
Pérdida de 10.6
Millones de horas de
trabajo por año
Pérdida de 106 MM $
al año
Correos clasificados (empleado promedio)
9. El problema del correo basura
Primera alternativa
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
REGLA DE CLASIFICACIÓN
Si aparece la palabra “remove” clasificar
como spam
TP (764) FN (1049)
FP (43) TP (2745)
Matriz de confusión
FP. No spam clasificado como spam
FN. Spam clasificado como no spam
Coste de clasificación: 5/1
Estimado de 267 Millones de
spam detectados y un estimado
de 15 Millones de FP
Proporcionan un ahorro neto de
3,2 millones de horas anuales
Reducción de la pérdida
en 32 MM $
ROI del 30%
10. El problema del correo basura
Segunda alternativa
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
VARIABLES
1-48
VARIABLES
49-54
VARIABLE 55 VARIABLE 56 VARIABLE 57 VARIABLE 58
Son palabras.
Miden la
frecuencia con
que aparece
cada palabra. El
prefijo num es
identificador de
número
Frecuencia con
que aparecen los
caracteres: ; ( [ ! $
y #
CapitalAve:
Longitud media de
las secuencias de
letras mayúsculas
CapitalLong:
Longitud de la
secuencia de
letras mayúsculas
más larga
CapitalTotal:
Número total de
letras mayúsculas
en el e-mail
type:
Etiqueta de clase
(1 para spam y 0
para no spam)
MODELO DETECCIÓN SPAM
Basada en los datos obtenidos de la monitorización del
correo entrante a lo largo de un período de un año
Monitorización de
correo entrante
11. Modelos predictivos anti spam
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
MODELO DETECCIÓN SPAM
Técnicas empleadas: Regresión Logística, árbol de
decisión CART, Random Forests y SVM
Ajuste del modelo
sobre una muestra
de entrenamiento
Validación y
selección del modelo
óptimo sobre una
muestra test
12. Modelos predictivos anti spam
Resultados y retorno
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Modelo
Score
umbral
FP FN
Pérdida
estimada
ROI (%)
ARBOL CART 0,83 8,2% 20%
8,8 MM de
horas
17,6%
REG. LOGÍSTICA 0,77 4% 20%
5,4 MM de
horas
49,6%
SVM 0,79 2,9% 20%
4,5 MM de
horas
57,8%
RAND. FORESTS 0,77 1,1% 20%
3 MM de
horas
71,8%
Indicadores para un 80% de detección
Reducción de la pérdida
en 32 MM $
ROI del 30%
con un 42% de detección
(sobre una muestra test del 33% de los datos)
13. Modelos predictivos anti spam
Selección del modelo de máximo ROI
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
RANDOM FORESTS
Score
umbral
Detección
(TPR)
FPR
ROI
Estimado
0,68 85% 1.3% 75%
SVM
Score
umbral
Detección
(TPR)
FPR
ROI
Estimado
0,89 74% 1.7% 61%
REGRESIÓN LOGÍSTICA
Score
umbral
Detección
(TPR)
FPR
ROI
Estimado
0,71 83,6% 4,2% 51,5%
ÁRBOL CART
Score
umbral
Detección
(TPR)
FPR
ROI
Estimado
0,92 69,6% 6,3% 22%
Incrementar la detección hasta el 85% implica un aumento de las detecciones falsas (FP), hasta el
4,3% en el modelo SVM, el 5,5% en el de Reg. Logística y el 12,3% en el Árbol. Los FP reducen el ROI
desde los niveles óptimos hasta el 52,2%, 46% y -8,5% en cada uno de los modelos mencionados
14. El problema de fuga de clientes en cifras
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Una compañía del sector de las telecomunicaciones con 1 Millón de clientes en el
segmento de alto valor para telefonía móvil.
Problema de abandono de clientes
Plan de retención de la fuga mediante una oferta competitiva consistente en el
disfrute de una promoción de descuento de 15$ mensuales. La promoción exige un
compromiso de permanencia por un año
Para ello se busca identificar los clientes con mayor propensión al abandono
145000 clientes
cancelaron su contrato
Pérdida anual
promedio de 900$ por
cliente (75$ / mes)
Pérdida total por fuga
130,5 MM $
Tasa de abandono
15. El problema de fuga de clientes
Primera alternativa
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
REGLA DE CLASIFICACIÓN
Propensión de fuga por incidencias reportadas
Campaña sobre el segmento de alta incidencia con una
oferta comercial de descuento de 15$ en la factura
92%
8%
Promedio de incidencias = 1,56
Segmento alta incidencia:
Mayor doble del promedio
(8% de la cartera)
51.7% 48.3%
00%
20%
40%
60%
80%
Fuga (%) No fuga (%)
11.3%
88.7%
00%
20%
40%
60%
80%
100%
Fuga (%) No fuga (%)
Efectividad
de la oferta
FP
TP con
respuesta +
(campaña)
Monto
retenido
(balance neto)
ROI (%)
100% 38640 41360 22,8 MM $ 17,5%
50% 38640 20680 7,9 MM $ 6,1%
25% 38640 10340 0,5 MM $ 0,4%
10% 38640 4136 -4 MM $ -3%
16. El problema de fuga de clientes
Segunda alternativa
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Data Warehouse
Demográfica
Uso del
servicio
Tipo de plan y
coberturas
State, Account length, Area code, Phone number, International plan, Voice
Mail plan, Number of voicemail messages, Total day minutes, Total day calls,
Total day charge, Total evening minutes, Total evening calls, Total evening
charge, Total night minutes, Total night calls, Total night charge, Total
international minutes, Total international calls, Total international charge,
Number of calls to customer service.
17. Modelos predictivos de fuga de clientes
Análisis de relevancia de variables
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
-Relevanciadevariables+
Mediante el algoritmo Random
Forests (Leo Breiman, 2001) de
agregación de modelos de árbol se
identifican las variables que son más
relevantes en la predicción del
abandono de clientes
18. Modelos predictivos de fuga de clientes
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
MODELO PROPENSIÓN DE FUGA
Modelos empleados: Regresión Logística, árbol de decisión
CART, Random Forests y SVM
Ajuste del modelo
sobre una
muestra de
entrenamiento
Selección del
modelo óptimo
por validación en
muestra test
Selección de variables
mediante análisis de
relevancia
MODELO
ÓPTIMO
19. Modelos predictivos de fuga de clientes
Selección del modelo de máximo ROI
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
SVM
Retención
(TPR)
FPR
Retención Estimada
(MM $)
91% 2% 92
RANDOM FORESTS
Retención
(TPR)
FPR
Retención Estimada
(MM $)
82% 2,5% 82
ÁRBOL CART
Retención
(TPR)
FPR
Retención Estimada
(MM $)
80% 13,5% 63
REGRESIÓN LOGÍSTICA
Retención
(TPR)
FPR
Retención Estimada
(MM $)
72,5% 20% 45
15$
-20%
10$
-13%
SVM
Retención
(TPR)
FPR
Retención Estimada
(MM $)
45,5% 2% 49
RANDOM FORESTS
Retención
(TPR)
FPR
Retención
Estimada (MM $)
41% 2,5% 44
ÁRBOL CART
Retención
(TPR)
FPR
Retención
Estimada (MM $)
40% 13,5% 31
REGRESIÓN LOGÍSTICA
Retención
(TPR)
FPR
Retención
Estimada (MM $)
36% 20% 20
20. La respuesta incremental. Breves reflexiones
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Half the money
I spend on advertising is wasted,
the trouble is I don’t know which half
Influenciadospor
accióncomercial
Resultados de la campañaTARGET DE NEGOCIO
LA RESPUESTA
INCREMENTAL
21. Medición de la respuesta incremental
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Tasadecolocación
0%
4%
6%
8%
10%
2%
Prior de respuesta
A B C D E F G H I J
Control
Tratamiento
0%
1%
-1%
22. Modelos predictivos de respuesta incremental
Nuevas tendencias
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
MÉTODOS DIRECTOS
• Decision trees for uplift modeling
• Uplift random forests
Grupo
Tratamiento
Grupo
Control
Campaña
Piloto
Modelo
Uplift
Lanzamiento
de campaña
0%
1%
-1%
0%
1%
-1%
MÉTODOS INDIRECTOS
• Difference score de dos modelos
• Difference score de un modelo
único (tratamiento incluido en el
modelo)
SOLUCIONES
Protrait Uplift Optimizer
http://www.portraitsoftware.com/
SAS Incremental Response Modeling
http://www.sas.com/
Uplift R package
http://www.r-project.org/
23. BIO BIG DATA
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
ANGELINA JOLIE »
Angelina Jolie se extirpa los ovarios para
evitar el cáncer
Queríaque otras mujeres en
situación de riesgo supieran
las opciones que hay
24. Soluciones innovadoras en BIO BIG DATA
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Aplicación al reconocimiento de patrones en datos de expresión genética
Búsqueda de parejas de genes con expresión diferencial bidimensional
Jorge M. Arevalillo, Hilario Navarro (2009). Using random forests to uncover bivariate interactions in high dimensional small
data sets. StReBio'09 Proceedings of the KDD-09 Workshop on Statistical and Relational Learning in Bioinformatics. París
Jorge M Arevalillo, Hilario Navarro (2011). Uncovering bivariate interactions in high dimensional data using Random Forests
with data augmentation. Fundamenta Informaticae. 113 (2). 97-115
Jorge M Arevalillo, Hilario Navarro (2011). A new method for identifying bivariate differential expression in high dimensional
microarray data using quadratic discriminant analysis. BMC Bioinformatics. 12 (Suppl 12):S6
25. Soluciones innovadoras en BIO BIG DATA
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Aplicación al reconocimiento de patrones en datos de expresión genética
Búsqueda de genes con alta capacidad de discriminación del fenotipo de interés y
con baja redundancia en sus niveles de expresión
Arevalillo J.M, Navarro H (2006). A Feature Selection Algorithm with Redundant Expressed Gene Filtering from Microarray
Data. Predictive Accuracies with Random Forests. Proceedings Salford Systems Data Mining Conference. San Diego
Jorge M Arevalillo, Hilario Navarro (2013). Exploring correlations in gene expression microarray data for maximum predictive
- minimum redundancy biomarker selection and classification. Computers in Biology and Medicine. 43 (10). 1437-1443
26. Conclusiones
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
La información que las compañías almacenan es un diamante en bruto. Una buena
explotación de esta información redundará en un incremento de beneficios o reducción
de costes de la organización; también en su posicionamiento ventajoso respecto a la
competencia.
La explotación de toda esta información requiere un análisis a conciencia de los datos; y
un análisis a conciencia implica un análisis con ciencia. El desarrollo de la ciencia de datos
y la demanda creciente de perfiles como el de científico de datos obedecen a esta
necesidad.
Las investigaciones que han conducido al desarrollo de nuevos procedimientos y
algoritmos que abordan el problema de la modelización predictiva responden la
necesidad creciente de un análisis científico de los datos.
La aplicación de los métodos más estándar junto con las nuevas técnicas emergentes de
modelización nos permitirá encontrar la solución con el mayor retorno de la inversión
para nuestra compañía.
Queda a las organizaciones el desafío de adaptar sus esquemas y estructuras a un modelo
de negocio cuyas decisiones se soportan por la analítica de datos. El nuevo reto implicará
un cambio en su visión de negocio que necesariamente debe comenzar por la
capacitación de sus equipos y recursos humanos.
27. Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Dr. Jorge Martín Arevalillo
Profesor de Universidad
Consultor Estadístico / Data Mining
Tel. +34 91 398 72 64 U.N.E.D
Celular. 616 87 13 53 jmartin@ccia.uned.es
www.linkedin.com/pub/jorge-martín-arevalillo/58/992/192
http://www.uned.es/personal/jmartin/
La Modelización Predictiva como Herramienta de Innovación