La Modelización Predictiva como Herramienta de Innovación

La Modelización Predictiva como Herramienta de Innovación
Jorge Martín Arevalillo
Universidad Nacional Educación a Distancia
U.N.E.D
Lima (Perú). Junio de 2015
http://www.bigdatasummit.pe/

La U.N.E.D en cifras
Centro en Lima. Casa de España - Avda.
Salaverry, nº 1910-JesúsMaría, Lima (Perú)
DOCENCIA
260000 estudiantes
Más de 70 centros en
España. Presencia en
4 continentes
27 títulos de Grado
49 Másteres EEES
INVESTIGACIÓN
Una Escuela de
doctorado
163 grupos de
investigación
151 tesis doctorales
de reciente lectura
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
TRANSFERENCIA
Plan de transferencia
de conocimiento al
sector productivo
90 contratos
Facturación 2,5 MM $
12 patentes y registros
4 spin off

Guión
1. Modelización predictiva. Métodos y algoritmos
2. Aplicaciones y casos de uso
3. Soluciones innovadoras en BIO BIG DATA
4. Conclusiones

Modelización predictiva
Técnica estadística para predecir el comportamiento futuro. La soluciones basadas en modelos
predictivos utilizan técnicas de Data Mining para analizar información histórica y generar un modelo que
sirva para predecir casos futuros (Gartner IT Glossary)
 Target:
abandono del
cliente
 Modelo de
propensión de
abandono
 Target:
Colocación de
crédito. Impago
 Modelos de
propensión
adquisición y de
riesgo de mora
 Target: Fraude
(Banca, Sector
seguro, Laboral)
 Modelos de
detección de
anomalías
 Target:
Siniestralidad
o riesgo
 Modelos de
perfilamiento
del riesgo
 Target: cesta de
la compra
cancelada
 Modelos de
navegación web
de propensión a
la cancelación
 Target: Volumen
de venta
 Modelos de
forecasting para
predicción de
las ventas

Modelización predictiva. Una historia en evolución
Experto
Know-how de
negocio
¿Se podrá reemplazar el
hombre por la máquina?
Modelos
lineales
Modelos
no lineales
Agregación
de Modelos
Modelos con
regularización
Modelos
algorítmicos

Modelización predictiva. Aspectos técnicos
Redes
neuronales
- Toma de decisiones sobre la concesión de
préstamos
- Recibe una media de 10 solicitudes diarias. Sopesa,
valora y decide
- Recibe informes mensuales sobre los niveles de
morosidad de los créditos concedidos
- Evalúa los errores cometidos y modifica su
valoración sobre los clientes. Esto le permitirá tomar
mejores decisiones
- Este mecanismo se repite hasta que el experto está
entrenado para tomar buenas decisiones
Discriminante lineal y
Regresión logística
- Las variables predictoras se relacionan con la
respuesta (target de negocio a explicar) de una
forma aditiva
- Las técnicas están basadas en un modelo lineal,
también en hipótesis matemáticas acerca del
mecanismo estocástico que genera los datos
- Útiles cuando no hay patrones no lineales en los
datos altamente asociados con el target de
negocio a predecir (ej: relaciones no lineales entre
las característica de los clientes para predecir
fuga, captación de clientes, up-selling…)
Modelos algorítmicos y
Técnicas basadas en el bootstap
y la agregación de modelos
- ÁRBOLES. No asume la existencia
de una relación concreta entre el
target de negocio y las variables
predictoras. Útiles para identificar
potenciales interacciones en los
atributos de los clientes
- RANDOM FORESTS. Agrega las
predicciones de muchos árboles en
un solo modelo ensamblador
- TREENET. Agrega las predicciones
de muchos modelos de árboles en
un solo ensamblador mediante un
mecanismo de aprendizaje de los
errores
Técnicas de
regularización
- Técnicas basadas en la optimización de una
función de pérdida con un término de
penalización
- El método de regularización lleva incrustado un
procedimiento de selección de variables capaz
de identificar las variables inputs con mayor
relevancia
- Es una aproximación muy utilizada en bases de
datos de alta dimensión
- La modelización con SVM responde al paradigma
de la regularización. Además se pueden adaptar
mediante el uso de kernels a fin de reconocer
patrones no lineales en los datos
SVM y Kernels

Algunos casos de uso
 Pérdida de productividad
de recursos humanos
 Por interrupciones de
tareas debidas a la
constante recepción de
correo basura
 Diseño de un detector
automático de spam que
permita filtrar el correo
no deseado
 Compañía en el sector
teleco con un problema
de abandono de clientes
 El esfuerzo comercial de
captación de un nuevo
cliente es cinco veces
superior al de retención
de un cliente
 Se prioriza la retención de
clientes mediante la
elaboración de un modelo
de propensión de fuga
 Retos y desafíos recientes en
el desarrollo de modelos
predictivos
 Modelos orientados al
estudio de la respuesta
incremental (planteamiento
del problema)
 Priorizar los esfuerzos
comerciales sobre los clientes
que no adquieren el producto
a menos que se les haga una
oferta comercial

El problema del correo basura en cifras
 Hp. Una de las mayores empresas tecnológicas del mundo con sede en Palo Alto
(California) y presencia en todo el mundo
 Estimación de 350000 trabajadores en el año 2011
635 Millones de
correo basura al año
Pérdida de 10.6
Millones de horas de
trabajo por año
Pérdida de 106 MM $
al año
Correos clasificados (empleado promedio)

El problema del correo basura
Primera alternativa
REGLA DE CLASIFICACIÓN
Si aparece la palabra “remove” clasificar
como spam
TP (764) FN (1049)
FP (43) TP (2745)
Matriz de confusión
FP. No spam clasificado como spam
FN. Spam clasificado como no spam
Coste de clasificación: 5/1
Estimado de 267 Millones de
spam detectados y un estimado
de 15 Millones de FP
Proporcionan un ahorro neto de
3,2 millones de horas anuales
Reducción de la pérdida
en 32 MM $
ROI del 30%

El problema del correo basura
Segunda alternativa
VARIABLES
1-48
VARIABLES
49-54
VARIABLE 55 VARIABLE 56 VARIABLE 57 VARIABLE 58
Son palabras.
Miden la
frecuencia con
que aparece
cada palabra. El
prefijo num es
identificador de
número
Frecuencia con
que aparecen los
caracteres: ; ( [ ! $
y #
CapitalAve:
Longitud media de
las secuencias de
letras mayúsculas
CapitalLong:
Longitud de la
secuencia de
letras mayúsculas
más larga
CapitalTotal:
Número total de
letras mayúsculas
en el e-mail
type:
Etiqueta de clase
(1 para spam y 0
para no spam)
MODELO DETECCIÓN SPAM
Basada en los datos obtenidos de la monitorización del
correo entrante a lo largo de un período de un año
Monitorización de
correo entrante

Modelos predictivos anti spam
MODELO DETECCIÓN SPAM
Técnicas empleadas: Regresión Logística, árbol de
decisión CART, Random Forests y SVM
Ajuste del modelo
sobre una muestra
de entrenamiento
Validación y
selección del modelo
óptimo sobre una
muestra test

Resultados y retorno
Modelo
Score
umbral
FP FN
Pérdida
estimada
ROI (%)
ARBOL CART 0,83 8,2% 20%
8,8 MM de
horas
17,6%
REG. LOGÍSTICA 0,77 4% 20%
5,4 MM de
horas
49,6%
SVM 0,79 2,9% 20%
4,5 MM de
horas
57,8%
RAND. FORESTS 0,77 1,1% 20%
3 MM de
horas
71,8%
Indicadores para un 80% de detección
Reducción de la pérdida
en 32 MM $
ROI del 30%
con un 42% de detección
(sobre una muestra test del 33% de los datos)

Selección del modelo de máximo ROI
RANDOM FORESTS
Score
umbral
Detección
(TPR)
FPR
ROI
Estimado
0,68 85% 1.3% 75%
SVM
Score
umbral
Detección
(TPR)
FPR
ROI
Estimado
0,89 74% 1.7% 61%
REGRESIÓN LOGÍSTICA
Score
umbral
Detección
(TPR)
FPR
ROI
Estimado
0,71 83,6% 4,2% 51,5%
ÁRBOL CART
Score
umbral
Detección
(TPR)
FPR
ROI
Estimado
0,92 69,6% 6,3% 22%
 Incrementar la detección hasta el 85% implica un aumento de las detecciones falsas (FP), hasta el
4,3% en el modelo SVM, el 5,5% en el de Reg. Logística y el 12,3% en el Árbol. Los FP reducen el ROI
desde los niveles óptimos hasta el 52,2%, 46% y -8,5% en cada uno de los modelos mencionados

El problema de fuga de clientes en cifras
 Una compañía del sector de las telecomunicaciones con 1 Millón de clientes en el
segmento de alto valor para telefonía móvil.
 Problema de abandono de clientes
 Plan de retención de la fuga mediante una oferta competitiva consistente en el
disfrute de una promoción de descuento de 15$ mensuales. La promoción exige un
compromiso de permanencia por un año
 Para ello se busca identificar los clientes con mayor propensión al abandono
145000 clientes
cancelaron su contrato
Pérdida anual
promedio de 900$ por
cliente (75$ / mes)
Pérdida total por fuga
130,5 MM $
Tasa de abandono

El problema de fuga de clientes
Primera alternativa
REGLA DE CLASIFICACIÓN
Propensión de fuga por incidencias reportadas
Campaña sobre el segmento de alta incidencia con una
oferta comercial de descuento de 15$ en la factura
92%
8%
Promedio de incidencias = 1,56
Segmento alta incidencia:
Mayor doble del promedio
(8% de la cartera)
51.7% 48.3%
00%
20%
40%
60%
80%
Fuga (%) No fuga (%)
11.3%
88.7%
00%
20%
40%
60%
80%
100%
Fuga (%) No fuga (%)
Efectividad
de la oferta
FP
TP con
respuesta +
(campaña)
Monto
retenido
(balance neto)
ROI (%)
100% 38640 41360 22,8 MM $ 17,5%
50% 38640 20680 7,9 MM $ 6,1%
25% 38640 10340 0,5 MM $ 0,4%
10% 38640 4136 -4 MM $ -3%

El problema de fuga de clientes
Segunda alternativa
Data Warehouse
Demográfica
Uso del
servicio
Tipo de plan y
coberturas
State, Account length, Area code, Phone number, International plan, Voice
Mail plan, Number of voicemail messages, Total day minutes, Total day calls,
Total day charge, Total evening minutes, Total evening calls, Total evening
charge, Total night minutes, Total night calls, Total night charge, Total
international minutes, Total international calls, Total international charge,
Number of calls to customer service.

Modelos predictivos de fuga de clientes
Análisis de relevancia de variables
-Relevanciadevariables+
Mediante el algoritmo Random
Forests (Leo Breiman, 2001) de
agregación de modelos de árbol se
identifican las variables que son más
relevantes en la predicción del
abandono de clientes

MODELO PROPENSIÓN DE FUGA
Modelos empleados: Regresión Logística, árbol de decisión
CART, Random Forests y SVM
Ajuste del modelo
sobre una
muestra de
entrenamiento
Selección del
modelo óptimo
por validación en
muestra test
Selección de variables
mediante análisis de
relevancia
MODELO
ÓPTIMO

Selección del modelo de máximo ROI
SVM
Retención
(TPR)
FPR
Retención Estimada
(MM $)
91% 2% 92
RANDOM FORESTS
Retención
(TPR)
FPR
Retención Estimada
(MM $)
82% 2,5% 82
ÁRBOL CART
Retención
(TPR)
FPR
Retención Estimada
(MM $)
80% 13,5% 63
Retención
(TPR)
FPR
Retención Estimada
(MM $)
72,5% 20% 45
15$
-20%
10$
-13%
SVM
Retención
(TPR)
FPR
Retención Estimada
(MM $)
45,5% 2% 49
RANDOM FORESTS
Retención
(TPR)
FPR
Retención
Estimada (MM $)
41% 2,5% 44
ÁRBOL CART
Retención
(TPR)
FPR
Retención
Estimada (MM $)
40% 13,5% 31
Retención
(TPR)
FPR
Retención
Estimada (MM $)
36% 20% 20

La respuesta incremental. Breves reflexiones
Half the money
I spend on advertising is wasted,
the trouble is I don’t know which half

Influenciadospor
accióncomercial
Resultados de la campañaTARGET DE NEGOCIO
LA RESPUESTA
INCREMENTAL

Medición de la respuesta incremental
Tasadecolocación
0%
4%
6%
8%
10%
2%
Prior de respuesta
A B C D E F G H I J
Control
Tratamiento
0%
1%
-1%

Modelos predictivos de respuesta incremental
Nuevas tendencias
MÉTODOS DIRECTOS
• Decision trees for uplift modeling
• Uplift random forests
Grupo
Tratamiento
Grupo
Control
Campaña
Piloto
Modelo
Uplift
Lanzamiento
de campaña
0%
1%
-1%
0%
1%
-1%
MÉTODOS INDIRECTOS
• Difference score de dos modelos
• Difference score de un modelo
único (tratamiento incluido en el
modelo)
SOLUCIONES
Protrait Uplift Optimizer
http://www.portraitsoftware.com/
SAS Incremental Response Modeling
http://www.sas.com/
Uplift R package
http://www.r-project.org/

BIO BIG DATA
ANGELINA JOLIE »
Angelina Jolie se extirpa los ovarios para
evitar el cáncer
Queríaque otras mujeres en
situación de riesgo supieran
las opciones que hay

Soluciones innovadoras en BIO BIG DATA
Aplicación al reconocimiento de patrones en datos de expresión genética
Búsqueda de parejas de genes con expresión diferencial bidimensional
 Jorge M. Arevalillo, Hilario Navarro (2009). Using random forests to uncover bivariate interactions in high dimensional small
data sets. StReBio'09 Proceedings of the KDD-09 Workshop on Statistical and Relational Learning in Bioinformatics. París
 Jorge M Arevalillo, Hilario Navarro (2011). Uncovering bivariate interactions in high dimensional data using Random Forests
with data augmentation. Fundamenta Informaticae. 113 (2). 97-115
 Jorge M Arevalillo, Hilario Navarro (2011). A new method for identifying bivariate differential expression in high dimensional
microarray data using quadratic discriminant analysis. BMC Bioinformatics. 12 (Suppl 12):S6

Soluciones innovadoras en BIO BIG DATA
Aplicación al reconocimiento de patrones en datos de expresión genética
Búsqueda de genes con alta capacidad de discriminación del fenotipo de interés y
con baja redundancia en sus niveles de expresión
 Arevalillo J.M, Navarro H (2006). A Feature Selection Algorithm with Redundant Expressed Gene Filtering from Microarray
Data. Predictive Accuracies with Random Forests. Proceedings Salford Systems Data Mining Conference. San Diego
 Jorge M Arevalillo, Hilario Navarro (2013). Exploring correlations in gene expression microarray data for maximum predictive
- minimum redundancy biomarker selection and classification. Computers in Biology and Medicine. 43 (10). 1437-1443

Conclusiones
 La información que las compañías almacenan es un diamante en bruto. Una buena
explotación de esta información redundará en un incremento de beneficios o reducción
de costes de la organización; también en su posicionamiento ventajoso respecto a la
competencia.
 La explotación de toda esta información requiere un análisis a conciencia de los datos; y
un análisis a conciencia implica un análisis con ciencia. El desarrollo de la ciencia de datos
y la demanda creciente de perfiles como el de científico de datos obedecen a esta
necesidad.
 Las investigaciones que han conducido al desarrollo de nuevos procedimientos y
algoritmos que abordan el problema de la modelización predictiva responden la
necesidad creciente de un análisis científico de los datos.
 La aplicación de los métodos más estándar junto con las nuevas técnicas emergentes de
modelización nos permitirá encontrar la solución con el mayor retorno de la inversión
para nuestra compañía.
 Queda a las organizaciones el desafío de adaptar sus esquemas y estructuras a un modelo
de negocio cuyas decisiones se soportan por la analítica de datos. El nuevo reto implicará
un cambio en su visión de negocio que necesariamente debe comenzar por la
capacitación de sus equipos y recursos humanos.

Dr. Jorge Martín Arevalillo
Profesor de Universidad
Consultor Estadístico / Data Mining
Tel. +34 91 398 72 64 U.N.E.D
Celular. 616 87 13 53 jmartin@ccia.uned.es
www.linkedin.com/pub/jorge-martín-arevalillo/58/992/192
http://www.uned.es/personal/jmartin/
La Modelización Predictiva como Herramienta de Innovación

La Modelización Predictiva como Herramienta de Innovación

Recomendados

Recomendados

Más contenido relacionado

Similar a La Modelización Predictiva como Herramienta de Innovación

Similar a La Modelización Predictiva como Herramienta de Innovación (20)

Más de DMC Perú

Más de DMC Perú (20)

Último

Último (20)

La Modelización Predictiva como Herramienta de Innovación