SlideShare una empresa de Scribd logo
1 de 27
Descargar para leer sin conexión
La Modelización Predictiva como Herramienta de Innovación
Jorge Martín Arevalillo
Universidad Nacional Educación a Distancia
U.N.E.D
Lima (Perú). Junio de 2015
http://www.bigdatasummit.pe/
La U.N.E.D en cifras
Centro en Lima. Casa de España - Avda.
Salaverry, nº 1910-JesúsMaría, Lima (Perú)
DOCENCIA
260000 estudiantes
Más de 70 centros en
España. Presencia en
4 continentes
27 títulos de Grado
49 Másteres EEES
INVESTIGACIÓN
Una Escuela de
doctorado
163 grupos de
investigación
151 tesis doctorales
de reciente lectura
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
TRANSFERENCIA
Plan de transferencia
de conocimiento al
sector productivo
90 contratos
Facturación 2,5 MM $
12 patentes y registros
4 spin off
Guión
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
1. Modelización predictiva. Métodos y algoritmos
2. Aplicaciones y casos de uso
3. Soluciones innovadoras en BIO BIG DATA
4. Conclusiones
Modelización predictiva
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Modelización predictiva
Técnica estadística para predecir el comportamiento futuro. La soluciones basadas en modelos
predictivos utilizan técnicas de Data Mining para analizar información histórica y generar un modelo que
sirva para predecir casos futuros (Gartner IT Glossary)
 Target:
abandono del
cliente
 Modelo de
propensión de
abandono
 Target:
Colocación de
crédito. Impago
 Modelos de
propensión
adquisición y de
riesgo de mora
 Target: Fraude
(Banca, Sector
seguro, Laboral)
 Modelos de
detección de
anomalías
 Target:
Siniestralidad
o riesgo
 Modelos de
perfilamiento
del riesgo
 Target: cesta de
la compra
cancelada
 Modelos de
navegación web
de propensión a
la cancelación
 Target: Volumen
de venta
 Modelos de
forecasting para
predicción de
las ventas
Modelización predictiva. Una historia en evolución
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Experto
Know-how de
negocio
¿Se podrá reemplazar el
hombre por la máquina?
Modelos
lineales
Modelos
no lineales
Agregación
de Modelos
Modelos con
regularización
Modelos
algorítmicos
Modelización predictiva. Aspectos técnicos
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Redes
neuronales
- Toma de decisiones sobre la concesión de
préstamos
- Recibe una media de 10 solicitudes diarias. Sopesa,
valora y decide
- Recibe informes mensuales sobre los niveles de
morosidad de los créditos concedidos
- Evalúa los errores cometidos y modifica su
valoración sobre los clientes. Esto le permitirá tomar
mejores decisiones
- Este mecanismo se repite hasta que el experto está
entrenado para tomar buenas decisiones
Discriminante lineal y
Regresión logística
- Las variables predictoras se relacionan con la
respuesta (target de negocio a explicar) de una
forma aditiva
- Las técnicas están basadas en un modelo lineal,
también en hipótesis matemáticas acerca del
mecanismo estocástico que genera los datos
- Útiles cuando no hay patrones no lineales en los
datos altamente asociados con el target de
negocio a predecir (ej: relaciones no lineales entre
las característica de los clientes para predecir
fuga, captación de clientes, up-selling…)
Modelos algorítmicos y
Técnicas basadas en el bootstap
y la agregación de modelos
- ÁRBOLES. No asume la existencia
de una relación concreta entre el
target de negocio y las variables
predictoras. Útiles para identificar
potenciales interacciones en los
atributos de los clientes
- RANDOM FORESTS. Agrega las
predicciones de muchos árboles en
un solo modelo ensamblador
- TREENET. Agrega las predicciones
de muchos modelos de árboles en
un solo ensamblador mediante un
mecanismo de aprendizaje de los
errores
Técnicas de
regularización
- Técnicas basadas en la optimización de una
función de pérdida con un término de
penalización
- El método de regularización lleva incrustado un
procedimiento de selección de variables capaz
de identificar las variables inputs con mayor
relevancia
- Es una aproximación muy utilizada en bases de
datos de alta dimensión
- La modelización con SVM responde al paradigma
de la regularización. Además se pueden adaptar
mediante el uso de kernels a fin de reconocer
patrones no lineales en los datos
SVM y Kernels
Modelización predictiva
Algunos casos de uso
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
 Pérdida de productividad
de recursos humanos
 Por interrupciones de
tareas debidas a la
constante recepción de
correo basura
 Diseño de un detector
automático de spam que
permita filtrar el correo
no deseado
 Compañía en el sector
teleco con un problema
de abandono de clientes
 El esfuerzo comercial de
captación de un nuevo
cliente es cinco veces
superior al de retención
de un cliente
 Se prioriza la retención de
clientes mediante la
elaboración de un modelo
de propensión de fuga
 Retos y desafíos recientes en
el desarrollo de modelos
predictivos
 Modelos orientados al
estudio de la respuesta
incremental (planteamiento
del problema)
 Priorizar los esfuerzos
comerciales sobre los clientes
que no adquieren el producto
a menos que se les haga una
oferta comercial
El problema del correo basura en cifras
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
 Hp. Una de las mayores empresas tecnológicas del mundo con sede en Palo Alto
(California) y presencia en todo el mundo
 Estimación de 350000 trabajadores en el año 2011
635 Millones de
correo basura al año
Pérdida de 10.6
Millones de horas de
trabajo por año
Pérdida de 106 MM $
al año
Correos clasificados (empleado promedio)
El problema del correo basura
Primera alternativa
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
REGLA DE CLASIFICACIÓN
Si aparece la palabra “remove” clasificar
como spam
TP (764) FN (1049)
FP (43) TP (2745)
Matriz de confusión
FP. No spam clasificado como spam
FN. Spam clasificado como no spam
Coste de clasificación: 5/1
Estimado de 267 Millones de
spam detectados y un estimado
de 15 Millones de FP
Proporcionan un ahorro neto de
3,2 millones de horas anuales
Reducción de la pérdida
en 32 MM $
ROI del 30%
El problema del correo basura
Segunda alternativa
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
VARIABLES
1-48
VARIABLES
49-54
VARIABLE 55 VARIABLE 56 VARIABLE 57 VARIABLE 58
Son palabras.
Miden la
frecuencia con
que aparece
cada palabra. El
prefijo num es
identificador de
número
Frecuencia con
que aparecen los
caracteres: ; ( [ ! $
y #
CapitalAve:
Longitud media de
las secuencias de
letras mayúsculas
CapitalLong:
Longitud de la
secuencia de
letras mayúsculas
más larga
CapitalTotal:
Número total de
letras mayúsculas
en el e-mail
type:
Etiqueta de clase
(1 para spam y 0
para no spam)
MODELO DETECCIÓN SPAM
Basada en los datos obtenidos de la monitorización del
correo entrante a lo largo de un período de un año
Monitorización de
correo entrante
Modelos predictivos anti spam
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
MODELO DETECCIÓN SPAM
Técnicas empleadas: Regresión Logística, árbol de
decisión CART, Random Forests y SVM
Ajuste del modelo
sobre una muestra
de entrenamiento
Validación y
selección del modelo
óptimo sobre una
muestra test
Modelos predictivos anti spam
Resultados y retorno
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Modelo
Score
umbral
FP FN
Pérdida
estimada
ROI (%)
ARBOL CART 0,83 8,2% 20%
8,8 MM de
horas
17,6%
REG. LOGÍSTICA 0,77 4% 20%
5,4 MM de
horas
49,6%
SVM 0,79 2,9% 20%
4,5 MM de
horas
57,8%
RAND. FORESTS 0,77 1,1% 20%
3 MM de
horas
71,8%
Indicadores para un 80% de detección
Reducción de la pérdida
en 32 MM $
ROI del 30%
con un 42% de detección
(sobre una muestra test del 33% de los datos)
Modelos predictivos anti spam
Selección del modelo de máximo ROI
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
RANDOM FORESTS
Score
umbral
Detección
(TPR)
FPR
ROI
Estimado
0,68 85% 1.3% 75%
SVM
Score
umbral
Detección
(TPR)
FPR
ROI
Estimado
0,89 74% 1.7% 61%
REGRESIÓN LOGÍSTICA
Score
umbral
Detección
(TPR)
FPR
ROI
Estimado
0,71 83,6% 4,2% 51,5%
ÁRBOL CART
Score
umbral
Detección
(TPR)
FPR
ROI
Estimado
0,92 69,6% 6,3% 22%
 Incrementar la detección hasta el 85% implica un aumento de las detecciones falsas (FP), hasta el
4,3% en el modelo SVM, el 5,5% en el de Reg. Logística y el 12,3% en el Árbol. Los FP reducen el ROI
desde los niveles óptimos hasta el 52,2%, 46% y -8,5% en cada uno de los modelos mencionados
El problema de fuga de clientes en cifras
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
 Una compañía del sector de las telecomunicaciones con 1 Millón de clientes en el
segmento de alto valor para telefonía móvil.
 Problema de abandono de clientes
 Plan de retención de la fuga mediante una oferta competitiva consistente en el
disfrute de una promoción de descuento de 15$ mensuales. La promoción exige un
compromiso de permanencia por un año
 Para ello se busca identificar los clientes con mayor propensión al abandono
145000 clientes
cancelaron su contrato
Pérdida anual
promedio de 900$ por
cliente (75$ / mes)
Pérdida total por fuga
130,5 MM $
Tasa de abandono
El problema de fuga de clientes
Primera alternativa
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
REGLA DE CLASIFICACIÓN
Propensión de fuga por incidencias reportadas
Campaña sobre el segmento de alta incidencia con una
oferta comercial de descuento de 15$ en la factura
92%
8%
Promedio de incidencias = 1,56
Segmento alta incidencia:
Mayor doble del promedio
(8% de la cartera)
51.7% 48.3%
00%
20%
40%
60%
80%
Fuga (%) No fuga (%)
11.3%
88.7%
00%
20%
40%
60%
80%
100%
Fuga (%) No fuga (%)
Efectividad
de la oferta
FP
TP con
respuesta +
(campaña)
Monto
retenido
(balance neto)
ROI (%)
100% 38640 41360 22,8 MM $ 17,5%
50% 38640 20680 7,9 MM $ 6,1%
25% 38640 10340 0,5 MM $ 0,4%
10% 38640 4136 -4 MM $ -3%
El problema de fuga de clientes
Segunda alternativa
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Data Warehouse
Demográfica
Uso del
servicio
Tipo de plan y
coberturas
State, Account length, Area code, Phone number, International plan, Voice
Mail plan, Number of voicemail messages, Total day minutes, Total day calls,
Total day charge, Total evening minutes, Total evening calls, Total evening
charge, Total night minutes, Total night calls, Total night charge, Total
international minutes, Total international calls, Total international charge,
Number of calls to customer service.
Modelos predictivos de fuga de clientes
Análisis de relevancia de variables
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
-Relevanciadevariables+
Mediante el algoritmo Random
Forests (Leo Breiman, 2001) de
agregación de modelos de árbol se
identifican las variables que son más
relevantes en la predicción del
abandono de clientes
Modelos predictivos de fuga de clientes
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
MODELO PROPENSIÓN DE FUGA
Modelos empleados: Regresión Logística, árbol de decisión
CART, Random Forests y SVM
Ajuste del modelo
sobre una
muestra de
entrenamiento
Selección del
modelo óptimo
por validación en
muestra test
Selección de variables
mediante análisis de
relevancia
MODELO
ÓPTIMO
Modelos predictivos de fuga de clientes
Selección del modelo de máximo ROI
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
SVM
Retención
(TPR)
FPR
Retención Estimada
(MM $)
91% 2% 92
RANDOM FORESTS
Retención
(TPR)
FPR
Retención Estimada
(MM $)
82% 2,5% 82
ÁRBOL CART
Retención
(TPR)
FPR
Retención Estimada
(MM $)
80% 13,5% 63
REGRESIÓN LOGÍSTICA
Retención
(TPR)
FPR
Retención Estimada
(MM $)
72,5% 20% 45
15$
-20%
10$
-13%
SVM
Retención
(TPR)
FPR
Retención Estimada
(MM $)
45,5% 2% 49
RANDOM FORESTS
Retención
(TPR)
FPR
Retención
Estimada (MM $)
41% 2,5% 44
ÁRBOL CART
Retención
(TPR)
FPR
Retención
Estimada (MM $)
40% 13,5% 31
REGRESIÓN LOGÍSTICA
Retención
(TPR)
FPR
Retención
Estimada (MM $)
36% 20% 20
La respuesta incremental. Breves reflexiones
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Half the money
I spend on advertising is wasted,
the trouble is I don’t know which half

Influenciadospor
accióncomercial
Resultados de la campañaTARGET DE NEGOCIO
LA RESPUESTA
INCREMENTAL
Medición de la respuesta incremental
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Tasadecolocación
0%
4%
6%
8%
10%
2%
Prior de respuesta
A B C D E F G H I J
Control
Tratamiento
0%
1%
-1%
Modelos predictivos de respuesta incremental
Nuevas tendencias
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
MÉTODOS DIRECTOS
• Decision trees for uplift modeling
• Uplift random forests
Grupo
Tratamiento
Grupo
Control
Campaña
Piloto
Modelo
Uplift
Lanzamiento
de campaña
0%
1%
-1%
0%
1%
-1%
MÉTODOS INDIRECTOS
• Difference score de dos modelos
• Difference score de un modelo
único (tratamiento incluido en el
modelo)
SOLUCIONES
Protrait Uplift Optimizer
http://www.portraitsoftware.com/
SAS Incremental Response Modeling
http://www.sas.com/
Uplift R package
http://www.r-project.org/
BIO BIG DATA
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
ANGELINA JOLIE »
Angelina Jolie se extirpa los ovarios para
evitar el cáncer
Queríaque otras mujeres en
situación de riesgo supieran
las opciones que hay
Soluciones innovadoras en BIO BIG DATA
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Aplicación al reconocimiento de patrones en datos de expresión genética
Búsqueda de parejas de genes con expresión diferencial bidimensional
 Jorge M. Arevalillo, Hilario Navarro (2009). Using random forests to uncover bivariate interactions in high dimensional small
data sets. StReBio'09 Proceedings of the KDD-09 Workshop on Statistical and Relational Learning in Bioinformatics. París
 Jorge M Arevalillo, Hilario Navarro (2011). Uncovering bivariate interactions in high dimensional data using Random Forests
with data augmentation. Fundamenta Informaticae. 113 (2). 97-115
 Jorge M Arevalillo, Hilario Navarro (2011). A new method for identifying bivariate differential expression in high dimensional
microarray data using quadratic discriminant analysis. BMC Bioinformatics. 12 (Suppl 12):S6
Soluciones innovadoras en BIO BIG DATA
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Aplicación al reconocimiento de patrones en datos de expresión genética
Búsqueda de genes con alta capacidad de discriminación del fenotipo de interés y
con baja redundancia en sus niveles de expresión
 Arevalillo J.M, Navarro H (2006). A Feature Selection Algorithm with Redundant Expressed Gene Filtering from Microarray
Data. Predictive Accuracies with Random Forests. Proceedings Salford Systems Data Mining Conference. San Diego
 Jorge M Arevalillo, Hilario Navarro (2013). Exploring correlations in gene expression microarray data for maximum predictive
- minimum redundancy biomarker selection and classification. Computers in Biology and Medicine. 43 (10). 1437-1443
Conclusiones
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
 La información que las compañías almacenan es un diamante en bruto. Una buena
explotación de esta información redundará en un incremento de beneficios o reducción
de costes de la organización; también en su posicionamiento ventajoso respecto a la
competencia.
 La explotación de toda esta información requiere un análisis a conciencia de los datos; y
un análisis a conciencia implica un análisis con ciencia. El desarrollo de la ciencia de datos
y la demanda creciente de perfiles como el de científico de datos obedecen a esta
necesidad.
 Las investigaciones que han conducido al desarrollo de nuevos procedimientos y
algoritmos que abordan el problema de la modelización predictiva responden la
necesidad creciente de un análisis científico de los datos.
 La aplicación de los métodos más estándar junto con las nuevas técnicas emergentes de
modelización nos permitirá encontrar la solución con el mayor retorno de la inversión
para nuestra compañía.
 Queda a las organizaciones el desafío de adaptar sus esquemas y estructuras a un modelo
de negocio cuyas decisiones se soportan por la analítica de datos. El nuevo reto implicará
un cambio en su visión de negocio que necesariamente debe comenzar por la
capacitación de sus equipos y recursos humanos.
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Dr. Jorge Martín Arevalillo
Profesor de Universidad
Consultor Estadístico / Data Mining
Tel. +34 91 398 72 64 U.N.E.D
Celular. 616 87 13 53 jmartin@ccia.uned.es
www.linkedin.com/pub/jorge-martín-arevalillo/58/992/192
http://www.uned.es/personal/jmartin/
La Modelización Predictiva como Herramienta de Innovación

Más contenido relacionado

Similar a La Modelización Predictiva como Herramienta de Innovación

Augusto Martin Travelli - eCommerce Day Colombia Blended [Professional] Exper...
Augusto Martin Travelli - eCommerce Day Colombia Blended [Professional] Exper...Augusto Martin Travelli - eCommerce Day Colombia Blended [Professional] Exper...
Augusto Martin Travelli - eCommerce Day Colombia Blended [Professional] Exper...eCommerce Institute
 
Exposicion 09 04 2007
Exposicion 09 04 2007Exposicion 09 04 2007
Exposicion 09 04 2007leytogomez
 
Big data vs expertos - Adrián Plattner @adrianplattner
Big data vs expertos - Adrián Plattner  @adrianplattnerBig data vs expertos - Adrián Plattner  @adrianplattner
Big data vs expertos - Adrián Plattner @adrianplattnerRefresh Maracaibo
 
Becerra cruz arely azucena_sesion11
Becerra cruz arely azucena_sesion11Becerra cruz arely azucena_sesion11
Becerra cruz arely azucena_sesion11Arely Becerra
 
Análisis de actividades y Costos Estratégicos
Análisis de actividades y Costos EstratégicosAnálisis de actividades y Costos Estratégicos
Análisis de actividades y Costos EstratégicosJuan Carlos Fernández
 
Estrategias de e-business
Estrategias de e-businessEstrategias de e-business
Estrategias de e-businessFernando Solis
 
Toma de decisiones en la gestión comercial
Toma de decisiones en la gestión comercialToma de decisiones en la gestión comercial
Toma de decisiones en la gestión comercialMsC. Alec Vinent
 
Startup pirates modelos y metricas (2013)
Startup pirates   modelos y metricas (2013)Startup pirates   modelos y metricas (2013)
Startup pirates modelos y metricas (2013)Luis Rivera
 
Taller Modelo de Negocio y Metodología Canvas
Taller Modelo de Negocio y Metodología CanvasTaller Modelo de Negocio y Metodología Canvas
Taller Modelo de Negocio y Metodología CanvasBeatriz Cardona
 
Pedro Espino Vargas recomienda el Taller modelo de_negocios_para_pymes
Pedro Espino Vargas recomienda el Taller modelo de_negocios_para_pymesPedro Espino Vargas recomienda el Taller modelo de_negocios_para_pymes
Pedro Espino Vargas recomienda el Taller modelo de_negocios_para_pymesDr. Pedro Espino Vargas
 
Pedro Espino Vargas y el Taller modelo de_negocios_para_pymes_final
Pedro Espino Vargas y el Taller modelo de_negocios_para_pymes_finalPedro Espino Vargas y el Taller modelo de_negocios_para_pymes_final
Pedro Espino Vargas y el Taller modelo de_negocios_para_pymes_finalDr. Pedro Espino Vargas
 
Gerencia del Conocimiento Aplicado al Mercadeo / CRM y Data Mining
Gerencia del Conocimiento Aplicado al Mercadeo / CRM y Data MiningGerencia del Conocimiento Aplicado al Mercadeo / CRM y Data Mining
Gerencia del Conocimiento Aplicado al Mercadeo / CRM y Data MiningSunnely Sequera
 

Similar a La Modelización Predictiva como Herramienta de Innovación (20)

Augusto Martin Travelli - eCommerce Day Colombia Blended [Professional] Exper...
Augusto Martin Travelli - eCommerce Day Colombia Blended [Professional] Exper...Augusto Martin Travelli - eCommerce Day Colombia Blended [Professional] Exper...
Augusto Martin Travelli - eCommerce Day Colombia Blended [Professional] Exper...
 
Exposicion 09 04 2007
Exposicion 09 04 2007Exposicion 09 04 2007
Exposicion 09 04 2007
 
CV_MAHV
CV_MAHVCV_MAHV
CV_MAHV
 
Presentación Retención de clientes
Presentación Retención de clientesPresentación Retención de clientes
Presentación Retención de clientes
 
Presentación retencion de clientes
Presentación retencion de clientesPresentación retencion de clientes
Presentación retencion de clientes
 
Big data vs expertos - Adrián Plattner @adrianplattner
Big data vs expertos - Adrián Plattner  @adrianplattnerBig data vs expertos - Adrián Plattner  @adrianplattner
Big data vs expertos - Adrián Plattner @adrianplattner
 
Becerra cruz arely azucena_sesion11
Becerra cruz arely azucena_sesion11Becerra cruz arely azucena_sesion11
Becerra cruz arely azucena_sesion11
 
Análisis de actividades y Costos Estratégicos
Análisis de actividades y Costos EstratégicosAnálisis de actividades y Costos Estratégicos
Análisis de actividades y Costos Estratégicos
 
Estrategias de e-business
Estrategias de e-businessEstrategias de e-business
Estrategias de e-business
 
Toma de decisiones en la gestión comercial
Toma de decisiones en la gestión comercialToma de decisiones en la gestión comercial
Toma de decisiones en la gestión comercial
 
CRM - Sector Salud
CRM - Sector SaludCRM - Sector Salud
CRM - Sector Salud
 
Startup pirates modelos y metricas (2013)
Startup pirates   modelos y metricas (2013)Startup pirates   modelos y metricas (2013)
Startup pirates modelos y metricas (2013)
 
Twitter
Twitter Twitter
Twitter
 
Taller Modelo de Negocio y Metodología Canvas
Taller Modelo de Negocio y Metodología CanvasTaller Modelo de Negocio y Metodología Canvas
Taller Modelo de Negocio y Metodología Canvas
 
Marketing del día después por José María Corella
Marketing del día después por José María CorellaMarketing del día después por José María Corella
Marketing del día después por José María Corella
 
Estrategias de crm
Estrategias de crmEstrategias de crm
Estrategias de crm
 
Pedro Espino Vargas recomienda el Taller modelo de_negocios_para_pymes
Pedro Espino Vargas recomienda el Taller modelo de_negocios_para_pymesPedro Espino Vargas recomienda el Taller modelo de_negocios_para_pymes
Pedro Espino Vargas recomienda el Taller modelo de_negocios_para_pymes
 
Pedro Espino Vargas y el Taller modelo de_negocios_para_pymes_final
Pedro Espino Vargas y el Taller modelo de_negocios_para_pymes_finalPedro Espino Vargas y el Taller modelo de_negocios_para_pymes_final
Pedro Espino Vargas y el Taller modelo de_negocios_para_pymes_final
 
Vender en tiempos de incertidumbre
Vender en tiempos de incertidumbreVender en tiempos de incertidumbre
Vender en tiempos de incertidumbre
 
Gerencia del Conocimiento Aplicado al Mercadeo / CRM y Data Mining
Gerencia del Conocimiento Aplicado al Mercadeo / CRM y Data MiningGerencia del Conocimiento Aplicado al Mercadeo / CRM y Data Mining
Gerencia del Conocimiento Aplicado al Mercadeo / CRM y Data Mining
 

Más de DMC Perú

DMC Talk - Blockchain Stamping
DMC Talk - Blockchain StampingDMC Talk - Blockchain Stamping
DMC Talk - Blockchain StampingDMC Perú
 
DMC Talk - Presentacion Voicebots
DMC Talk - Presentacion VoicebotsDMC Talk - Presentacion Voicebots
DMC Talk - Presentacion VoicebotsDMC Perú
 
Perfiles profesionales en analytics - DMC Perú
Perfiles profesionales en analytics - DMC Perú Perfiles profesionales en analytics - DMC Perú
Perfiles profesionales en analytics - DMC Perú DMC Perú
 
Sistema recomendador - DMC 2018
Sistema recomendador - DMC 2018Sistema recomendador - DMC 2018
Sistema recomendador - DMC 2018DMC Perú
 
Democratización de ciencia de datos
Democratización de ciencia de datosDemocratización de ciencia de datos
Democratización de ciencia de datosDMC Perú
 
Big data y Marketing digital
Big data y Marketing digitalBig data y Marketing digital
Big data y Marketing digitalDMC Perú
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaDMC Perú
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaDMC Perú
 
Soluciones de Big Data en el Entorno Analítico de SAS
Soluciones de Big Data en el Entorno Analítico de SASSoluciones de Big Data en el Entorno Analítico de SAS
Soluciones de Big Data en el Entorno Analítico de SASDMC Perú
 
Big Data Analytics: Automatización de Modelos Predictivos
Big Data Analytics: Automatización de Modelos PredictivosBig Data Analytics: Automatización de Modelos Predictivos
Big Data Analytics: Automatización de Modelos PredictivosDMC Perú
 
Evolución de Herramientas de BI hacia el Entorno BigData
Evolución de Herramientas de BI hacia el Entorno BigDataEvolución de Herramientas de BI hacia el Entorno BigData
Evolución de Herramientas de BI hacia el Entorno BigDataDMC Perú
 
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoMétodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoDMC Perú
 
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"DMC Perú
 
Plataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataPlataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataDMC Perú
 
Del Business Intelligence al Big Data
Del Business Intelligence al Big DataDel Business Intelligence al Big Data
Del Business Intelligence al Big DataDMC Perú
 
BigDataSummitPeru - Big Data y Hadoop
BigDataSummitPeru - Big Data y HadoopBigDataSummitPeru - Big Data y Hadoop
BigDataSummitPeru - Big Data y HadoopDMC Perú
 
Caso netflix
Caso netflixCaso netflix
Caso netflixDMC Perú
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.DMC Perú
 
Tendencias Recientes en Data Mining
Tendencias Recientes en Data MiningTendencias Recientes en Data Mining
Tendencias Recientes en Data MiningDMC Perú
 

Más de DMC Perú (20)

DMC Talk - Blockchain Stamping
DMC Talk - Blockchain StampingDMC Talk - Blockchain Stamping
DMC Talk - Blockchain Stamping
 
DMC Talk - Presentacion Voicebots
DMC Talk - Presentacion VoicebotsDMC Talk - Presentacion Voicebots
DMC Talk - Presentacion Voicebots
 
Perfiles profesionales en analytics - DMC Perú
Perfiles profesionales en analytics - DMC Perú Perfiles profesionales en analytics - DMC Perú
Perfiles profesionales en analytics - DMC Perú
 
Sistema recomendador - DMC 2018
Sistema recomendador - DMC 2018Sistema recomendador - DMC 2018
Sistema recomendador - DMC 2018
 
Democratización de ciencia de datos
Democratización de ciencia de datosDemocratización de ciencia de datos
Democratización de ciencia de datos
 
Big data y Marketing digital
Big data y Marketing digitalBig data y Marketing digital
Big data y Marketing digital
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y Estadística
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y Estadística
 
Soluciones de Big Data en el Entorno Analítico de SAS
Soluciones de Big Data en el Entorno Analítico de SASSoluciones de Big Data en el Entorno Analítico de SAS
Soluciones de Big Data en el Entorno Analítico de SAS
 
Big Data Analytics: Automatización de Modelos Predictivos
Big Data Analytics: Automatización de Modelos PredictivosBig Data Analytics: Automatización de Modelos Predictivos
Big Data Analytics: Automatización de Modelos Predictivos
 
Evolución de Herramientas de BI hacia el Entorno BigData
Evolución de Herramientas de BI hacia el Entorno BigDataEvolución de Herramientas de BI hacia el Entorno BigData
Evolución de Herramientas de BI hacia el Entorno BigData
 
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoMétodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
 
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
 
Plataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataPlataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big Data
 
Del Business Intelligence al Big Data
Del Business Intelligence al Big DataDel Business Intelligence al Big Data
Del Business Intelligence al Big Data
 
BigDataSummitPeru - Big Data y Hadoop
BigDataSummitPeru - Big Data y HadoopBigDataSummitPeru - Big Data y Hadoop
BigDataSummitPeru - Big Data y Hadoop
 
Caso netflix
Caso netflixCaso netflix
Caso netflix
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
 
Web Mining
Web MiningWeb Mining
Web Mining
 
Tendencias Recientes en Data Mining
Tendencias Recientes en Data MiningTendencias Recientes en Data Mining
Tendencias Recientes en Data Mining
 

Último

La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaSilvia García
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfRodrigoBenitez38
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 

Último (20)

La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y química
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 

La Modelización Predictiva como Herramienta de Innovación

  • 1. La Modelización Predictiva como Herramienta de Innovación Jorge Martín Arevalillo Universidad Nacional Educación a Distancia U.N.E.D Lima (Perú). Junio de 2015 http://www.bigdatasummit.pe/
  • 2. La U.N.E.D en cifras Centro en Lima. Casa de España - Avda. Salaverry, nº 1910-JesúsMaría, Lima (Perú) DOCENCIA 260000 estudiantes Más de 70 centros en España. Presencia en 4 continentes 27 títulos de Grado 49 Másteres EEES INVESTIGACIÓN Una Escuela de doctorado 163 grupos de investigación 151 tesis doctorales de reciente lectura Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ TRANSFERENCIA Plan de transferencia de conocimiento al sector productivo 90 contratos Facturación 2,5 MM $ 12 patentes y registros 4 spin off
  • 3. Guión Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ 1. Modelización predictiva. Métodos y algoritmos 2. Aplicaciones y casos de uso 3. Soluciones innovadoras en BIO BIG DATA 4. Conclusiones
  • 4. Modelización predictiva Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ Modelización predictiva Técnica estadística para predecir el comportamiento futuro. La soluciones basadas en modelos predictivos utilizan técnicas de Data Mining para analizar información histórica y generar un modelo que sirva para predecir casos futuros (Gartner IT Glossary)  Target: abandono del cliente  Modelo de propensión de abandono  Target: Colocación de crédito. Impago  Modelos de propensión adquisición y de riesgo de mora  Target: Fraude (Banca, Sector seguro, Laboral)  Modelos de detección de anomalías  Target: Siniestralidad o riesgo  Modelos de perfilamiento del riesgo  Target: cesta de la compra cancelada  Modelos de navegación web de propensión a la cancelación  Target: Volumen de venta  Modelos de forecasting para predicción de las ventas
  • 5. Modelización predictiva. Una historia en evolución Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ Experto Know-how de negocio ¿Se podrá reemplazar el hombre por la máquina? Modelos lineales Modelos no lineales Agregación de Modelos Modelos con regularización Modelos algorítmicos
  • 6. Modelización predictiva. Aspectos técnicos Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ Redes neuronales - Toma de decisiones sobre la concesión de préstamos - Recibe una media de 10 solicitudes diarias. Sopesa, valora y decide - Recibe informes mensuales sobre los niveles de morosidad de los créditos concedidos - Evalúa los errores cometidos y modifica su valoración sobre los clientes. Esto le permitirá tomar mejores decisiones - Este mecanismo se repite hasta que el experto está entrenado para tomar buenas decisiones Discriminante lineal y Regresión logística - Las variables predictoras se relacionan con la respuesta (target de negocio a explicar) de una forma aditiva - Las técnicas están basadas en un modelo lineal, también en hipótesis matemáticas acerca del mecanismo estocástico que genera los datos - Útiles cuando no hay patrones no lineales en los datos altamente asociados con el target de negocio a predecir (ej: relaciones no lineales entre las característica de los clientes para predecir fuga, captación de clientes, up-selling…) Modelos algorítmicos y Técnicas basadas en el bootstap y la agregación de modelos - ÁRBOLES. No asume la existencia de una relación concreta entre el target de negocio y las variables predictoras. Útiles para identificar potenciales interacciones en los atributos de los clientes - RANDOM FORESTS. Agrega las predicciones de muchos árboles en un solo modelo ensamblador - TREENET. Agrega las predicciones de muchos modelos de árboles en un solo ensamblador mediante un mecanismo de aprendizaje de los errores Técnicas de regularización - Técnicas basadas en la optimización de una función de pérdida con un término de penalización - El método de regularización lleva incrustado un procedimiento de selección de variables capaz de identificar las variables inputs con mayor relevancia - Es una aproximación muy utilizada en bases de datos de alta dimensión - La modelización con SVM responde al paradigma de la regularización. Además se pueden adaptar mediante el uso de kernels a fin de reconocer patrones no lineales en los datos SVM y Kernels
  • 7. Modelización predictiva Algunos casos de uso Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/  Pérdida de productividad de recursos humanos  Por interrupciones de tareas debidas a la constante recepción de correo basura  Diseño de un detector automático de spam que permita filtrar el correo no deseado  Compañía en el sector teleco con un problema de abandono de clientes  El esfuerzo comercial de captación de un nuevo cliente es cinco veces superior al de retención de un cliente  Se prioriza la retención de clientes mediante la elaboración de un modelo de propensión de fuga  Retos y desafíos recientes en el desarrollo de modelos predictivos  Modelos orientados al estudio de la respuesta incremental (planteamiento del problema)  Priorizar los esfuerzos comerciales sobre los clientes que no adquieren el producto a menos que se les haga una oferta comercial
  • 8. El problema del correo basura en cifras Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/  Hp. Una de las mayores empresas tecnológicas del mundo con sede en Palo Alto (California) y presencia en todo el mundo  Estimación de 350000 trabajadores en el año 2011 635 Millones de correo basura al año Pérdida de 10.6 Millones de horas de trabajo por año Pérdida de 106 MM $ al año Correos clasificados (empleado promedio)
  • 9. El problema del correo basura Primera alternativa Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ REGLA DE CLASIFICACIÓN Si aparece la palabra “remove” clasificar como spam TP (764) FN (1049) FP (43) TP (2745) Matriz de confusión FP. No spam clasificado como spam FN. Spam clasificado como no spam Coste de clasificación: 5/1 Estimado de 267 Millones de spam detectados y un estimado de 15 Millones de FP Proporcionan un ahorro neto de 3,2 millones de horas anuales Reducción de la pérdida en 32 MM $ ROI del 30%
  • 10. El problema del correo basura Segunda alternativa Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ VARIABLES 1-48 VARIABLES 49-54 VARIABLE 55 VARIABLE 56 VARIABLE 57 VARIABLE 58 Son palabras. Miden la frecuencia con que aparece cada palabra. El prefijo num es identificador de número Frecuencia con que aparecen los caracteres: ; ( [ ! $ y # CapitalAve: Longitud media de las secuencias de letras mayúsculas CapitalLong: Longitud de la secuencia de letras mayúsculas más larga CapitalTotal: Número total de letras mayúsculas en el e-mail type: Etiqueta de clase (1 para spam y 0 para no spam) MODELO DETECCIÓN SPAM Basada en los datos obtenidos de la monitorización del correo entrante a lo largo de un período de un año Monitorización de correo entrante
  • 11. Modelos predictivos anti spam Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ MODELO DETECCIÓN SPAM Técnicas empleadas: Regresión Logística, árbol de decisión CART, Random Forests y SVM Ajuste del modelo sobre una muestra de entrenamiento Validación y selección del modelo óptimo sobre una muestra test
  • 12. Modelos predictivos anti spam Resultados y retorno Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ Modelo Score umbral FP FN Pérdida estimada ROI (%) ARBOL CART 0,83 8,2% 20% 8,8 MM de horas 17,6% REG. LOGÍSTICA 0,77 4% 20% 5,4 MM de horas 49,6% SVM 0,79 2,9% 20% 4,5 MM de horas 57,8% RAND. FORESTS 0,77 1,1% 20% 3 MM de horas 71,8% Indicadores para un 80% de detección Reducción de la pérdida en 32 MM $ ROI del 30% con un 42% de detección (sobre una muestra test del 33% de los datos)
  • 13. Modelos predictivos anti spam Selección del modelo de máximo ROI Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ RANDOM FORESTS Score umbral Detección (TPR) FPR ROI Estimado 0,68 85% 1.3% 75% SVM Score umbral Detección (TPR) FPR ROI Estimado 0,89 74% 1.7% 61% REGRESIÓN LOGÍSTICA Score umbral Detección (TPR) FPR ROI Estimado 0,71 83,6% 4,2% 51,5% ÁRBOL CART Score umbral Detección (TPR) FPR ROI Estimado 0,92 69,6% 6,3% 22%  Incrementar la detección hasta el 85% implica un aumento de las detecciones falsas (FP), hasta el 4,3% en el modelo SVM, el 5,5% en el de Reg. Logística y el 12,3% en el Árbol. Los FP reducen el ROI desde los niveles óptimos hasta el 52,2%, 46% y -8,5% en cada uno de los modelos mencionados
  • 14. El problema de fuga de clientes en cifras Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/  Una compañía del sector de las telecomunicaciones con 1 Millón de clientes en el segmento de alto valor para telefonía móvil.  Problema de abandono de clientes  Plan de retención de la fuga mediante una oferta competitiva consistente en el disfrute de una promoción de descuento de 15$ mensuales. La promoción exige un compromiso de permanencia por un año  Para ello se busca identificar los clientes con mayor propensión al abandono 145000 clientes cancelaron su contrato Pérdida anual promedio de 900$ por cliente (75$ / mes) Pérdida total por fuga 130,5 MM $ Tasa de abandono
  • 15. El problema de fuga de clientes Primera alternativa Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ REGLA DE CLASIFICACIÓN Propensión de fuga por incidencias reportadas Campaña sobre el segmento de alta incidencia con una oferta comercial de descuento de 15$ en la factura 92% 8% Promedio de incidencias = 1,56 Segmento alta incidencia: Mayor doble del promedio (8% de la cartera) 51.7% 48.3% 00% 20% 40% 60% 80% Fuga (%) No fuga (%) 11.3% 88.7% 00% 20% 40% 60% 80% 100% Fuga (%) No fuga (%) Efectividad de la oferta FP TP con respuesta + (campaña) Monto retenido (balance neto) ROI (%) 100% 38640 41360 22,8 MM $ 17,5% 50% 38640 20680 7,9 MM $ 6,1% 25% 38640 10340 0,5 MM $ 0,4% 10% 38640 4136 -4 MM $ -3%
  • 16. El problema de fuga de clientes Segunda alternativa Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ Data Warehouse Demográfica Uso del servicio Tipo de plan y coberturas State, Account length, Area code, Phone number, International plan, Voice Mail plan, Number of voicemail messages, Total day minutes, Total day calls, Total day charge, Total evening minutes, Total evening calls, Total evening charge, Total night minutes, Total night calls, Total night charge, Total international minutes, Total international calls, Total international charge, Number of calls to customer service.
  • 17. Modelos predictivos de fuga de clientes Análisis de relevancia de variables Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ -Relevanciadevariables+ Mediante el algoritmo Random Forests (Leo Breiman, 2001) de agregación de modelos de árbol se identifican las variables que son más relevantes en la predicción del abandono de clientes
  • 18. Modelos predictivos de fuga de clientes Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ MODELO PROPENSIÓN DE FUGA Modelos empleados: Regresión Logística, árbol de decisión CART, Random Forests y SVM Ajuste del modelo sobre una muestra de entrenamiento Selección del modelo óptimo por validación en muestra test Selección de variables mediante análisis de relevancia MODELO ÓPTIMO
  • 19. Modelos predictivos de fuga de clientes Selección del modelo de máximo ROI Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ SVM Retención (TPR) FPR Retención Estimada (MM $) 91% 2% 92 RANDOM FORESTS Retención (TPR) FPR Retención Estimada (MM $) 82% 2,5% 82 ÁRBOL CART Retención (TPR) FPR Retención Estimada (MM $) 80% 13,5% 63 REGRESIÓN LOGÍSTICA Retención (TPR) FPR Retención Estimada (MM $) 72,5% 20% 45 15$ -20% 10$ -13% SVM Retención (TPR) FPR Retención Estimada (MM $) 45,5% 2% 49 RANDOM FORESTS Retención (TPR) FPR Retención Estimada (MM $) 41% 2,5% 44 ÁRBOL CART Retención (TPR) FPR Retención Estimada (MM $) 40% 13,5% 31 REGRESIÓN LOGÍSTICA Retención (TPR) FPR Retención Estimada (MM $) 36% 20% 20
  • 20. La respuesta incremental. Breves reflexiones Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ Half the money I spend on advertising is wasted, the trouble is I don’t know which half  Influenciadospor accióncomercial Resultados de la campañaTARGET DE NEGOCIO LA RESPUESTA INCREMENTAL
  • 21. Medición de la respuesta incremental Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ Tasadecolocación 0% 4% 6% 8% 10% 2% Prior de respuesta A B C D E F G H I J Control Tratamiento 0% 1% -1%
  • 22. Modelos predictivos de respuesta incremental Nuevas tendencias Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ MÉTODOS DIRECTOS • Decision trees for uplift modeling • Uplift random forests Grupo Tratamiento Grupo Control Campaña Piloto Modelo Uplift Lanzamiento de campaña 0% 1% -1% 0% 1% -1% MÉTODOS INDIRECTOS • Difference score de dos modelos • Difference score de un modelo único (tratamiento incluido en el modelo) SOLUCIONES Protrait Uplift Optimizer http://www.portraitsoftware.com/ SAS Incremental Response Modeling http://www.sas.com/ Uplift R package http://www.r-project.org/
  • 23. BIO BIG DATA Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ ANGELINA JOLIE » Angelina Jolie se extirpa los ovarios para evitar el cáncer Queríaque otras mujeres en situación de riesgo supieran las opciones que hay
  • 24. Soluciones innovadoras en BIO BIG DATA Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ Aplicación al reconocimiento de patrones en datos de expresión genética Búsqueda de parejas de genes con expresión diferencial bidimensional  Jorge M. Arevalillo, Hilario Navarro (2009). Using random forests to uncover bivariate interactions in high dimensional small data sets. StReBio'09 Proceedings of the KDD-09 Workshop on Statistical and Relational Learning in Bioinformatics. París  Jorge M Arevalillo, Hilario Navarro (2011). Uncovering bivariate interactions in high dimensional data using Random Forests with data augmentation. Fundamenta Informaticae. 113 (2). 97-115  Jorge M Arevalillo, Hilario Navarro (2011). A new method for identifying bivariate differential expression in high dimensional microarray data using quadratic discriminant analysis. BMC Bioinformatics. 12 (Suppl 12):S6
  • 25. Soluciones innovadoras en BIO BIG DATA Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ Aplicación al reconocimiento de patrones en datos de expresión genética Búsqueda de genes con alta capacidad de discriminación del fenotipo de interés y con baja redundancia en sus niveles de expresión  Arevalillo J.M, Navarro H (2006). A Feature Selection Algorithm with Redundant Expressed Gene Filtering from Microarray Data. Predictive Accuracies with Random Forests. Proceedings Salford Systems Data Mining Conference. San Diego  Jorge M Arevalillo, Hilario Navarro (2013). Exploring correlations in gene expression microarray data for maximum predictive - minimum redundancy biomarker selection and classification. Computers in Biology and Medicine. 43 (10). 1437-1443
  • 26. Conclusiones Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/  La información que las compañías almacenan es un diamante en bruto. Una buena explotación de esta información redundará en un incremento de beneficios o reducción de costes de la organización; también en su posicionamiento ventajoso respecto a la competencia.  La explotación de toda esta información requiere un análisis a conciencia de los datos; y un análisis a conciencia implica un análisis con ciencia. El desarrollo de la ciencia de datos y la demanda creciente de perfiles como el de científico de datos obedecen a esta necesidad.  Las investigaciones que han conducido al desarrollo de nuevos procedimientos y algoritmos que abordan el problema de la modelización predictiva responden la necesidad creciente de un análisis científico de los datos.  La aplicación de los métodos más estándar junto con las nuevas técnicas emergentes de modelización nos permitirá encontrar la solución con el mayor retorno de la inversión para nuestra compañía.  Queda a las organizaciones el desafío de adaptar sus esquemas y estructuras a un modelo de negocio cuyas decisiones se soportan por la analítica de datos. El nuevo reto implicará un cambio en su visión de negocio que necesariamente debe comenzar por la capacitación de sus equipos y recursos humanos.
  • 27. Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/ Dr. Jorge Martín Arevalillo Profesor de Universidad Consultor Estadístico / Data Mining Tel. +34 91 398 72 64 U.N.E.D Celular. 616 87 13 53 jmartin@ccia.uned.es www.linkedin.com/pub/jorge-martín-arevalillo/58/992/192 http://www.uned.es/personal/jmartin/ La Modelización Predictiva como Herramienta de Innovación