SlideShare una empresa de Scribd logo
Modelos de Churn Bancarios con R
Trabajo Final de la Maestría en Data Mining
Presentado por
Diego Ariel Oppenheim
Director
Martin Volpacchio
Fecha: 31/7/2017
Objetivos del trabajo final
• Entender la situación actual de fuga de clientes del Banco
• Entender cuáles son las variables que mejor explican el fenómeno
• Desarrollar un modelo de Data Mining que permita predecir los clientes que se
darán de baja dentro de los próximos dos meses
• Entender los motivos de bajas de clientes y definir acciones comerciales de
retención
• Cuantificar el impacto de un programa de retención
Esquema General
Fuentes de Información
Identificación de las principales variables que
definen/caracterizan a los clientes que se fugarán
Clientes con mayor valor real
y potencial para el Banco
Medidas de retención
apropiadas para los
clientes en riesgo de fuga
Estrategia post retención para aumentar la fidelización.
Cuantificar el incentivo, costos y ganancia
esperada de un programa de retención
Introducción al concepto de Attrition
• Término utilizado para describir la pérdida del cliente
Tipos de Fuga
Total
Parcial
Cancela todos los acuerdos
Cancela algunos productos y para el resto utiliza
la competencia
Inactividad por un largo periodo de tiempoEscondida
Motivos de fuga
• Precio
• Producto
• Servicio - Insatisfacción
• Mercado
• Organización
• Ofertas Competencia
Por qué retenerlos?
• Más rentable retener a un cliente valioso que captar uno nuevo
• Clientes a largo plazo tienden a consumir más
• Clientes a Largo Plazo resultan menos sensibles a actividades publicitarias de la competencia
• Nuevos clientes potencialmente riesgosos
ImplementaciónValidaciónIntegración Pre-Procesamiento
Etapas del Trabajo - Concepto del KDD (Knowledge Discovery in Databases)
• Fuentes de información
• Análisis de datos
• IT
• Data Wharehouse
• Integración
• Multiplataforma
• Formatos diferentes
• Frecuencia de extracción
• Valores ausentes
• Imputación de
valores
• Outliers
• Duplicados, registros
incoherentes
• Nuevas Variables
• Transformación de
variable
• Feature Engineering
• Descubrimiento
• Patrones, secuencias
• Modelos de clasificación,
predicción
• Confiabilidad
• Usabilidad
• Escalabilidad
• Robustez
• Estacionalidad de
los datos
• Evaluación técnica
y comecial
• Métricas de rendimiento
• Accuracy
• Recall
• AUC
• LIFT
• Curva Roc
• Matriz de confusión
• Acción sobre el
cliente (Evento)
• Comunicación
• Presentación de
resultados
• Medición
• Plan de retención
• Servicio post venta
PROCESSCONSULTING
Data Mining
Imputación de valores faltantes - Nulos
• Descarte de registros
• Imputación de datos faltantes
en base a árboles de decisión
• Conserva la distribución inicial
de la variable
Pre Procesamiento de la base de datos
Balanceo de la muestra
• Problema de clases
desbalanceadas
• Escasez de una de las clases
(un conjunto de datos
resulta significativo)
• Bajo % de fuga de la
población de estudio
Se aplicó la técnica del
sub-muestreo aleatorio que
elimina al azar instancias de la
clase mayoritaria
Pre Procesamiento de la base de datos
Foco en clientes Premium - Alta participación en las ganancias
Creación de nuevas variables - Feature Engineering
Pre Procesamiento de la base de datos
Derivadas de variables existente
• Discretización de la variable
cuadrante (valor del cliente)
• Discretizacion del mejor producto
• Discretizacion de la zona de
residencia
• Discretizacion del estado civil
Variables Flag (0-1)
• Tenencia de tarjeta de crédito
(últimos 3 y 6 meses)
• Tenencia de tarjeta de débito
(últimos 3 y 6 meses)
• Cobro de sueldo hace 3 meses
Variables Ratio
• Variación de MBB (ingreso que deja al Banco)
• Variación en la cantidad de productos
bancarios
• Variación de la cantidad de artículos
consumidos
• Variación del monto en consumo
• Variación del monto total de las inversiones
• Variación del saldo en cuenta corriente
• Variación de la cantidad de extracciones por
Home Banking
Variaciones a 3 y 6 meses
Selección de variables
• Definir las variables más influyentes para los modelos
• Independencia entre variables, baja correlación con entre si y alta correlación con la
variable target (fuga del cliente)
Pre Procesamiento de la base de datos
Ingreso Promedio y Suma del Ingreso
tienen alta correlación positiva
Se excluyeron las variables con un coeficiente de correlación mayor o igual a 0.8
Se excluye la que menor correlación
tiene con la variable target
Lapso de compra y Attrition tienen alta
correlación negativa
Se mantiene la variable
Modelos
Bagging – Boosting – Random Forest
Árboles de decisión
Regla 4Regla 3Regla 2
Pregunta
2
Árbol de decisión
Regla 1
Pregunta
2
Pregunta
1
• Robusto a Outliers
• Aplicable a cualquier tipo de dato
• Sencilla interpretación
• Reutilizable
Overfitting
Poda para prevenir el sobreajuste del modelo
Mayor simplicidad – mayor generalización
Técnica de “ganancia de información”
Divide y vencerás
Técnica de clasificación
no paramétrica
Nodos terminales
Objetivo – Máxima pureza
Modelos: Bagging
• Muestreo selectivo – Aumento de la performance
• Creación de diferentes modelos usando muestras aleatorias con reemplazo y luego
combina y ensambla los resultados mejorando la predicción
Modelos: Boosting
• Cada nuevo clasificador presta mayor atención a los datos clasificados erróneamente por
los clasificadores anteriores
• Combinación de resultados para obtener un clasificador con mayor poder de predicción
Modelos: Random Forest
• Cada árbol contiene una muestra aleatoria de observaciones y es construido con
variables seleccionadas de forma aleatoria
Métricas de Rendimiento
• Matriz de Confusión, muestra los resultados de los modelos de clasificación binaria
AUC - Área bajo la curva ROC - LIFT
• Comparación entre las predicciones correctas e incorrectas
del clasificador
• LIFT: Indica la cantidad de veces que mejora la predicción del
modelo con respecto al azar
Principales variables seleccionadas con los modelos
Comportamientos diferenciados para cada uno de
los grupos de clientes seleccionados (Clusters)
Variables:
• Cantidad de compras (transacciones) en los últimos 3 meses
• Saldo en cuenta de los últimos 3 meses.
• Variación de la suma de MBB (Ingreso que deja el cliente al
Banco)
• Cantidad de extracciones en cajeros
• Tenencia (en número) de productos bancarios
• Cantidad de compras en los últimos 3 meses
Evaluación de los modelos
Clases altamente desbalanceadas para ambos clusters para la variable Target (Attrition)
LIFT - Primeros 20.000 clientes
11.23
Más probable a abandonar el Banco a un cliente
seleccionado al azar
Validación de los modelos con datos a Abril 2016
AUC
96%-97%
Modelos Random
Forest y Boosting
Accuracy
95%-99%
TN, True Negative(Especificidad)
90% (para el Cluster 0 el modelo encontró a 3715 de
los 3879 clientes fugados)
Falsos Positivos
60%-77%
El modelo Boosting
clasificó correctamente al
23%-42% de los clientes
que predijo como Churners
VALIDACIÓN CON DATA FUTURA (1 AÑO)
Programa de Retención
*Aquellos clientes impactados
por el programa fueron los de
mayor valor comercial para el
Banco
*Mayor probabilidad de fuga
*Mayor LIFT
*Se busca reducir la tasa de los
Falsos Positivos (clientes que
permanecen en el Banco
habiendo recibido un incentivo)
+ LIFT + Rentabilidad + Éxito del programa
Resultado e Implementación del Programa de Retención
SUPUESTOS CONSIDERADOS:
1. Distribución constante del CLV
2. Tasa de éxito del 20%
3. Ganancia media de 2MM USD (en 3 meses)
ÉXITO DEL PLAN DE RETENCION ANTE:
• Clientes con gran valor para el Banco
• Alto riesgo de fuga para los próximos meses
• Correcta comunicación, canal e incentivo
con el cliente
• Revisión y mantenimiento de los modelos
predictivos
Conclusiones
• Se trata de un problema del desbalanceo de clases (existe una clase predominante y
una minoritaria, fuga de clientes). Relación 99.5% a 0.5%
• Balanceo de casos mediante sub-muestreo, eliminación de registros de clase
dominante.
• Problema de la sub especificación del modelo: No contar con todas las variables
para poder explicar el fenómeno (existencia de limitaciones y supuestos)
• Ranking de clientes en base a la probabilidad de fuga
• Acciones comerciales de retención, necesidad de bajar el CHURN del 12% anual
• Cambios rápidos en las condiciones económicas del país
• Oportunidad de mejora (+ retención - adquisición)
Conclusiones
• Aquellos clientes que cobraban en el Banco hace 6 meses y que
redujeron la cantidad de productos en un 30% y redujeron en mas de
un 20% la cantidad de artículos comprados, tienen el triple de
probabilidad de abandonar el Banco (X3)
• Dentro del grupo de clientes que no acreditaba sueldo en el Banco,
aquellos que disminuyeron el saldo en vista en un 25%, no consumieron
en mas de 2 meses y disminuyeron en un 30% la cantidad de
movimientos voluntarios totales, tienen el quíntuple de probabilidad de
fuga (X5).
Trabajo Futuro
• Inclusión de nuevas variables
• Revisión de los algoritmos utilizados
• Optimización de parámetros de los modelos
• Implementación de nuevos algoritmos. Ejemplo, gradient boosting (XGBOOST)
• Ensembles de modelos para explorar diferentes hipótesis sobre los datos
• Predicción de fuga mes a mes (Función de Hazard)
• Afinar supuestos de Customer Life Time Value
A diferencia del algoritmo Boosting aplicado en el trabajo, el XGBOOST construye arboles de
manera secuencial añadiendo a cada iteración el árbol que mejor compensa los errores de
los arboles previos. Esto se realiza árbol a árbol.
Dudas, preguntas?
Muchas gracias!
Diego Ariel Oppenheim

Más contenido relacionado

Similar a Modelos de-attrition-bancarios-diego-oppenheim

SEMANA 7.pptx
SEMANA 7.pptxSEMANA 7.pptx
SEMANA 7.pptx
NinaLagos1
 
2016 ULL Cabildo KEEDIO - Customer Centric
2016 ULL Cabildo KEEDIO - Customer Centric2016 ULL Cabildo KEEDIO - Customer Centric
2016 ULL Cabildo KEEDIO - Customer Centric
KEEDIO
 
Presentación clase 1, modulo ii, estrategia de inventario
Presentación clase 1, modulo ii, estrategia de inventarioPresentación clase 1, modulo ii, estrategia de inventario
Presentación clase 1, modulo ii, estrategia de inventario
Lydia Isabel Martinez Garcia
 
Navegando con Analytics: Casos y Aprendizaje
Navegando con Analytics: Casos y AprendizajeNavegando con Analytics: Casos y Aprendizaje
Navegando con Analytics: Casos y Aprendizaje
Business Data Scientists
 
Planeación de Ventas y Operaciones / Sales & Operations Planning (S&OP)
Planeación de Ventas y Operaciones / Sales & Operations Planning (S&OP)Planeación de Ventas y Operaciones / Sales & Operations Planning (S&OP)
Planeación de Ventas y Operaciones / Sales & Operations Planning (S&OP)
Israel Villarello
 
9 disenodelacadenadesuministrounenfoquesistemico
9 disenodelacadenadesuministrounenfoquesistemico9 disenodelacadenadesuministrounenfoquesistemico
9 disenodelacadenadesuministrounenfoquesistemico
ZlantanGovea
 
Herramientas avanzadas de gestión de la cadena de suministro
Herramientas avanzadas de gestión de la cadena de suministroHerramientas avanzadas de gestión de la cadena de suministro
Herramientas avanzadas de gestión de la cadena de suministro
EOI Escuela de Organización Industrial
 
Análisis del Abandono en el Sector Bancario
Análisis del Abandono en el Sector BancarioAnálisis del Abandono en el Sector Bancario
Análisis del Abandono en el Sector Bancario
Grupo de Usuarios de R de Almería
 
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
Albert Obiols
 
Presentación inteligencia analítica para Aseguradoras
Presentación inteligencia analítica para AseguradorasPresentación inteligencia analítica para Aseguradoras
Presentación inteligencia analítica para Aseguradoras
Quanam
 
Optimización de procesos basada en datos
Optimización de procesos basada en datosOptimización de procesos basada en datos
Optimización de procesos basada en datos
Marlon Dumas
 
Eleva Tus Restricciones Hasta Romperlas
Eleva Tus Restricciones Hasta RomperlasEleva Tus Restricciones Hasta Romperlas
Eleva Tus Restricciones Hasta Romperlas
bhaidacher
 
ENAEDM23 - Rocío González Martínez. Data Science Marketing
ENAEDM23 - Rocío González Martínez. Data Science MarketingENAEDM23 - Rocío González Martínez. Data Science Marketing
ENAEDM23 - Rocío González Martínez. Data Science Marketing
EnaeBusiness
 
2 Enfoque estratégico para la toma de decisiones (1).pdf
2 Enfoque estratégico para la toma de decisiones (1).pdf2 Enfoque estratégico para la toma de decisiones (1).pdf
2 Enfoque estratégico para la toma de decisiones (1).pdf
CynthiaStefanyMorale
 
Seis sigma
Seis sigmaSeis sigma
Seis sigma
Liz_nena
 
Webinar impulse su negocio con prediccion analítica
Webinar impulse su negocio con prediccion analíticaWebinar impulse su negocio con prediccion analítica
Webinar impulse su negocio con prediccion analítica
Nexolution
 
Retos y oportunidades de la Analítica avanzada y Big Data en la industria
Retos y oportunidades de la Analítica avanzada y Big Data en la industriaRetos y oportunidades de la Analítica avanzada y Big Data en la industria
Retos y oportunidades de la Analítica avanzada y Big Data en la industria
Ibermática.digital
 
MEDICION DEL DESEMPEÑO DE UNA DE CADENA DE SUMINSTRO .pdf
MEDICION DEL DESEMPEÑO DE UNA DE CADENA DE SUMINSTRO .pdfMEDICION DEL DESEMPEÑO DE UNA DE CADENA DE SUMINSTRO .pdf
MEDICION DEL DESEMPEÑO DE UNA DE CADENA DE SUMINSTRO .pdf
JONATHANURIELLOPEZPA
 
2018-06-11 DataviXon-ODHEOIFHPCLDMVC CC .pptx
2018-06-11 DataviXon-ODHEOIFHPCLDMVC CC .pptx2018-06-11 DataviXon-ODHEOIFHPCLDMVC CC .pptx
2018-06-11 DataviXon-ODHEOIFHPCLDMVC CC .pptx
Angel Tello
 
Cómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresaCómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresa
Nexolution
 

Similar a Modelos de-attrition-bancarios-diego-oppenheim (20)

SEMANA 7.pptx
SEMANA 7.pptxSEMANA 7.pptx
SEMANA 7.pptx
 
2016 ULL Cabildo KEEDIO - Customer Centric
2016 ULL Cabildo KEEDIO - Customer Centric2016 ULL Cabildo KEEDIO - Customer Centric
2016 ULL Cabildo KEEDIO - Customer Centric
 
Presentación clase 1, modulo ii, estrategia de inventario
Presentación clase 1, modulo ii, estrategia de inventarioPresentación clase 1, modulo ii, estrategia de inventario
Presentación clase 1, modulo ii, estrategia de inventario
 
Navegando con Analytics: Casos y Aprendizaje
Navegando con Analytics: Casos y AprendizajeNavegando con Analytics: Casos y Aprendizaje
Navegando con Analytics: Casos y Aprendizaje
 
Planeación de Ventas y Operaciones / Sales & Operations Planning (S&OP)
Planeación de Ventas y Operaciones / Sales & Operations Planning (S&OP)Planeación de Ventas y Operaciones / Sales & Operations Planning (S&OP)
Planeación de Ventas y Operaciones / Sales & Operations Planning (S&OP)
 
9 disenodelacadenadesuministrounenfoquesistemico
9 disenodelacadenadesuministrounenfoquesistemico9 disenodelacadenadesuministrounenfoquesistemico
9 disenodelacadenadesuministrounenfoquesistemico
 
Herramientas avanzadas de gestión de la cadena de suministro
Herramientas avanzadas de gestión de la cadena de suministroHerramientas avanzadas de gestión de la cadena de suministro
Herramientas avanzadas de gestión de la cadena de suministro
 
Análisis del Abandono en el Sector Bancario
Análisis del Abandono en el Sector BancarioAnálisis del Abandono en el Sector Bancario
Análisis del Abandono en el Sector Bancario
 
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
 
Presentación inteligencia analítica para Aseguradoras
Presentación inteligencia analítica para AseguradorasPresentación inteligencia analítica para Aseguradoras
Presentación inteligencia analítica para Aseguradoras
 
Optimización de procesos basada en datos
Optimización de procesos basada en datosOptimización de procesos basada en datos
Optimización de procesos basada en datos
 
Eleva Tus Restricciones Hasta Romperlas
Eleva Tus Restricciones Hasta RomperlasEleva Tus Restricciones Hasta Romperlas
Eleva Tus Restricciones Hasta Romperlas
 
ENAEDM23 - Rocío González Martínez. Data Science Marketing
ENAEDM23 - Rocío González Martínez. Data Science MarketingENAEDM23 - Rocío González Martínez. Data Science Marketing
ENAEDM23 - Rocío González Martínez. Data Science Marketing
 
2 Enfoque estratégico para la toma de decisiones (1).pdf
2 Enfoque estratégico para la toma de decisiones (1).pdf2 Enfoque estratégico para la toma de decisiones (1).pdf
2 Enfoque estratégico para la toma de decisiones (1).pdf
 
Seis sigma
Seis sigmaSeis sigma
Seis sigma
 
Webinar impulse su negocio con prediccion analítica
Webinar impulse su negocio con prediccion analíticaWebinar impulse su negocio con prediccion analítica
Webinar impulse su negocio con prediccion analítica
 
Retos y oportunidades de la Analítica avanzada y Big Data en la industria
Retos y oportunidades de la Analítica avanzada y Big Data en la industriaRetos y oportunidades de la Analítica avanzada y Big Data en la industria
Retos y oportunidades de la Analítica avanzada y Big Data en la industria
 
MEDICION DEL DESEMPEÑO DE UNA DE CADENA DE SUMINSTRO .pdf
MEDICION DEL DESEMPEÑO DE UNA DE CADENA DE SUMINSTRO .pdfMEDICION DEL DESEMPEÑO DE UNA DE CADENA DE SUMINSTRO .pdf
MEDICION DEL DESEMPEÑO DE UNA DE CADENA DE SUMINSTRO .pdf
 
2018-06-11 DataviXon-ODHEOIFHPCLDMVC CC .pptx
2018-06-11 DataviXon-ODHEOIFHPCLDMVC CC .pptx2018-06-11 DataviXon-ODHEOIFHPCLDMVC CC .pptx
2018-06-11 DataviXon-ODHEOIFHPCLDMVC CC .pptx
 
Cómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresaCómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresa
 

Último

CARRETERAS MÁS IMPORTANTES DEL PERU ALESSANDRA.pptx
CARRETERAS MÁS IMPORTANTES DEL PERU ALESSANDRA.pptxCARRETERAS MÁS IMPORTANTES DEL PERU ALESSANDRA.pptx
CARRETERAS MÁS IMPORTANTES DEL PERU ALESSANDRA.pptx
0602021003
 
chancadoras.............................
chancadoras.............................chancadoras.............................
chancadoras.............................
ssuser8827cb1
 
1 ANALISIS DE MASA Y ENERGÍA DE VOLÚMENES DE CONTROL [Autoguardado].pptx
1 ANALISIS DE MASA Y ENERGÍA DE VOLÚMENES DE CONTROL [Autoguardado].pptx1 ANALISIS DE MASA Y ENERGÍA DE VOLÚMENES DE CONTROL [Autoguardado].pptx
1 ANALISIS DE MASA Y ENERGÍA DE VOLÚMENES DE CONTROL [Autoguardado].pptx
RenanWVargas
 
Juzgamiento-de-Ganado-Lechero-CATEGORIA-B-SWISS.pptx
Juzgamiento-de-Ganado-Lechero-CATEGORIA-B-SWISS.pptxJuzgamiento-de-Ganado-Lechero-CATEGORIA-B-SWISS.pptx
Juzgamiento-de-Ganado-Lechero-CATEGORIA-B-SWISS.pptx
Folke Claudio Tantahuillca Landeo
 
balanceo de linea para los procesos de Producción
balanceo de linea  para los procesos  de Producciónbalanceo de linea  para los procesos  de Producción
balanceo de linea para los procesos de Producción
Victor Manuel Rivera Guevara
 
DISEÑO DE PLANTA TIPO CELULAR - Diseño de Plantas
DISEÑO DE PLANTA TIPO CELULAR - Diseño de PlantasDISEÑO DE PLANTA TIPO CELULAR - Diseño de Plantas
DISEÑO DE PLANTA TIPO CELULAR - Diseño de Plantas
HalmarMiranda
 
Enjoy Pasto Bot - "Tu guía virtual para disfrutar del Carnaval de Negros y Bl...
Enjoy Pasto Bot - "Tu guía virtual para disfrutar del Carnaval de Negros y Bl...Enjoy Pasto Bot - "Tu guía virtual para disfrutar del Carnaval de Negros y Bl...
Enjoy Pasto Bot - "Tu guía virtual para disfrutar del Carnaval de Negros y Bl...
Eliana Gomajoa
 
Clase Gas Natural , en piura kdhifheugfjiebfijhebvcihebvifh
Clase Gas Natural , en piura kdhifheugfjiebfijhebvcihebvifhClase Gas Natural , en piura kdhifheugfjiebfijhebvcihebvifh
Clase Gas Natural , en piura kdhifheugfjiebfijhebvcihebvifh
FrancisJhonatanEnriq1
 
S01_CONTENIDO DE CLASE SENCICO, ADMINISTRACIÓN DE OBRAS.pdf
S01_CONTENIDO DE CLASE SENCICO, ADMINISTRACIÓN DE OBRAS.pdfS01_CONTENIDO DE CLASE SENCICO, ADMINISTRACIÓN DE OBRAS.pdf
S01_CONTENIDO DE CLASE SENCICO, ADMINISTRACIÓN DE OBRAS.pdf
Alex809116
 
TIA portal Bloques PLC Siemens______.pdf
TIA portal Bloques PLC Siemens______.pdfTIA portal Bloques PLC Siemens______.pdf
TIA portal Bloques PLC Siemens______.pdf
ArmandoSarco
 
Operaciones Básicas creadora Veronica Maiz
Operaciones Básicas creadora Veronica MaizOperaciones Básicas creadora Veronica Maiz
Operaciones Básicas creadora Veronica Maiz
carolina838317
 
Estructura de un buque, tema de estudios generales de navegación
Estructura de un buque, tema de estudios generales de navegaciónEstructura de un buque, tema de estudios generales de navegación
Estructura de un buque, tema de estudios generales de navegación
AlvaroEduardoConsola1
 
Presentación transferencia de calor Jesus Morales.pdf
Presentación transferencia de calor Jesus Morales.pdfPresentación transferencia de calor Jesus Morales.pdf
Presentación transferencia de calor Jesus Morales.pdf
jdcumarem02
 
Unidad 2 - Cargas en las estructuras.pdf
Unidad 2 - Cargas en las estructuras.pdfUnidad 2 - Cargas en las estructuras.pdf
Unidad 2 - Cargas en las estructuras.pdf
oagalarraga
 
Carlos Augusto da Silva Lins todosIngressantes2024-1.pdf
Carlos Augusto da Silva Lins todosIngressantes2024-1.pdfCarlos Augusto da Silva Lins todosIngressantes2024-1.pdf
Carlos Augusto da Silva Lins todosIngressantes2024-1.pdf
juntosvenceremosbras
 
OPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTO
OPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTOOPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTO
OPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTO
GERARDO GONZALEZ
 
1°AIRE ACONDICIONADO-EQUIPOS & SISTEMAS.pdf
1°AIRE ACONDICIONADO-EQUIPOS & SISTEMAS.pdf1°AIRE ACONDICIONADO-EQUIPOS & SISTEMAS.pdf
1°AIRE ACONDICIONADO-EQUIPOS & SISTEMAS.pdf
luliolivera62
 
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptxS09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
yamilbailonw
 
Gravimetria-Amalgamacion-y-Flotacion-del-Oro-pptx.pptx
Gravimetria-Amalgamacion-y-Flotacion-del-Oro-pptx.pptxGravimetria-Amalgamacion-y-Flotacion-del-Oro-pptx.pptx
Gravimetria-Amalgamacion-y-Flotacion-del-Oro-pptx.pptx
RobertoChvez25
 
Klohn Crippen Berger _ Brochure LAM .pdf
Klohn Crippen Berger _ Brochure LAM .pdfKlohn Crippen Berger _ Brochure LAM .pdf
Klohn Crippen Berger _ Brochure LAM .pdf
ciniguez1
 

Último (20)

CARRETERAS MÁS IMPORTANTES DEL PERU ALESSANDRA.pptx
CARRETERAS MÁS IMPORTANTES DEL PERU ALESSANDRA.pptxCARRETERAS MÁS IMPORTANTES DEL PERU ALESSANDRA.pptx
CARRETERAS MÁS IMPORTANTES DEL PERU ALESSANDRA.pptx
 
chancadoras.............................
chancadoras.............................chancadoras.............................
chancadoras.............................
 
1 ANALISIS DE MASA Y ENERGÍA DE VOLÚMENES DE CONTROL [Autoguardado].pptx
1 ANALISIS DE MASA Y ENERGÍA DE VOLÚMENES DE CONTROL [Autoguardado].pptx1 ANALISIS DE MASA Y ENERGÍA DE VOLÚMENES DE CONTROL [Autoguardado].pptx
1 ANALISIS DE MASA Y ENERGÍA DE VOLÚMENES DE CONTROL [Autoguardado].pptx
 
Juzgamiento-de-Ganado-Lechero-CATEGORIA-B-SWISS.pptx
Juzgamiento-de-Ganado-Lechero-CATEGORIA-B-SWISS.pptxJuzgamiento-de-Ganado-Lechero-CATEGORIA-B-SWISS.pptx
Juzgamiento-de-Ganado-Lechero-CATEGORIA-B-SWISS.pptx
 
balanceo de linea para los procesos de Producción
balanceo de linea  para los procesos  de Producciónbalanceo de linea  para los procesos  de Producción
balanceo de linea para los procesos de Producción
 
DISEÑO DE PLANTA TIPO CELULAR - Diseño de Plantas
DISEÑO DE PLANTA TIPO CELULAR - Diseño de PlantasDISEÑO DE PLANTA TIPO CELULAR - Diseño de Plantas
DISEÑO DE PLANTA TIPO CELULAR - Diseño de Plantas
 
Enjoy Pasto Bot - "Tu guía virtual para disfrutar del Carnaval de Negros y Bl...
Enjoy Pasto Bot - "Tu guía virtual para disfrutar del Carnaval de Negros y Bl...Enjoy Pasto Bot - "Tu guía virtual para disfrutar del Carnaval de Negros y Bl...
Enjoy Pasto Bot - "Tu guía virtual para disfrutar del Carnaval de Negros y Bl...
 
Clase Gas Natural , en piura kdhifheugfjiebfijhebvcihebvifh
Clase Gas Natural , en piura kdhifheugfjiebfijhebvcihebvifhClase Gas Natural , en piura kdhifheugfjiebfijhebvcihebvifh
Clase Gas Natural , en piura kdhifheugfjiebfijhebvcihebvifh
 
S01_CONTENIDO DE CLASE SENCICO, ADMINISTRACIÓN DE OBRAS.pdf
S01_CONTENIDO DE CLASE SENCICO, ADMINISTRACIÓN DE OBRAS.pdfS01_CONTENIDO DE CLASE SENCICO, ADMINISTRACIÓN DE OBRAS.pdf
S01_CONTENIDO DE CLASE SENCICO, ADMINISTRACIÓN DE OBRAS.pdf
 
TIA portal Bloques PLC Siemens______.pdf
TIA portal Bloques PLC Siemens______.pdfTIA portal Bloques PLC Siemens______.pdf
TIA portal Bloques PLC Siemens______.pdf
 
Operaciones Básicas creadora Veronica Maiz
Operaciones Básicas creadora Veronica MaizOperaciones Básicas creadora Veronica Maiz
Operaciones Básicas creadora Veronica Maiz
 
Estructura de un buque, tema de estudios generales de navegación
Estructura de un buque, tema de estudios generales de navegaciónEstructura de un buque, tema de estudios generales de navegación
Estructura de un buque, tema de estudios generales de navegación
 
Presentación transferencia de calor Jesus Morales.pdf
Presentación transferencia de calor Jesus Morales.pdfPresentación transferencia de calor Jesus Morales.pdf
Presentación transferencia de calor Jesus Morales.pdf
 
Unidad 2 - Cargas en las estructuras.pdf
Unidad 2 - Cargas en las estructuras.pdfUnidad 2 - Cargas en las estructuras.pdf
Unidad 2 - Cargas en las estructuras.pdf
 
Carlos Augusto da Silva Lins todosIngressantes2024-1.pdf
Carlos Augusto da Silva Lins todosIngressantes2024-1.pdfCarlos Augusto da Silva Lins todosIngressantes2024-1.pdf
Carlos Augusto da Silva Lins todosIngressantes2024-1.pdf
 
OPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTO
OPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTOOPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTO
OPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTO
 
1°AIRE ACONDICIONADO-EQUIPOS & SISTEMAS.pdf
1°AIRE ACONDICIONADO-EQUIPOS & SISTEMAS.pdf1°AIRE ACONDICIONADO-EQUIPOS & SISTEMAS.pdf
1°AIRE ACONDICIONADO-EQUIPOS & SISTEMAS.pdf
 
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptxS09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
 
Gravimetria-Amalgamacion-y-Flotacion-del-Oro-pptx.pptx
Gravimetria-Amalgamacion-y-Flotacion-del-Oro-pptx.pptxGravimetria-Amalgamacion-y-Flotacion-del-Oro-pptx.pptx
Gravimetria-Amalgamacion-y-Flotacion-del-Oro-pptx.pptx
 
Klohn Crippen Berger _ Brochure LAM .pdf
Klohn Crippen Berger _ Brochure LAM .pdfKlohn Crippen Berger _ Brochure LAM .pdf
Klohn Crippen Berger _ Brochure LAM .pdf
 

Modelos de-attrition-bancarios-diego-oppenheim

  • 1. Modelos de Churn Bancarios con R Trabajo Final de la Maestría en Data Mining Presentado por Diego Ariel Oppenheim Director Martin Volpacchio Fecha: 31/7/2017
  • 2. Objetivos del trabajo final • Entender la situación actual de fuga de clientes del Banco • Entender cuáles son las variables que mejor explican el fenómeno • Desarrollar un modelo de Data Mining que permita predecir los clientes que se darán de baja dentro de los próximos dos meses • Entender los motivos de bajas de clientes y definir acciones comerciales de retención • Cuantificar el impacto de un programa de retención
  • 3. Esquema General Fuentes de Información Identificación de las principales variables que definen/caracterizan a los clientes que se fugarán Clientes con mayor valor real y potencial para el Banco Medidas de retención apropiadas para los clientes en riesgo de fuga Estrategia post retención para aumentar la fidelización. Cuantificar el incentivo, costos y ganancia esperada de un programa de retención
  • 4. Introducción al concepto de Attrition • Término utilizado para describir la pérdida del cliente Tipos de Fuga Total Parcial Cancela todos los acuerdos Cancela algunos productos y para el resto utiliza la competencia Inactividad por un largo periodo de tiempoEscondida Motivos de fuga • Precio • Producto • Servicio - Insatisfacción • Mercado • Organización • Ofertas Competencia Por qué retenerlos? • Más rentable retener a un cliente valioso que captar uno nuevo • Clientes a largo plazo tienden a consumir más • Clientes a Largo Plazo resultan menos sensibles a actividades publicitarias de la competencia • Nuevos clientes potencialmente riesgosos
  • 5. ImplementaciónValidaciónIntegración Pre-Procesamiento Etapas del Trabajo - Concepto del KDD (Knowledge Discovery in Databases) • Fuentes de información • Análisis de datos • IT • Data Wharehouse • Integración • Multiplataforma • Formatos diferentes • Frecuencia de extracción • Valores ausentes • Imputación de valores • Outliers • Duplicados, registros incoherentes • Nuevas Variables • Transformación de variable • Feature Engineering • Descubrimiento • Patrones, secuencias • Modelos de clasificación, predicción • Confiabilidad • Usabilidad • Escalabilidad • Robustez • Estacionalidad de los datos • Evaluación técnica y comecial • Métricas de rendimiento • Accuracy • Recall • AUC • LIFT • Curva Roc • Matriz de confusión • Acción sobre el cliente (Evento) • Comunicación • Presentación de resultados • Medición • Plan de retención • Servicio post venta PROCESSCONSULTING Data Mining
  • 6. Imputación de valores faltantes - Nulos • Descarte de registros • Imputación de datos faltantes en base a árboles de decisión • Conserva la distribución inicial de la variable Pre Procesamiento de la base de datos
  • 7. Balanceo de la muestra • Problema de clases desbalanceadas • Escasez de una de las clases (un conjunto de datos resulta significativo) • Bajo % de fuga de la población de estudio Se aplicó la técnica del sub-muestreo aleatorio que elimina al azar instancias de la clase mayoritaria Pre Procesamiento de la base de datos Foco en clientes Premium - Alta participación en las ganancias
  • 8. Creación de nuevas variables - Feature Engineering Pre Procesamiento de la base de datos Derivadas de variables existente • Discretización de la variable cuadrante (valor del cliente) • Discretizacion del mejor producto • Discretizacion de la zona de residencia • Discretizacion del estado civil Variables Flag (0-1) • Tenencia de tarjeta de crédito (últimos 3 y 6 meses) • Tenencia de tarjeta de débito (últimos 3 y 6 meses) • Cobro de sueldo hace 3 meses Variables Ratio • Variación de MBB (ingreso que deja al Banco) • Variación en la cantidad de productos bancarios • Variación de la cantidad de artículos consumidos • Variación del monto en consumo • Variación del monto total de las inversiones • Variación del saldo en cuenta corriente • Variación de la cantidad de extracciones por Home Banking Variaciones a 3 y 6 meses
  • 9. Selección de variables • Definir las variables más influyentes para los modelos • Independencia entre variables, baja correlación con entre si y alta correlación con la variable target (fuga del cliente) Pre Procesamiento de la base de datos Ingreso Promedio y Suma del Ingreso tienen alta correlación positiva Se excluyeron las variables con un coeficiente de correlación mayor o igual a 0.8 Se excluye la que menor correlación tiene con la variable target Lapso de compra y Attrition tienen alta correlación negativa Se mantiene la variable
  • 10. Modelos Bagging – Boosting – Random Forest Árboles de decisión
  • 11. Regla 4Regla 3Regla 2 Pregunta 2 Árbol de decisión Regla 1 Pregunta 2 Pregunta 1 • Robusto a Outliers • Aplicable a cualquier tipo de dato • Sencilla interpretación • Reutilizable Overfitting Poda para prevenir el sobreajuste del modelo Mayor simplicidad – mayor generalización Técnica de “ganancia de información” Divide y vencerás Técnica de clasificación no paramétrica Nodos terminales Objetivo – Máxima pureza
  • 12. Modelos: Bagging • Muestreo selectivo – Aumento de la performance • Creación de diferentes modelos usando muestras aleatorias con reemplazo y luego combina y ensambla los resultados mejorando la predicción Modelos: Boosting • Cada nuevo clasificador presta mayor atención a los datos clasificados erróneamente por los clasificadores anteriores • Combinación de resultados para obtener un clasificador con mayor poder de predicción Modelos: Random Forest • Cada árbol contiene una muestra aleatoria de observaciones y es construido con variables seleccionadas de forma aleatoria
  • 13. Métricas de Rendimiento • Matriz de Confusión, muestra los resultados de los modelos de clasificación binaria AUC - Área bajo la curva ROC - LIFT • Comparación entre las predicciones correctas e incorrectas del clasificador • LIFT: Indica la cantidad de veces que mejora la predicción del modelo con respecto al azar
  • 14. Principales variables seleccionadas con los modelos Comportamientos diferenciados para cada uno de los grupos de clientes seleccionados (Clusters) Variables: • Cantidad de compras (transacciones) en los últimos 3 meses • Saldo en cuenta de los últimos 3 meses. • Variación de la suma de MBB (Ingreso que deja el cliente al Banco) • Cantidad de extracciones en cajeros • Tenencia (en número) de productos bancarios • Cantidad de compras en los últimos 3 meses
  • 15. Evaluación de los modelos Clases altamente desbalanceadas para ambos clusters para la variable Target (Attrition) LIFT - Primeros 20.000 clientes 11.23 Más probable a abandonar el Banco a un cliente seleccionado al azar Validación de los modelos con datos a Abril 2016 AUC 96%-97% Modelos Random Forest y Boosting Accuracy 95%-99% TN, True Negative(Especificidad) 90% (para el Cluster 0 el modelo encontró a 3715 de los 3879 clientes fugados) Falsos Positivos 60%-77% El modelo Boosting clasificó correctamente al 23%-42% de los clientes que predijo como Churners VALIDACIÓN CON DATA FUTURA (1 AÑO)
  • 16. Programa de Retención *Aquellos clientes impactados por el programa fueron los de mayor valor comercial para el Banco *Mayor probabilidad de fuga *Mayor LIFT *Se busca reducir la tasa de los Falsos Positivos (clientes que permanecen en el Banco habiendo recibido un incentivo) + LIFT + Rentabilidad + Éxito del programa
  • 17. Resultado e Implementación del Programa de Retención SUPUESTOS CONSIDERADOS: 1. Distribución constante del CLV 2. Tasa de éxito del 20% 3. Ganancia media de 2MM USD (en 3 meses) ÉXITO DEL PLAN DE RETENCION ANTE: • Clientes con gran valor para el Banco • Alto riesgo de fuga para los próximos meses • Correcta comunicación, canal e incentivo con el cliente • Revisión y mantenimiento de los modelos predictivos
  • 18. Conclusiones • Se trata de un problema del desbalanceo de clases (existe una clase predominante y una minoritaria, fuga de clientes). Relación 99.5% a 0.5% • Balanceo de casos mediante sub-muestreo, eliminación de registros de clase dominante. • Problema de la sub especificación del modelo: No contar con todas las variables para poder explicar el fenómeno (existencia de limitaciones y supuestos) • Ranking de clientes en base a la probabilidad de fuga • Acciones comerciales de retención, necesidad de bajar el CHURN del 12% anual • Cambios rápidos en las condiciones económicas del país • Oportunidad de mejora (+ retención - adquisición)
  • 19. Conclusiones • Aquellos clientes que cobraban en el Banco hace 6 meses y que redujeron la cantidad de productos en un 30% y redujeron en mas de un 20% la cantidad de artículos comprados, tienen el triple de probabilidad de abandonar el Banco (X3) • Dentro del grupo de clientes que no acreditaba sueldo en el Banco, aquellos que disminuyeron el saldo en vista en un 25%, no consumieron en mas de 2 meses y disminuyeron en un 30% la cantidad de movimientos voluntarios totales, tienen el quíntuple de probabilidad de fuga (X5).
  • 20. Trabajo Futuro • Inclusión de nuevas variables • Revisión de los algoritmos utilizados • Optimización de parámetros de los modelos • Implementación de nuevos algoritmos. Ejemplo, gradient boosting (XGBOOST) • Ensembles de modelos para explorar diferentes hipótesis sobre los datos • Predicción de fuga mes a mes (Función de Hazard) • Afinar supuestos de Customer Life Time Value A diferencia del algoritmo Boosting aplicado en el trabajo, el XGBOOST construye arboles de manera secuencial añadiendo a cada iteración el árbol que mejor compensa los errores de los arboles previos. Esto se realiza árbol a árbol.