Análisis de supervivencia (survival)
Introducción a survival con R
Una aplicación para rotación de clientes (churn)
Pedro Concejero
Octubre 2015
2
¿Qué es eso llamado churn?
•De:
•http://segmento.itam.mx/Administrador/Uploa
der/material/La%20Lealtad%20de%20los%20Cons
umidores%20y%20su%20Medicion.PDF
3
Kaplan-Meier & Cox
http://www.telegraph.co.uk/news/obituaries/medici
ne-obituaries/8804883/Paul-Meier.html
Meier, perhaps more than any other individual, was
the person who influenced drug regulatory agencies to
insist on the central importance of randomised
evidence.
Kaplan
http://www.garfield.library.upenn.edu/classics1983/
A1983QS51100001.pdf
http://www.gazettetimes.com/news/local/obituaries
/edward-kaplan/article_3abb619d-834f-5e19-b34d-
3b54ccfd9cdb.html
David Cox
https://en.wikipedia.org/wiki/David_Cox_%28sta
tistician%29
4
Conceptos básicos
- Excelente intro: http://blog.applied.ai/survival-analysis-part1/
- Función de supervivencia
- La función de riesgo
5
Conceptos básicos análisis de supervivencia
- Código para todo el estudio en github:
- https://github.com/pedroconcejero/survival
- Creamos un objeto survival
- El concepto clave: dato “censurado” (censored)
6
Conceptos básicos
- Excelente intro: http://blog.applied.ai/survival-analysis-part1/
- El concepto clave de “censoring” (censura, dato incompleto): dependiendo
del alcance temporal del estudio, censura derecha, izquierda
•Excelente trabajo sobre esto mismo:
•https://dke.maastrichtuniversity.nl/westra/Ph
DMaBa-
teaching/GraduationStudents/LaurensAlberts200
6/Presentatie.ppt
7
Conceptos básicos análisis de supervivencia
- http://www.unc.edu/courses/2010spring/ecol/562/001/docs/lectures/lect
ure23.htm
8
Curvas de supervivencia Kaplan-Meier
- Curva para todo el grupo
- Curvas *por* código localidad
9
Modelo de riesgos proporcionales
10
Modelo árbol tradicional
- ‘International plan’ (yes/no) es clave
- Árbol da puntos de corte fáciles de incorporar a curvas supervivencia
11
Curvas de supervivencia por grupos relevantes a partir
variables identificadas en árbol
- ‘International plan’
(yes/no) es clave
- Árbol da puntos de corte
fáciles de incorporar a
curvas supervivencia
12
Proporcionalidad de los riesgos es un supuesto
Comprobar supuestos de modelo de Cox
- Curvas log-log deben ser
paralelas
- Si no lo son es porque
tenemos predictores, o
grupos, cuyo efecto es
diferencial con el tiempo
- En ese caso debemos
plantearnos la extensión
del modelo de Cox que
permite este tipo de
predictores
13
Modelo de Cox extendido
- Con función cph de la librería rms
- Plot Hazard-Ratios,
- Después de haber seleccionado variables significativas con un modelo Cox
14
Modelo de Cox extendido
- Predicción: Con modelo
survival podemos predecir a
lo largo del tiempo
- Para poder comparar
nuestra capacidad
predictiva con la del árbol
usaremos el máximo de
tiempo en la variable
correspondiente
- Con un modelo de sólo 4
predictores alcanzamos una
capacidad predictiva
razonable, que además nos
permite adquirir
conocimiento sobre su
comportamiento a lo largo
del tiempo
15
Pero … ¿por qué no es más popular en inteligencia de
negocio?
- ¿Por el nombre?
- ¿Porque parece más aplicable en medicina – campo biomédico?
- ¿Porque es un modelo estadístico “tradicional”? (Hay que comprobar
supuestos, usar enfoque “artesanal” para ir ajustando modelo con
variables)
- Hay pocas publicaciones aplicadas a este campo
- 6ª técnica o modelo en 2010 de acuerdo con investigación de KhahAbi, S,
Gholamian, Namvar (investigación publicada)
- Extensiones muy interesantes del modelo:
- Eventos recurrentes
- Múltiples eventos
- modelos de riesgos competitivos
- Event history analysis
- Modelos paramétricos
16
Conclusiones
- Modelos survival permiten obtener capacidad predictiva razonable con
modelos muy económicos, manejables, y “comprensibles”
- Los modelos de supervivencia permiten estudiar el efecto de variables o
factores a lo largo de tiempo, y predecir para momentos concretos en el
tiempo
-> esto no lo permiten modelos predictivos habituales
- ¿Por qué hay que plantearse modelos alternativos? Survival y modelos
predictivos habituales son perfectamente complementarios
- Misma conclusion que L.J.S.M. Alberts:
- Churn prediction in the mobile telecom industry https://dke.maastrichtuniversity.nl/westra/PhDMaBa-
teaching/GraduationStudents/LaurensAlberts2006/Presentatie.ppt
- (él o ella hace preparación más elaborada de los datos, y afina mucho más tanto en modelos tradicionales
como en los de survival; de tal modo que la capacidad predictiva de ambos modelos es muy próxima)
Gracias!!!!
pedro.concejerocerezo@gmail.com
Twitter: @ConcejeroPedro
https://twitter.com/ConcejeroPedro
gRupo R madRid
http://madrid.r-es.org/
Referencias
• Survival & Churn
• KhahAbi, S, Gholamian, Namvar (2010) Data Mining Applications in Customer Churn
Management. 2010 Int. Conference on Intelligent Systems, Modelling and Simulation
• https://www.researchgate.net/publication/232631280_Data_Mining_Applications_in_Customer_Churn_Management
• Parametric Survival Models
• http://www.datanalytics.com/2015/02/12/parametrizacion-de-modelos-de-supervivencia-parametricos/
• http://data.princeton.edu/pop509/ParametricSurvival.pdf
• http://www.unc.edu/courses/2010spring/ecol/562/001/docs/lectures/lecture24.htm
• Cox
• A conversation with Sir David Cox, 1994: http://projecteuclid.org/download/pdf_1/euclid.ss/1177010394
• R & Survival
• Drawing Survival Curves in R
• http://rstudio-pubs-static.s3.amazonaws.com/5588_72eb65bfbe0a4cb7b655d2eee0751584.html
• A course on non- and parametric survival models with R
• http://www.unc.edu/courses/2010spring/ecol/562/001/docs/lectures/lecture23.htm
• http://www.unc.edu/courses/2010spring/ecol/562/001/docs/lectures/lecture24.htm
19
Conceptos básicos
- Excelente intro: http://blog.applied.ai/survival-analysis-part1/
- El concepto clave de “censoring” (censura, dato incompleto): dependiendo
del alcance temporal del estudio, censura derecha, izquierda, o
“interrupción” (truncate) también izquierda o derecha
Survival grupo r_def
Survival grupo r_def

Survival grupo r_def

  • 1.
    Análisis de supervivencia(survival) Introducción a survival con R Una aplicación para rotación de clientes (churn) Pedro Concejero Octubre 2015
  • 2.
    2 ¿Qué es esollamado churn? •De: •http://segmento.itam.mx/Administrador/Uploa der/material/La%20Lealtad%20de%20los%20Cons umidores%20y%20su%20Medicion.PDF
  • 3.
    3 Kaplan-Meier & Cox http://www.telegraph.co.uk/news/obituaries/medici ne-obituaries/8804883/Paul-Meier.html Meier,perhaps more than any other individual, was the person who influenced drug regulatory agencies to insist on the central importance of randomised evidence. Kaplan http://www.garfield.library.upenn.edu/classics1983/ A1983QS51100001.pdf http://www.gazettetimes.com/news/local/obituaries /edward-kaplan/article_3abb619d-834f-5e19-b34d- 3b54ccfd9cdb.html David Cox https://en.wikipedia.org/wiki/David_Cox_%28sta tistician%29
  • 4.
    4 Conceptos básicos - Excelenteintro: http://blog.applied.ai/survival-analysis-part1/ - Función de supervivencia - La función de riesgo
  • 5.
    5 Conceptos básicos análisisde supervivencia - Código para todo el estudio en github: - https://github.com/pedroconcejero/survival - Creamos un objeto survival - El concepto clave: dato “censurado” (censored)
  • 6.
    6 Conceptos básicos - Excelenteintro: http://blog.applied.ai/survival-analysis-part1/ - El concepto clave de “censoring” (censura, dato incompleto): dependiendo del alcance temporal del estudio, censura derecha, izquierda •Excelente trabajo sobre esto mismo: •https://dke.maastrichtuniversity.nl/westra/Ph DMaBa- teaching/GraduationStudents/LaurensAlberts200 6/Presentatie.ppt
  • 7.
    7 Conceptos básicos análisisde supervivencia - http://www.unc.edu/courses/2010spring/ecol/562/001/docs/lectures/lect ure23.htm
  • 8.
    8 Curvas de supervivenciaKaplan-Meier - Curva para todo el grupo - Curvas *por* código localidad
  • 9.
    9 Modelo de riesgosproporcionales
  • 10.
    10 Modelo árbol tradicional -‘International plan’ (yes/no) es clave - Árbol da puntos de corte fáciles de incorporar a curvas supervivencia
  • 11.
    11 Curvas de supervivenciapor grupos relevantes a partir variables identificadas en árbol - ‘International plan’ (yes/no) es clave - Árbol da puntos de corte fáciles de incorporar a curvas supervivencia
  • 12.
    12 Proporcionalidad de losriesgos es un supuesto Comprobar supuestos de modelo de Cox - Curvas log-log deben ser paralelas - Si no lo son es porque tenemos predictores, o grupos, cuyo efecto es diferencial con el tiempo - En ese caso debemos plantearnos la extensión del modelo de Cox que permite este tipo de predictores
  • 13.
    13 Modelo de Coxextendido - Con función cph de la librería rms - Plot Hazard-Ratios, - Después de haber seleccionado variables significativas con un modelo Cox
  • 14.
    14 Modelo de Coxextendido - Predicción: Con modelo survival podemos predecir a lo largo del tiempo - Para poder comparar nuestra capacidad predictiva con la del árbol usaremos el máximo de tiempo en la variable correspondiente - Con un modelo de sólo 4 predictores alcanzamos una capacidad predictiva razonable, que además nos permite adquirir conocimiento sobre su comportamiento a lo largo del tiempo
  • 15.
    15 Pero … ¿porqué no es más popular en inteligencia de negocio? - ¿Por el nombre? - ¿Porque parece más aplicable en medicina – campo biomédico? - ¿Porque es un modelo estadístico “tradicional”? (Hay que comprobar supuestos, usar enfoque “artesanal” para ir ajustando modelo con variables) - Hay pocas publicaciones aplicadas a este campo - 6ª técnica o modelo en 2010 de acuerdo con investigación de KhahAbi, S, Gholamian, Namvar (investigación publicada) - Extensiones muy interesantes del modelo: - Eventos recurrentes - Múltiples eventos - modelos de riesgos competitivos - Event history analysis - Modelos paramétricos
  • 16.
    16 Conclusiones - Modelos survivalpermiten obtener capacidad predictiva razonable con modelos muy económicos, manejables, y “comprensibles” - Los modelos de supervivencia permiten estudiar el efecto de variables o factores a lo largo de tiempo, y predecir para momentos concretos en el tiempo -> esto no lo permiten modelos predictivos habituales - ¿Por qué hay que plantearse modelos alternativos? Survival y modelos predictivos habituales son perfectamente complementarios - Misma conclusion que L.J.S.M. Alberts: - Churn prediction in the mobile telecom industry https://dke.maastrichtuniversity.nl/westra/PhDMaBa- teaching/GraduationStudents/LaurensAlberts2006/Presentatie.ppt - (él o ella hace preparación más elaborada de los datos, y afina mucho más tanto en modelos tradicionales como en los de survival; de tal modo que la capacidad predictiva de ambos modelos es muy próxima)
  • 17.
  • 18.
    Referencias • Survival &Churn • KhahAbi, S, Gholamian, Namvar (2010) Data Mining Applications in Customer Churn Management. 2010 Int. Conference on Intelligent Systems, Modelling and Simulation • https://www.researchgate.net/publication/232631280_Data_Mining_Applications_in_Customer_Churn_Management • Parametric Survival Models • http://www.datanalytics.com/2015/02/12/parametrizacion-de-modelos-de-supervivencia-parametricos/ • http://data.princeton.edu/pop509/ParametricSurvival.pdf • http://www.unc.edu/courses/2010spring/ecol/562/001/docs/lectures/lecture24.htm • Cox • A conversation with Sir David Cox, 1994: http://projecteuclid.org/download/pdf_1/euclid.ss/1177010394 • R & Survival • Drawing Survival Curves in R • http://rstudio-pubs-static.s3.amazonaws.com/5588_72eb65bfbe0a4cb7b655d2eee0751584.html • A course on non- and parametric survival models with R • http://www.unc.edu/courses/2010spring/ecol/562/001/docs/lectures/lecture23.htm • http://www.unc.edu/courses/2010spring/ecol/562/001/docs/lectures/lecture24.htm
  • 19.
    19 Conceptos básicos - Excelenteintro: http://blog.applied.ai/survival-analysis-part1/ - El concepto clave de “censoring” (censura, dato incompleto): dependiendo del alcance temporal del estudio, censura derecha, izquierda, o “interrupción” (truncate) también izquierda o derecha