TRABAJO PRESENTADO ANTE LA ILUSTRE UNIVERSIDAD CENTRAL DE VENEZUELA PARA OPTAR AL GRADO DE DOCTOR EN ESTADÍSTICA. El estudio consiste en el diseño y propuestas de pruebas estadísticas para comparar curvas de supervivencia con eventos recurrentes.
STATISTICAL TESTS, SURVIVAL ANALYSIS WITH RECURRENT EVENTS
1. Universidad Central de Venezuela
Facultad de Ciencias Económicas y Sociales
Área de Postgrado en Estadística y Actuariado
Programa Integrado de Postgrado en Estadística
GENERALIZACION DE ALGUNAS PRUEBAS CLASICAS DE
COMPARACION DE CURVAS DE SUPERVIVENCIA AL CASO
DE EVENTOS DE NATURALEZA RECURRENTE
TRABAJO PRESENTADO ANTE LA ILUSTRE UNIVERSIDAD CENTRAL DE
VENEZUELA PARA OPTAR AL GRADO DE DOCTOR
EN ESTADISTICA Y ACTUARIADO
Autor:
M. Sc. Carlos M. Martínez M.
C.I. 8.917.031
cmartin@uc.edu.ve
Tutor:
Dr. Guillermo Ramírez
C.I. 3.609.750
Caracas, Febrero 2009
6. DEDICATORIA
A mis PADRES
Quienes me han dado todo incluyendo la vida.
A mis hijos y a mis nietos
A quienes amo intensamente.
A mi esposa
Con la que he compartido lo poco que tengo.
A mis familiares
Con quienes deseo compartir mucho.
A mis amigos.
Carlos M. Martínez M.
Caracas, Diciembre 2009.
7. AGRADECIMIENTOS
Agradecimiento al todopoderoso quien me ha dado la fuerza de voluntad y la sabiduría
necesaria para desarrollar este trabajo. Agradecimiento a las autoridades de la
Universidad de Carabobo, institución donde realice mis estudios de pregrado y
postgrado en Ingeniería Industrial y donde actualmente me desempeño como profesor
universitario. Agradecido de sus autoridades quienen me han dado la oportunidad y el
apoyo necesario para realizar estos estudios doctorales.
Agradecimiento a las autoridades de la Universidad Central de Venezuela, institución
que me ha acogido en su seno y me ha abrigado en su manto de enseñanza y sabiduría y
donde se me ha permitido desarrollar esta investigación. Institución donde se han
formado excelentes profesionales y que siempre será reconocida como “la casa que
vence la sombra”. Agradecimiento inmenso a las autoridades de la Oficina de
Planificación del Sector Universitario, institución que con su programa ALMA MATER
para la formación de doctores, me seleccionaron y creyeron en mí para realizar esta
investigación, institución quien suministró parte de los recursos financieros para que
este doctorado se llevara a cabo.
Agradecimiento inmenso al Dr. Guillermo Ramírez y la Dra. Maura Vásquez quienes
aceptaron la tutoría y dirección de esta investigación, quienes con su valioso tiempo y
consejos lograron guiarme a desarrollar la misma. Agradecimiento inmenso al Dr. Luis
Salas profesor de la Escuela de Estadística y Actuariado de FACES de la UCV y
profesor del Postgrado de esa misma escuela, quien con sus consejos, voluntarias,
entusiastas e invalorables consultas, logró un cambio positivo en el rumbo inicial de mi
proyecto de tesis doctoral y me encaminó a realizar este bellísimo tema de
investigación. Agradecimiento al jurado de esta tesis quienes con su profesionalismo,
valoraron, corrigieron y dieron sugerencias para mejorar este trabajo. Agradecimiento a
todos los que creyeron en mí y me apoyaron moralmente, a quienes colaboraron con el
desarrollo de esta investigación. Agradecimiento inmenso a todo el personal docente,
administrativo y obrero del Área de postgrado de la UCV, agradecimiento inmenso a
quienes contribuyeron con mi preparación profesional y me dieron la fuerza moral para
dar este paso importante en mi vida. Agradecimiento inmenso a todos.
Carlos M. Martínez M.
Caracas, Diciembre 2009.
8. RESUMEN
Los eventos recurrentes son fenómenos que ocurren en muchas áreas. En nuestro entorno suelen
suceder infinidades de eventos de este tipo, cabe mencionar: enfermedades virales, aparición de
tumores cancerigenos, fiebres, fallas en maquinarias y equipos, nacimientos, homicidios,
terremotos, lluvias, erupciones de volcanes, accidentes laborales, accidentes automovilísticos,
entre otros. En el análisis de supervivencia (AS) la variable de estudio es el tiempo que
transcurre desde un momento inicial conocido hasta que se produce un evento predeterminado.
El AS con eventos recurrentes (dos o más ocurrencia por unidad bajo estudio) difiere del
análisis clásico (una ocurrencia por unidad). La naturaleza de estos eventos obliga al uso de
otras técnicas diferentes a las que se utilizan en el AS tradicional. Recientemente, se han
desarrollo novedosas técnicas y modelos dirigidas a estudio de fenómenos recurrentes. En esta
investigación se tratan algunos de estos modelos y nuestro objetivo es la comparación de curvas
de supervivencia entre grupos que experimentan estos fenómenos. La idea consiste en generar
estadísticos de comparación que permitan diferenciar estadísticamente las curvas de
supervivencia estimadas a través de uno de los modelos existentes. Los estadísticos propuestos
en esta investigación son generalizaciones de los estadísticos ponderados del análisis clásico.
Estadísticos que hemos desarrollados y extendidos para comparar las curvas de supervivencia en
fenómenos con eventos recurrentes para los casos de dos o más grupos.
En la investigación se evalúan algunas propiedades de los estadísticos de comparación
propuestos utilizando técnicas de simulación y programas diseñados en lenguaje R. En dichas
simulaciones se analizan y evalúan los comportamientos de dichos estadísticos, se estiman las
probabilidades de cometer errores tipo I y las potencias de las pruebas correspondientes. Cada
simulación se ejecuta aumentando sistemáticamente los tamaños de las muestras, considerando
tiempos de interocurrencias simulados bajo diferentes escenarios distribucionales con tiempos
de censuras aleatorias. En cuanto a las aplicaciones, se utilizan bases de datos de problemas que
han sido tratados por otros investigadores, bases de datos que están publicadas y disponibles en
la bibliografía, obteniendo resultados fabulosos. Entre las bases de datos utilizadas, se
encuentran: los datos de provenientes del experimento de Byar, que corresponden a los tiempos
(meses) de reapariciones de tumores de ciento dieciséis (116) pacientes enfermos con cáncer
superficial de vejiga tratado con: placebo, thiotepa y piridoxina. Nuestro objetivo es comparar
las funciones de supervivencia de los tres grupos y determinar si existen diferencias
significativas en los tratamientos. La segunda aplicación se hizo a los datos del experimento de
Aalen-Husebye que corresponde al estudio de la motilidad del intestino delgado (actividad
muscular) de diecinueve (19) pacientes. Nuestro objetivo consiste en determinar si existen
diferencias significativas entre las curvas de supervivencia obtenidas de los períodos del
Complejo Motor Migratorio de estos pacientes. Otra aplicación se hizo a los datos del estudio
hecho por González-Peña, correspondiente a los tiempos de rehospitalizaciones de
cuatrocientos tres (403) pacientes diagnosticados e intervenidos quirúrgicamente con cáncer
colorectal. Nuestro objetivo consiste en determinar si existen diferencias significativas entre las
curvas de supervivencia de los tiempos de rehospitalización de grupos de pacientes
estratificados a través de un conjunto de variables socio-demográficas o clínicas, como son: las
variables quimioterapia, estado tumoral y distancia. Otros datos tratados son los estudiados por
Gail et al., quien presentó un experimento cancerigeno realizado a cuarenta y ocho (48) ratas
con dos tratamientos, a quienes se les midieron los tiempos de detección de tumores mamarios
provenientes de un cáncer inoculado. El objetivo en este trabajo consiste en determinar si
existen diferencias significativas entre las curvas de supervivencia de los tiempos de detecciones
de los tumores entre el grupo control y el grupo tratado.
Palabras clave: Análisis de supervivencia, eventos recurrentes, procesos contadores, pruebas de
comparación ponderadas.
9. CONTENIDO
Pag.
INDICE DE TABLAS i
INDICE DE FIGURAS iv
INTRODUCCIÓN vi
Capitulo I. EL PROBLEMA 1
1.1 Planteamiento del problema 1
1.2 Objetivos de la investigación 4
1.2.1 Objetivo General 4
1.2.2 Objetivos Específicos 4
1.3 Justificación del estudio 5
1.4 Alcance y limitaciones del estudio 6
Capitulo II. MARCO TEÓRICO 7
2.1 Bases teóricas 7
2.1.1 ¿En que consiste el análisis de supervivencia? 7
2.1.2 Áreas de aplicación del análisis de supervivencia 8
2.1.3 Datos censurados del análisis de supervivencia 9
2.1.4 Funciones del análisis de supervivencia 11
2.1.4.1 Función de supervivencia 11
2.1.4.2 Función de riesgo instantáneo 12
2.1.4.3 Función de riesgo acumulado 14
2.1.4.4 Relaciones entre las funciones del análisis de funciones 15
2.1.4.5 Medidas descriptivas del análisis de supervivencia 16
2.1.5 Métodos de estimación del análisis de supervivencia 18
Capitulo III. MODELOS CLÁSICOS DEL ANÁLISIS DE
SUPERVIVENCIA 20
3.1 Orígenes del análisis de supervivencia 20
3.2 Modelos Actuariales 21
3.2.1 Modelo actuarial de Bhomer 21
3.2.2 Formula de Greenwood 25
3.2.3 Modelo actuarial de Berkson-Gage 26
3.2.4 Modelo de Cutler-Ederer 27
3.3 Modelo de Kaplan-Meier 30
3.4 Otros modelos noparametricos del análisis de supervivencia 31
3.4.1 Modelo de supervivencia de Altshuler 32
3.4.2 Modelo de supervivencia de Peterson 32
3.4.3 Modelo de supervivencia de Prentice 32
3.4.4 Modelo de supervivencia de Prentice-Marek 33
3.4.5 Modelo de supervivencia de Andersen et al. 33
3.4.6 Modelo de supervivencia de Harris-Albert 33
3.4.7 Modelo de supervivencia de Moreau et al. 33
3.4.8 Modelo de supervivencia de Hosmer-Lemeshow 33
10. 3.5 Modelo de riesgos proporcionales de Cox 34
3.6 Modelo de riesgos proporcionales de Cox estratificados 38
3.6.1 Modelo general estratificado 38
3.6.2 Modelo de no-interacción con coeficientes estratificados 39
3.6.3 Modelo de interacción con coeficientes estratificados 39
3.7 Extensiones del modelo de riesgos proporcionales de Cox
para variables dependientes del tiempo 39
Capitulo IV. PROCESOS DE CONTEO, MARTINGALAS Y SU
RELACIÓN CON EL ANÁLISIS DE SUPERVIVENCIA 41
4.1 Introducción 41
4.2 Procesos estocásticos 42
4.2.1 Características de los procesos estocásticos 42
4.3 Tiempos de interocurrencia de los eventos 45
4.4 Martingalas 45
4.5 Procesos de conteo y análisis de supervivencia 46
4.5.1 Preliminares 46
4.5.2 Notación de los procesos de conteo aplicados en la estimación
de las distribuciones del análisis de supervivencia 47
4.5.3 Procesos de conteo en estimaciones no paramétrica
del análisis de supervivencia 48
4.5.3.1 Estimador Nelson-Aalen 49
4.5.3.2 Estimador Kaplan-Meier 51
4.5.3.3 Estimador del modelo de riesgos proporcionales de Cox 52
Capitulo V. MODELOS DE SUPERVIVENCIA CON EVENTOS
RECURRENTES 53
5.1 Introducción 53
5.2 Modelos semiparamétricos 54
5.2.1 Modelos de Prentice-Williams-Peterson 54
5.2.1.1 Primer modelo de PWP (modelo PWP01) 55
5.2.1.2 Segundo modelo de PWP (modelo PWP02) 56
5.2.2 Modelo de Andersen-Gill ( modelo AG ) 57
5.2.3 Modelo Wei-Lin-Weissfeld ( modelo WLW ) 58
5.3 Modelos no paramétricos 59
5.3.1 Modelos de Fragilidad 59
5.3.2 Modelo Wang-Chang ( modelo WC ) 60
5.3.3 Modelos de Peña-Strawderman-Hollander 62
5.3.3.1 Modelo de Kaplan-Meier generalizado (modelo GPLE) 62
5.3.3.2 Modelo de fragilidad multiplicativa (modelo FRMLE) 65
Capitulo VI. PRUEBAS DE COMPARACIÓN EN EL ANÁLISIS DE
SUPERVIVENCIA 67
6.1 Introducción 67
6.2 Pruebas de contraste no paramétricas para comparar muestras con datos no
censurados 69
6.2.1 Prueba de los signos 69
11. 6.2.2 Prueba de Wilcoxon 70
6.2.3 Prueba de Mann-Whitney 71
6.2.4 Prueba de Kruskal-Wallis 72
6.2.5 Prueba de Cochran 73
6.3 Pruebas de contraste no paramétricas para comparar curvas del análisis
de supervivencia clásico 74
6.3.1 Prueba de Mantel-Haenszel 74
6.3.2 Prueba generalizada de Wilcoxon, prueba de Gehan (primera
propuesta) 75
6.3.3 Prueba de Gehan (segunda propuesta) 78
6.3.4 Prueba de Mantel 81
6.3.4.1 Procedimiento alternativo a Gehan 81
6.3.4.2 Aplicación directa del procedimiento de Wilcoxon para
datos en presencia de censuras arbitrarias 82
6.3.5 Prueba generalizada Kruskal-Wallis de Breslow 84
6.3.6 Prueba de Peto-Peto 86
6.3.7 Prueba de Cox 87
6.3.8 Prueba de Tarone-Ware 88
6.3.9 Prueba de Prentice 90
6.3.10 Prueba Prentice-Marek 91
6.3.11 Prueba de Gill 92
6.3.12 Prueba Harrington-Fleming 92
6.3.13 Prueba de Fleming-Harrington 93
6.4 Pruebas de contraste para comparar fenómenos con eventos recurrentes 94
6.4.1 Propuesta de Pepe-Cai 94
6.4.2 Propuesta de Glyn-Buring 95
6.4.3 Propuesta de Daganaksoy-Nelson 95
Capitulo VII. PRUEBAS DE COMPARACIÓN DE CURVAS DE
SUPERVIVENCIA CON EVENTOS DE CARÁCTER
RECURRENTES. PROPUESTAS 97
7.1 Introducción 97
7.2 Estadísticos de contraste para comparar las curvas de supervivencia
con eventos recurrentes, para el caso de dos grupos. Una propuesta 97
7.2.1 Planteamiento del problema 97
7.2.2 Notación básica 98
7.2.3 Propuestas para el caso de dos muestras 102
7.3 Estadísticos de contraste para comparar las curvas de supervivencia con
eventos recurrentes, para el caso de k grupos. Propuestas 105
7.3.1 Planteamiento del problema 105
7.3.2 Notación básica 106
7.3.3 Propuestas para el caso de k muestras 107
7.3.3.1 Primera propuesta 107
7.3.3.2 Segunda propuesta 110
12. Capitulo VIII. VALIDACIÓN DE LOS ESTADÍSTICOS DE CONTRASTE
PARA COMPARAR CURVAS DE SUPERVIVENCIA CON
EVENTOS RECURRENTES 113
8.1 Introducción 113
8.2 Estudio de simulaciones 113
8.2.1 Estudio de simulaciones para el caso de dos grupos 118
8.2.2 Estudio de simulaciones para el caso de tres grupos 120
Capitulo IX. APLICACIONES DE LOS ESTADÍSTICOS DE
COMPARACIÓN PARA EVENTOS RECURRENTES 122
9.1 Introducción 122
9.2 Datos del experimento de Byar (1980) 122
9.2.1 Comparación curvas de supervivencia grupo placebo vs. grupo
Thiotepa 125
9.2.2 Comparación curvas de supervivencia grupo placebo vs. grupo
Piridoxina 129
9.2.3 Comparación curvas de supervivencia grupo thiotepa vs. grupo
Piridoxina 133
9.2.4 Comparación de las curvas de supervivencia de los tres grupos 136
9.3 Datos del experimento de Aalen-Husebye (1991) 137
9.4 Datos del cáncer colorectal de González -Peña (2003, 2004) 141
9.4.1 Comparación de curvas de supervivencia para tiempos de
rehospitalizaciones en pacientes sin y con quimioterapia. 143
9.4.2 Comparación de curvas de supervivencia para tiempos de
rehospitalizaciones en pacientes estratificado por la variable
distancia. 144
9.4.3 Comparación de curvas de supervivencia para tiempos de
rehospitalizaciones en pacientes estratificado el estado tumoral. 145
9.4.4 Comparación de curvas de supervivencia para tiempos de
rehospitalizaciones en pacientes estratificado el estado tumoral
(comparación dos a dos). 146
9.4.3.1 Comparación curvas de supervivencia
grupo Dukes A-B vs. grupo Dukes C 146
9.4.3.2 Comparación curvas de supervivencia grupo
Dukes A-B vs. grupo Dukes D 147
9.4.3.3 Comparación curvas de supervivencia grupo
Dukes C vs. grupo Dukes D 148
9.5 Datos del experimento de Gial (1980) 149
CONCLUSIONES 152
BIBLIOGRAFÍA 156
APÉNDICES 163
13. i
INDICE DE TABLAS
Pag.
Tabla 2.1 Áreas de aplicación del análisis de supervivencia 8 y 9
Tabla 3.1 Formato normalizado de tablas actuariales para el análisis
de supervivencia de Cutler-Ederer 29
Tabla 5.1 Tiempos de interocurrencia del evento en las unidades bajo estudio 61
Tabla 6.1 Número de ocurrencias del evento en el tiempo tz para ambos grupos
poblacionales I y II. 74
Tabla 6.2 Número de ocurrencias del evento y censuras en el intervalo i-ésimo
de tiempo en el 1er
grupo. 77
Tabla 6.3 Número de ocurrencias del evento en el tiempo tz para el k-ésimo grupo
Poblacional 84
Tabla 6.4 Número de ocurrencias del evento en el tiempo tz para los grupos
poblacionales. 88
Tabla 7.1 Resumen del número de ocurrencias del evento en el tiempo de
interocurrencia z para los grupos 1 y 2. 102
Tabla 7.2. Propuestas de pesos en pruebas de contraste para modelos de
supervivencia con recurrencia. 104
Tabla 7.3 Resumen del número de ocurrencias del evento en el tiempo de
interocurrencia z en todo los grupos. 105
Tabla 7.4 Resumen de los números de ocurrencias del evento en el instante z
para los grupos r y r’. 107
Tabla 9.1 Datos de reaparición de tumores en pacientes enfermos con
cáncer de vejiga 123
Tabla 9.2 Estimaciones de la curvas de supervivencia de los grupos:
combinado placebo-thiotepa, placebo y thiotepa 126.
Tabla 9.3 Resultados de las pruebas de comparación de las curvas de
supervivencia de los grupos placebo y thiotepa utilizando propuestas. 127
Tabla 9.4 Resultados de las estimaciones las MCF de los grupos placebo y
thiotepa y sus diferencias, utilizando propuesta de
Dognaksoy-Nelson (1998). 128
Tabla 9.5 Estimaciones de la curva de supervivencia del grupo combinado
y los grupos placebo y piridoxina 130
14. ii
Tabla 9.6 Resultados de las pruebas de comparación de las curvas de
supervivencia de los grupos placebo y piridoxina. 130
Tabla 9.7 Resultados de las estimaciones las MCF de los grupos placebo
y piridoxina y sus diferencias, utilizando propuesta de
Dognaksoy-Nelson (1998) 132
Tabla 9.8 Estimaciones de la curva de supervivencia del grupo combinado
piridoxina-thiotepa 133
Tabla 9.9 Resultados de las pruebas de comparación de las curvas de
supervivencia de los grupos piridoxina y thiotepa 134
Tabla 9.10 Resultados de las estimaciones las MCF de los grupos piridoxina
y thiotepa y sus diferencias, utilizando propuesta de
Dognaksoy-Nelson (1998) 135
Tabla 9.11 Estimaciones de la curva de supervivencia del grupo combinado
placebo-thiotepa-piridoxina 136
Tabla 9.12 Resultados de las pruebas de comparación de las curvas de
supervivencia de los tres grupos 137
Tabla 9.13 Datos del período del complejo migratorio motor (CMM) 138
Tabla 9.14 Estimaciones de la curva de supervivencia del período
CMM del grupo combinado hombres- mujeres 139
Tabla 9.15 Estimaciones de la curva de supervivencia del grupo
del período CMM en hombres y mujeres 140
Tabla 9.16 Resultados de las pruebas de comparación de las curvas
de supervivencia del período CMM 141
Tabla 9.17 Datos de rehospitalización de los primeros veinticinco (25) pacientes
enfermos con cáncer de colon de un total de cuatrocientos tres (403) 142
Tabla 9.18 Resultados de las pruebas de comparación de las curvas de
supervivencia en los tiempos de rehospitalizaciones de pacientes enfermos
con cáncer de colon, con y sin quimioteratía 143
Tabla 9.19 Resultados de las pruebas de comparación de las curvas de
supervivencia e los tiempos de rehospitalizaciones de pacientes enfermos
con cáncer de colon estratificados por la variable distancia 144
Tabla 9.20 Resultados de las pruebas de comparación de las curvas de supervivencia
de los tiempos de rehospitalizaciones de pacientes enfermos con
cáncer de colon estratificados a través de la variable estado tumoral 145
Tabla 9.21 Resultados de las pruebas de comparación de las curvas de supervivencia
15. iii
de los tiempos de rehospitalizaciones de pacientes enfermos con cáncer de colon
estratificados a través de la variable estado tumoral,grupos: grupo Dukes A-B
vs. grupo Dukes C. 146
Tabla 9.22 Resultados de las pruebas de comparación de las curvas de supervivencia
de los tiempos de rehospitalizaciones de pacientes enfermos con cáncer
de colon estratificados a través de la variable estado tumoral,
grupos: grupo Dukes A-B vs. grupo Dukes D 147
Tabla 9.23 Resultados de las pruebas de comparación de las curvas de supervivencia
de los tiempos de rehospitalizaciones de pacientes enfermos con cáncer
de colon estratificados a través de la variable estado tumoral,
grupos: grupo Dukes C vs. grupo Dukes D 148
Tabla 9.24 Tiempo de reaparición de tumores en ratas de sexo femenino
con cáncer mamarios 149
Tabla 9.25 Resultados de las pruebas de comparación de las curvas de supervivencia
de los tiempos de detecciones de tumores en los grupos:
grupo tratado vs. grupo control 150
16. iv
INDICE DE FIGURAS
Pag.
Figura 2.1 Representación gráfica de datos censurados y no censurados
del análisis de supervivencia 10
Figura 2.2 Representación gráfica de algunas funciones de densidad de
probabilidades 11
Figura 2.3 Representación gráfica de algunas funciones de supervivencia 12
Figura 2.4 Representación gráfica de funciones de riesgo instantáneo 14
Figura 2.5 Representación gráfica de las funciones de riesgos acumulados 15
Figura 3.1 Representación gráfica de los p subintervalos del período de observación 22
Figura 5.1 Representación gráfica de la recurrencia de eventos en la i-ésima
unidad de investigación 61
Figura 9.1 Representación gráfica de tiempos de reaparición de tumores en los grupos
placebo, piridoxina y thiotepa 125
Figura 9.2 Representación gráfica de la comparación del grupo placebo vs. grupo
thiotepa 126
Figura 9.3 Representación gráfica de las MCF del grupo placebo vs. grupo thiotepa 127
Figura 9.4 Representación gráfica de la diferencia de las MCF del grupo placebo vs.
grupo thiotepa 128
Figura 9.5 Representación gráfica de la comparación del grupo placebo vs. grupo
piridoxina 129
Figura 9.6 Representación gráfica de las MCF del grupo placebo vs. grupo piridoxina 131
Figura 9.7 Representación gráfica de la diferencia de las MCF del grupo placebo vs.
grupo piridoxina para todo los grupos 131
Figura 9.8 Representación gráfica de la comparación del grupo piridoxina vs
thiotepa 133
Figura 9.9 Representación gráfica de las MCF del grupo piridoxina vs. grupo thiotepa 134.
Figura 9.10 Representación gráfica de la diferencia de las MCF del grupo piridoxina
vs. grupo thiotepas. 135
Figura 9.11 Representación gráfica de la comparación de los tres grupos 136
Figura 9.12 Representación gráfica de los períodos CMM en hombres y mujeres 138
Figura 9.13 Representación gráfica de la supervivencia de los períodos CMM en
hombres y mujeres 139
17. v
Figura 9.14 Representación gráfica de la supervivencia de los tiempos de
rehospitalizaciones de pacientes enfermos con cáncer de colon
con y sin quimioteratía 143
Figura 9.14 Representación gráfica de la supervivencia de los tiempos de
rehospitalizaciones de pacientes enfermos con cáncer de colon
estratificados por la variable distancia 144
Figura 9.15 Representación gráfica de la supervivencia de los tiempos de
rehospitalizaciones de pacientes enfermos con cáncer de colon
estratificados a través de la variable estado tumoral 145
Figura 9.16 Representación gráfica de la supervivencia de los tiempos de
rehospitalizaciones de pacientes enfermos con cáncer de colon
estratificados a través de la variable estado tumoral, grupo
Dukes A-B vs. grupo Dukes 146
Figura 9.17 Representación gráfica de la supervivencia de los tiempos de
rehospitalizaciones de pacientes enfermos con cáncer de colon
estratificados a través de la variable estado tumoral, grupo
Dukes A-B vs. grupo Dukes D 147
Figura 9.18 Representación gráfica de la supervivencia de los tiempos de
rehospitalizaciones de pacientes enfermos con cáncer de colon
estratificados a través de la variable estado tumoral, grupo
Dukes C vs. grupo Dukes D supervivencia de los tres grupos 148
Figura 9.19 Representación gráfica de la supervivencia de los tiempos
de detecciones de tumores en los grupos: grupo tratado vs. grupo control 150
18. vi
INTRODUCCIÓN
El análisis de supervivencia consta de un conjunto de herramientas estadísticas que
permiten estudiar la aparición de eventos en el tiempo, conocidos como “tiempos de
supervivencia”, “tiempos de vida” o “tiempos de falla”. Este tiempo corresponde al
lapso comprendido entre un momento inicial, (inicio de un tratamiento, diagnóstico,
operación) y un momento final de ocurrencia de un evento terminal conocido o
predefinido (que puede representar muerte, cura, falla, aparición de tumores, entre
otras). La estructura de datos del análisis de supervivencia la conforma una serie de
observaciones provenientes de las unidades bajo estudio, incluyendo datos de
supervivencia completos (con unidades con eventos terminales ocurridos en el tiempo
de observación) y datos de supervivencia censurados (con eventos terminales no
ocurridos en el tiempo de observación).
Cuando el análisis es aplicado al estudio de eventos de tipo biológico asociados con la
ocurrencia de eventos que provienen de plantas, animales o seres humanos, usualmente
es llamado análisis de supervivencia y cuando el análisis es dirigido a las industrias o
seres inanimados, se conoce como análisis de confiabilidad. Las aplicaciones de las
técnicas en ambas áreas dependen de las restricciones en el problema. El uso de estas
técnicas se ha extendido a otras áreas de investigación como la sicología, bioingeniería,
medicina, física, astronomía y eventos de vida. Tradicionalmente los estudios de
supervivencia se orientaron al análisis de una única ocurrencia de un evento por unidad
bajo estudio (análisis de supervivencia clásico). Sin embargo, desde hace cuatro
décadas los estudios se han extendido a la aparición de eventos recurrentes (análisis de
supervivencia recurrente). Los eventos recurrentes son sucesos que pueden presentarse
en muchas áreas: fallas en automóviles, fallas en computadoras, fallas en un sistema de
trasmisión de energía, reaparición de tumores en personas enfermas con cáncer, ataques
de epilepsia, fiebre provocada por enfermedades infecciosas, accidentes
automovilísticos, accidentes laborales, delitos, matrimonios, divorcios, nacimientos,
entre otros. El análisis de este tipo muy particular de información debe tomar en cuenta
tanto el problema de la censura como el de la recurrencia.
El surgimiento y el desarrollo de nuevos procedimientos y nuevas herramientas del
análisis de supervivencia recurrente son recientes y no son del todo conocidas. Los
19. vii
primeros aportes datan desde los años ochenta, con los trabajos de Prentice-Willians-
Perterson (1981), Andersen-Gill (1982) y Wei-Lin-Weissfeld (1989). La literatura
sobre el tema es escasa y muy especializada. La mayor parte de la información sobre el
tema y sobre los aportes actuales en el área se consiguen en revistas científicas, entre las
que se encuentran: Biometrics, Biometrika, Biometria, JRSS, JASA, Annal of Statistics,
Statistics in Medicine y Technometrics. Los aportes más recientes sobre el tema
incluyen los trabajos de: Wang-Chang (1999), Peña et al. (2001), Nelson (2003),
Hollander-Setruraman (2004), González-Peña (2003), González-Peña (2004),
González-Peña-Straderman (2005), Peña-Slate (2005) y Peña E. (2006). En esta
investigación se trata el tema de la modelación de eventos recurrentes en grupos
poblacionales y el objetivo principal es la comparación de curvas de supervivencia en
esos grupos. El propósito fundamental consiste en generar estadísticos de comparación
que permitan diferenciar estadísticamente las curvas de supervivencia estimadas a través
de cualquiera de estos métodos.
En el trabajo se ilustran y describen los modelos de supervivencia con eventos
recurrentes. Se incluyen las propuestas desde que Prentice y colaboradores propusieron
sus dos modelos de regresión condicionales, estratificados tipo Cox, adaptados al caso
recurrente a principio de los años ochenta. En este capítulo se describen dos conjuntos
de modelos bien definidos: En primer lugar, los modelos de regresión
semiparamétricos, que fueron diseñados en los años ochenta para estudiar los
fenómenos recurrentes considerando los efectos de covariables. Estos modelos son
extensiones del modelo de Cox que incorporan una o más variables en el análisis. Se
asume que los tiempos entre ocurrencias del evento son independientes e idénticamente
distribuidos donde la probabilidad de supervivencia en las unidades bajo estudio está
afectada por los efectos de estas covariables. El segundo conjunto de modelos no
considera los efectos de covariables, y son conocidos como modelos no paramétricos,
libres de cualquier distribución de probabilidad y consideran los casos de dependencia
y no dependencia entre los tiempos de interocurrencias. En el capitulo VI se detallan
una serie de estadísticos de pruebas de contraste que se han sido propuestos para
comparar curvas del análisis de supervivencia tradicional incluidos los casos de
comparación de dos o más subgrupos poblacionales. También se incluyen algunas
propuestas para la comparación de grupos en el caso de recurrencia como las de Pepe-
Cai (1993), Glyn-Buring (1996) y Daganaksoy-Nelson (1998).
20. viii
En este trabajo se presentan nuestras propuestas, que son estadísticos de contraste
diseñados para comparar curvas de supervivencia de grupos poblacionales que
experimentan eventos recurrentes. Se trata de estadísticos ponderados y generalizados,
desarrollados para comparar dichas curvas los casos de dos o más grupos. La idea de
nuestras propuestas están centrada en la generalización de los estadísticos de
comparación ponderados del análisis de supervivencia clásico al caso recurrente. Las
estimaciones de las funciones del análisis de supervivencia son realizadas a través del
modelo GLPE propuesto por Peña et al. (2001).
21. Capitulo I. El problema
______________________________________________________________________
1
Capitulo I. EL PROBLEMA
1.1 PLANTEAMIENTO DEL PROBLEMA
El análisis de supervivencia esta formado por un conjunto de procedimientos
estadísticos que permiten analizar datos en los cuales la variable de estudio es el tiempo
que transcurre desde un momento inicial hasta que se produce un evento determinado en
ciertas unidades de estudio. El suceso puede describir muertes, nacimientos,
enfermedades, descubrimientos, empleos, fallas, ataques terroristas, matrimonios,
divorcios, delitos o cualquier otro acontecimiento de interés. Hasta la década de los
ochenta, los estudios de supervivencia se habían realizado considerando la ocurrencia de
un solo evento por unidad de estudio. Este tipo análisis, actualmente se conoce como
análisis supervivencia clásico. En estas últimas cuatro décadas investigadores como:
Prentice et al. (1981), Andersen-Gill (1982) y Wei et al. (1989), diseñaron un
conjunto de estimadores donde la ocurrencia del evento podría presentarse según un
esquema recurrente. Los modelos de supervivencia propuestos por estos autores entran,
dentro de la clasificación de modelo tipo Cox (1972), adaptados al ámbito recurrente.
Recientemente, autores como Wang-Chang (1999), Peña et al. (2001), Peña-Slate
(2005) y Peña E. (2006), han diseñado un conjunto de modelos para resolver algunos
problemas en el manejo de datos de supervivencia de carácter recurrente. En los dos
primeros, se abordan aspectos como la dependencia entre tiempos de ocurrencia del
evento, heterogeneidad en datos muestrales y el manejo de la variable tiempo de
ocurrencia del primer evento. Los modelos mencionados entran en la clasificación de
modelos no paramétricos y/o modelos de fragilidad. Los modelos dinámicos que son
otros tipos de modelos del análisis de supervivencia no son considerados en este trabajo.
Cuando se realizan estudios del análisis de supervivencia los investigadores;
generalmente se centran en dos objetivos primordiales: las estimaciones de las
funciones de supervivencia y riegos y la comparación de estas funciones en subgrupos
poblacionales. El análisis clásico dispone de herramientas estadísticas suficientemente
potentes para realizar estos análisis, cada una de las cuales apunta hacia la resolución de
problemas como la estimación de la función de supervivencia (S), la estimación de la
función de riesgo instantáneo (h ó λ), la estimación de la función de riesgo acumulado
(H ó Λ) y la comparación de grupos poblacionales. Entre los modelos más conocidos y
22. Capitulo I. El problema
______________________________________________________________________
2
utilizados en las estimaciones de las funciones del análisis, se encuentran los modelos
actuariales, el modelo de Kaplan-Meier (1958) y el modelo de Cox (1972). En
relación al problema de comparación de subgrupos poblacionales se han diseñado varias
pruebas entre las que destacan las de Mantel-Haenszel (1959), Gehan (1965), Mantel
(1966), prueba de Kruskal-Wallis propuesta por Breslow (1970), Peto-Peto (1972),
Cox (1972), Tarone-Ware (1977), Prentice (1978), Fleming et al. (1987) y Fleming-
Harrington (1991).
La naturaleza y estructura de los datos en los estudios de supervivencia con eventos
recurrentes difiere de la estructura de los datos del análisis clásico. Utilizar técnicas que
han sido diseñadas bajo otros esquemas, sin considerar el ámbito de esas nuevas
estructuras, tienden a conducir a decisiones erróneas, sesgadas e ineficientes. Fleming-
Lin (2000), presentaron una investigación donde señalan una variedad de trabajos que
se han desarrollado en la disciplina a lo largo de la historia, en los que se describen los
avances y el rumbo que han tomado estas nuevas investigaciones. Manifiestan el interés
y la necesidad que existe de masificar el conocimiento, uso y aplicación de estas nuevas
herramientas, y resaltan los problemas que se han presentado en cuanto al uso de
notaciones no estandarizadas.
Recientemente se han diseñado modelos para tratar el problema de estimación de las
funciones del análisis de supervivencia en el campo recurrente. Sin embargo, existe una
serie de problemas y situaciones particulares a las que aún no se les ha dado respuestas
satisfactorias y en esa dirección muchos investigadores han dirigido sus esfuerzos. Uno
de ellos es la comparación de subgrupos poblaciones con eventos recurrentes analizados
con técnicas del análisis de supervivencia. La necesidad de comparar grupos con
eventos recurrentes existe y aunque no se ha manifestado ese interés en forma explicita
es una realidad a la que hay buscarle soluciones. Estas necesidades se incrementarán en
la medida que surjan nuevos modelos para este tipo de análisis y se tenga mayor
conocimiento de su uso. En una extensa revisión bibliográfica sobre el manejo de
comparaciones de grupos con datos recurrentes sólo se logró encontrar tres tipos de
propuestas: Pepe-Cai (1993), Glynn-Buring (1996) y Daganaksoy-Nelson (1998).
Pepe-Cai proponen una prueba de comparación para las funciones de las razones
de recurrencia del evento o razones de riesgo en dos muestras basada en la prueba
de comparación logrank de Mantel-Haenszel. Glynn-Buring (1996) manifestaron la
23. Capitulo I. El problema
______________________________________________________________________
3
necesidad que existía de disponer de técnicas estadísticas correctas para comparar
grupos poblacionales o grupos tratados con eventos de carácter recurrente y proponen
un índice de medición para realizar esa comparación. La última de estas propuestas fue
hecha por Doganaksoy-Nelson (1998) y se refiere a un método de comparación basado
en las estimaciones de las funciones de la razón acumulada de ocurrencia del evento.
Esta propuesta fue publicada en línea en la red de Internet a mediados del año 2006.
Creemos sin embargo, que el problema de comparación con datos recurrentes no se ha
tratado a fondo y falta mucho por desarrollar al respecto. Existe un vacío con relación al
tema que es necesario llenar y dar una solución en concreto. El problema de
comparación de grupos en el campo recurrente es una necesidad y aunque no se ha
manifestado abiertamente de manera explícita, quizás por lo reciente de los estudios en
fenómenos con patrones de recurrencia y por el desconocimiento de estas nuevas
técnicas la necesidad existe. Cualquier aporte que se haga en este campo, contribuirá a
mejorar y a enriquecer esta área de investigación y será de gran provecho para el
avance y el desarrollo de esta disciplina.
En este trabajo se plantea la problemática de comparación de curvas de supervivencia
en grupos que experimentan eventos recurrentes y se diseñan estadísticos que se ajustan
a estas nuevas estructuras de datos. El objetivo principal consiste en proponer
estadísticos de contraste para realizar la comparación. En la investigación se estudiará el
comportamiento de dichos estadísticos bajo diferentes esquemas distribucionales. Se
diseñaran programas computacionales para realizar las estimaciones de los estadísticos
propuestos, la comparación de subgrupos poblacionales, el cálculo de la potencia de las
pruebas y las estimaciones de los errores.
24. Capitulo I. El problema
______________________________________________________________________
4
1.2 OBJETIVOS DE LA INVESTIGACIÓN
1.2.1 OBJETIVO GENERAL
Proponer y evaluar procedimientos estadísticos de comparación de curvas de
supervivencia de grupos poblacionales que experimentan fenómenos con eventos de
naturaleza recurrente.
1.2.2 OBJETIVOS ESPECIFICOS
1.2.2.1 Proponer estadísticos de contraste para comparar curvas de supervivencia en
fenómenos con datos de naturaleza recurrente, para el caso de dos grupos.
1.2.2.2 Evaluar algunas propiedades de los estadísticos de contraste propuestos para el
caso de dos grupos a través de datos simulados bajo diferentes esquemas
distribucionales.
1.2.2.3 Proponer estadísticos de contraste para comparar curvas de supervivencia con
datos de naturaleza recurrente para el caso de k grupos.
1.2.2.4 Evaluar algunas propiedades estadísticas de los estimadores de contraste
propuestos para el caso de k grupos haciendo uso datos simulados bajo
diferentes escenarios distribucionales.
1.2.2.5 Diseñar herramientas automatizadas bajo el lenguaje de programación R que
permitan calcular los estadísticos de contraste propuestos.
1.2.2.6 Evaluar la sensibilidad de los estadísticos propuestos bajo diferentes supuestos
distribucionales.
25. Capitulo I. El problema
______________________________________________________________________
5
1.3 JUSTIFICACIÓN DEL ESTUDIO
La teoría de supervivencia aplicada a fenómenos con eventos recurrentes es reciente y
comparada con la teoría clásica es muy poco lo que se conoce al respecto. Estudios
reciente sobre el tema, como el realizado por Fleming-Lin (2000), reflejan que la
demanda de conocimiento en esta área de investigación se ha incrementando, hasta el
punto de que la curiosidad de conocer sobre el tema se ha convertido en una necesidad.
Algunos autores como Prentice, Andersen-Gill, Wei, Peña y Wang-Chang, han
propuesto estimadores de curvas de supervivencia con eventos recurrentes. Sin
embargo, en el área de comparación es poco lo que se ha avanzado. Con este trabajo
pretendemos poner a disposición de los investigadores, herramientas útiles y valiosas
que puedan contribuir en campos tan diversos como la Biomedicina (enfermedades), la
Ingeniería (tiempo de fallas o confiabilidad) y las Ciencias Sociales (Eventos de vida).
Creemos que los resultados de esta investigación representan un modesto pero
importante aporte en el análisis de supervivencia.
Queremos insistir en que la particularidad de la estructura de datos en los estudios de
supervivencia con eventos recurrentes demanda la aplicación de técnicas de análisis que
introduzcan explícitamente esa condición. Este hecho permitiría obtener modelos más
adecuados, que a su vez redundarían en una toma decisiones de mayor validez y
pertinencia.
26. Capitulo I. El problema
______________________________________________________________________
6
1.4 ALCANCE Y LIMITACIONES DEL ESTUDIO
En este trabajo se pretende generalizar específicamente los procedimientos clásicos de
comparación basados en las pruebas de Mantel-Haenszel, Gehan, Breslow, Tarone-
Ware, Peto-Peto, Prentice, Fleming et al. y Fleming-Harrington, a problemas con
eventos recurrentes tanto para el caso de comparación de dos grupos como para el caso
de k-grupos. En la investigación se estudiarán modelos de supervivencia no
paramétricos y los semiparamétricos. No se considerarán los modelos paramétricos
aunque se tendrán como referencia general. Los modelos de supervivencia con eventos
recurrentes a considerar en la investigación serán los modelos propuestos por Prentice
et al. (1981), Andersen-Gill (1982), Wei et al. (1989), Wang-Chang (1999) y Peña et
al. (2001). La notación utilizada para el desarrollo de los estadísticos de comparación de
las curvas de supervivencia será la propuesta por Peña et al. (2001). Las limitaciones
más importantes para este estudio son lo reciente de las investigaciones sobre el área, el
grado de especialización del tema, la escasez de literatura y la poca disponibilidad de
datos con la estructura adecuada. En cuanto al manejo de los datos, se incluirán los
datos completos de supervivencia y los datos censurados por la derecha.
En los estudios realizados en esta área se han utilizado diferentes programas
computacionales como STATA, NCSS, SAS, Minitab, SPSS, S-Plus y R, entre otros.
En la revisión de estos programas se logró determinar que ninguno de ellos abarca en su
totalidad los modelos del análisis de supervivencia con eventos recurrentes. Por este
motivo nos hemos visto en la necesidad de diseñar rutinas propias en lenguaje R, que
permitan realizar los diferentes análisis, considerando los modelos de trabajo e
incluyendo las pruebas de comparación propuestas en el trabajo. Se diseñarán además
programas que permitan generar bases de datos con diferentes esquemas
distribucionales que simulen situaciones reales y que permitan realizar los análisis
correspondientes.
27. Capitulo II. Marco Teórico
______________________________________________________________________
7
Capitulo II. MARCO TEÓRICO
2.1 Bases teóricas
2.1.1 ¿En que consiste el análisis de supervivencia?
El término supervivencia proviene del hecho que en sus inicios este tipo de análisis era
aplicado en el área médica y el evento de estudio era el evento “muerte”. Con el
transcurrir del tiempo, los investigadores en el área médica comenzaron a aplicarlo en
otro tipo de fenómenos, como la aparición de enfermedades no letales en seres vivos.
Posteriormente su uso se hizo extensivo a otras áreas de aplicación, como la Sociología,
Sicología, Ingeniería, Biología, Bioingeniería, Física y Astronomía. Cuando el análisis
es aplicado en el contexto de la Ingeniería, se ha convenido en denominarlo análisis de
confiabilidad y se utiliza básicamente para modelar el tiempo entre “fallas” en
maquinarias y equipos. En términos generales podría decirse que el análisis de
supervivencia forma parte de los estudios longitudinales, siendo el tiempo que
transcurre hasta la aparición de eventos la variable que se modela. En los análisis de
supervivencia hay que definir un período de observación para cada unidad bajo estudio.
Este período de observación consta de un momento de inicio que se conoce como
origen y un momento final que culmina con la ocurrencia del evento o con una censura.
Debido a que el tiempo es una variable aleatoria continua, en principio se podría pensar
que el análisis de supervivencia podría ser estudiado mediante técnicas de regresión
clásica. Sin embargo, existen dos dificultades de peso que no lo permiten. La primera
razón, es que el tiempo es una variable aleatoria positiva que no se distribuye
normalmente. La segunda es el fenómeno de la censura, que impide la realización de
transformaciones para normalizar la variable. Las censuras son fenómenos que impiden
observar el tiempo total de ocurrencia del evento en la unidad de investigación durante
el período de observación establecido.
Los objetivos del análisis de supervivencia se pueden resumir de la siguiente manera:
1. Estimar e interpretar la función de supervivencia y las funciones de riesgo.
2. Determinar los efectos de las variables explicativas sobre el tiempo de
ocurrencia.
3. Predecir la probabilidad de ocurrencia en ciertas unidades bajo estudio, dados
ciertos valores de las variables explicativas.
4. Comparar funciones del análisis de supervivencia de subgrupos poblacionales.
28. Capitulo II. Marco Teórico
______________________________________________________________________
8
2.1.2 Áreas de aplicación del análisis de supervivencia
El análisis de supervivencia forma parte de la Estadística, disciplina que ha
experimentado acelerados avances en la segunda mitad siglo XX y en lo que va del
siglo XXI. Fleming-Lin (2000) publican un artículo donde destacan estos avances y
señalan los importantes progresos en el área, destacando los trabajos de mayor
relevancia. En sus artículos los autores reseñan numerosas áreas donde se ha aplicado
el análisis de supervivencia con indiscutible éxito, cabe mencionar: Biomedicina,
Ingeniería, Bioingeniería, Sicología, Física, Química, Astronomía, Ciencias Sociales,
Agronomía, Investigaciones Policiales, Investigaciones Médicas, eventos de vida,
Sociología, Política, Industria y el área militar.
A continuación, en la tabla 2.1 se enumera una lista de algunos de estos casos, la mayor
parte de ellos citados por Nelson (2003):
Tabla 2.1. Áreas de aplicación del análisis de supervivencia
Área Año Autor(es) Descripción
Médica 1963
Freireich
et al.
Estudio del tiempo de readmisión en una prueba clínica a pacientes
enfermos con leucemia.
Médica 1980
Kalbfleisch
Prentice
Análisis de supervivencia a un grupo de 40 ratas a las que se
alimentó con dos tipos de dieta y a las que se expuso al carcinógeno
DMBA
Médica 1980 Kirk et al.
Prueba clínica hecha a 44 pacientes con hepatitis donde se comparó
un grupo placebo con uno tratado con la droga prednisolona
Médica 1980 Byar
Estudio de la reaparición de tumores en pacientes enfermos con
cáncer de vejiga y otros tópicos urológicos-oncológicos
Médica 1991 Aalen
Análisis de supervivencia a 19 pacientes a quienes se les estudió la
motilidad del intestino delgado y se les determinó la mediana del
tiempo de reaparición del fenómeno
Médica 1992
Lee
et al.
Estudio de supervivencia a 312 pacientes enfermos con diabetes a
los que se midió las variables hipertensión, BMI y proteinuria, entre
otras.
Financiera 1998
Anastasi
et al.
Utilización de las técnicas de análisis de supervivencia para anticipar
problemas en una entidad financiera. Argentina 1994-1997
Médica 2003 Lee Wang
Análisis de supervivencia a 30 pacientes con presencia de
melanoma, comparando la inmunoterapia BCG y CP para medir la
capacidad de prolongar la readmisión y la supervivencia
29. Capitulo II. Marco Teórico
______________________________________________________________________
9
Continuación tabla 2.1
Social 2003
García
et al.
Análisis de supervivencia para modelar el tiempo
transcurrido hasta que un egresado obtiene el primer empleo
significativo. Los datos utilizados corresponden a la cohorte de
egresados, 1997-2000, de la titulación “Diplomatura en Enfermería
de la Universidad Católica San Antonio de Murcia”.
Social 2005
Bucheli
Vigna
Un estudio de los determinantes del divorcio en Uruguay
Industria 2006
Borges
Luzardo
Modelos de eventos recurrentes aplicados a la industria de
producción de aluminio.
Economía 2007
Ayala
et al.
Verificación de los Supuestos del Modelo de Cox. Caso de Estudio:
Banca Comercial venezolana 1996 – 2004.
2.1.3 Datos censurados del análisis de supervivencia
Una característica muy común en los estudios de supervivencia es que algunos
individuos no experimentan el evento de interés durante el período de estudio. Los datos
de supervivencia provenientes de estos individuos se conocen como datos censurados.
Las censuras son fenómenos que impiden observar el tiempo exacto de supervivencia
en la unidad de investigación durante el período de observación y serán denotadas con
la letra “C”, de modo que “ci” representará el tiempo censurado en la i-ésima unidad.
Entre los diferentes motivos por los que los datos pueden estar censurados se pueden
mencionar: los abandono o retiro, pérdida parcial de información y la no ocurrencia del
evento durante el período de observación. Un ejemplo es el caso de un individuo a
quien se le esta haciendo un seguimiento de una enfermedad en un experimento y éste
deja de acudir a las revisiones médicas por cambio de localidad. La no ocurrencia del
evento durante el período de observación es la causa de censura más común en este tipo
de estudio. En esta unidad se desconoce el verdadero tiempo de supervivencia y sólo se
sabe que es mayor que su tiempo de observación.
Las censuras se pueden clasificar en tres tipos: censura por la derecha, censura por la
izquierda y censura por intervalo. Cuando culmina el período de estudio y no se puede
observar la ocurrencia del evento en la unidad, se dice que el dato está censurado por la
derecha. La figura 2.1 muestra los datos de supervivencia de cinco unidades
experimentales.
30. Capitulo II. Marco Teórico
______________________________________________________________________
10
Figura 2.1. Representación gráfica de datos censurados y no censurados.
La ocurrencia del evento se describe con “x” y la censura con “o”. Se puede apreciar
que las unidades 1, 3 y 5 experimentaron el evento, mientras que las unidades 2 y 4 no
lo experimentaron. La unidad 2 corresponde al típico dato censurado por la derecha y
las unidades 1 y 3 corresponden a datos no censurados. Observe que aún cuando la
unidad 5 experimentó el evento, este dato esta censurado por la izquierda. Por su parte,
la unidad 4 está doblemente censurada, tanto por la izquierda como por la derecha. Este
tipo de censura, conocida como censura por intervalo, no es muy frecuente aunque no es
nula la probabilidad de encontrarlo.
En los estudios de supervivencia se asume que las unidades censuradas se comportan
del mismo modo que las que experimentan el evento durante el período de observación.
Se supone además que las censuras ocurren en forma aleatoria y no de manera
intencional. Si una unidad fuese retirada antes de tiempo por voluntad de alguien,
indirectamente se estaría afectando la información acerca del pronóstico de
supervivencia de la unidad, produciéndose sesgos en el modelo. Si esto ocurre, se dice
que la censura es de tipo informativo; el resto de las censuras son censuras de tipo no
informativo. Por lo general no importa la cantidad de datos censurados que intervienen,
lo relevante es que las censuras sean no informativas.
31. Capitulo II. Marco Teórico
______________________________________________________________________
11
2.1.4 Funciones del análisis de supervivencia
En el análisis de supervivencia la variable aleatoria tiempo (T) tiene asociada una serie
de funciones fundamentales. En primer lugar mencionaremos la función de densidad de
probabilidad (fdp), denotada por ƒ, y la función de distribución acumulada (fda),
denotada por F.
( ) ( )0
t
F t f s ds= ∫ (2.1)
(a) (b)
(c) (d)
Figura 2.2. Representación gráfica de algunas funciones de densidad de probabilidades.
La figura 2.2 muestra la representación gráfica de algunas funciones de densidad de
probabilidad conocidas: (a) exponencial, (b) gamma, (c) weibull y (d) chi-cuadrado.
2.1.4.1 Función de supervivencia
La función de supervivencia se denota con la letra mayúscula S y se define como la
probabilidad de que la unidad en estudio experimente el evento después de transcurrido
un tiempo t.
32. Capitulo II. Marco Teórico
______________________________________________________________________
12
Esta función se puede expresar como:
( ) [ ]S t P T t= > (2.2)
A partir de las expresiones (2.1) y (2.2), se deduce que:
( ) ( )1S t F t= − (2.3)
y en consecuencia, S es una función positiva, decreciente y tal que cuando t → 0,
entones S(t) → 1, y cuando t → ∞, entonces S(t) → 0.
Figura 2.3. Representación gráfica de algunas funciones de supervivencia.
La figura 2.3 muestra las curvas correspondientes a tres funciones de supervivencia de
S1(t), S2(t) y S3(t). Observe que las tres curvas son decrecientes, unas más acentuadas
que otras.
2.1.4.2 Función de riesgo instantáneo
En términos intuitivos, la función de riesgo instantáneo viene siendo la razón de
ocurrencia del evento por unidad de tiempo. Algunos autores la denotan con la letra
griega λ y otros con la letra h, que será la notación que utilizaremos en este trabajo.
Esta función se define como la probabilidad instantánea de ocurrencia del evento en un
33. Capitulo II. Marco Teórico
______________________________________________________________________
13
intervalo de tiempo de longitud infinitesimal ∆t, asumiendo que la unidad no ha
experimentado el evento o ha sobrevivido hasta el momento t (ver expresión 2.4).
( )
( )/
, 0
0
P t T t t T tlim
h t t
t t
≤ < +∆ >
= ∀ ≥
∆ → ∆
(2.4)
Utilizando el concepto de probabilidad condicional, se tiene que:
( )
( )
( )
/
P t T t t
P t T t t T t
P T t
< < +∆
≤ < +∆ > =
>
que es equivalente a:
( )
( ) ( )
( )
/
F t t F t
P t T t t T t
S t
+∆ −
≤ < +∆ > =
Si se sustituye esta relación en la expresión (2.4) y se toma el límite cuando ∆t → 0, se
demuestra que la función de riesgo instantáneo se puede expresar en términos de la
función de densidad f y la función de supervivencia S, tal y como se aprecia a
continuación en la expresión (2.5):
( )
( )
( )
f t
h t
S t
= (2.5)
A esta función se le ha denominado de diversas maneras: razón instantánea de falla,
fuerza de mortalidad, razón condicional de falla y razón de falla en edad específica,
entre otras. La función de riesgo juega un papel importantísimo en el análisis de
supervivencia y es una de las funciones de mayor utilidad. De la expresión (2.4) se
puede decir que la cantidad h(t)∆t representa la proporción de individuos con edad t,
que pueden experimentar el evento en el intervalo de tiempo [t, t+∆t).
La figura 2.4 muestra tres curvas de riesgo instantáneo, h1(t), h2(t) y h3(t). La función de
riesgo h1(t) representa el caso de unidades con riesgo instantáneo monótonamente
creciente en el tiempo, la función de riesgo h3(t) muestra un riesgo instantáneo
monótonamente decreciente y la función de riesgo h2(t) muestra un riesgo instantáneo
constante en el tiempo.
34. Capitulo II. Marco Teórico
______________________________________________________________________
14
Figura 2.4. Representación gráfica de funciones de riesgo instantáneo.
2.1.4.3 Función de riesgo acumulado
La función de riesgo acumulado como su nombre lo indica, representa el acumulado
del riesgo instantáneo en el intervalo [0,t]. Algunos autores lo denotan con la letra
griega Λ y otros con la letra mayúscula H, que es la que utilizaremos en esta tesis H.
Así, si se consideran escalas continuas de tiempo:
( ) ( )0
t
H t h s ds= ∫ (2.6)
y para escalas discretas de tiempo:
( ) ( )z z
T tz
H t h T T
∀ ≤
⎡ ⎤
= ∆⎢ ⎥
⎣ ⎦
∑ (2.7)
En la figura (2.5) se pueden observar algunas de las gráficas de funciones de riesgo
acumulado más comunes en problemas del análisis de supervivencia:
35. Capitulo II. Marco Teórico
______________________________________________________________________
15
Figura 2.5. Representación gráfica de las funciones de riesgos acumulados.
Las tres curvas son monótonamente crecientes, pero las tasas de crecimiento en las tres
curvas son diferentes. En la primera, la curva de riesgo acumulado H1(t), representa el
caso de unidades con riesgo instantáneo o razón de riesgo que crece con mayor rapidez
al transcurrir el tiempo. Lo contrario sucede en la curva H3(t), que representa el caso de
unidades con riesgo instantáneo o razón de riesgo instantáneo que decrece con el
tiempo y la curva H2(t), que representa el caso de unidades con riesgo instantáneo o
razón de riesgo instantáneo constante en el tiempo.
2.1.4.4 Relaciones entre las funciones del análisis de funciones
En los estudios de supervivencia es muy frecuente utilizar las relaciones entre el
conjunto de funciones básicas. Es muy común conseguir en la bibliografía relaciones
entre f(t), F(t), S(t), h(t) y H(t). Por ejemplo, a partir de la expresión 2.1, se puede decir
que:
( ) ( )
d
f t F t
dt
= (2.8)
Como: F(t) =1 - S(t), entonces : F´(t)= - S´(t), por lo tanto,
( ) ( )
d
f t S t
dt
=− (2.9)
Si se sustituye f(t) de la expresión (2.9), en la expresión (2.5), se obtiene que:
36. Capitulo II. Marco Teórico
______________________________________________________________________
16
( )
( )
( )
'S t
h t
S t
=− (2.10)
En consecuencia,
( ) ( )
d
h t Ln S t
dt
⎡ ⎤=− ⎣ ⎦ (2.11)
Por otro lado, como el riesgo acumulado es la integral del riesgo instantáneo (ver
expresión (2.6)), entonces se puede decir que:
( ) ( )
d
h t H t
dt
= (2.12)
Igualando las expresiones 2.11 y 2.12 y desarrollando, se tendrá que,
( ) ( )H t Ln S t⎡ ⎤=− ⎣ ⎦ (2.13)
Así, se si despeja S(t) de la expresión 2.13, se tendrá que:
( )
( )-
e
H t
S t = (2.14)
que es equivalente a:
( )
( )0
e
t h s ds
S t
−∫
= (2.15)
Esto nos indica que todas las expresiones anteriores guardan estrechas relaciones entre
sí. Conociendo alguna de las funciones (f(t), F(t), S(t), h(t) o H(t))se puede obtener el
resto de ellas.
2.1.4.5 Medidas descriptivas del análisis de supervivencia
La mediana es una de las medidas descriptivas de tendencia central más utilizadas para
caracterizar las distribuciones de los tiempos de supervivencia poblacionales o
muestrales. Cuando se estima una función de supervivencia de grupos o subgrupos
poblacionales es prácticamente obligatorio estimar la mediana de los tiempos de
supervivencia. Esta medida indica el tiempo en el cual el 50% de unidades en estudio no
ha experimentado la ocurrencia del evento, o dicho de otra manera, indica el momento tz
en el cual la supervivencia S(tz) es igual a 0.5. Como la función de supervivencia es
37. Capitulo II. Marco Teórico
______________________________________________________________________
17
estimada en momentos puntuales de tiempo, digamos tz para z=1,2,…,p, no siempre es
posible determinar el momento exacto cuando la supervivencia es igual a 0.5. En este
caso, la mediana se define como el tiempo de supervivencia más pequeño en el cual el
valor estimado de la función de supervivencia es al menos 0.5. En términos
matemáticos:
( ){ }ˆ / 0.5z z z
t min t S t= ≤ (2.16)
Un procedimiento similar se describe cuando se desea estimar cualquier percentil de la
distribución de los tiempos de supervivencia. El p-ésimo percentil de la distribución de
los tiempos de supervivencia se define como:
( ){ }ˆˆ / 1 /100z z z
t min t S t p= ≤ − (2.17)
Otras medidas descriptivas útiles para la interpretación en el análisis de supervivencia
son el tiempo promedio de supervivencia y la tasa promedio de riesgo.
El tiempo promedio de supervivencia (T ) se determina como:
1
n
j
j
T
T
n
=
=
∑
(2.18)
donde, j
T es el tiempo de supervivencia de la j-ésima unidad y n es el número de
unidades que experimentan el evento.
El riesgo instantáneo promedio (h ) se determina como:
1
n
j
j
Número total de ocurrencias
h
T
=
=
∑
(2.19)
Para mayores detalles sobre medidas descriptivas de la distribución de los tiempos de
supervivencia y sus intervalos de confianza, ver Collet (2003) o Kleinbaum-Klein
(2005).
38. Capitulo II. Marco Teórico
______________________________________________________________________
18
2.1.5 Métodos de estimación del análisis de supervivencia
Cuando el análisis de supervivencia se realiza considerando sólo una única ocurrencia
del evento por unidad bajo estudio se le conoce como análisis de supervivencia clásico.
En este tipo de análisis, generalmente se intenta alcanzar tres tipos de objetivos: la
estimación de la función de supervivencia, las estimaciones de las funciones de riesgo y
la comparación de las curvas de supervivencia en grupos poblacionales. Entre los
autores que han hecho aportes importantes en la modelación y estimaciones de las
funciones de supervivencia clásica, se encuentran Bhomer (1912), Cutler-Ederer
(1958), Berkson-Gage (1950), Kaplan-Meier (1958), Altshuler (1970), Cox (1972),
Prentice (1978), Prentice-Marek (1979), Aalen (1978), Nelson (1970), Fleming et al.
(1980), Andersen et al. (1982), Harris-Albert (1991), Moreau (1992), Hosmer-
Lemeshow (1999). En el ámbito de comparación de curvas de supervivencia, los
autores que sobresalen son Mantel-Haenszel (1959), Gehan (1965), Mantel (1967),
Breslow (1970), Cox (1972), Peto-Peto (1972), Tarone-Ware (1977), Prentice
(1978), Tarone (1981), Fleming et al. (1980), Fleming-Harrington (1991) y más
recientemente, Moreau et al. (1992). Los trabajos de estos autores son la base del
desarrollo de esta disciplina y han sido de gran utilidad en muy diversos campos de la
actividad científica.
En las últimas cuatro décadas, investigadores como Prentice et al. (1981), Andersen-
Gill (1982) y Wei et al. (1987), estudiaron casos de ocurrencias de evento que se
presentan según un esquema recurrente y propusieron nuevos modelos para describir
estas nuevas situaciones no consideradas en los modelos clásicos. Recientemente,
Wang-Chang (1999) y Peña (2001) han propuesto modelos no paramétricos para
resolver algunos problemas en el manejo de datos en la supervivencia en el campo
recurrente. En sus modelos los autores tratan los problemas de la dependencia entre
tiempos de ocurrencia del evento, la heterogeneidad de datos muestrales y el manejo de
la primera ocurrencia del evento.
Las técnicas y métodos diseñados para el análisis de supervivencia se pueden clasificar
en dos grandes grupos: los métodos de estimación del análisis clásico y los métodos de
estimación en el ámbito recurrente. Los métodos clásicos, a su vez, están enmarcados
39. Capitulo II. Marco Teórico
______________________________________________________________________
19
en tres subclases: los no paramétricos, los paramétricos y los semiparamétricos. Por su
parte, los métodos de estimación en el ámbito recurrente pueden clasificarse en cuatro
grandes subgrupos: los semiparamétricos, los no paramétricos, los métodos de
fragilidad y los dinámicos. En esta tesis nos centraremos en la descripción y análisis de
los métodos no paramétricos y semiparamétricos, haciendo más énfasis en los no
paramétricos.
40. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________________
20
Capitulo III. MODELOS CLÁSICOS DEL ANÁLISIS DE SUPERVIVENCIA
3.1 Orígenes del análisis de supervivencia
Los estudios científicos formales del análisis de la supervivencia surgieron en el siglo XX,
experimentaron avances importantes durante la segunda mitad del mismo siglo y actualmente su
desarrollo sigue en crecimiento. Son muchos los investigadores que se han dedicado a desarrollar
la teoría del análisis de supervivencia a lo largo de su relativa y corta historia. Entre los métodos
de análisis de mayor relevancia e impacto podemos citar: el método actuarial de supervivencia
de Cutler-Ederer (1958), la propuesta de la estimación de la función de supervivencia de
Kaplan-Meier (1958), los modelos de supervivencia de riesgos proporcionales de Cox (1972) y
mucho más recientemente los modelos de supervivencia con eventos recurrentes.
El desarrollo del método actuarial, cuyos orígenes remontan al siglo XV, no puede atribuirse a
un único autor. Entre sus precursores debe destacarse en primer lugar a John Graunt, quien en
su época, (1662) publicó reportes semanales de nacimientos y muertes observados en la ciudad
de Londres, identificando patrones en las causas de muerte en diferentes zonas rurales y urbanas
de la población. Graunt fue quien propuso las primeras Tablas de Vida, y construyó y publicó
las primeras Tablas de Mortalidad de la ciudad de Londres (1662), a las que denominó “Natural
and Political Observations Mentioned in a following Index, and made upon the Bills of
Mortality”. John Graunt fue un hombre extraordinariamente audaz e inteligente. Disponiendo
de información mínima logró inferir, entre otras cosas, que regularmente nacían más hombres
que mujeres, que había una clara variación estacional en la ocurrencia de las muertes y que 36%
de los nacidos vivos morirían antes de cumplir los seis años. Con ello, Graunt dio los primeros
pasos para el desarrollo de las actuales tablas de vida.
Otro gran precursor de los estudios de sobrevivencia fue el economista británico William Petty.
Músico, médico y amigo de Graunt, publicó también trabajos relacionados con los patrones de
mortalidad, natalidad y enfermedad entre la población inglesa y propuso, por primera vez, la
creación de una agencia gubernamental encargada de la recolección e interpretación sistemática
de la información sobre nacimientos, casamientos y muertes, y de su distribución según sexo,
edad, ocupación, nivel educativo y otras condiciones de vida. También sugirió la construcción de
41. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________________
21
tablas de mortalidad por edad de ocurrencia, anticipándose al desarrollo de las actuales tablas
usadas para comparar poblaciones. Esta manera de tratar la información poblacional fue
denominada por Petty "Aritmética Política". También debe mencionarse entre los pioneros del
estudio de la sobrevivencia a Halley (1693).
Las tablas de vida son un procedimiento clásico para describir la mortalidad que
experimenta una población. Hoy en día estas tablas siguen siendo una herramienta muy utilizada
en campos como la demografía o los seguros de vida. El objetivo de una tabla de vida es
expresar el patrón de mortalidad que experimenta un colectivo de individuos en unas condiciones
dadas. Se distinguen dos tipos de tablas: las poblacionales, que son una herramienta de carácter
fundamentalmente descriptivo, y las actuariales, que generalmente se utilizan para estimar la
curva de supervivencia a partir de muestras.
3.2 Modelos Actuariales
Los modelos actuariales de supervivencia son modelos clásicos, no paramétricos, cuyo origen no
está claramente precisado. Algunos investigadores se lo atribuyen a Bhomer (1912), otros a
Berkson-Gage (1950) y otros a Cutler-Ederer (1958). Las tablas de vida actuariales han sido
ampliamente utilizadas en datos clínicos por muchas décadas. Gehan (1969) provee métodos
para estimar las tres funciones de supervivencia (supervivencia, densidad y riesgo). Los métodos
de tablas de vida requieren que el número de observaciones sea lo suficientemente grande para
poder agruparlos en intervalos, con la finalidad de mejorar las estimaciones. También son útiles
en aquellos casos en los que no se dispone de los tiempos exactos de ocurrencia del evento y la
información se encuentra agrupada en intervalos de tiempo. Los datos de mortalidad para un país
determinado son un ejemplo de ello ya que la información de varios años se suele agrupar en
intervalos. Para realizar un análisis de supervivencia con estos datos, las estimaciones se suelen
obtener mediante el método actuarial.
3.2.1 Modelo actuarial de Bhomer
Bohmer (1912) publica un trabajo en el que propone utilizar subintervalos de tiempo para
estimar la función de supervivencia. Actualmente, este método entra en la clasificación de los
42. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________________
22
“métodos actuariales de supervivencia” y es adecuado cuando el número de observaciones es
muy grande o cuando no se conocen los tiempos de ocurrencia exactos. La metodología de
estimación mediante tablas actuariales son antiguas, pero los estudios teóricos de las propiedades
de los estimadores correspondientes son bastante recientes. En la actualidad, nuevos estudios y
nuevos aportes sobre este tema aún están por realizarse.
En el método actuarial, el tiempo de observación esta definido por el intervalo [t1,tp+1). Donde, t1
es el momento inicial del período de observación, que es igual a cero, y tp+1 es el mayor de los
tiempos de supervivencia de las unidades bajo estudio. En teoría se puede suponer que tp+1 tiende
a infinito. En los estudios actuariales es necesario definir un período de estudio adecuado al
fenómeno observado. No es conveniente, por ejemplo, fijar un tiempo de observación de 300
años para el estudio del tiempo de vida de una persona. El tiempo de observación se divide
convenientemente en p subintervalos, independientes entre sí y no solapados, tal y como se
muestra a continuación:
└─────┴─────┴─────┴───────┴─────┴─────►
t1=0 t2 t3 t4 …. tp-1 tp ∞
Figura 3.1. Representación gráfica de los p subintervalos del período de observación.
De esta manera cada subintervalo tendrá una longitud igual a bz = tz+1 – tz. Al inicio de cada
subintervalo existen nz individuos a riesgo y durante el transcurso del mismo se producen dz
eventos. Si L es la longitud total del mayor de los periodos de observación en las n unidades
bajo estudio y p el número total de subintervalos a considerar, entonces la longitud del z-ésimo
intervalo, Iz = [tz,tz+1), será igual a L/p. En total serán p subintervalos:
[t1 , t2), [t2, t3), [t3, t4),…, [tp, tp+1)
Si T es la variable aleatoria referida al tiempo de ocurrencia del evento y se quiere definir la
probabilidad de sobrevivir al subintervalo [tz,tz+1), que denotamos por pz, entonces:
pz = P( T ≥ tz+1 / T ≥ tz ) (3.1)
Utilizando el concepto de probabilidad condicional:
43. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________________
23
pz =
)(
)( 1
z
z
tTP
tTP
≥
≥ +
(3.2)
de modo que:
P( T ≥ tz+1 ) = pz x P(T ≥ tz ) (3.3)
En forma análoga:
P( T ≥ tz ) = pz-1 x P( T ≥ tz-1 ) (3.4)
Sustituyendo la ecuación (3.4) en la ecuación (3.3):
P( T ≥ tz+1 ) = pz x pz-1 x P( T ≥ tz-1 ) (3.5)
Si hacemos z =2 en la expresión 3.5 se obtiene:
P( T ≥ t3 ) = p2 x p1 x P( T ≥ t1 ) (3.6)
Si además se asume que P(T ≥ t1 ) = 1, entonces:
P( T ≥ t3 ) = p2 x p1 (3.7)
y como P(T ≥ t3) = P(T > t2), generalizando la expresión 3.6 se obtiene:
P( T ≥ tz+1 ) = pz x pz-1 x ... x p2 x p1 (3.8)
En consecuencia, la función de sobrevivencia:
S( tz ) = ∏=
z
j
jp
1
(3.9)
expresión que permite estimar la probabilidad de sobrevivencia a partir de las estimaciones de
los pj. Bohmer propuso estimar esas probabilidades utilizando la siguiente información:
44. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________________
24
nj = número de unidades experimentales en riesgo al inicio del j-ésimo intervalo.
dj = número de eventos ocurridos en el j-ésimo intervalo.
pj = probabilidad de sobrevivir al intervalo j-ésimo dado que la unidad experimental estaba
en riesgo al comienzo de dicho intervalo.
El estimador de pj se define como:
jpˆ =
j
jj
n
dn −
(3.10)
Si sustituimos la expresión 3.10 en la expresión 3.9, se obtiene que:
)(ˆ
ztS = ∏=
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛ −z
j j
jj
n
dn
1
(3.11)
En este método se asume que:
1.- Existe independencia entre dos intervalos cualesquiera.
2.- No existe pérdida de información.
3.- El número de eventos ocurridos en el j-ésimo intervalo, denotado por dj, se distribuye de
manera uniforme.
4.- Los subintervalos no están solapados
El objetivo principal en el método actuarial de Bhomer consiste en estimar las funciones de
supervivencia y riesgo a partir de los valores de nj y dj. Las estimaciones se realizan con datos
agrupados en subintervalos con un procedimiento muy similar a las tablas de frecuencias. Los
resultados del método actuarial de Bhomer suelen presentarse en tablas normalizadas que
incluyen la siguiente información:
[tj,tj+1) = j-ésimo intervalo
bj = Longitud del j-ésimo intervalo
tmj = punto medio del j-ésimo intervalo
nj = número de unidades experimentales a riesgo al inicio del j-ésimo intervalo.
45. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________________
25
qj = proporción de unidades que experimentan el evento de interés en el j-ésimo
intervalo (qj = dj/nj)
pj = proporción de unidades sobrevivientes al j-ésimo intervalo ( pj = 1 – qj)
f(tmj) = proporción de eventos en el j-ésimo intervalo por unidad de tiempo.
)(ˆ
mjtf =
j
jj
b
tStS )(ˆ)(ˆ
1+−
(3.12)
h(tmj) = tasa instantánea condicional del evento, estimada en el punto medio del j-ésimo
subintervalo.
)(ˆ
mjth =
)(ˆ
)(ˆ
mj
mj
tS
tf
(3.13)
Como las estimaciones se calculan en los puntos medios de los subintervalos, se tiene que:
)(ˆ
mjth =
( )2/jjj
j
dnxb
d
−
(3.14)
Como puede observarse, todas estas estimaciones son sensibles a la longitud de los intervalos, al
número de unidades a riesgo en cada subintervalo y al número de unidades que experimentan el
evento.
3.2.2 Formula de Greenwood
Greenwood (1926) publica un trabajo donde sugiere una metodología que hoy en día permite
determinar la varianza de cualquier estimador de la función de supervivencia, incluyendo el
propuesto por Bhomer (1912). Este método es uno de los más populares y mayormente
utilizados en los programas de computación especializados en el área. El estimador de la
varianza de la función de supervivencia utilizando el método de Greenwood viene dado por:
46. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________________
26
Var[ )(ˆ
ztS ] = [ )(ˆ
ztS ]2
∑= −
z
j jjj
j
dnxn
d
1 )(
(3.15)
y se obtiene a través de un procedimiento denominado método delta. La deducción del
estimador se puede apreciar en el apéndice A de este trabajo. Aplicando un procedimiento
similar se obtienen los estimadores de varianza de los las funciones f(tmz) y h(tmz),los cuales se
muestran a continuación:
Var[ )(ˆ
mjtf ] =
2
ˆ ˆ( )
z z
z
S t xq
b
⎡ ⎤
⎢ ⎥
⎣ ⎦
∑
−
= ⎥
⎥
⎦
⎤
⎢
⎢
⎣
⎡
+
1
1 ˆ
ˆ
ˆ
ˆz
j zz
z
jj
j
qxn
p
pxn
q
(3.16)
Var[ )(ˆ
mjth ] =
[ ]
zz
mz
qxn
th
ˆ
)(
2
⎥
⎥
⎦
⎤
⎢
⎢
⎣
⎡
⎥
⎦
⎤
⎢
⎣
⎡
−
2
)(ˆ
2
1
1 zmz xbthx (3.17)
3.2.3 Modelo actuarial de Berkson-Gage
Berkson-Gage (1950) sugirió una metodología para construir tablas actuariales similar a la de
Bhomer (1912). Estos autores consideraron aspectos que no fueron tomados en cuenta en el
modelo de Bhomer, como las pérdidas y abandonos de las unidades en estudio, que denotaron
por lj y wj respectivamente. Las tablas actuariales de Berkson-Gage se construyen a partir de la
siguiente información:
Muertes número de individuos que fallecen en el j-ésimo subintervalo (dj)
Abandonos número de abandonos o pérdidas en el j-ésimo subintervalo (wj)
A riesgo número de individuos a riesgo al inicio del j-ésimo subintervalo (nj)
Ajuste a riesgo ajuste del número de individuos a riesgo (n’j = nj – wj/2)
P(muerte) probabilidad de muerte de un individuo que ha sobrevivido hasta el inicio
del subintervalo (qj=dj/n’j)
P(sobreviva) probabilidad de que un individuo sobreviva al j-ésimo subintervalo
(pj=1- qj)
47. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________________
27
)(ˆ
ztS = ∏=
z
j
jp
1
ˆ (3.18)
Para hallar intervalos de confianza para S(tz) se utiliza el procedimiento de máxima
verosimilitud y la distribución asintótica de S(tz).
3.2.4 Modelo de Cutler-Ederer
Cutler-Ederer (1958) sugirieron un método relativamente simple y muy práctico para realizar el
cálculo de las estimaciones de las funciones de supervivencia en las tablas de vida. Hoy en día
esta metodología es ampliamente utilizada y se le conoce como método actuarial de
supervivencia de Cutler-Ederer. Se trata de una generalización de las tablas actuariales
propuestas por Bhomer y Berkson-Gage, con la diferencia de que introduce el concepto de
censura. Las tablas actuariales de Cutler-Ederer son utilizadas, con ciertas variantes, en los
programas Minitab, SPSS y NCSS, entre otros. En esta metodología la longitud de los
subintervalos no necesariamente tiene que ser constante y, al igual que los métodos actuariales
anteriores, utiliza tablas normalizadas que facilitan las estimaciones (ver tabla 3.1). A
continuación se detalla la información de dichas tablas:
Columna 1. Descripción del extremo izquierdo del j-ésimo subintervalo (tj). Se considera que
la longitud de los intervalos es finita, con excepción del último.
Columna 2. Número de individuos al comienzo de cada intervalo(n’j)
Columna 3. Número de pérdidas (lj) y/o abandonos (wj ) en el j-ésimo subintervalo
Columna 4. Número de individuos expuestos a riesgo en el intervalo j-ésimo, denotado
por: nj = n’j –(1/2)cj y cj = lj + wj, donde cj son los datos censurados.
Columna 5. Número de individuos que experimentan el evento de interés en el j-ésimo
intervalo (dj)
Columna 6. Proporción de individuos que experimentaron el evento en el j-ésimo intervalo,
(qj = dj / n’j)
Columna 7. Proporción de supervivencia al j-ésimo intervalo (pj = 1 - qj)
Columna 8. Estimación de la función de supervivencia ( S(tj)= pj x S(tj-1) )
Columna 9. Estimación de la función de densidad ( f(tmz) )
Columna 10. Estimación de la función de riesgo ( h(tmz) )
48. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________________
28
Columna 11. Estimación del error de la función de supervivencia
Columna 12. Estimación del error de la función de densidad
Columna 13. Estimación del error de la función de riesgo
Se asume que las pérdidas y/o los abandonos ocurren de manera aleatoria e independiente,
independencia entre los subintervalos y que la ocurrencia de los eventos y las censuras en cada
intervalo se distribuyen uniformemente. De esta manera se tiene que:
)(ˆ
ztS =
⎪
⎪
⎪
⎩
⎪
⎪
⎪
⎨
⎧
≥
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−
−
<
∏=
0
2/
1
00
1
z
z
j jj
j
z
tsi
cn
d
tsi
(3.18)
Una vez estimada la función de supervivencia a través de la expresión 3.18, con las expresiones
(3.12) y (3.13) se pueden estimar f(tmz) y h(tmz). Como la estimación de la función de
supervivencia está afectada por las censuras, las estimaciones de f(tmz) y h(tmz) también lo
estarán.
50. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________
30
3.3 Modelo de Kaplan-Meier
Kaplan-Meier (1958) proponen un estimador de la función de supervivencia en
presencia de datos censurados, conocido hoy en día como estimador del “Límite-
Producto” de Kaplan-Meier. Este modelo está enmarcado dentro de los modelos
clásicos no paramétricos y puede afirmarse que constituye un hito histórico en los
estudios de la supervivencia, hasta el punto de convertirse en uno de los artículos
científicos más consultados y referenciados en la bibliografía del área. La diferencia
metodológica entre este método y el actuarial es que los tiempos de ocurrencia del
evento en esta metodología no se agrupan en subintervalos sino que la función de
supervivencia es estimada para cada momento de ocurrencia. El estimador de Kaplan-
Meier se basa en el mismo principio actuarial: se calcula la supervivencia mediante un
producto de probabilidades condicionales. En el modelo se supone independencia en
los momentos de ocurrencia del evento, se asume una muestra representativa de tamaño
n y tiempos de supervivencia no repetidos. En ese caso el estimador de Kaplan-Meier,
en función de los rangos de los datos, viene dado por la siguiente expresión:
)(ˆ
ztS = ∏=
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
+−
−z
j j
j
rn
rn
1 1
(3.19)
donde rj representa el valor de posición o rango correspondiente a la j-ésima ocurrencia
del evento, una vez ordenados los tiempos. Se puede demostrar que la expresión (3.19)
es equivalente a la expresión (3.11), en aquellos casos donde no hay tiempos de
supervivencia repetidos, o sea que dj=1. Kaplan y Meier también propusieron un
estimador de la función de supervivencia en función del número de eventos ocurridos en
el momento t y del número de unidades a riesgo justo antes de ese momento. La
expresión del estimador es equivalente al estimador de la expresión (3.19). El estimador
es conocido, hoy en día, como estimador limite-producto de Kaplan-Meier y es útil para
aquellos casos en los que d j ≥ 1 :
)(ˆ
ztS = ∏=
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛ −z
j j
jj
n
dn
1
(3.20)
donde nj es el número de individuos que han sobrevivido hasta el momento tj y dj el
número de muertes y pérdidas entre los momento j-1 y j-ésimo.
51. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________
31
Procedimiento para calcular la función de supervivencia de Kaplan-Meier a través
de la expresión (3.19)
1. Ordene en forma ascendente los tiempos de ocurrencia de los eventos
incluyendo los tiempos censurados.
2. Asigne los rangos correspondientes a los tiempos ordenados en el paso anterior.
3. Tabule y calcule la probabilidad de supervivencia en cada uno de los tiempos de
ocurrencia del evento de estudio, a través de la expresión (3.19).
4. Grafique la curva de supervivencia.
Es importante notar que estimador de Kaplan-Meier, según expresión (3.19), también
puede ser expresado como:
)(ˆ
ztS = )(ˆ
1−ztS x
1+−
−
z
z
rn
rn
(3.21)
Kaplan y Meier también obtuvieron un estimador de la varianza del estimador Límite-
Producto, definido como:
Var[ )(ˆ
ztS ] = [ )(ˆ
ztS ]2
∑= +−−
z
j jj rnrn1 )1)((
1
(3.22)
3.4 Otros modelos no paramétricos del análisis de supervivencia
Existen otros modelos o propuestas de estimadores no paramétricos tipo estimador
limite-producto de Kaplan-Meier que forman parte de los estimadores clásicos de
la función de supervivencia. A continuación se enumeran algunos de ellos:
Altshuler (1970), Aalen (1978), Prentice (1978), Prentice-Marek (1979), Fleming
et al. (1980), Andersen et al. (1982), Harris-Albert (1991), Moreau et al. (1992) y
Hosmer-Lemeshow (1999).
3.4.1 Modelo de supervivencia de Altshuler
Altshuler (1970) propuso un estimador de la función supervivencia equivalente al
estimador de Kaplan-Meier (1958), basado en el hecho que, e-x
~1-x, expresión cierta,
cuando x 0. Este estimador también fue considerado por Nelson (1969, 1972) y por
Aalen (1978), por lo que algunos autores lo denominan estimador de Nelson-Aalen:
52. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________
32
)(ˆ
ztS = ∏=
−z
j
n
d
j
j
e
1
(3.23)
Es uno estimadores más utilizados en la teoría moderna del análisis de supervivencia y
ha sido desarrollado por varios autores haciendo uso de la teoría de procesos de conteo.
Autores como: Andersen et al. (1993), Fleming-Harrintong (1991) y Therneau-
Grambsch (2000) presentan varios aplicaciones de esta metodología, que son
referencias obligadas para entender el uso de esta metodología en este tipo de estudios.
3.4.2 Modelo de supervivencia de Peterson
Peterson (1979) sugirió un método de estimación para la función de riesgos
acumulados del análisis de supervivencia no paramétrico, basado en el estimador de
Kaplan-Meier y cuya expresión se muestra a continuación:
)(ˆ
ztH = − ∑=
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛ −z
j j
jj
n
dn
Ln
1
(3.24)
3.4.3 Modelo de supervivencia de Prentice
Prentice (1978) propuso un estimador consistente de la función de supervivencia, dado
por la siguiente expresión:
)(ˆ
ztS = ∏= +
z
j j
j
n
n
1 1
(3.25)
que resulta útil en aquellos casos en los que no existen datos de supervivencia repetidos.
3.4.4 Modelo de supervivencia de Prentice-Marek
Prentice-Marek (1979) propusieron un estimador que modifica el estimador
consistente de la función de supervivencia propuesto por Prentice (1978) y lo
generalizan al caso de tiempos de supervivencia repetidos:
)(ˆ
ztS = ∏= +
+−z
j j
jj
n
dn
1 1
1
(3.26)
53. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________
33
3.4.5 Modelo de supervivencia de Andersen et al.
Andersen et al. (1982) sugirieron un estimador similar al propuesto por Prentice-
Marek con la diferencia de que incorporan un factor de corrección en el modelo igual a
nz/(nz+1):
)(ˆ
ztS =
⎥
⎥
⎦
⎤
⎢
⎢
⎣
⎡
+
+−
∏=
z
j j
jj
n
dn
1 1
1
1+z
z
n
n
(3.27)
3.4.6 Modelo de supervivencia de Harris-Albert (1991)
Harris-Albert (1991) propusieron la siguiente modificación del estimador propuesto
por Prentice-Marek:
)(ˆ
ztS = ∏= +
−+z
j jj
jj
dn
dn
1
1
(3.28)
3.4.7 Modelo de supervivencia de Moreau et al.
Moreau et al. (1992) propusieron en su trabajo un estimador que verifica la condición
de regularidad de Prentice-Marek (1978) pero generalizado al caso de tiempos de
supervivencia repetidos:
)(ˆ
ztS = ∏= +
z
j jj
j
dn
n
1
(3.29)
3.4.8 Modelo de supervivencia de Hosmer-Lemeshow
Hosmer-Lemeshow (1999) plantearon la siguiente modificación del estimador de
Andersen, aplicable a los casos de empate:
)(ˆ
ztS =
⎥
⎥
⎦
⎤
⎢
⎢
⎣
⎡
+
−+
∏
−
=
1
1 1
1z
j j
jj
n
dn
1+z
z
n
n
(3.30)
54. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________
34
3.5 Modelo de riesgos proporcionales de Cox
Cox (1972) sugirió un modelo de riesgos proporcionales tipo regresión no lineal para
realizar el análisis de supervivencia. El modelo permite determinar los efectos de
covariables en el riesgo instantáneo de ocurrencia del evento y en la supervivencia de
las unidades bajo estudio. Estas covariables son medidas al inicio del período de
observación y se denotan aquí mediante X1, X2, ..., Xq. El modelo postula que:
h( t / X ) = ho(t)
∑β
=
q
1j
jjX
e (3.31)
donde h(t / X) es la función de riesgo instantáneo, dadas las variables: X1, X2, ... , Xq,
ho(t ) es la función de riesgo base, dependiente del tiempo e independiente de las
variables y βj es el coeficiente correspondiente a la variable Xj. Si se denota como β el
vector de coeficientes, con componentes (β1, β2,..., βq)’ y como X como el vector de
covariables, digamos (X1, X2 , ..., Xq)’, entonces:
h( t / X ) = ho(t) eβ'X
(3.32)
Si β es nulo, las covariables no afectan al riesgo instantáneo de ocurrencia y en
consecuencia, la función de riesgo instantáneo coincide con la función de riesgo
instantáneo base, convirtiéndose así en un modelo no paramétrico. El modelo propuesto
por Cox es no lineal, multivariante y semiparamético. No lineal debido a su estructura
matemática, multivariante porque considera varias covariables y semiparamétrico
porque tiene una parte que depende de parámetros y otra que no. La parte paramétrica es
llamada puntaje de riesgo (risk score) y la parte no paramétrica contiene la función de
riesgo instantáneo base, la cual no está especificada y debe estimarse a través de otros
métodos.
El modelos de riesgos proporcionales propuesto por Cox es ampliamente utilizado en
el área médica y en ingeniería. El artículo publicado por Cox ha sido por muchos años
uno de los artículos más citados y utilizados en el área científica. Para mayores detalles
sobre el tema puede consultarse a Hosmer-Lemeshov (1999), Collet (2003), Lee-
Wang (2003), Kleinbaum-Klein (2005) y Klein-Moeschberger (2005).
El modelo de Cox asume que los riesgos de dos sujetos cualesquiera i y j son
proporcionales. Si dividimos:
55. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________
35
)X/t(h
)X/t(h
j
i
= Xj'
o
X'
o
e)t(h
e)t(h i
β
β
(3.33)
o sea:
)X/t(h
)X/t(h
j
i
= eβ' (Xi −Xj)
(3.34)
Si asumimos que esta expresión es constante y la denotamos con la letra griega γ:
γ = eβ' (Xi −Xj)
(3.35)
tenemos que:
h(t/Xi) = γ h(t/Xj) (3.36)
de ahi el nombre de riesgos proporcionales.
Una expresión análoga a la 2.15 para el caso del modelo de Cox viene dada por:
S( t / X ) = ∫− t
0 ds)X/s(h
e (3.37)
y de igual manera para la expresión 2.14:
S( t / X ) = e −H(t/X)
(3.38)
donde H(t/X) es la función de riesgo acumulado dado el vector de covariables. Si se
sustituye el riesgo instantáneo tipo Cox en la definición de la función de riesgo
acumulado se obtiene:
H( t / X ) = ∫ β
t
0
X'
dse)s(ho (3.39)
o sea:
H( t / X ) = eβ'X
Ho(t) (3.40)
Si se sustituye ahora la expresión (3.40) en la expresión (3.38), se obtiene que:
S( t / X ) = [e – Ho(t)
]θ
(3.41)
con θ = eβ'X
, y en consecuencia:
S( t / X ) = [ So(t) ]θ
(3.42)
ya que:
So(t) = e – Ho(t)
(3.43)
56. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________
36
Desarrolladas las relaciones existentes entre las funciones de supervivencia del modelo
de Cox, el siguiente paso consiste en resolver el problema de estimación de los
parámetros del modelo. En principio se podría pensar en el procedimiento de los
mínimos cuadrados. Sin embargo, su aplicación no es adecuada debido a la estructura
matemática del modelo. Este problema fue resuelto por el propio Cox quien propuso
para ello la función de verosimilitud parcial (LP). La idea se fundamenta en el aporte
parcial al riesgo de cada una de las unidades bajo estudio en la construcción del riesgo
total. La función de verosimilitud parcial de Cox (1975) se define como:
Lp(β) = ∏
∑=
δ
∈
β
β
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎣
⎡
n
1i
)t(Rj
X
X
i
i
'
j
'
i
e
e
(3.44)
Donde, n es el total de observaciones o tiempos de supervivencia ordenados en forma
creciente, incluyendo datos censurados y no censurados. La sumatoria del denominador
corresponde al conjunto de unidades a riesgo en el momento ti, denotado por R(ti). La
variable δi es la indicatriz que denota presencia o ausencia del evento, vale uno si se
está en presencia del evento y cero si el dato es censurado. Esta expresión esta diseñada
de forma que la variable δi solo considere los casos donde δi=1. Las unidades a riesgo
son todas aquéllas con tiempo de supervivencia o censura mayor o igual a ti. Se asume
que la expresión (3.44) esutilizada si no existen empates en los tiempos de
supervivencia. Si p es el total de observaciones o tiempos de supervivencia diferentes,
ordenados en forma creciente y considerando sólo los casos donde δi=1. El logaritmo de
la función de verosimilitud parcial viene dado por:
lp(β) = ∑ ∑= ∈
β
⎥
⎥
⎦
⎤
⎢
⎢
⎣
⎡
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−β
p
1z )t(Rj
X'
z
z
'
j
eLnX (3.45)
Para determinar el máximo de función parcial de verosimilitud se deriva la expresión
(3.45) respecto del vector de parámetros β y se iguala al vector nulo. Así:
β∂
β∂ )(lp
=
( )
∑
∑
∑
=
∈
β
∈
β
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎣
⎡
−
p
1z
)t(Rl
X
)t(Rj
'
j
X
'
z
z
'
l
z
'
j
e
Xe
X (3.46)
57. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________
37
Ahora bien, si se denotamos:
wzj(β) =
∑∈
β
β
)t(Rl
X
X
z
'
l
'
j
e
e
(3.47)
entonces:
β∂
β∂ )(lp
= [ ]∑=
β−
p
1z
'
w
'
z )(XX z
(3.48)
siendo:
)(X'
wz
β = '
j
)t(Rj
zj X)(w
z
β∑∈
(3.49)
Si ahora se iguala la expresión 3.48 al vector nulo:
[ ]∑=
β−
p
1z
'
w
'
z )(XX z
= θ (3.50)
se obtiene un sistema de ecuaciones no lineales que contiene tantas incógnitas como
covariables involucradas en el modelo. Para encontrar la solución se aplica el
procedimiento de Newton-Raphson, el cual se detalla en el apéndice B. Actualmente
existen muchos programas computarizados comerciales que ya incluyen este
procedimiento, como por ejemplo SPSS, BMDP, SAS, S-Plus, STATA, MINITAB,
NCSS y R.
El estimador de varianza de los estimadores de los coeficientes β se obtiene de la misma
manera como el obtenido a partir de la función de máxima verosimilitud y se calcula
como la inversa negativa de la segunda derivada del logaritmo de la función de
verosimilitud parcial. Esta derivada es igual a:
2
2
)(
β
β
∂
∂ pl
= −
[ ]{ }
∑
∑
∑∑∑
=
∈
β
∈
β
∈
β
∈
β
⎪
⎪
⎭
⎪
⎪
⎬
⎫
⎪
⎪
⎩
⎪
⎪
⎨
⎧
⎥
⎦
⎤
⎢
⎣
⎡
⎥
⎦
⎤
⎢
⎣
⎡
−⎥
⎦
⎤
⎢
⎣
⎡
⎥
⎦
⎤
⎢
⎣
⎡
p
1z
2
)t(Rj
X
2
)t(Rj
j
X2'
j
)t(Rj
X
)t(Rj
X
z
'
j
z
'
j
z
'
j
z
'
j
e
Xe)X(diagdiagee
(3.51)
donde diag(X’j) es la matriz diagonal correspondiente al vector X’j. La matriz de
varianzas y covarianzas de los estimadores de coeficientes β, llamada matriz de
información de Fisher viene dada por:
58. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________
38
Var { βˆ } = ( I (β) ) −1
(3.52)
donde:
I (β) = − 2
2
)(
β
β
∂
∂ pl
(3.53)
El método de estimación del vector de coeficientes β a partir de la función de
verosimilitud parcial está basado en el supuesto que no existen empates en los tiempos
de supervivencia de las unidades bajo estudio y supone escala de tiempo continua. Para
los casos de empate existen tres metodologías: las propuestas por Breslow (1974) y
Efron (1977) que son métodos aproximados y la de Kalbfleisch-Prentice (1980)
quienes propusieron un método exacto. Todas estas metodologías de estimación de
parámetros del modelo del Cox están incorporadas y disponibles en la mayoría de los
programas comerciales mencionados anteriormente.
3.6 Modelo de riesgos proporcionales de Cox estratificados
El modelo estratificado de Cox es una modificación del modelo de riesgos
proporcionales que incorpora un nuevo subíndice g referido al estrato. Los estratos
definen las diferentes categorías de una nueva variable denotada por Z*
. Se consideran
diversos casos según se considere o no la interacción entre las variables de
estratificación y las covariables.
3.6.1 Modelo general estratificado
Este modelo no incluye explícitamente la variable de estratificación Z*
, pero si
considera una estratificación a través de la categorización de la línea base del modelo,
dando como resultado una curva de supervivencia por estrato. Este modelo se expresa
como.
hg( t / X ) = hog eX'β
(3.54)
donde g es la variable que incluye la estratificación y hog define la función de riesgo
base instantáneo por estrato. Obsérvese que los coeficientes de las covariables son
comunes para todos los estratos. En este modelo la estimación de los coeficientes se
obtiene a partir de la maximización de la función general de verosimilitud parcial, la
cual es a su vez obtenida como el producto de las funciones parciales de verosimilitud
de todos los estratos.
59. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________
39
3.6.2 Modelo de no-interacción con coeficientes estratificados
Este modelo tampoco incluye explícitamente la variable de estratificación Z*
, pero
considera tanto la estratificación a través de la categorización de la línea base del
modelo como la estratificación a través de los coeficientes de las covariables. Se obtiene
como resultado una curva de supervivencia por estrato. El modelo se expresa como.
hg ( t / X ) = hog(t) eX'βg
(3.55)
donde g es la variable de estratificación, hog define la función de riesgo base instantáneo
por estrato y βg es el vector de coeficientes del estrato correspondiente.
3.6.3 Modelo de interacción con coeficientes estratificados
El modelo estratificado de Cox con interacción es un modelo que incluye explícitamente
la variable de estratificación Z*
, mediante la incorporación de k*
-1 variables tipo
dummy. El modelo se expresa en la forma:
hg( t / X) = hog(t) x exp[β1X1 + ... + βqXq +
β11
*
1Z X1 + ... + βq1
*
1Z Xq + (3.56)
β12
*
2Z X1 + ... + βq2
*
2Z Xq + ...
β1,k-1
*
1kZ − X1 + ... + βq,k-1
*
1kZ − Xq ]
donde g es la variable de estratificación y hog define la función de riego base
instantáneo por estrato.
3.7 Extensiones del modelo de riesgos proporcionales de Cox para variables
dependientes del tiempo.
En este caso se considera un conjunto de variables predictoras independientes del
tiempo y otro conjunto de variables dependientes del tiempo. El modelo se plantea
como una extensión del modelo de riesgos proporcionales de Cox, tal y como se
muestra a continuación:
h[t / X, Xl(t)] = ho(t) x exp {Xj'β + Xl'γ} (3.57)
60. Capitulo III. Modelos Clásicos del Análisis de Supervivencia
______________________________________________________________________
40
donde X’j es el vector de variables predictoras o covariables no dependientes del
tiempo, con q1 componentes y X’l(t) es el vector de variables predictoras o
covariables dependientes del tiempo, con q2 componentes, β es el vector de
coeficientes de las covariables no dependientes del tiempo, digamos (β1, β2,..., βq1)’
y γ es el vector de coeficientes de las covariables dependientes del tiempo,
digamos (γ1, γ2,..., γq2)’.