Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
Análisis de supervivencia.docx
1. Mtro. Iván AlfonsoArgüello
Análisis de supervivencia
Survival analysis
Kaplan Meier, riesgos proporcionales de Cox
Aplicaciones con SPSS
Ejemplo 1. Kaplan Meier Se sigue en el tiempo a 12 individuos con una
prótesis cardíaca y se encuentran los siguientes tiempos de supervivencia en
años: 6*, 6, 6, 6, 10, 12*, 12, 15, 15*, 17, 22, 22, donde el asterisco indica
pérdida; es decir se perdieron 3 individuos en los tiempos 6, 12 y 15. La
manera más cómoda de calcular los estimadores anteriores es disponer los
datos en una tabla como la que sigue:
Tiempo Estado
6 1
6 1
6 1
6 0
10 1
12 1
12 0
15 1
15 0
17 1
22 1
22 1
Realice el cálculo de las probabilidades de Kaplan Meier y compruebe con un
análisis con un paquete estadístico como SPSS, grafique las funciones de
supervivencia e impacto.
Solución:
El estimador de Kaplan Meier se define como:
𝑆𝐾𝑀 (𝑡) = ∏ (
1 − 𝑑𝑖
𝑛𝑖
)
𝑖:𝑡𝑖<𝑡
2. Mtro. Iván AlfonsoArgüello
Los cálculos manuales de realizan y se tiene la siguiente tabla:
t Ni di F. Riesgo Productos S(t) F.
Supervivencia
6 12 3 0.250 0.750
10 8 1 0.125 0.8750 0.656
12 7 1 0.143 0.8571 0.563
15 5 1 0.200 0.8000 0.450
17 3 1 0.333 0.6667 0.300
22 2 2 1.000
Resultados con SPSS:
Tabla de supervivencia
Tiempo Estado
Proporción acumulada que sobrevive
hasta el momento Nº de eventos
acumulados
Nº de casos
que
permanecen
Estimación Error típico
1 6.000 muerto . . 1 11
2 6.000 muerto . . 2 10
3 6.000 muerto 0.750 0.125 3 9
4 6.000 vivo . . 3 8
5 10.000 muerto 0.656 0.140 4 7
6 12.000 muerto 0.563 0.148 5 6
7 12.000 vivo . . 5 5
8 15.000 muerto 0.450 0.156 6 4
9 15.000 vivo . . 6 3
10 17.000 muerto 0.300 0.160 7 2
11 22.000 muerto . . 8 1
12 22.000 muerto 0.000 0.000 9 0
Medias y medianas del tiempo de supervivencia
Media Mediana
Estimación 14.400 15.000
Error típico 1.996 4.147
Intervalo de confianza al
95%
Límite
inferior
10.488 6.871
Límite
superior
18.312 23.129
En la tabla se muestran las probabilidades según el tiempo. De forma alterna
en la tabla de medias y medianas nos fijamos en la mediana que corresponde a
3. Mtro. Iván AlfonsoArgüello
15 meses, es decir el 50% de los pacientes sobrevivieron 15 meses. La media
posee un efecto de tendencia, pero no es recomendable emplearla debido a ser
sensible a datos extremos, sumando que el método K M es no paramétrico. En
este caso la media es casi próxima a la mediana.
Percentiles
25.0% 50.0% 75.0%
Estimación 22.000 15.000 6.000
Error típico . 4.147 .
Los percentiles nos ofrecen los cuartiles, vemos que el 25 % de la población
sobrevivió 22 meses, el 50% 15 meses y finalmente el 75% de los pacientes
solo 6 meses.
SPSS ofrece guardar las probabilidades de supervivencia y función es de
riesgos tales como la siguiente tabla:
Tiempo Estado Supervivencia Riesgo
6 muerte 0.750 0.288
6 muerte 0.750 0.288
6 muerte 0.750 0.288
6 censura o pérdida
10 muerte 0.656 0.421
12 muerte 0.563 0.575
12 censura o pérdida
15 muerte 0.450 0.799
15 censura o pérdida
17 muerte 0.300 1.204
22 muerte 0.000
22 muerte 0.000
La función de riesgo va en orden creciente siendo el paciente que a los 17
meses falleció.
4. Mtro. Iván AlfonsoArgüello
En la función de supervivencia acumulada se aprecia las muertes (cada línea
escalonada) y las censuras (personas que sobreviven, mueren por otra causa o
dejan el tratamiento, señalados con una cruz (+). Nótese que la mediana (15
meses tuvo 4 muertes) con una proporción de 0.45 ó 45 %).
Ejemplo 2: Análisis de Kaplan Meier. Se tienen los siguientes datos de 41
pacientes con leucemia dividido en 2 grupos de tratamiento, uno con placebo
y otro con una droga:
Treated Time Status Treated Time Status
drug 6 0 placebo 1 1
drug 6 1 placebo 2 1
drug 6 1 placebo 2 1
drug 6 1 placebo 3 1
drug 7 1 placebo 4 1
drug 9 0 placebo 4 1
drug 10 0 placebo 5 1
drug 10 1 placebo 5 1
drug 11 0 placebo 8 1
drug 13 1 placebo 8 1
drug 16 1 placebo 8 1
drug 17 0 placebo 11 1
drug 19 0 placebo 11 1
5. Mtro. Iván AlfonsoArgüello
drug 20 0 placebo 12 1
drug 22 1 placebo 12 1
drug 23 1 placebo 15 1
drug 25 0 placebo 17 1
drug 32 0 placebo 22 1
drug 32 0 placebo 23 1
drug 34 0
drug 35 0
placebo 1 1
Realice la prueba de comparación de curvas de supervivencia y estime los
cuartiles de 25, 50 y 75% de la supervivencia de los pacientes.
Solución:
Para este ejemplo vamos a emplear el paquete SPSS. Pormedio de sus test de
log Rank, Breslow y Tarone si ambas curvas de función de supervivencia son
diferentes.
Resultados con SPSS:
Tenemos la tabla que nos muestra la media estimada de los meses (tiempode
supervivencia que corresponde a 8.70±1.43 meses, mientras que la mediana
(cuartil 50) es 8.00 meses aproximadamente para el grupo de placebo, es
decir, los pacientes con leucemia y placebo como tratamiento sobrevivieron 8
meses de supervivencia.
Para el grupo de la droga la mediana fue 23 meses, mucho mayor que con el
placebo. Esto implica una ventaja y diferencia, pero solo a nivel deductivo.
Medias y medianas del tiempo de supervivencia
Tratamiento Media Mediana
Placebo Estimación 8.700 8.000
Error típico 1.483 2.191
Intervalo de
confianza al 95%
Límite inferior 5.793 3.706
Límite superior 11.607 12.294
Droga Estimación 23.287 23.000
Error típico 2.827 5.255
Intervalo de
confianza al 95%
Límite inferior 17.746 12.699
Límite superior 28.829 33.301
Global Estimación 15.529 12.000
Error típico 1.897 1.698
Intervalo de
confianza al 95%
Límite inferior 11.810 8.672
Límite superior 19.248 15.328
6. Mtro. Iván AlfonsoArgüello
Percentiles
Tratamiento
25.0% 50.0% 75.0%
Estimación Error típico Estimación Error típico Estimación Error típico
Placebo 12.000 0.894 8.000 2.191 3.000 1.291
Droga 23.000 5.255 13.000 5.500
Global 23.000 2.803 12.000 1.698 6.000 1.448
Los percentiles nos indican las estimaciones de tiempo de supervivencia, se
puede apreciar la gran diferencia entre el tratamiento con droga y placebo.
El 75 % de los pacientes vive solo 3 meses para el grupo placebo vs 13
semanas los pacientes con droga.
Comparaciones globales
Chi-cuadrado gl Sig.
Log Rank (Mantel-
Cox)
16.478 1 0.000
Breslow 13.422 1 0.000
Tarone-Ware 14.964 1 0.000
Las comparaciones indican diferencias estadísticamente significativas para las
3 pruebas, pero en general log Rank y Breslow (prueba generalizada de
Wilcoxon) son más empleadas, por tanto, se rechaza Ho.
Log Rank test;
P<0.01
7. Mtro. Iván AlfonsoArgüello
El grafico demuestra la diferencia en los tiempos por supervivencia, haciendo
evidente la tasa de mortalidad más alta en pacientes leucémicos con placebo.
La proporciónde riesgo, HR (placebo/droga)=4.19 (1.95-9.01). * Es decir los
pacientes leucémicos con placebo tienen un riesgo 4 veces mayor que los
pacientes con tratamiento de droga especifica.
*Estimado con el programa NCSS.
----------------------------------------------------------------------------------------------
Ejemplo 3: regresiónde Cox. Conlos datos de los tratamientos de droga y
placebo de los pacientes con leucemia (ejemplo anterior) realice un análisis
de regresión de Cox simple (una covariable= tratamiento), estime el
coeficiente de regresión y las proporciones de impacto.
Breve reseña del método: La Regresión de Cox se ha transformado, en los
últimos años, en un instrumento de análisis estadístico muy utilizado,
especialmente en el ámbito de la Medicina. En ese tipo de Regresión el interés
es buscar variables independientes que se relacionen con variaciones en la
función de supervivencia, o en la función de riesgo, de unos individuos
respecto a un determinado suceso estudiado.
Estamos, pues, realmente, ante una regresión ciertamente especial porque el
tiempo está siempre presente y porque la variable dependiente es siempre una
función de riesgo o una función de supervivencia.
Con la Regresión de Cox se pretende, pues, detectar alguna relación entre el
riesgo de que se produzca un determinado suceso estudiado (muerte, recidiva
de un tumor, fracaso de un implante dental, diagnóstico de hipertensión, etc.),
y una o varias variables independientes o explicativas.
El Análisis de la Regresión de Cox es, pues, más fino. No analiza en un
momento temporal si tal acontecimiento ha sucedido o no ha sucedido sino
cuándo ha sucedido, si es que ha sucedido, y comparar esa función respecto a
una o varias variables independientes. Por todo esto la Regresión logística
trabaja con la Odds ratio y la Regresión de Cox con la Hazard ratio*
Se han desarrollado distintos modelos matemáticos que pretenden establecer
una especie de desglose entre lo que podríamos llamar una función de riesgo
subyacente, o pura, y un efecto de otras variables independientes explicando
cambios en esta función de riesgo. En general, este modelo general se suele
escribir así:
8. Mtro. Iván AlfonsoArgüello
ℎ(𝑡;𝑋) = ℎ0(𝑡)𝑒𝛽𝑥
= ℎ0(𝑡)𝑒𝛽1𝑥1+𝛽2𝑥2+⋯+𝛽𝑘𝑥𝑘
Donde:
h (t;X) es la tasa de riesgo de un sujeto con valores X=(x1;x2;…;xp) en las
variables explicativas, en el instante t.
Es la variable de respuesta que se modeliza. Representa el riesgo de fallecer en
el instante t, de los sujetos que tienen un determinando patrón de valores x en
las variables explicativas.
eβx es la función exponencial, cuyo exponente es la combinación lineal, sin
término constante de las p variables explicativas (Xi).
h0(t) es la función de riesgo de referencia (baseline o underlyng hazard
function), que solo depende del tiempo, llamada así porque representa las tasas
instantáneas de riesgo de un sujeto hipotético con valor 0 en todas las
variables predictivas (ya que el termino exponencial es el e0=1).
El modelo de Cox, producto de estas dos funciones, se caracteriza por no
especificar la forma de h0(t). Se denomina un modelo semi-paramétrico
porque se estiman los p parámetros βi, mientras que el valor de la función h0(t)
se obtiene a través de los datos.
Hay que observar la similitud con el modelo de regresión logística expresado
en forma de odds ratio con “respuesta” presente (Y=1).
𝑂𝑅 =
𝜋𝑥
1 − 𝜋𝑥
= 𝑒𝛽0+𝛽1𝑥1+𝛽2𝑥2+⋯+𝛽𝑝𝑥𝑝
Se puede comprobarque el termino constante eβ0 de esa odds se sustituye en el
modelo de Cox por la función de riesgo de referencia h0(t) que no depende de
las variables explicativas X. Es fácil expresar el modelo de Cox en función de
la tasas de riesgo acumulado H(t;X) o de la probabilidad acumulada de
supervivencia S(t;X), a través de la estrecha relación existente entre estas 3
distribuciones (Lee, 1992Collet, 1994;).
Donde:
9. Mtro. Iván AlfonsoArgüello
h(t;X) es la tasa instantánea de riesgo. Representa el riesgo que un sujeto (con
valores X en las variables explicativas) tiene de fallecer en el instante t.
H(t;X) es la tasa acumulada de riesgo y representa que un sujeto (con valores
X) tiene de fallecer desde el inicio (t0) hasta el tiempo t:
𝐻(𝑡; 𝑋) = 𝐻0(𝑡)𝑒𝛽𝑥
S(t;X) es la función de supervivencia. Representa la probabilidad de
supervivencia en el tiempo t de los sujetos con un determinado patrón de
valores X en las variables explicativas.
Se calcula a través de su función con la relación de riesgo acumulado:
𝑆(𝑡;𝑋) = 𝑒𝐻(𝑡;𝑋)
Tomando logaritmos neperianos, la tasa acumulada d riesgo viene dada por:
𝐻(𝑡; 𝑋) = −𝐼𝑛 𝑆(𝑡; 𝑋)
Podemos suponer un modelo sencillo como se pide en el ejemplo:
ℎ(𝑡;𝑋) = ℎ0(𝑡)𝑒𝛽𝑥
Si se calcula el cociente entre la tasa instantánea de riesgo para X=1 y para
X=0, es decir, para un incremento de X igual a 1, se observa que la función
h0(t) se simplifica, porque no depende de X, y se obtiene:
ℎ(𝑡;𝑋 = 1)
ℎ(𝑡;𝑋 = 0)
=
ℎ0𝑒𝛽
ℎ0𝑒0
= 𝑒𝛽
Es decir, eβ es un factor por el que se multiplica la tasa instantánea de riesgo
cuando X se incrementa en 1 unidad.
Para el ejemplo la ecuación es:
ℎ(𝑡;𝑥) = ℎ0(𝑡)𝑒𝛽(𝑔𝑟𝑢𝑝𝑜)
Vamos a emplear el paquete estadístico SPSS:
10. Mtro. Iván AlfonsoArgüello
Resultados con SPSS:
Tenemos el valor de la verosimilitud del modelo completo o saturado:
Pruebas omnibus sobre los coeficientes del
modelo
-2 log de la verosimilitud
180.356
Se tienes los cambios de valor de la verosimilitud con el estadístico chi2 (χ2)
Pruebas omnibus sobre los coeficientes del
modelo
-2 log de la verosimilitud 165.525
Global
(puntuación)
Chi-cuadrado 15.728
Gl 1
Sig. 0.000
Cambio desde
el paso
anterior
Chi-cuadrado 14.831
Gl 1
Sig. 0.000
Cambio desde
el bloque
anterior
Chi-cuadrado 14.831
Gl 1
Sig. 0.000
El valor final χ2 se tiene de:
180.356 − 165.225 = 14.831
Se estima que el modelo es significativo (p<0.05).
Variables en la ecuación
B=β ET Wald gl p
Exp(B)
HR
95.0% IC para Exp(B)
Inferior Superior
Tratamiento 1.506 0.4117 13.384 1 0.0003 4.510 2.012 10.107
La constate resulto significativa (βtratamiento=placebo=1.506±0.411; p=0.0003), el
HR (Hazard ratio) es:
𝐻𝑅 = 𝑒1.506
= 4.510
Los IC del despliegue de resultados se estima como:
11. Mtro. Iván AlfonsoArgüello
𝑒𝑏𝑇−𝑍𝛼𝑆𝐸𝑏𝑇 < 𝐻𝑅 < 𝑒𝑏𝑇+𝑍𝛼𝑆𝐸𝑏𝑇
Como Z = 1.96 por el nivel 0.05 y 95% de IC tenemos:
𝑒1.506−1.96×0.4117
< 𝐻𝑅 < 𝑒1.506+1.96×0.4117
2.01 < 𝐻𝑅 < 10.10
La ecuación es:
ℎ(𝑡;𝑥) = ℎ0(𝑡)𝑒1.506𝑇
= 𝑒1.506𝑇
Donde T es el tratamiento y la relación es (placebo/droga) = 4.51, que indica
un incremente de riesgo del 51% por cada mes en pacientes con placebo en
comparación con tratamiento de droga especifica.
Si deseamos saber la HR en 2 meses es:
𝐻𝑅 (5 𝑚𝑒𝑠𝑒𝑠) = 𝑒1.506∗2
= 20.33
El incremento de riesgo es de un 33 % en 2 meses o 20.33 veces en pacientes
leucémicos sin tratamiento.
La razón de riesgos para los pacientes con tratamiento de droga puede
estimarse con el inverso de HR:
𝐻𝑅 (𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 = 𝑑𝑟𝑜𝑔𝑎) =
1
𝑒1.506
=
1
4.51
= 0.2217
Una razón menor a 1 indica “razón de protección” y en este caso los pacientes
leucémicos tienen un riesgo de mortalidad menor de 0.22 veces en
comparación con los pacientes con placebo.
El coeficiente para el grupo droga es negativo del valor de placebo lo que
lleva a:
𝛽𝑑𝑟𝑜𝑔𝑎 = −𝛽𝑝𝑙𝑎𝑐𝑒𝑏𝑜 = 𝐼𝑛 (𝛽𝑝𝑙𝑎𝑐𝑒𝑏𝑜) = −1.506
Con el mismo error estándar.
Por tanto:
12. Mtro. Iván AlfonsoArgüello
ℎ(𝑡;𝑥) = ℎ0(𝑡)𝑒−1.506𝑇
= 𝑒−1.506𝑇
*Es importante comparar la Regresión de Cox con la Regresión
logística. En la Regresión logística la variable dependiente
dicotómica se pone en relación con una variable independiente sin
contemplar el tiempo o contemplándolo sólo de forma estática,
viendo en un punto fijo del tiempo si el suceso estudiado ha
acontecido o no, pero no teniendo en consideración en qué momento
ha sucedido.
La OR es una mirada a una relación en un momento temporal,
prescindiendo de lo que ha pasado en el recorrido hasta llegar allí.
Es una mirada estática. La Hazard ratio (HR) es, por el contrario,
una mirada dinámica, es una mirada al recorrido, es una relación
entre recorridos. Diferentes estudios pueden tener una misma OR
pero con HR muy diferentes.