1. UNICLA PLANTEL ZITACUARO
I
DOCTORADO
EN
SALUD PÚBLICA
ASIGNATURA
BIOESTADISTICA AVANZADA
DOCTORANDO:
CARLOS CARRILLO MORENO
ANALISIS DE DATOS
Entrega Individual
DOCENTE:
DR. MARCO ANTONIO ALANIS
MARTINEZ
ZITACUARO, MICHOACAN, MEXICO.
NOVIEMBRE 2020
2. BIOESTADISTICA AVANZADA
UNICLA PLANTEL ZITACUARO
II
INTRODUCCION
El análisis de datos es una herramienta indispensable en los procesos de investigación, son
un elemento clave en la interpretación de información documental. El análisis de datos
consiste en la realización de las operaciones a las que el investigador someterá los datos
con la finalidad de alcanzar los objetivos del estudio. Todas estas operaciones no pueden
definirse de antemano de manera rígida. La recolección de datos y ciertos análisis
preliminares pueden revelar problemas y dificultades que desactualizarán la planificación
inicial del análisis de los datos. Sin embargo, es importante planificar los principales
aspectos del plan de análisis en función de la verificación de cada una de las hipótesis
formuladas ya que estas definiciones condicionarán a su vez la fase de recolección de
datos
El análisis cuantitativo de datos corresponde a un elemento constitutivo del método
estadístico para: recolectar, organizar, resumir, presentar y analizar datos requeridos
mediante método científico; y para la obtención de inferencias a partir de un volumen de
datos cuando se observa sólo una parte de este, pudiendo de este modo disminuir la
incertidumbre con respecto a un problema de investigación. De este modo se pueden
obtener conclusiones válidas y tomar decisiones razonables con base en este análisis. Esta
disciplina llevada a las condiciones de salud es regida por la Bioestadística que se
preocupa de gestionar diseños de estudios de calidad y la posibilidad de asimilar
críticamente los resultados aportados mediante este tipo de análisis.
En este documento de investigación se describen los aspectos generales del análisis de
datos, los objetivos de su análisis, se aborda el análisis de datos estadificados, el análisis
de supervivencia, a través de información documental, con la finalidad de conocer en
términos generales la utilidad de cada uno de estos subtemas.
3. BIOESTADISTICA AVANZADA
UNICLA PLANTEL ZITACUARO
III
OBJETIVOS DEL TEMA
Objetivo general
Analizar la importancia y las aplicaciones del análisis de datos en bioestadística
Objetivos específicos
Conocer la utilidad del análisis de datos estadificados
Identificar los tipos de análisis de supervivencia
4. BIOESTADISTICA AVANZADA
UNICLA PLANTEL ZITACUARO
IV
INDICE
INTRODUCCION OBJETIVOS
I. OBJETIVO DEL ANALISIS DE DATOS 5
II. ANALISIS DE DATOS ESTADIFICADOS
Análisis bivariado
Medidas de asociación
Prueba de Cochran-Mantel-Haenszel
Concepto de variables confundidoras
8
III. ANALISIS DE SUPERVIVENCIA
Método de Kaplan-Meier
Comparación de curvas
Método de Cox
14
IV. REFERENCIAS BIBLIOGRAFICAS 26
5. BIOESTADISTICA AVANZADA
5
UNICLA PLANTEL ZITACUARO
I. OBJETIVOS DEL ANALISIS DE DATOS
A la hora de tomar la decisión metodológica de qué tipo de análisis seguir para trabajar
nuestros datos, podemos optar por diferentes opciones no existiendo una forma ideal de
realizar el análisis. Obviamente, como tantas otras decisiones metodológicas, el elegir uno
u otro no es algo que se haga al azar, sino que se debe hacer de forma justificada y rigurosa
atendiendo a la orientación teórico-metodológica o método que siga nuestra investigación
y a la naturaleza de nuestros datos. En cualquier caso, el objetivo último ha de ser abstraer
de los datos pistas, significaciones que nos ayuden a comprender la complejidad de los
fenómenos estudiados.
Con respecto a la naturaleza de los datos, ésta puede ser muy versátil según la técnica que
utilicemos para su recogida. Así tendremos datos discursivos, narrativos, iconográficos,
documentales, registros de observación... que requerirán un tratamiento o manejo
diferente. Salvo particularidades, y al margen del método y de la naturaleza de los datos,
existen diferentes corrientes que nos van a orientar en nuestro proceso de análisis, entre
otros, el análisis del contenido y el análisis del discurso.
Existe cierta ambigüedad en la literatura sobre qué referente es más apropiado para la
investigación cualitativa en la disciplina enfermera habiendo autores que se declinan por
el análisis de contenido, y otros por el de discurso. Según nuestra experiencia de campo,
y teniendo en cuenta la relación que la enfermera establece con su objeto de estudio y los
participantes en el mismo, lo más consecuente es realizar una triangulación de estrategias
partiendo del análisis de contenido latente, pero teniendo siempre presente el sentido del
lenguaje (su uso social y el contexto en el que se produce). Desde esta perspectiva
abordaremos el siguiente apartado.
El análisis del contenido latente implica una primera fase de organización, procesamiento
y análisis de los datos para, posteriormente trabajar en la abstracción e interpretación de
los mismos. Codificación de los datos El término codificación hace referencia al proceso
a través del cual fragmentamos o segmentamos los datos en función de su significación
para con las preguntas y objetivos de investigación1. Implica un trabajo inicial para
6. BIOESTADISTICA AVANZADA
6
UNICLA PLANTEL ZITACUARO
preparar la materia prima que luego habrá de ser abstraída e interpretada. La codificación
nos permite condensar nuestros datos en unidades analizables y, así, revisar
minuciosamente lo que nuestros datos nos quieren decir. La codificación nos ayuda a
llegar, desde los datos, a las ideas. Antes de comenzar con la codificación, debemos de
familiarizarnos con nuestros datos. Esto, en la mayoría de los casos, es algo adquirido
después de haber recolectado los datos y haberlos transcrito.
Aun así, una lectura integral de todos nuestros datos nos facilitará una visión completa e
integradora del material que nos traemos entre manos. Después de esta lectura en
profundidad, empezaremos con el proceso de codificación, propiamente dicho, mediante
la identificación de palabras, frases o párrafos que consideremos tienen una significación
destacable en relación a nuestros objetivos de estudio. Al mismo tiempo que vamos
identificando estos elementos de significación, les vamos a ir asignando un código,
nombre o etiqueta que intente compilar el significado emergente.
La asignación de códigos puede ser “in vivo” (cuando el propio informante haya utilizado
una palabra o breve frase que tenga mucha significación en sí misma), o resultado de la
capacidad creativa e interpretativa del investigador. Es recomendable, una vez acabada la
asignación de códigos, elaborar un listado de los mismos explicando la significación que
el investigador atribuye a cada uno de ellos (a modo de glosario). Esto nos puede resultar
muy útil en el caso de que nos alejemos temporalmente de los datos, o si estamos
compartiendo el trabajo analítico e interpretativo con otros investigadores (triangulación
de investigadores). Por otra parte, el esfuerzo de dar una definición a nuestros códigos
genera espacios para la reflexión y la gestación de ideas.
Una vez finalizada la identificación de unidades de significados, el número de códigos
creados puede ser muy extenso y poco manejable inicialmente, no pasa nada, ya habrá
tiempo de continuar con el trabajo de reducción de los datos. En concreto, el siguiente
paso consistirá en la reagrupación de todos aquellos códigos o etiquetas que compartan un
mismo significado. En función del método que estemos utilizando, este paso nos guiará
hacia la identificación de categorías y subcategorías (teoría fundamentada o etnografía) o
a la identificación de temas que describan la esencia de una experiencia (fenomenología).
7. BIOESTADISTICA AVANZADA
7
UNICLA PLANTEL ZITACUARO
La asignación de nuevas etiquetas a cada uno de los grupos de significado que intente
compilar el significado condensado de cada uno de dichos grupos, será el resultado de un
nuevo esfuerzo de abstracción Así como en el caso de la primera codificación no nos
importaba que el número de códigos fuera extenso, en este segundo momento deberemos
de ser capaces de priorizar un número manejable de grupos (aquellos con más peso de
significación) que nos permitan un trabajo interpretativo abordable, asegurando así la
viabilidad del proceso analítico (siempre en congruencia con los objetivos de
investigación).
Las etiquetas o nombres de los grupos de significado deben de ser lo suficientemente
evocativos como para llevar rápidamente al investigador a su referente. Algunas de las
etiquetas pueden surgir de la lista de códigos elaborada previamente (aquellos que
destaquen por ser más abstractos y amplios que los demás, por tener más capacidad de
condensación o integración de significado). Otras pueden ser acuñadas a partir de nuestra
capacidad creativa y de abstracción analítica.
También, en ocasiones la literatura puede resultar sugerente (conceptos sólidos que ya
tienen un significado analítico establecido) Por lo general, dentro de la jerga comercial, la
interpretación de datos se refiere a la implementación de procesos a través de los cuales
se revisan los datos con el fin de llegar a una conclusión informada y una etapa esencial
del procesamiento de datos. Es muy probable que los datos lleguen de múltiples fuentes y
tienen una tendencia a ingresar al proceso de análisis en un orden desordenado. El análisis
de datos tiende a ser extremadamente subjetivo. Es decir, la naturaleza y el objetivo de la
interpretación variarán de una empresa a otra, lo que probablemente se correlaciona con
el tipo de datos que se analizan. Si bien hay varios tipos diferentes de procesos que se
implementan en función de la naturaleza de los datos individuales, las dos categorías más
amplias y más comunes son "análisis cuantitativo" y "análisis cualitativo" dentro del
análisis estadístico.
8. BIOESTADISTICA AVANZADA
8
UNICLA PLANTEL ZITACUARO
El propósito de analizar e interpretar datos es obtener información utilizable y útil. La
interpretación, independientemente de si los datos son cualitativo o cuantitativo, debe: 1.
describir y resumir los datos, 2. Identificar relaciones entre variables, 3. Comparar
variables, 4. Identificar la diferencia entre las variables y 5. Pronosticar resultados
II. ANALISIS DE DATOS ESTADIFICADOS
Se puede decir que la estratificación es la división de datos en categorías o clases, su
utilización más común se da durante la etapa de diagnóstico, esto para identificar que clase
o que tipos contribuyen al problema que se tiene que resolver. Se puede clasificar o separa
una masa de datos referentes a una situación particular en diferentes clases o categorías,
los datos observados en un grupo comparten unas características comunes que definen la
categoría, a este proceso de clasificación se le conoce con el nombre de estratificación.
Esta es la base para otras herramientas como los diagramas del análisis de Pareto, y se
utiliza conjuntamente con otras herramientas como los diagramas de dispersión. En este
caso en particular lo que se busca con la estratificación es clasificar la información
recopilada sobre una característica de calidad, en la atención en salud toda esta
información deberá ser agrupada de acuerdo a situaciones individuales, con el objetivo de
asegurarse de los factores asumidos.
Se clasifican los datos de acuerdo a un concepto claro, ej. Causas, fenómenos, tipos de
defectos (críticos, mayores o menores), todo esto en una serie de grupos con características
similares, su propósito es comprender mejor la situación y encontrar la causa con facilidad
y asimismo analizarla y confirmar su efecto sobre las características de calidad a mejorar
o el problema a resolver. Una de sus ventajas es que es muy completa para la calidad de
las empresas.
Como utilidad principal, esta permite aislar la causa de un problema identificando el grado
de influencia de ciertos factores en el resultado de un proceso, la estratificación puede
apoyar a servir de base en distintas herramientas de calidad. Dicho método consiste en
9. BIOESTADISTICA AVANZADA
9
UNICLA PLANTEL ZITACUARO
clasificar los datos disponibles por grupos de características similares, a cada grupo se le
denomina estrato. Los estratos a definir lo serán en función de la situación en particular
de estudio, estableciendo estratificaciones que puedan depender de múltiples causas o
factores.
Una forma de interpretar la estratificación, es presentar los resultados en forma de grafico
de barras, donde es fácil examinar las categorías de una variable para ver si alguna o
algunas categorías destacan sobre el resto. Ejemplo:
Análisis bivariado
La disposición bivariada trata de estudiar la relación entre pares de atributos medidos
simultáneamente en la misma muestra y comprende un conjunto de herramientas que se
enfocan en el análisis de dos variables con el fin de determinar las relaciones empíricas
entre ellas, dicho análisis puede ayudar a determinar en qué medida es posible predecir el
10. BIOESTADISTICA AVANZADA
10
UNICLA PLANTEL ZITACUARO
valor de una variable en el caso en que se conozca el valor de la otra variable. El estudio
de la correlación entre dos variables se refiere a un conjunto de relaciones estadísticas que
involucran una dependencia entre ellas, el estudio de la correlación es útil debido a que
puede indicar relaciones predictivas que pueden ser utilizadas en la práctica.
El análisis bivariado es una forma evolucionada de análisis estadístico en el cual se
cuantifica a nivel descriptivo e inferencial de covarianza entre dos variables, y de esta
forma se da cuenta de la relación entre las dos variables, dicho análisis busca someter a
contrastación la tesis de asociación y hasta causalidad entre dos variables definidas. En
cualquier caso, el análisis bivariado se plantea con la intención de determinar el nivel de
relación entre dos variables y la función, esta a su vez involucra una familia de datos
estadísticos cuya pertenencia está condicionada por el nivel de medición de las variables
involucradas.
11. BIOESTADISTICA AVANZADA
11
UNICLA PLANTEL ZITACUARO
Medidas de asociación
Asociación denota la existencia de relación definida estadísticamente entre A y B, aunque
no sepa si es causal o no. La Asociación Causal cuando se han cumplido los criterios de
causalidad que son: consistencia, fuerza, secuencia temporal, especificidad, plausibilidad
biológica, relación dosis-respuesta, reversibilidad.
Asociación no causal es cuando existe una relación, pero no cumple con los criterios de
causalidad, donde dos eventos aparecen asociados, pero ambos dependen de un tercero.
Se conoce esto como una asociación espuria. Existen dos tipos de medidas de asociación;
OR y RR, el Riesgo Relativo o Razón de Riesgos, utilizado en estudios de cohorte y el
Odds Ratio o razón de productos cruzados, utilizados en los estudios de casos y controles.
Existe un riesgo relativo, esta medida refleja el exceso de riesgo en el grupo expuesto
comparado con el grupo no expuesto. Este exceso es expresado como una razón de tasas
de riesgo entre los expuestos y los no expuestos y se utiliza únicamente en estudios de
cohorte, donde se mide incidencia y refleja el riesgo en la totalidad de la población
expuesta.
12. BIOESTADISTICA AVANZADA
12
UNICLA PLANTEL ZITACUARO
La interpretación muestra los valores de riesgo relativos, es que si son mayores de 1
denotan asociación a un mayor riesgo de enfermedad, si, al contrario, es menor de 1,
denota factor de protección, y si es igual a la unidad, no hay asociación entre la exposición
y el efecto, por lo tanto, no hay riesgo.
RR = 1 No hay Asociación.
RR > 1 Hay Asociación al Factor de Riesgo.
RR < 1 Hay Asociación al Factor de protección.
Existe la siguiente formula:
Prueba de Cochran-Mantel-Haenszel
Cochran-Mantel-Haenszel es un contraste de hipótesis para contrastar la igualdad de Odds
ratio entre k tablas de contingencia 2×2. Es una forma de evaluar la posible influencia que
pueda tener, sobre la relación entre esas variables cualitativas dicotómicas, una tercera
variable también cualitativa con k valores posibles usados para comprobar la posible
confusión que puede generar una tercera variable en la relación entre dos variables.
La razón de posibilidades común de las tablas de contingencia K se define como:
13. BIOESTADISTICA AVANZADA
13
UNICLA PLANTEL ZITACUARO
La hipótesis nula es que no existe asociación entre el tratamiento y el resultado. Más
precisamente, la hipótesis nula es:
Variables confundidoras
Las variables de confusión, también llamadas terceras variables, son variables que el
investigador no controlo o no elimino y estas dañan la validez interna de un experimento.
Una variable de confusión puede afectar negativamente la relación entre la variable
independiente y la variable dependiente, esto puede causar que el investigador analice los
resultados incorrectamente.
Los resultados pueden mostrar una correlación falsa entre las variables, lo que producirá
un rechazo incorrecto de la hipótesis nula. Un ejemplo serio, si un grupo de investigación
diseñara un estudio para determinar se las personas alcohólicas mueren a una edad
temprana, se dedican a recolectar datos y una cantidad de pruebas estadísticas, demuestran
que efectivamente las personas que beben en exceso tienden a morir más jóvenes. La
debilidad en el diseño experimental fue que no tuvieron en cuenta las variables de
confusión y no trataron de eliminar o controlar otro factor, por ejemplo, es muy posible
que las personas alcohólicas tuvieran un origen o clase social diferente, los alcohólicos
pueden ser más propensos a fumar o a comer comida chatarra y todos estos factores
podrían constituir o ser factores que reduzcan la longevidad y esta variable podría haber
afectado negativamente los resultados.
14. BIOESTADISTICA AVANZADA
14
UNICLA PLANTEL ZITACUARO
III. ANALISIS DE DATOS DE SUPERIVIVENCIA
El análisis de supervivencia es una de las disciplinas estadísticas más antiguas y tiene sus
raíces en la demografía y la ciencia actuarial del siglo XVII. La metodología básica de
tabla de vida, en la terminología moderna, equivale a la estimación de la función de
supervivencia (uno menos la función de distribución) para tiempos de vida registrados en
distintos momentos de ingreso a un estudio, o con truncamiento por la izquierda, y censura
por la derecha. Esto era conocido antes 1700, además de modelos paramétricos explícitos,
desde la aproximación lineal de De Moivre (1725), ejemplos posteriores debidos a
Lambert y las influyentes propuestas del siglo XIX de Gompertz (1825) y Makeham
(1837), que modelan la función de riesgo como bcx y a + bcx , respectivamente. Motivado
por la controversia sobre la inoculación de la viruela, Daniel Bernoulli (1766) sentó las
bases de la teoría de los riesgos competitivos. Al realizar el cálculo del número esperado
de muertes (cuántas muertes habría habido en una población de estudio, si se aplican un
conjunto determinado de tasas de muerte o bajo la presencia de un conjunto de diversas
causas de muerte) también se remonta al siglo XVIII. Entre los importantes avances
metodológicos del siglo XIX, además de los modelos paramétricos de análisis de
15. BIOESTADISTICA AVANZADA
15
UNICLA PLANTEL ZITACUARO
supervivencia, mencionados anteriormente, fue la manipulación grafica simultánea del
tiempo calendario y la edad en el Diagrama de Lexis (1875).
Dos temas muy importantes en el análisis de supervivencia moderno, puede remontarse a
principios del siglo XX de las matemáticas actuariales: Los Modelos multi estado, en el
caso particular de los seguros por discapacidad, y la estimación no paramétrica en tiempo
continuo de la función de supervivencia, considerando condiciones del tiempo de vida con
truncamiento por la izquierda y censura por la derecha. Hasta este momento, el análisis de
supervivencia no había incorporado ningún componente 1 de teoría estadística a sus
desarrollos. Un característico escepticismo sobre “el valor de las tablas de vida en
investigación estadística” fue expresado por Greenwood (1922) en la revista de la Royal
Statistical Society, y en una aparición especial de Westergaard (1925) en Biométrica sobre
“los problemas modernos en las estadísticas vitales”.
Argumentando ambos que no tenían referencias sobre la variabilidad de la muestra o
variabilidad muestral (errores estándar). Esto debido al hecho de que ambos autores eran
en realidad estadísticos pioneros en el análisis de supervivencia: Westergaard (1882) por
haber derivado lo que llamaríamos el error estándar de la razón de mortalidad; y
Greenwood (1926) por su famosa expresión de “los errores de muestreo de las tablas de
supervivencia”.
La tabla Actuarial de Vida y el estimador Kaplan-Meier En la mitad del siglo XX, se
presentaron a la comunidad médica - estadística, estas dos técnicas demográficas y
actuariales perfectamente establecidas, en encuestas influyentes como las de Berkson y
Gage (1950) y Cutler y Ederer (1958). En este enfoque, el tiempo se discretiza (por
ejemplo, intervalos de un año), y la probabilidad de supervivencia en un intervalo, es el
producto de estas probabilidades en los intervalos de tiempo anteriores. El problema de
esta aproximación radica en el hecho de realizar justamente este proceso de discretización
del tiempo que es intrínsecamente continuo. El importantísimo resultado dado por Kaplan
y Meier (El estimador Kaplan-Meier) (1958), la fascinante génesis de este estimador (del
que Breslow realiza una crónica (1991)), en principio, eliminado la necesidad de estas
16. BIOESTADISTICA AVANZADA
16
UNICLA PLANTEL ZITACUARO
aproximaciones en la situación de estadística médica usual, donde todos los tiempos de
supervivencia y censura se conocen con precisión.
El estimador desarrollado por Kaplan y Meier consistió en reducir los intervalos de
observación (hacer que la longitud de ellos tendiera a cero) para incluir como máximo una
observación por intervalo (En otras palabras, hacer un proceso límite con la tabla actuarial
de vida). Aunque pasado por alto por muchos autores, Kaplan y Meier también
formalizaron el milenario manejo de la entrada en distintos momentos al estudio, a través
del ajuste necesario para los conjuntos en riesgos, el conjunto de individuos vivos y bajo
observación en un tiempo específico. Entre las variaciones en el modelo actuarial, es
conveniente mencionar dos. Harris et al. (1950) anticiparon en su generalización mucho
del trabajo reciente que se hace, por ejemplo, en los estudios de supervivencia de SIDA,
en los que los estimadores de la tabla 2 de vida dependen de los tiempos de muertes y
censuras registrados en grandes intervalos irregulares de tiempo. Ederer et al. (1962)
desarrolló una “tasa de supervivencia relativa” como la relación (cociente) de la tasa de
supervivencia observada en un grupo de pacientes y la tasa de supervivencia esperada en
una grupo similar a estos pacientes.
“Haciendo un símil, de esta manera, con la larga tradición de la comparación de valores
observados con valores esperados”. En la nomenclatura actual, la comparación de un
grupo tratado vs. Un grupo control. Modelos paramétricos de supervivencia Los modelos
de supervivencia paramétricos estaban bien establecidos en la ciencia actuarial y la
demografía, pero nunca han dominado dentro los usos médicos del análisis de
supervivencia. Sin embargo, en los años 1950 y 1960 hubo importantes contribuciones a
la teoría estadística de análisis de supervivencia basada en modelos paramétricos simples.
Un ejemplo es el enfoque de máxima verosimilitud por Boag (1949) para un modelo de
cura (cure rate model) asumiendo la vida eterna (supervivencia del grupo de cura) con
probabilidad, c (proporción del grupo de cura), y tiempos de supervivencia con
distribución lognormal.
La distribución exponencial fue utilizada por Littell (1952), cuando realizó la comparación
de la tasa de supervivencia anual dada por el método actuarial y calculada a través de
17. BIOESTADISTICA AVANZADA
17
UNICLA PLANTEL ZITACUARO
máxima verosimilitud. Armitage (1959) utilizó esta distribución en su estudio
comparativo de pruebas de dos muestras para los ensayos clínicos con entrada escalonda,
y también fue utilizada por Feigl y Zelen (1965) en su modelo para tiempos de vida (sin
censura) cuya intención era que dependieran linealmente de covariables de los sujetos;
generalizada, posteriormente, para datos censurados por Zippin y Armitage (1966). Cox
(1972) revolucionó el análisis de supervivencia a través de su modelo de regresión
semiparamétrico para la función de riesgo (modelo de riesgos proporcionales o Modelo
de Cox), que depende arbitrariamente del tiempo y paramétricamente de las covariables.
El análisis de datos para estudios de supervivencia requiere métodos de análisis
específicos por dos razones fundamentales:
A. Los investigadores muy frecuentemente analizan los datos antes de que todos los
pacientes hayan muerto, ya que si no habría que esperar muchos años para realizar dichos
estudios. Los datos aportados por los pacientes vivos, como se señaló previamente, son
observaciones “censuradas” y deben considerarse como tales a la hora de analizarlas.
B. La segunda razón por la que se necesitan métodos especiales de análisis es porque
típicamente los pacientes no inician el tratamiento o entran al estudio al mismo tiempo.
En la metodología estadística básica se señalaba la existencia de pruebas paramétricas y
no paramétricas. En el análisis de supervivencia, el análisis de los datos puede ser
realizado utilizando técnicas paramétricas y no paramétricas. Las Paramétricas:
(Distribución Exponencial, distribución de Weibull y distribución Lognormal) y las No
paramétricas (Kaplan-Meier, logrank, regresión de Cox)
En epidemiología clínica, pronosticar la supervivencia a largo plazo es de fundamental
importancia para la toma de decisiones acerca de la efectividad de la terapéutica y definir
cuál es la más adecuada. La ventaja ofrecida por estas técnicas es la posibilidad de
generalizar el análisis de respuestas binarias (si/no; fallecido/vivo) incluido el tiempo
transcurrido desde el inicio del seguimiento hasta producirse la respuesta o hasta el final
del seguimiento si la respuesta aún no se ha producido. Se puede valorar en condiciones
18. BIOESTADISTICA AVANZADA
18
UNICLA PLANTEL ZITACUARO
duración del período de observación es muy diferente para cada sujeto de investigación.
Así el análisis de supervivencia es una técnica adecuada para su análisis con estudios de
diseño longitudinal caracterizados por una duración variable del seguimiento para los
sujetos que se incorporan en momentos distintos o existir observaciones incompletas. A
estas observaciones incompletas se las conoce como datos censurados y una característica
importante del análisis de supervivencia es incluirlas porque aportan información muy
útil. En un estudio de supervivencia sólo se necesitan un par de valores, el tiempo de
seguimiento del sujeto y una variable binaria que indica si el tiempo de estudio es
completo o censurado.
Un rasgo trascendente del análisis de supervivencia, frecuentemente ignorado por los
cirujanos, es el ritmo de presentación del evento, es decir, su tasa de incidencia que lleva
a creer que existen diferencias entre un tiempo de vida "real" de supervivencia (un paciente
definido vivió tanto tiempo) y otro el encontrado por el análisis estadístico (la aplicación
de la curva de supervivencia global), error muy común y difícil de remover del
Muy flexibles, porque la
19. BIOESTADISTICA AVANZADA
19
UNICLA PLANTEL ZITACUARO
pensamiento de muchos colegas. Es necesario distinguir: 1) Tiempo calendario (Figura 1):
cada barra representa la fecha de inicio de tratamiento y la fecha final de seguimiento a 5
años de una enfermedad neoplásica de 10 enfermos donde se representa el tiempo
calendario de cada paciente analizado.
2) Tiempo de seguimiento (Figura 2): son los mismos pacientes analizados de la figura 1,
ordenados de menor a mayor tiempo de seguimiento, preparados para su análisis
descriptivo.3) Duración del estudio: cada paciente tiene una fecha de inicio y otra de cierre
de su seguimiento, y pueden no coincidir con las fechas inicial y final del estudio. 4) Fecha
de la última observación: no significa finalización del estudio, sino la última noticia que
se tiene de un enfermo, y principalmente, el estado clínico del mismo. No asumir si está
vivo o fallecido, también un error muy frecuente en la recolección de datos. 5) Tiempo de
seguimiento: variable de fundamental importancia para el análisis de supervivencia;
define el tiempo transcurrido entre la fecha de entrada en el estudio hasta la fecha final de
la última observación) Evento (o suceso) terminal: se considera un solo estado terminal,
que puede ser muerto o recidiva, y se presenta una sola vez
6) Tiempo de supervivencia: si el estado del paciente es "fallecido", al tiempo de
seguimiento se lo conoce como tiempo de supervivencia. Es un tiempo completo no
censurado donde el paciente falleció durante el estudio.
7) Tiempo incompleto o censurado: existe cuando el estado del paciente es "vivo" en
la última observación al no haberse producido el evento terminal. Aportan información
20. BIOESTADISTICA AVANZADA
20
UNICLA PLANTEL ZITACUARO
para estimar las probabilidades de supervivencia. Estos tiempos censurados pueden tener
distintos orígenes, por ejemplo, en sujetos retirados vivos o perdidos.
8) Sujetos "retirados vivos": son los sujetos seguidos regularmente que en el
momento del cierre del estudio no han presentado el evento terminal, pudiendo no haber
tenido un completo seguimiento (esto es, por haber entrado posteriormente al inicio del
estudio, no tienen un seguimiento completo no censurado).
9) Sujetos "perdidos": ya sea porque cambiaron de domicilio (y no lo notificaron a
sus médicos) o porque fallecieron por otras causas no relacionadas con el estudio,
producen tiempos incompletos de seguimiento. No se puede asumir que el paciente, al
estar "perdido", y como su última observación estaba "vivo", continúa "vivo". Esto es una
falacia, que también se encuentra frecuentemente en los informes de supervivencia. No
escapa a nadie que no es lo mismo 100 tiempos censurados donde hay 90 perdidos y 10
retirados vivos que otro de 10 perdidos y 90 retirados vivos, porque es un sesgo de
selección e interpretación de datos muy evidente: no puede existir más de un 20% de
pérdidas de una serie de casos.
Curvas de supervivencia
Las curvas de supervivencia se originan usando uno de los dos métodos siguientes: el
método del límite de producto de Kaplan-Meier o el análisis actuarial de Cutler-Ederer.
Formulas y ejemplos de ambos métodos escapan a este breve trabajo de actualización.
1) Método de Kaplan-Meier: si se asume que el evento terminal es independiente para
cada paciente, las probabilidades de sobrevivir en un tiempo t determinado se calculan
gracias a una ley multiplicativa de probabilidades.
La característica distintiva es que la proporción acumulada que sobrevive se calcula para
el tiempo de supervivencia individual de cada paciente y no se agrupan los tiempos de
supervivencia en intervalos. Debido a ello, es especialmente útil en estudios con número
pequeño de pacientes (Figura 3).
21. BIOESTADISTICA AVANZADA
21
UNICLA PLANTEL ZITACUARO
Aunque la supervivencia en un tiempo dado depende de la supervivencia en todos los
períodos previos, la posibilidad de la misma en un período de tiempo es independiente de
la probabilidad de supervivencia en los demás períodos. Se incorpora la idea del tiempo
al que ocurren los eventos. Se puede calcular la mediana de supervivencia, que no requiere
conocer el tiempo de supervivencia de todos los pacientes y que se estima con el percentil
50 de la distribución (Figura 4), que corresponde al primer tiempo con una proporción de
supervivencia (probabilidad acumulada de supervivencia) igual o inferior a 0.5: sólo se
trata de proyectar la probabilidad de supervivencia del 0.5 sobre la curva y comprobar a
qué tiempo le corresponde
22. BIOESTADISTICA AVANZADA
22
UNICLA PLANTEL ZITACUARO
Kaplan-Meir
Método de Kaplan-Meier Conocido también como del “limite del producto”. La
característica distintiva del análisis con este método es que la proporción acumulada que
sobrevive se calcula para el tiempo de supervivencia individual de cada paciente y no se
agrupan los tiempos de supervivencia en intervalos. Por esta razón es especialmente útil
para estudios que utilizan un número pequeño de pacientes. El método de KaplanMeier
incorpora la idea del tiempo al que ocurren los eventos. La validez de este método
descansa en dos suposiciones: 1. Las personas que se retiran del estudio tienen un destino
parecido a las que quedan. 2. El período de tiempo durante el cual una persona entra en el
estudio no tiene efecto independiente en la respuesta.
Comparaciones entre curvas
Otro de los aspectos útiles en las curvas de supervivencia es que pueden compararse entre
sí. Existe una prueba no paramétrica, el log-rank que es la más ampliamente usada para
comparar dos o más curvas de supervivencia. En este caso, las curvas pueden corresponder
a dos grupos de pacientes con diferentes tratamientos, o dos grupos de pronóstico
diferente. El método calcula para cada tiempo el número de eventos terminales que se
esperarían asumiendo que no hay diferencias entre ambos grupos.
Se obtiene un valor final que puede compararse mediante una distribución de χ2 y que
puede dar un valor de p que permita valorar la existencia de diferencias estadísticamente
significativas entre ambas curvas. Aunque existen otros métodos para comparar curvas,
se considera que el de log-rank es tan robusto, a pesar de depender del número de
pacientes, que la utilización de cualquier otro método debe estar muy bien justificada. La
primera marca los intervalos en los que calcularemos la supervivencia. La segunda, el
número de sujetos al inicio del intervalo. La tercera, el número de sujetos con el tiempo
censurado durante el intervalo. La cuarta son los que están en riesgo durante el intervalo.
La quinta es el número de eventos que se producen durante el intervalo.
23. BIOESTADISTICA AVANZADA
23
UNICLA PLANTEL ZITACUARO
La siguiente columna importante es la sexta: señala la probabilidad de supervivencia
acumulada, y que es la que se representa en la curva. Y la última transcendente por hoy es
la séptima: la tasa de riesgo, y que también será la que representaremos en forma de curva
de riesgo. Para un no iniciado, con estas columnas es suficiente. Los métodos para el
análisis de datos de supervivencia son válidos sólo si los pacientes censurados (aquellos
en los que no se ha presentado el evento terminal) han sido censurados por un motivo "no
informativo". En la práctica, sí son pacientes perdidos. Esto tiene un sentido clínico que
hay que explicar. Al menos en teoría, un paciente perdido puede presentar el evento
terminal en cualquier momento una vez lo hemos perdido.
Nada nos hace pensar que tenga alguna característica que lo haga diferente de los que
permanecen en el estudio y no se han perdido y, por tanto, es comparable a los que se
quedan en el estudio. En cambio, el censurado "informativo" es una situación diferente.
Por ejemplo, son los pacientes que han fallecido por cualquier otro motivo, o aquellos que
salen del estudio porque la situación clínica ha empeorado, o han presentado un efecto
adverso grave.
Esto los hace no comparables a los que se han quedado en el estudio. Precisamente por
este motivo, no es muy adecuado hacer un análisis de supervivencia teniendo como
variable de evento terminal la mortalidad por cáncer: ¿y los que fallecen por un accidente
de tráfico? Los falleidos por un accidente de tráfico es un caso claro de tiempo censurado
(tiempo incompleto: no se ha presentado el evento terminal, que era la defunción por
cáncer) pero informativo: sabemos perfectamente lo que le ha pasado al paciente, y
además, no podemos decir que sea comparable a los que siguen en el estudio. Otro ejemplo
es el paciente que acaba el seguimiento a los 60 meses y sale del estudio: es un censurado
informativo, sabemos lo que le ha pasado exactamente, y además, vuelve a no ser para
nada comparable con los que siguen en el estudio. Un ejemplo muy claro de cómo puede
variar la "supervivencia" de un mismo paciente según el evento terminal que se estudie se
encuentra en un trabajo que compara las supervivencias por diferentes eventos terminales.
24. BIOESTADISTICA AVANZADA
24
UNICLA PLANTEL ZITACUARO
Método Cox
Hasta aquí se han estudiado métodos que permiten estimar las funciones de riesgo y
supervivencia para una muestra aleatoria y comparar dos o más estimaciones. El objetivo
ahora es plantear un modelo de regresión para el riesgo, o la supervivencia, en función de
variables "explicatorias", que permita comparar dichas estimaciones, teniendo en cuenta
el efecto de otras variables distintas de la que se utiliza para definir los grupos. Por
ejemplo, la supervivencia a dos tratamientos alternativos puede depender no sólo del
tratamiento, sino también de otras variables como la edad, el sexo, o la gravedad de la
afección de cada paciente. En los métodos previos se asume que el muestreo aleatorio hace
que los distintos grupos sean homogéneos con respecto a todas las demás variables, sin
embargo, no siempre es así (el muestreo aleatorio sólo garantiza que las muestras
homogéneas sean las más probables) y, por otro lado, a veces interesa estimar la
supervivencia para distintos valores de las otras variables. Los modelos de regresión
permiten hacer ambas cosas. Hay varios modelos de regresión propuestos, como el
llamado modelo acelerado en que se asume que la función de supervivencia es una función
del tiempo y de otras k variables (representadas por el vector, de dimensión k, X) de la
siguiente forma:
Siendo F (X, a) una función de X con unos coeficientes α, que serían los coeficientes a
estimar para el modelo. Otros modelos asumen algunas de las funciones de supervivencia
vistas antes planteando el modelo de regresión para los parámetros de las funciones. Sin
embargo, el modelo más popular, por su sencillez y facilidad para interpretar los
coeficientes a, es el denominado modelo de riesgo proporcional o modelo de Cox que es
un modelo de la forma.
Es decir, h0(t) es el riesgo cuando todas las variables Xi son 0, o riesgo basal, que es
variable con el tiempo. Otra manera equivalente de expresarlo es:
25. BIOESTADISTICA AVANZADA
25
UNICLA PLANTEL ZITACUARO
Es decir, el modelo plantea el logaritmo del riesgo relativo como una función lineal de las
variables independientes. Se supone, por lo tanto, que el riesgo relativo, a diferencia del
riesgo propiamente dicho, no depende del tiempo o, dicho de otra manera, que es constante
a lo largo del tiempo (de ahí el nombre de modelo de riesgo proporcional). La forma
anterior hace explícita la interpretación de los coeficientes: ai es el logaritmo del riesgo
relativo cuando Xi aumenta una unidad, manteniéndose constantes las demás variables, y
por tanto, exp( ai) es el riesgo relativo cuando Xi aumenta una unidad, manteniéndose
constantes las demás
26. BIOESTADISTICA AVANZADA
26
UNICLA PLANTEL ZITACUARO
IV. FUENTES BIBLIOGRAFICAS
Abraira V. Análisis del tiempo hasta un evento (supervivencia). Semergen 2004; 30:
223225.
Cobo E. Análisis multivariante en investigación médica: criterios para la inclusión de
variables. Med Clin (Barc) 2002;119:230-7.
Díaz-Ceballos FJ. Introducción a los estudios de cohorte en epidemiología y al análisis de
supervivencia. MedUNAB 2005; 8: 43-53.
Dawson-Saunders B, Trapp RG. Bioestadística Médica. México: Editorial El Manual
Moderno; 1993.
Gómez, G. Técnicas estadísticas en análisis de supervivencia. ICB digital 5 [consultado
17/06/2002]. Disponible en: http://www.icf.uab.es/icbdigital/
Gómez, G. Análisis de supervivencia Barcelona. Universidad Politécnica de Catalunya,
2004. ISBN 84-688-5607-X
Introducción al análisis de datos en investigación cualitativa: tipos de análisis y proceso
de codificación (II)Teresa González Gil, Alejandra Cano Arana. Recuperado de;
https://www.nureinvestigacion.es/OJS/index.php/nure/article/view/485/474
Minitab. (s. f.). (C) Minitab, LLC. All rights Reserved. 2020. Recuperado 20 de
noviembre de 2020, de https://support.minitab.com/es-mx/minitab/19/help-and-
howto/statistics/tables/supporting-topics/other-statistics-and-tests/what-is-the-
cochranmantel-haenszel-test/
Ormsby CE. Curvas de supervivencia de Kaplan-Meier. Medicina Universitaria 2005; 7:
179-181.