1. Modelos predictivos. Aplicaciones para la optimización de las decisiones clínicas y sanitarias. Luis Carlos Silva Ayçaguer CNICM, La Habana Sevilla, 19-22 de septiembre 2011 Distrito Sanitario de A. P. Sevilla
2. Proveer a los participantes de recursos teóricos y prácticos para encarar el tema de la predicción. El enfoque será eminentemente práctico de manera que al concluir los alumnos sean capaces de resolver enteramente por sí solos situaciones donde la predicción sea un elemento básico para la solución de problemas prácticos. OBJETIVO
10. Tipos de estudio según propósito DESCRIPCIÓN EXPLICACIÓN OBSERVACIONAL EXPERIMENTAL PROSPECTIVO RETOSPECTIVO PREDICCIÓN (típicamente, prospectivo)
11. Ejemplos de situaciones de predicción Estado que predecir Posibles variables predictoras Comentarios un paciente quemado muere tras ingresar en un servicio * edad la probabilidad de muerte es, además, en este caso, una cuantificación de la gravedad con que ingresa * % de quemaduras epidérmicas * % de quemaduras hipodérmicas * es diabético (si o no) un alumno que ingresa en la carrera de medicina, concluye exitosamente los estudios * índice académico precedente la estimación de la probabilidad de éxito pudiera servir para recanalizar la elección de la carrera * profesión del padre * número de carreras en las que fracasó * domina el inglés (si o no) un embarazo no llega a feliz término * la madre es adolescente (si o no) la magnitud de la probabilidad puede determinar si se le indica hacer reposo * número de abortos anteriores * consume drogas alucinógenas * salario
12. Ejemplos de situaciones de predicción Estado que predecir Posibles variables predictoras Comentarios un paciente quemado muere tras ingresar en un servicio * edad la probabilidad de muerte es, además, en este caso, una cuantificación de la gravedad con que ingresa * % de quemaduras epidérmicas * % de quemaduras hipodérmicas * es diabético (si o no) un alumno que ingresa en la carrera de medicina, concluye exitosamente los estudios * índice académico precedente la estimación de la probabilidad de éxito pudiera servir para recanalizar la elección de la carrera * profesión del padre * número de carreras en las que fracasó * domina el inglés (si o no) un embarazo no llega a feliz término * la madre es adolescente (si o no) la magnitud de la probabilidad puede determinar si se le indica hacer reposo * número de abortos anteriores * consume drogas alucinógenas * salario
13. Ejemplos de situaciones de predicción Estado que predecir Posibles variables predictoras Comentarios un paciente quemado muere tras ingresar en un servicio * edad la probabilidad de muerte es, además, en este caso, una cuantificación de la gravedad con que ingresa * % de quemaduras epidérmicas * % de quemaduras hipodérmicas * es diabético (si o no) un alumno que ingresa en la carrera de medicina, concluye exitosamente los estudios * índice académico precedente la estimación de la probabilidad de éxito pudiera servir para recanalizar la elección de la carrera * profesión del padre * número de carreras en las que fracasó * domina el inglés (si o no) un embarazo no llega a feliz término * la madre es adolescente (si o no) la magnitud de la probabilidad puede determinar si se le indica hacer reposo * número de abortos anteriores * consume drogas alucinógenas * salario
14. Ejemplos de situaciones de predicción Estado que predecir Posibles variables predictoras Comentarios Capacidad vital de un sujeto * edad Contar con esta estimación permite saber en qué medida el sujeto tiene una CV por debajo de lo que “le corresponde” * talla * Fumador (si o no) * Altura sobre el nivel del mar un alumno que ingresa en la carrera de medicina, concluye exitosamente los estudios * índice académico precedente la estimación de la probabilidad de éxito pudiera servir para recanalizar la elección de la carrera * profesión del padre * número de carreras en las que fracasó * domina el inglés (si o no) un embarazo no llega a feliz término * la madre es adolescente (si o no) la magnitud de la probabilidad puede determinar si se le indica hacer reposo * número de abortos anteriores * consume drogas alucinógenas * salario
15. Ejemplos de situaciones de predicción Estado que predecir Posibles variables predictoras Comentarios un paciente quemado muere tras ingresar en un servicio * edad la probabilidad de muerte es, además, en este caso, una cuantificación de la gravedad con que ingresa * % de quemaduras epidérmicas * % de quemaduras hipodérmicas * es diabético (si o no) Una paciente tiene un tumor maligno o benigno en mama * edad En dependencia de la naturaleza del tumor se adoptan unas u otras acciones correctoras * cuadrante * movilidad * antecedentes un embarazo no llega a feliz término * la madre es adolescente (si o no) la magnitud de la probabilidad puede determinar si se le indica hacer reposo * número de abortos anteriores * consume drogas alucinógenas * salario
16. Ejemplos de situaciones de predicción Estado que predecir Posibles variables predictoras Comentarios un paciente quemado muere tras ingresar en un servicio * edad la probabilidad de muerte es, además, en este caso, una cuantificación de la gravedad con que ingresa * % de quemaduras epidérmicas * % de quemaduras hipodérmicas * es diabético (si o no) un alumno que ingresa en la carrera de medicina, concluye exitosamente los estudios * índice académico precedente la estimación de la probabilidad de éxito pudiera servir para recanalizar la elección de la carrera * profesión del padre * número de carreras en las que fracasó * domina el inglés (si o no) un trabajador tendrá un accidente laboral * Tipo de contrato (indef o temp) La magnitud de la probabilidad induciría a adoptar (o no) medidas preventivas especiales * Años de experiencia * Trabajo manual o intelectual * Escolaridad
23. Diagramas de dispersión o nube de puntos Mide 187 cm. Mide 161 cm . Pesa 76 kg. Pesa 50 kg . Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión. Cada punto es un valor particular de la variable aleatoria bidimensional (X, Y).
24. Relación entre variables Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión. Parece que el peso aumenta con la altura
25. Predicción de una variable en función de o tra Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... O sea, el peso aumenta en una unidad por cada unidad de altura. 10 cm. 10 kg.
37. El problema básico que resuelve la Regresión Logística Ante un proceso que tiene un desenlace dicotómico (sea éste un acontecimiento natural de una unidad de análisis o el resultado de una convención), la regresión logística procura expresar dicho desenlace en función de un conjunto de variables prestablecidas susceptibles de ser medidas sobre dicha unidad.
46. Patrones de lactancia materna Prospectivo Recién nacidos e 1 e 2 e 3..... e n Retrospectivo e 1 e 2 e 3..... e n Niños de 1 año o más Transversal Niños menores de un año d 1 d 2 d 3..... d n y 1 y 2 y 3..... y n y i = 1 , si el niño aún lacta 0 , si el niño ya no lacta =días de vida en ese momento d i
49. Curva de prevalencia de lactancia materna Datos empíricos vs. Curva ajustada Edad en días Prevalencia
50. a los 4 meses, solo el 20% de los niños aún se mantenía lactando (ya que P(Y=1)=0.203 para X=120) el 32% de los niños nunca se alimenta exclusivamente de la madre (P(Y=1)=0.678 para X=0) la deserción de la LM se produce de manera paulatina y "suave" a lo largo del año a los 10 meses la lactancia se ha extinguido virtualmente
56. Resultados del ajuste con una cohorte de 5315 sujetos (900 accidentados y 4415 no accidentados) B Sig. Contrato 1.19 0.00 EDAD -0.04 0.00 ESCOORD -0.68 0.00 EXPER -0.83 0.00 Constant 7.71
58. Ajuste de un modelo de regresión logística simple (datos agrupados) Se tiene una cohorte de 8012 parturientas de las que se conoce la edad. Se clasificará cada niño recién nacido como “bajo peso” o “normopeso” en dependencia de que pese menos de 2500 gramos al nacer, o más de esa cantidad. Se valora construir un modelo que ponga la probabilidad de tener esta condición de bajo peso ( Y=1 ) en función de la edad de la madre ( X ).
59. Distribución de una cohorte de 8012 embarazadas según edades simples y tasas de prevalencia (%) de bajo peso
60. Datos teóricos y empíricos para el ajuste de la probabilidad de bajo peso en función de la edad sin corregir de la madre
61. La relación entre probabilidad P(Y=1) y X (edad) no es monotóna Se define
62. Distribución de una cohorte de embarazadas según edad corregida y tasas de prevalencia (%) de bajo peso
63. Datos teóricos y empíricos para el ajuste de la probabilidad de bajo peso en función de la edad corregida de la madre
64. Bondad de ajuste (Hosmer y Lemeshow) Se distribuye 2 con 8 grados de libertad O i : frecuencias observadas E i : f recuencias esperadas
74. N=2000 Cohorte de 2000 pacientes quemados X 1 = edad en años (EDAD) X 2 = % de superficies con quemaduras dérmicas tipo A (Q1) X 3 = % de superficies con quemaduras dérmicas tipo AB (Q2) X 4 = % de superficies con quemaduras hipodérmicas (Q3) X 5 = es diabético (D) (1 si lo es; 0 en caso contrario) X 6 = afectación de la cabeza (C) (1 si lo es; 0 en caso contrario) Y= respuesta (murió o no) Se construye base de datos
75. N=2000 N=1000 N=1000 Cohorte de 2000 pacientes quemados División aleatoria en mitades
76. Para construir el modelo predictivo Para validar el modelo predictivo N=1000 N=1000
77. Se crea el modelo predictivo con el primer subconjunto N=1000 X 1 = edad en años (EDAD) X 2 = % de superficies con quemaduras dérmicas tipo A (Q1) X 3 = % de superficies con quemaduras dérmicas tipo AB (Q2) X 4 = % de superficies con quemaduras hipodérmicas (Q3) X 5 = es diabético (D) (1 si lo es; 0 en caso contrario) X 6 = afectación de la cabeza (C) (1 si lo es; 0 en caso contrario) Y= respuesta (murió o no)
78. X 1 = edad en años (EDAD) X 2 = % de superficies con quemaduras dérmicas tipo A (Q1) X 3 = % de superficies con quemaduras dérmicas tipo AB (Q2) X 4 = % de superficies con quemaduras hipodérmicas (Q3) X 5 = diabético (D) X 6 = afectación de la cabeza (C) ¿Resulta validado? N=1000 Paciente Desenlace prob estimada 1 y1 p1 2 y2 p2 3 y3 p3 ········ ········ ········ ········ ········ ········ 998 y998 p998 999 y999 p999 1000 y1000 p1000
79. X 1 = edad en años (EDAD) X 2 = % de superficies con quemaduras dérmicas tipo A (Q1) X 3 = % de superficies con quemaduras dérmicas tipo AB (Q2) X 4 = % de superficies con quemaduras hipodérmicas (Q3) X 5 = diabético (D) X 6 = afectación de la cabeza (C) ¿Resulta validado? N=1000 Paciente Desenlace prob estimada 1 0 0.126639937 2 1 0.706614954 3 0 0.052252519 ········ ········ ········ ········ ········ ········ 998 0 0.120151107 999 0 0.163556565 1000 0 0.08128608
80. Perfil de entrada y probabilidad de muerte de varios pacientes hipotéticos que ingresan en un servicio de quemados. EDAD Q1 Q3 Q2 D C Probmuerte 20 5 5 5 0 0 30 5 5 5 0 0 30 10 5 5 0 0 30 10 15 5 0 0 30 10 15 20 0 0 30 10 15 20 1 0 30 10 15 20 1 1 60 10 15 20 1 0
81. Perfil de entrada y probabilidad de muerte de varios pacientes hipotéticos que ingresan en un servicio de quemados. EDAD Q1 Q3 Q2 D C Probmuerte 20 5 5 5 0 0 0.00 30 5 5 5 0 0 0.00 30 10 5 5 0 0 0.01 30 10 15 5 0 0 0.04 30 10 15 20 0 0 0.29 30 10 15 20 1 0 0.58 30 10 15 20 1 1 0.86 60 10 15 20 1 0 0.89
82. El problema de la multicolinealidad y de variables incorrelacionadas
83. N=1000 Cohorte de 1000 pacientes quemados X 1 = edad en años (EDAD) X 2 = % de superficies con quemaduras dérmicas tipo A (Q1) X 3 = % de superficies con quemaduras dérmicas tipo AB (Q2) X 4 = % de superficies con quemaduras hipodérmicas (Q3) X 5 = es diabético (D) (1 si lo es; 0 en caso contrario) X 6 = afectación de la cabeza (C) (1 si lo es; 0 en caso contrario) X 7 = % de superficies con quemaduras (Q) Y= respuesta (murió o no)
84. N=1000 Cohorte de 1000 pacientes quemados X 1 = edad en años (EDAD) X 2 = % de superficies con quemaduras dérmicas tipo A (Q1) X 3 = % de superficies con quemaduras dérmicas tipo AB (Q2) X 4 = % de superficies con quemaduras hipodérmicas (Q3) X 5 = es diabético (D) (1 si lo es; 0 en caso contrario) X 6 = afectación de la cabeza (C) (1 si lo es; 0 en caso contrario) X 7 = número de tíos Y= respuesta (murió o no)
106. Forward stepwise regresion Modelo final Variable B S.E. Wald df Sig. IP 0.23198802 0.05602676 17.1451031 1 3.46301E-05 ALCOH 4.88071013 0.48900733 99.6174205 1 1.84871E-23 ESCOL -0.2843102 0.06108702 21.6614276 1 3.25266E-06 Constant -3.895071 0.6886912 31.9876022 1 1.5516E-08
107.
108.
109.
110. Silva LC (2005) Una ceremonia estadística para identificar factores de riesgo . Revista Salud Colectiva 1: 329-322. (http://lcsilva.sbhac.net) Una ceremonia metodológica .
111. “ el uso de la regresión paso a paso con finalidad explicativa es en la actualidad una confesión de ignorancia teórica sobre la estructura de la matriz de correlaciones” Gutman L. What is not what in statistics. The statistician 1977; 26: 81- 107.
112.
113. Henri Poincaré La ciencia se construye con hechos, del mismo modo que un edificio se hace con ladrillos; pero hacer pasar una colección de hechos como ciencia es como atribuir a un montón de ladrillos la condición de edificio.
115. ESTA FUNCION NO SE PUEDE USAR PARA ESTIMAR PROBABILIDADES A PARTIR DE UN PERFIL DADO PUES CUANDO EL MODELO NO SE HA OBTENIDO EN EL MISMO ENTORNO DONDE AHORA SE QUIERE APLICAR. LOS COEFICIENTES VALEN, PERO EL TÉRMINO INDEPENDIENTE NECESITA SER CORREGIDO.
116. HAY QUE USAR: es la tasa en el entorno nuevo donde es la tasa en el entorno donde se hizo el estudio y
117. Ajuste del modelo en la actualidad X 1 = edad en años (EDAD) X 2 = % de superficies con quemaduras dérmicas tipo A (Q1) X 3 = % de superficies con quemaduras dérmicas tipo AB (Q2) X 4 = % de superficies con quemaduras hipodérmicas (Q3) X 5 = es diabético (D) (1 si lo es; 0 en caso contrario) X 6 = afectación de la cabeza (C) (1 si lo es; 0 en caso contrario) Y= respuesta (murió o no)
118. Ajuste del modelo en otro contexto X 1 = edad en años (EDAD) X 2 = % de superficies con quemaduras dérmicas tipo A (Q1) X 3 = % de superficies con quemaduras dérmicas tipo AB (Q2) X 4 = % de superficies con quemaduras hipodérmicas (Q3) X 5 = es diabético (D) (1 si lo es; 0 en caso contrario) X 6 = afectación de la cabeza (C) (1 si lo es; 0 en caso contrario) Y= respuesta (murió o no)
124. descriptiva explicativa predictiva De los 1178 artículos que abordan problemas prácticos en American Journal of Epidemiology (AJE) entre 1994 y 1998, 855 (casi un 73%) utilizaron al menos una vez el análisis de regresión multivariada FINALIDADES
125.
126. Tasas de empleo de la regresión paso a paso según modalidades de regresión en American Journal of Epidemiology 1994-1998. Tipos de Análisis de Regresión Múltiple Artículos que utilizan el análisis de regresión Artículos que utilizan la selección paso a paso % Logística 477 6 1.3 Cox 188 2 1.1 Lineal 142 0 0.0 Poisson 48 1 2.1 Total de artículos 855 9 1.0
127. Tasas de empleo de la regresión paso a paso según modalidades de regresión múltiple en Medicina Clínica 1992-1998. Tipos de Análisis de Regresión Múltiple Artículos que utilizan el análisis de regresión Artículos que utilizan la selección paso a paso % Logística 149 24 16.1 Cox 49 2 4.1 Lineal 177 11 9.4 Poisson 21 1 4.8 Total de artículos 336 38 11.3
129. Variables que quedaron incluidas la aplicar la regresión paso a paso hacia atrás y hacia delante a cada uno de los 5 juegos de datos. Hacia atrás Hacia delante X 1 X 2 X 3 X 4 X 5 X 6 X 1 X 2 X 3 X 4 X 5 X 6 Muestra 1 * * * * * Muestra 2 * * * * * Muestra 3 * * * * * * Muestra 4 * * * * * * Muestra 5 * * * * *
133. 3 10 7 4 1 2 5 Se observa un resultado.... Supongamos que fue un 3 ¿Lo produjo el cubo o el icosaedro? 17 Teorema de Bayes B=salió un 3 A=se lanzó un hexaedro
134. 3 10 7 4 1 2 5 Se observa un resultado.... Supongamos que fue un 3 ¿Lo produjo el cubo o el icosaedro? 17 0,77 Teorema de Bayes 0,23
135.
136.
137. La prevalencia de la dolencia en la comunidad es 1/150 Se cuenta con una prueba que tiene sensibilidad=especificidad=0,95 Si tomamos 3000 individuos habrá 20 enfermos; la prueba detecta a 19 de ellos; de los 2980 sanos declarará enfermos al 5%; o sea, a 149. En total habrá 168 declarados como enfermos. Pero de ellos, solo 19 lo están: 19/168=0,113 Esta es la probabilidad de estar enfermo supuesto que se le declara enfermo
146. Luis Carlos Silva Ayçaguer Investigador Titular Centro Nacional de Información de Ciencias Médicas (INFOMED) lcsilva @ infomed.sld.cu : http://lcsilva.sbhac.net