4. Hablemos de las posibilidades (chances)
Empate: ninguno tiene más o menos probabilidad de ganar
Hay x posibilidades menos de que caballo A gane al B
Hay x posibilidades más de que caballo A gane al B
5. ¿Cómo se vería el diagrama de
dispersión de una regresión
logística?
6. ¿Cómo se vería el diagrama de dispersión
de una regresión logística?
Ansiedad Consumo
20 Si
18 Si
17 Si
8 No
9 No
4 No
15 Si
16 Si
7 No
8 No
20 Si
9 Si
14 No
7. Regresión logística
✓ Modelo en el cual la variable de salida (VD) es dicotómica (No-Sí
/ Falso-Verdadero), o binaria (0-1).
✓ Se usa cuando se propone identificar qué variable/s predictiva/s
(VI) influye/n en que ocurra Y (Sí/Verdadero/1).
0 indica ausencia de un evento: Y=0.
1 indica presencia de un evento: Y=1.
✓ Al tener un intervalo reducido de dos valores [0,1] la variable de
salida (VD) presenta una distribución binomial.
9. Regresión logística
✓ Modelo donde la/s VI predicen la transformación logit de la
probabilidad de que ocurra VD.
✓ Pendientes de VI (β1, β2, β3… βk) reflejan un incremento en la
probabilidad de que un evento ocurra o esté presente, no un
incremento en la magnitud de la VD.
✓ Este análisis permite identificar parámetros que maximizan la
verosimilitud de estimación de la ocurrencia, o presencia, de una
situación o evento.
logit(p) = β0 + β1x1 + β2x2 + β3x3… βkxk
10. Regresión logística
p = probabilidad de presencia de evento
1-p probabilidad de ausencia de evento
✓ La media de la variable Y es la proporción de respuestas positivas,
afirmativas, o de ocurrencia.
p = probabilidad de presencia de A.
1-p = probabilidad de ausencia de A.
✓ Razón odds (chance):
11. Regresión logística
El logaritmo neperiano (ln) de esta chance (p/1-p), mide la
probabilidad de ocurrencia del evento en una escala de [-∞, +∞]
donde a mayor valor, mayor probabilidad.
logit(p) = ln p
1-p
ln p = β0 + β1x1 + β2x2 + β3x3… βkxk
1-p
12. Análisis de regresión logística
Bloque 0: resultados iniciales.
Bloque 1: resultados principales.
Trabajamos con el Bloque 1.
1. Contraste global de H0: β1 = β2 = β3 = βk = 0.
Ver cuadro Pruebas ómnibus sobre los coeficientes del modelo,
ubicar “Modelo” en última línea, y su valor p (sig.).
Si p<.05, al menos una de las variables predictivas
muestra una influencia sobre la de salida (VD).
13. Análisis de regresión logística
2. Ajuste del modelo.
❖El R2 de Nagelkerke:
Ver cuadro Resumen del modelo, el R2 de Nagelkerke mide el ajuste .
El R2 indica el porcentaje de verosimilitud del modelo. Se espera un R2
grande (ver criterios de Cohen).
❖ Prueba de Hosmer y Lemeshow: si el valor de significancia p es cercano a 1,
corresponde Y=1 (ocurre), si es cercano a 0, corresponde Y=0 (no ocurre).
❖ Tabla de clasificación: % correcto indica qué tan bien el modelo pronostica
según los aciertos cuando Y=1 e Y=0.
Porcentaje de aciertos es grande, si el valor es de 65% a más.
14. Análisis de regresión logística
3. Contrastes individuales para cada Xj
H0: βk = 0 vs H1 (unilateral o bilateral).
❖ Ver Variables en la ecuación donde se muestran:
✓ Valores estimados de βk
✓ Error estándar de estimación EEEβk
✓ Estadístico W de Wald (W2), equivalente al estadístico t de Student de la regresión lineal
múltiple.
Se observa el valor p (sig.) de cada variable predictora y el signo de
β de cada una para comprobar las H1 planteadas.
15. Análisis de regresión logística
4. Importancia relativa de cada VI se aprecia con el indicador
Exp(B), interpretado en términos del cociente P/1-P, donde P=
P(Y=1).
Esto figura en la última columna llamada Exp(B) del cuadro
“Variables en la ecuación”.
✓ A mayor exponencial Exp(B), más importante la
correspondiente VI.
16. Análisis de regresión logística
5. Exp(B) en términos de probabilidad.
• Se entiende que por cada punto en B habrá un exp(B) de variación en la
probabilidad de obtener Y=1.
• Así, teniendo en consideración exp(B)=1 como empate entre Y=0 e Y=1, se entiende
que, por cada punto adicional en B, la probabilidad de Y = 1 es exp(B) veces más que
la de Y = 0. Para el caso de exp(B) > 1.
• Para el caso de exp(B) < 1, se entiende que, por cada punto adicional en B, la
probailidad de Y = 1 es exp(B) veces menos que la de Y = 0.
17. Ejemplo
Un grupo de investigadores se plantea como objetivo analizar las
variables psicológicas que pueden predecir las dificultades con el sueño
que experimentan los trabajadores médicos hospitalarios. En ese sentido,
se ha planteado verificar si es que un mayor nivel de ansiedad, estrés y
depresión predicen los problemas del sueño en estos profesionales de la
salud.
Y: Problemas del sueño (Y=1, Sí ocurre) (Y=0, No ocurre)
X: Ansiedad (X1), estrés (X2) y depresión (X3)
Identificar variables:
18. Solucionario
1. Plantea la Hipótesis de trabajo, hipótesis estadísticas y ecuación del modelo.
HT: Un mayor puntaje en la ansiedad, el estrés y la depresión predicen los
problemas del sueño en los profesionales de la salud.
Hipótesis estadísticas
H0: βestrés = βansiedad = βdepresión = 0.
H1: βestrés > βansiedad > βdepresión > 0.
Ecuación del modelo
Logit(Y=1) = β0 + βestrés + βansiedad + βdepresión
Logit(Problemas del sueño) = β0 + βestrés + βansiedad + βdepresión
19. 2. Contraste global
• H0: B1 = B2 = B3 = 0
• H1: Al menos un B ≠ 0
✓La prueba ómnibus resultó χ2 = 28.57, p<.001 por lo que se puede decir que el modelo es
adecuado y que al menos una de las VI consideradas (estrés, ansiedad, depresión) es
predictiva de los problemas de sueño en trabajadores médicos hospitalarios.
20. 3. Ajuste del modelo
El R2 de Nagelkerke resultó ser .332. Por lo tanto, se puede decir que el 33.2%
de la variabilidad en la ocurrencia de problemas con el sueño se explica por
la ansiedad, estrés y depresión. Además, según los criterios de Cohen, es un
coeficiente de verosimilitud grande.
R2 de Nagelkerke:
21. • Dado que el valor p es mayor a .05, se acepta H0 y se rechaza H1.
• A partir de la prueba de Hosmer y Lemeshow, se observa que los valores pronosticados y
observados son iguales, χ2 (8)= 3.97, p = .86, por lo que se puede decir que el modelo es
adecuado y estimaría mejor la ocurrencia de problemas con el sueño, ya que el valor de “p”
es cercano a 1 (Y = 1).
Prueba de Hosmer y Lemeshow
H0: Valor pronosticado = Valor observado
H1: Valor pronosticado ≠ Valor observado
Se espera que el
resultado sea no
significativo (p>.05)
22. El porcentaje global fue de 72% (>65%) lo que indica que el % de casos son pronosticados adecuadamente.
✓ Especificidad (No ocurre el evento): 77.8% (>65%)
✓ Sensibilidad (Sí ocurre el evento): 65.2% (>65%)
• A nivel global, el modelo resulta óptimo para estimar la presencia de problemas con el sueño en los
profesionales de la salud (global >65%). A nivel específico, el modelo también presenta índices óptimos
para predecir tanto la ocurrencia de problemas con el sueño (Y=1) (Sensibilidad =65.2% >65%) como su
no ocurrencia (Y=0) (Especificidad = 77.8% > 65%).
Tabla de clasificación
23. 4. Contrastes Individuales
H0: βestrés = 0, H1: βestrés > 0
H0: βansiedad = 0, H1: βansiedad > 0
H0: βdepresión = 0, H1: βdepresión > 0
Se identificó que solo ansiedad predice significativamente la ocurrencia de problemas con el
sueño (βansiedad = .23, EEB = .10, punilateral =.019/2=.01), mientras que estrés (βestrés = .18, EEB =
.11, punilateral =.113/2=.057) y depresión (βdepresión = .08, EEB = .10, punilateral =.410/2=.21) no
resultaron variables predictoras significativas, por tanto, la HT se cumple solo parcialmente.
24. 5. Importancia relativa de cada VI: Solo ansiedad es la variable predictora
importante en el modelo estimado, ya que es la única que resulta significativa.
Exp(B) = 1.258 = 1.26
6. Exp(B) en términos de probabilidad: De igual forma, se entiende que por
cada punto adicional en ansiedad, la probabilidad de padecer un problema de
sueño es 1.26 veces más, que la de no padecerlo.