Modelos Logit y Probit con
Stata
Autor(es): Mg. Luis Fernando Aguas Bucheli
+593 984015184
@Aguaszoft
Aguaszoft@Outlook.es
 Tener éxito no es cuestión de suerte, es
el resultado del esfuerzo más arduo
 (Anónimo)
Ciencias de la Ingeniería
Carrera de Sistemas de Información
Plataformas de Desarrollo 1
Contenidos
II. Concepto
III. Objetivos y preguntas de investigación
IV. Modelo Logit: Especificación del modelo e interpretación de
coeficientes.
V. Modelo Logit: Estimación del modelo
VI. Modelo Logit: Supuestos
VII. Modelo Logit:Ajuste del modelo
VIII. Modelo Logit: Interpretación de resultados
I. INTRODUCCIÓN
Contenidos
IX. Modelo Logit en STATA
X. Modelo Probit: Especificación del modelo.
XI. Modelo Probit: Estimación del modelo
XII. Modelo Probit: Supuestos
XIII. Modelo Probit: Ajuste del modelo
XIV. Modelo Probit: Interpretación de resultados
XV. Modelo Probit en STATA
XVI. Probit vs Logit
XVII. Causalidad en modelos probit y logit
I. INTRODUCCIÓN
Modelos Logit y Probit
Técnicas de análisis estadístico utilizadas para
estimar los efectos de ciertas variables
(independientes /predictores) en una variable
dummy (dependiente/ predicha/ respuesta).
II. CONCEPTOY PREGUNTAS DE INVESTIGACIÓN
Variable
independiente
Variable
independiente
Variable
independiente
Variable
independiente
Variable
Dependiente
Modelos Logit y Probit
Técnicas de análisis estadístico utilizadas para
predecir la probabilidad de tener el valor 1 en una
variable dummy (dependiente) a partir de otras
variables (independientes).
II. CONCEPTOY PREGUNTAS DE INVESTIGACIÓN
Variable
independiente
Variable
independiente
Variable
independiente
Variable
independiente
Variable
Dependiente
Pasos para hacer un modelo Logit y
Probit
II. CONCEPTOY PREGUNTAS DE INVESTIGACIÓN
 Especificar el modelo
 Verificar el cumplimiento de supuestos
 Estimar el modelo
• Verificar la capacidad explicativa del
modelo
• Interpretar los resultados
Objetivos de investigación
 Determinar cómo incide (y con qué intensidad lo hacen)A, B y C en
D /Estimar el efecto de A, B y C en D
 Predecir la probabilidad de D, a partir de A, B y C
 Determinar él efecto de A en B, C y D
II. CONCEPTOY PREGUNTAS DE INVESTIGACIÓN
II. CONCEPTOY PREGUNTAS DE INVESTIGACIÓN
II. CONCEPTOY PREGUNTAS DE INVESTIGACIÓN
II. CONCEPTOY PREGUNTAS DE INVESTIGACIÓN
Modelos Logit y Probit
IV. ESPECIFICACIÓN DEL MODELO…
Modelos Logit y Probit
IV. ESPECIFICACIÓN DEL MODELO
10 15 20 25
Modelos Logit y Probit
IV. ESPECIFICACIÓN DEL MODELO
P[Y=1|X]=F(X)
•Logit: F es una función de probabilidad logística
•Probit: F es una función de probabilidad normal
acumulada
Logit o Regresión Logística
IV. ESPECIFICACIÓN DEL MODELO
Modelos Logit (Regresión Logística)
IV. ESPECIFICACIÓN DEL MODELO…
Odd
Probabilidad
Logit
=
Modelos Logit (Regresión Logística)
IV. ESPECIFICACIÓN DEL MODELO…
VARIABLE
DICOTÓMICA
(DUMMY)
VARIABLES
CUANTITATIVAS O
DICOTÓMICA
(DUMMY)
Ajustar la curva: Estimación de
Máxima Verosimilitud
V. ESTMACIÓN DEL MODELO
Verosimilitud: Probabilidad de obtener
los datos, dados los coeficientes a y b.
Estimación mediante máxima
verosimilitud: estimar los coeficientes
que maximizan la verosimilitud.
Supuestos de la Regresión logística
VI. SUPUESTOS
1. Función de Probabilidad Logística
2. Ausencia de Multicolinealidad
3. Observaciones independientes
4. Muestras grandes
1. Función de Probabilidad logística
VI. SUPUESTOS
Función de Probabilidad Logística:
P[Y=1]=F(X) con F logística
Consecuencia del no cumplimiento del supuesto: Disminución del ajuste
del modelo.
1. Función de Probabilidad logística
VI. SUPUESTOS
 Diagnóstico del cumplimiento del supuesto:
Gráfico de dispersión de X eY
0
0.2
0.4
0.6
0.8
1
1.2
0 50 100 150 200
2. Ausencia de Multicolinealidad
VI. SUPUESTOS
 Variables predictoras independientes entre sí.
 Consecuencia del no cumplimiento del supuesto: grandes
errores estándar (intervalos de confianza) y problemas de
identificación.
 Diagnóstico del cumplimiento del supuesto: correlaciones
entre variables
 Solución: Elegir variable o construir índices.
3. Observaciones independientes
VI. SUPUESTOS
 Los datos de los distintos individuos deben ser independientes entre sí
 Consecuencia del no cumplimiento del supuesto:
Inadecuada estimación de los coeficientes del modelo.
4. Muestra grandes
VI. SUPUESTOS
 La Muestra es grande (30 casos por cada predictor)
 Consecuencia del no cumplimiento del supuesto:
Estimación inadecuada de los coefientes del modelo.
Porcentaje de casos bien clasificados
VII. AJUSTE DEL MODELO
1
0
Porcentaje de casos bien clasificados (Ej.)
VII. AJUSTE DEL MODELO
X
(edad)
Y (consume
alcohol)
Y Predicción
1 12 0 85,3% 1
2 18 1 91,4% 1
3 25 1 95,5% 1
Se basan en la comparación de la log-Verosimilitud
del Modelo estimado y un Modelo Nulo
Dado que la verosimilitud(L) se encuentra entre 0 y
1; la log-verosimilitud(LL) es siempre menor o igual a
0.
•Mejor Modelo: L=1 y LL=0
•Peor Modelo: L=0 y LL<0
Pseudo R cuadrado
VII. AJUSTE DEL MODELO
•McFadden
•McFadden Ajustado
Pseudo R cuadrado
VII. AJUSTE DEL MODELO
1 Ajuste Perfecto
0 Mal Ajuste
(equivalente al modelo
nulo)
1 Ajuste Perfecto
<=0 Mal Ajuste
(equivalente al modelo
nulo)
•Cox & Snell
•Nalgelkerke
Pseudo R cuadrado
VII. AJUSTE DEL MODELO
1-L(M nulo)2/N (<1)
Ajuste Perfecto
0 Mal Ajuste
(equivalente al modelo
nulo)
1 Ajuste Perfecto
0 Mal Ajuste
(equivalente al modelo
nulo)
Test de Hosmer y Lemeshow
Clasifica a los casos en grupos de valores predichos similares y
compara si las frecuencias observadas de dichos grupos coinciden
con las esperadas bajo una distribución logística.
 H0: Clasificaciones observadas son iguales a las esperadas
Si P>0,05, con 95% de confianza NO se rechaza H0, indicando un
buen ajuste
VII. AJUSTE DEL MODELO
Análisis de Perfiles
VIII. INTERPRETACIÓN DE RESULTADOS
 Y=Tener pareja
 Perfiles:
 Ocupado de 40 años
 Ocupado de 20 años
 Desocupado de 40 años
 Desocupado de 20 años
Análisis de Perfiles
VIII. INTERPRETACIÓN DE RESULTADOS
Test de hipótesis de los coeficientes
del modelo
VIII. INTERPRETACIÓN DE RESULTADOS
TEST DE RAZÓN DE VEROSIMILITUD: Compara la verosimilitud
del modelo (k predictores) con un modelo reducido (q
predictores).
 H0:bk=0 k no incluido en el modelo reducido.
 Estadístico:
SiValor P<0.05, con 95% se rechaza H0
Test de hipótesis de los coeficientes
del modelo
VIII. INTERPRETACIÓN DE RESULTADOS
TEST DEWALD:
 H0: bk=0
 Estadístico:
 SiValor P<0.05, con 95% se rechaza H0
Coeficientes del modelo
VIII. INTERPRETACIÓN DE RESULTADOS
INTERPRETACIONES POSIBLES:
 Interpretar b
 Interpretar eb
 Interpretar efectos marginales promedio
Modelos Logit (Regresión Logística)
VIII. INTERPRETACIÓN DE RESULTADOS
Probabilidad
El b puede ser interpretado,
realizando una
aproximación lineal a la
curva en el punto de interés.
Dicha recta tendrá
pendiente p(p-1) b
Modelos Logit (Regresión Logística)
IV. ESPECIFICACIÓN DEL MODELO…
Si alguien gana 600 mil, si
aumenta 100 mil su sueldo,
la probabilidad de votar por
Piñera aumenta en
=0.4*0.6*0.5=0,012 (1,2%)
Ingresos (100 mil)
Probabilidad de votar
por Piñera
𝒍𝒐𝒈
𝝅
𝟏−𝝅
= 𝟏 + 𝑿𝟑00.5
Coeficientes del modelo
VIII. INTERPRETACIÓN DE RESULTADOS
INTERPRETACIONES POSIBLES:
 Interpretar b
 b >0
 Al aumentar en 1 la variable
independiente, logit aumenta en b
 Al Aumentar en 1 la variable
independiente aumenta en p(p-1)b
 b <0
 Al aumentar en 1 la variable
independiente, logit disminuye en b
 Al Aumentar en 1 la variable
independiente disminuye en p(p-1)b
Modelos Logit (Regresión Logística)
IV. ESPECIFICACIÓN DEL MODELO…
Si alguien aumenta su
sueldo en 100 mil, los odds
aumenta en 64%
Ingresos (100 mil)
Probabilidad de votar
por Piñera
𝒍𝒐𝒈
𝝅
𝟏−𝝅
= 𝟏 + 𝑿𝟑00.5
Modelos Logit (Regresión Logística)
IV. ESPECIFICACIÓN DEL MODELO…
Si alguien aumenta su
sueldo en 100 mil, los odds
disminuyen en 40%
Ingresos (100 mil)
Probabilidad de votar
por Piñera
𝒍𝒐𝒈
𝝅
𝟏−𝝅
= 𝟏 + 𝑿𝟑00.5-
Coeficientes del modelo
VIII. INTERPRETACIÓN DE RESULTADOS
INTERPRETACIONES POSIBLES:
 Interpretar eb
 eb >1: Al aumentar en 1 la variable independiente los odds
aumentan en 100(eb -1)%
 eb <1: Al aumentar en 1 la variable independiente los odds
disminuyen en 100(1- eb)%
 Al aumentar en 1 la variable independiente los odds aumentan en
eb veces.
Coeficientes del modelo
VIII. INTERPRETACIÓN DE RESULTADOS
INTERPRETACIONES POSIBLES:
 Interpretar efectos marginales promedio (EMP)
 EFP>0: En promedio, cuando la variable independiente aumenta
en 1, la variable dependiente aumenta en EMP
 EFP<0: En promedio, cuando la variable independiente aumenta
en 1, la variable dependiente disminuye en EMP
Ejemplo
VIII. INTERPRETACIÓN DE RESULTADOS
_cons -1.807127 .0150622 -119.98 0.000 -1.836649 -1.777606
ocupa1 .7317526 .0103442 70.74 0.000 .7114784 .7520269
edad .0338646 .000284 119.24 0.000 .033308 .0344212
pareja2 Coef. Std. Err. z P>|z| [95% Conf. Interval]
_cons .1641249 .0024721 -119.98 0.000 .1593506 .1690423
ocupa1 2.078721 .0215027 70.74 0.000 2.037001 2.121295
edad 1.034445 .0002938 119.24 0.000 1.033869 1.03502
pareja2 Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
ocupa1 .1630431 .0021776 74.87 0.000 .1587752 .1673111
edad .0075454 .0000527 143.24 0.000 .0074422 .0076487
dy/dx Std. Err. z P>|z| [95% Conf. Interval]
Delta-method
dy/dx w.r.t. : edad ocupa1
IX. MODELO LOGIT EN STATA
Preguntas
I. ¿Para qué se usan los modelos probit y logit?
II. ¿En qué consiste la estimación por máxima verosimilitud?
En un modelo logit…
I. ¿Cómo se interpretan –de forma general- los pseudo- R cuadrado?
II. ¿Cómo se interpreta el test de Hosmer y Lemeshow?
III. ¿Cómo se interpreta b, eb y los EMP?
REPASO
Probit
X. ESPECIFICACIÓN DEL MODELO
Modelos Logit y Probit
X. ESPECIFICACIÓN DEL MODELO
10 15 20 25
Modelos Logit y Probit
P[Y=1|X]=F(X)
•Logit: F es una función de probabilidad logística
•Probit: F es una función de probabilidad normal
acumulada
X. ESPECIFICACIÓN DEL MODELO
Probit
•Función de probabilidad normal acumulada
X. ESPECIFICACIÓN DEL MODELO
Frecuenci
a
Frecuencia
acumulada
0 1 1
10 2.5 3.5
20 5 8.5
30 8 16.5
40 12 28.5
50 14 42.5
60 12 54.5
70 8 62.5
80 5 67.5
90 2.5 70
10 1 71
0
2
4
6
8
10
12
14
16
1 2 3 4 5 6 7 8 9 10 11
0
10
20
30
40
50
60
70
1 2 3 4 5 6 7 8 9 10 11
Probit
X. ESPECIFICACIÓN DEL MODELO
VARIABLE
DICOTÓMICA
(DUMMY)
VARIABLES
CUANTITATIVAS O
DICOTÓMICA
(DUMMY)
Ajustar la curva: Estimación de
Máxima Verosimilitud
XI. ESTIMACIÓN DEL MODELO
Verosimilitud: Probabilidad de obtener
los datos, dados los coeficientes a y b.
Estimación mediante máxima
verosimilitud: estimar los coeficientes
que maximizan la verosimilitud.
Supuestos de Probit
XII. SUPUESTOS
1. Función de Probabilidad normal acumulada
2. Ausencia de Multicolinealidad
3. Observaciones independientes
4. Muestras grandes
1. Función de Probabilidad normal
acumulada P[Y=1]=F(X) con F normal acumulada
Consecuencia del no cumplimiento del supuesto: Disminución del ajuste del
modelo.
XII. SUPUESTOS
1. Función de Probabilidad normal
acumulada
 Diagnóstico del cumplimiento del supuesto:
Gráfico de dispersión de X eY
0
0.2
0.4
0.6
0.8
1
1.2
0 50 100 150 200
XII. SUPUESTOS
Porcentaje de casos bien clasificados
XIII. AJUSTE DEL MODELO
Test de Hosmer y Lemeshow
H0: Clasificaciones observadas son iguales a las esperadas
Si P>0,05, con 95% de confianza NO se rechaza H0, indicando un buen ajuste
1
0
Pseudo R cuadrado
XIII. AJUSTE DEL MODELO
•McFadden
•McFadden Ajustado
1 Ajuste
Perfecto
0 Mal Ajuste
(equivalente al
modelo nulo)
1 Ajuste
Perfecto
0 Mal Ajuste
(equivalente al
modelo nulo)
•Cox & Snell
•Nalgelkerke
1-L(M nulo)2/N
(<1) Ajuste
Perfecto
0 Mal Ajuste
(equivalente al
modelo nulo)
1 Ajuste
Perfecto
0 Mal Ajuste
(equivalente al
modelo nulo)
Análisis de Perfiles
XIV. INTERPRETACIÓN DE RESULTADOS
 Y=Tener pareja, X=Edad y Ocupado
 Perfiles:
 Ocupado de 40 años
 Ocupado de 20 años
 Desocupado de 40 años
 Desocupado de 20 años
Análisis de Perfiles
XIV. INTERPRETACIÓN DE RESULTADOS
Análisis de Perfiles
XIV. INTERPRETACIÓN DE RESULTADOS
Test de hipótesis de los coeficientes
del modelo
TEST DE RAZÓN DEVEROSIMILITUD:
 H0:bk=0 k no incluido en el modelo reducido.
 SiValor P<0.05, con 95% se rechaza H0
TEST DEWALD:
 H0: bk=0
 SiValor P<0.05, con 95% se rechaza H0
XIV. INTERPRETACIÓN DE RESULTADOS
Coeficientes del modelo
XIV. INTERPRETACIÓN DE RESULTADOS
INTERPRETACIONES POSIBLES:
 Interpretar b
 b >0
 Al aumentar la variable independiente, la
probabilidad deY=1 aumenta
 b <0
 Al aumentar la variable independiente, la
probabilidad deY=1 disminuye
 Interpretar efectos marginales promedio (EMP)
Coeficientes del modelo
XIV. INTERPRETACIÓN DE RESULTADOS
INTERPRETACIONES POSIBLES:
 Interpretar efectos marginales promedio (EMP)
 EFP>0: En promedio, cuando la variable independiente aumenta en 1, la
variable dependiente aumenta en EMP
 EFP<0: En promedio, cuando la variable independiente aumenta en 1, la
variable dependiente disminuye en EMP
Ejemplo
XIV. INTERPRETACIÓN DE RESULTADOS
_cons -1.12406 .0091259 -123.17 0.000 -1.141947 -1.106174
ocupa1 .4620657 .0063266 73.04 0.000 .4496658 .4744656
edad .0208241 .0001692 123.07 0.000 .0204925 .0211557
pareja2 Coef. Std. Err. z P>|z| [95% Conf. Interval]
>
ocupa1 .1679902 .0021858 76.86 0.000 .1637061 .1722743
edad .0075709 .0000529 143.23 0.000 .0074673 .0076745
dy/dx Std. Err. z P>|z| [95% Conf. Interval]
Delta-method
XV. MODELO PROBIT EN STATA
Probit vs Logit
XVI. PROBIT VS LOGIT
 La estimación de los EMP suelen ser similares.
 El modelo logit tiene una ecuación más sencilla y la magnitud de los
coeficientes tienen una interpretación directa.
 Se puede optar por uno u otro, en función de cual modelo ajuste mejor a
los datos, aun cuando el ajuste suele ser similar.
Causalidad en
Modelos
Probit y Logit
 La existencia de relación estadística de la variable dependienteY
con las variables independientes X no implica causalidad.
 La causalidad puede ser de X aY o deY a X Recomendable incluir
predictores X de un periodo previo
 La causalidad puede deberse a otras variables Recomendable
controlar
 Aún siguiendo las recomendaciones no hay garantía de
causalidad.
XVII. CAUSALIDAD

Modelos Logit y Probit con Stata

  • 1.
    Modelos Logit yProbit con Stata Autor(es): Mg. Luis Fernando Aguas Bucheli +593 984015184 @Aguaszoft Aguaszoft@Outlook.es
  • 2.
     Tener éxitono es cuestión de suerte, es el resultado del esfuerzo más arduo  (Anónimo) Ciencias de la Ingeniería Carrera de Sistemas de Información Plataformas de Desarrollo 1
  • 3.
    Contenidos II. Concepto III. Objetivosy preguntas de investigación IV. Modelo Logit: Especificación del modelo e interpretación de coeficientes. V. Modelo Logit: Estimación del modelo VI. Modelo Logit: Supuestos VII. Modelo Logit:Ajuste del modelo VIII. Modelo Logit: Interpretación de resultados I. INTRODUCCIÓN
  • 4.
    Contenidos IX. Modelo Logiten STATA X. Modelo Probit: Especificación del modelo. XI. Modelo Probit: Estimación del modelo XII. Modelo Probit: Supuestos XIII. Modelo Probit: Ajuste del modelo XIV. Modelo Probit: Interpretación de resultados XV. Modelo Probit en STATA XVI. Probit vs Logit XVII. Causalidad en modelos probit y logit I. INTRODUCCIÓN
  • 5.
    Modelos Logit yProbit Técnicas de análisis estadístico utilizadas para estimar los efectos de ciertas variables (independientes /predictores) en una variable dummy (dependiente/ predicha/ respuesta). II. CONCEPTOY PREGUNTAS DE INVESTIGACIÓN Variable independiente Variable independiente Variable independiente Variable independiente Variable Dependiente
  • 6.
    Modelos Logit yProbit Técnicas de análisis estadístico utilizadas para predecir la probabilidad de tener el valor 1 en una variable dummy (dependiente) a partir de otras variables (independientes). II. CONCEPTOY PREGUNTAS DE INVESTIGACIÓN Variable independiente Variable independiente Variable independiente Variable independiente Variable Dependiente
  • 7.
    Pasos para hacerun modelo Logit y Probit II. CONCEPTOY PREGUNTAS DE INVESTIGACIÓN  Especificar el modelo  Verificar el cumplimiento de supuestos  Estimar el modelo • Verificar la capacidad explicativa del modelo • Interpretar los resultados
  • 8.
    Objetivos de investigación Determinar cómo incide (y con qué intensidad lo hacen)A, B y C en D /Estimar el efecto de A, B y C en D  Predecir la probabilidad de D, a partir de A, B y C  Determinar él efecto de A en B, C y D II. CONCEPTOY PREGUNTAS DE INVESTIGACIÓN
  • 9.
    II. CONCEPTOY PREGUNTASDE INVESTIGACIÓN
  • 10.
    II. CONCEPTOY PREGUNTASDE INVESTIGACIÓN
  • 11.
    II. CONCEPTOY PREGUNTASDE INVESTIGACIÓN
  • 12.
    Modelos Logit yProbit IV. ESPECIFICACIÓN DEL MODELO…
  • 13.
    Modelos Logit yProbit IV. ESPECIFICACIÓN DEL MODELO 10 15 20 25
  • 14.
    Modelos Logit yProbit IV. ESPECIFICACIÓN DEL MODELO P[Y=1|X]=F(X) •Logit: F es una función de probabilidad logística •Probit: F es una función de probabilidad normal acumulada
  • 15.
    Logit o RegresiónLogística IV. ESPECIFICACIÓN DEL MODELO
  • 16.
    Modelos Logit (RegresiónLogística) IV. ESPECIFICACIÓN DEL MODELO… Odd Probabilidad Logit =
  • 17.
    Modelos Logit (RegresiónLogística) IV. ESPECIFICACIÓN DEL MODELO… VARIABLE DICOTÓMICA (DUMMY) VARIABLES CUANTITATIVAS O DICOTÓMICA (DUMMY)
  • 18.
    Ajustar la curva:Estimación de Máxima Verosimilitud V. ESTMACIÓN DEL MODELO Verosimilitud: Probabilidad de obtener los datos, dados los coeficientes a y b. Estimación mediante máxima verosimilitud: estimar los coeficientes que maximizan la verosimilitud.
  • 19.
    Supuestos de laRegresión logística VI. SUPUESTOS 1. Función de Probabilidad Logística 2. Ausencia de Multicolinealidad 3. Observaciones independientes 4. Muestras grandes
  • 20.
    1. Función deProbabilidad logística VI. SUPUESTOS Función de Probabilidad Logística: P[Y=1]=F(X) con F logística Consecuencia del no cumplimiento del supuesto: Disminución del ajuste del modelo.
  • 21.
    1. Función deProbabilidad logística VI. SUPUESTOS  Diagnóstico del cumplimiento del supuesto: Gráfico de dispersión de X eY 0 0.2 0.4 0.6 0.8 1 1.2 0 50 100 150 200
  • 22.
    2. Ausencia deMulticolinealidad VI. SUPUESTOS  Variables predictoras independientes entre sí.  Consecuencia del no cumplimiento del supuesto: grandes errores estándar (intervalos de confianza) y problemas de identificación.  Diagnóstico del cumplimiento del supuesto: correlaciones entre variables  Solución: Elegir variable o construir índices.
  • 23.
    3. Observaciones independientes VI.SUPUESTOS  Los datos de los distintos individuos deben ser independientes entre sí  Consecuencia del no cumplimiento del supuesto: Inadecuada estimación de los coeficientes del modelo.
  • 24.
    4. Muestra grandes VI.SUPUESTOS  La Muestra es grande (30 casos por cada predictor)  Consecuencia del no cumplimiento del supuesto: Estimación inadecuada de los coefientes del modelo.
  • 25.
    Porcentaje de casosbien clasificados VII. AJUSTE DEL MODELO 1 0
  • 26.
    Porcentaje de casosbien clasificados (Ej.) VII. AJUSTE DEL MODELO X (edad) Y (consume alcohol) Y Predicción 1 12 0 85,3% 1 2 18 1 91,4% 1 3 25 1 95,5% 1
  • 27.
    Se basan enla comparación de la log-Verosimilitud del Modelo estimado y un Modelo Nulo Dado que la verosimilitud(L) se encuentra entre 0 y 1; la log-verosimilitud(LL) es siempre menor o igual a 0. •Mejor Modelo: L=1 y LL=0 •Peor Modelo: L=0 y LL<0 Pseudo R cuadrado VII. AJUSTE DEL MODELO
  • 28.
    •McFadden •McFadden Ajustado Pseudo Rcuadrado VII. AJUSTE DEL MODELO 1 Ajuste Perfecto 0 Mal Ajuste (equivalente al modelo nulo) 1 Ajuste Perfecto <=0 Mal Ajuste (equivalente al modelo nulo)
  • 29.
    •Cox & Snell •Nalgelkerke PseudoR cuadrado VII. AJUSTE DEL MODELO 1-L(M nulo)2/N (<1) Ajuste Perfecto 0 Mal Ajuste (equivalente al modelo nulo) 1 Ajuste Perfecto 0 Mal Ajuste (equivalente al modelo nulo)
  • 30.
    Test de Hosmery Lemeshow Clasifica a los casos en grupos de valores predichos similares y compara si las frecuencias observadas de dichos grupos coinciden con las esperadas bajo una distribución logística.  H0: Clasificaciones observadas son iguales a las esperadas Si P>0,05, con 95% de confianza NO se rechaza H0, indicando un buen ajuste VII. AJUSTE DEL MODELO
  • 31.
    Análisis de Perfiles VIII.INTERPRETACIÓN DE RESULTADOS  Y=Tener pareja  Perfiles:  Ocupado de 40 años  Ocupado de 20 años  Desocupado de 40 años  Desocupado de 20 años
  • 32.
    Análisis de Perfiles VIII.INTERPRETACIÓN DE RESULTADOS
  • 33.
    Test de hipótesisde los coeficientes del modelo VIII. INTERPRETACIÓN DE RESULTADOS TEST DE RAZÓN DE VEROSIMILITUD: Compara la verosimilitud del modelo (k predictores) con un modelo reducido (q predictores).  H0:bk=0 k no incluido en el modelo reducido.  Estadístico: SiValor P<0.05, con 95% se rechaza H0
  • 34.
    Test de hipótesisde los coeficientes del modelo VIII. INTERPRETACIÓN DE RESULTADOS TEST DEWALD:  H0: bk=0  Estadístico:  SiValor P<0.05, con 95% se rechaza H0
  • 35.
    Coeficientes del modelo VIII.INTERPRETACIÓN DE RESULTADOS INTERPRETACIONES POSIBLES:  Interpretar b  Interpretar eb  Interpretar efectos marginales promedio
  • 36.
    Modelos Logit (RegresiónLogística) VIII. INTERPRETACIÓN DE RESULTADOS Probabilidad El b puede ser interpretado, realizando una aproximación lineal a la curva en el punto de interés. Dicha recta tendrá pendiente p(p-1) b
  • 37.
    Modelos Logit (RegresiónLogística) IV. ESPECIFICACIÓN DEL MODELO… Si alguien gana 600 mil, si aumenta 100 mil su sueldo, la probabilidad de votar por Piñera aumenta en =0.4*0.6*0.5=0,012 (1,2%) Ingresos (100 mil) Probabilidad de votar por Piñera 𝒍𝒐𝒈 𝝅 𝟏−𝝅 = 𝟏 + 𝑿𝟑00.5
  • 38.
    Coeficientes del modelo VIII.INTERPRETACIÓN DE RESULTADOS INTERPRETACIONES POSIBLES:  Interpretar b  b >0  Al aumentar en 1 la variable independiente, logit aumenta en b  Al Aumentar en 1 la variable independiente aumenta en p(p-1)b  b <0  Al aumentar en 1 la variable independiente, logit disminuye en b  Al Aumentar en 1 la variable independiente disminuye en p(p-1)b
  • 39.
    Modelos Logit (RegresiónLogística) IV. ESPECIFICACIÓN DEL MODELO… Si alguien aumenta su sueldo en 100 mil, los odds aumenta en 64% Ingresos (100 mil) Probabilidad de votar por Piñera 𝒍𝒐𝒈 𝝅 𝟏−𝝅 = 𝟏 + 𝑿𝟑00.5
  • 40.
    Modelos Logit (RegresiónLogística) IV. ESPECIFICACIÓN DEL MODELO… Si alguien aumenta su sueldo en 100 mil, los odds disminuyen en 40% Ingresos (100 mil) Probabilidad de votar por Piñera 𝒍𝒐𝒈 𝝅 𝟏−𝝅 = 𝟏 + 𝑿𝟑00.5-
  • 41.
    Coeficientes del modelo VIII.INTERPRETACIÓN DE RESULTADOS INTERPRETACIONES POSIBLES:  Interpretar eb  eb >1: Al aumentar en 1 la variable independiente los odds aumentan en 100(eb -1)%  eb <1: Al aumentar en 1 la variable independiente los odds disminuyen en 100(1- eb)%  Al aumentar en 1 la variable independiente los odds aumentan en eb veces.
  • 42.
    Coeficientes del modelo VIII.INTERPRETACIÓN DE RESULTADOS INTERPRETACIONES POSIBLES:  Interpretar efectos marginales promedio (EMP)  EFP>0: En promedio, cuando la variable independiente aumenta en 1, la variable dependiente aumenta en EMP  EFP<0: En promedio, cuando la variable independiente aumenta en 1, la variable dependiente disminuye en EMP
  • 43.
    Ejemplo VIII. INTERPRETACIÓN DERESULTADOS _cons -1.807127 .0150622 -119.98 0.000 -1.836649 -1.777606 ocupa1 .7317526 .0103442 70.74 0.000 .7114784 .7520269 edad .0338646 .000284 119.24 0.000 .033308 .0344212 pareja2 Coef. Std. Err. z P>|z| [95% Conf. Interval] _cons .1641249 .0024721 -119.98 0.000 .1593506 .1690423 ocupa1 2.078721 .0215027 70.74 0.000 2.037001 2.121295 edad 1.034445 .0002938 119.24 0.000 1.033869 1.03502 pareja2 Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] ocupa1 .1630431 .0021776 74.87 0.000 .1587752 .1673111 edad .0075454 .0000527 143.24 0.000 .0074422 .0076487 dy/dx Std. Err. z P>|z| [95% Conf. Interval] Delta-method dy/dx w.r.t. : edad ocupa1
  • 44.
  • 45.
    Preguntas I. ¿Para quése usan los modelos probit y logit? II. ¿En qué consiste la estimación por máxima verosimilitud? En un modelo logit… I. ¿Cómo se interpretan –de forma general- los pseudo- R cuadrado? II. ¿Cómo se interpreta el test de Hosmer y Lemeshow? III. ¿Cómo se interpreta b, eb y los EMP? REPASO
  • 46.
  • 47.
    Modelos Logit yProbit X. ESPECIFICACIÓN DEL MODELO 10 15 20 25
  • 48.
    Modelos Logit yProbit P[Y=1|X]=F(X) •Logit: F es una función de probabilidad logística •Probit: F es una función de probabilidad normal acumulada X. ESPECIFICACIÓN DEL MODELO
  • 49.
    Probit •Función de probabilidadnormal acumulada X. ESPECIFICACIÓN DEL MODELO Frecuenci a Frecuencia acumulada 0 1 1 10 2.5 3.5 20 5 8.5 30 8 16.5 40 12 28.5 50 14 42.5 60 12 54.5 70 8 62.5 80 5 67.5 90 2.5 70 10 1 71 0 2 4 6 8 10 12 14 16 1 2 3 4 5 6 7 8 9 10 11 0 10 20 30 40 50 60 70 1 2 3 4 5 6 7 8 9 10 11
  • 50.
    Probit X. ESPECIFICACIÓN DELMODELO VARIABLE DICOTÓMICA (DUMMY) VARIABLES CUANTITATIVAS O DICOTÓMICA (DUMMY)
  • 51.
    Ajustar la curva:Estimación de Máxima Verosimilitud XI. ESTIMACIÓN DEL MODELO Verosimilitud: Probabilidad de obtener los datos, dados los coeficientes a y b. Estimación mediante máxima verosimilitud: estimar los coeficientes que maximizan la verosimilitud.
  • 52.
    Supuestos de Probit XII.SUPUESTOS 1. Función de Probabilidad normal acumulada 2. Ausencia de Multicolinealidad 3. Observaciones independientes 4. Muestras grandes
  • 53.
    1. Función deProbabilidad normal acumulada P[Y=1]=F(X) con F normal acumulada Consecuencia del no cumplimiento del supuesto: Disminución del ajuste del modelo. XII. SUPUESTOS
  • 54.
    1. Función deProbabilidad normal acumulada  Diagnóstico del cumplimiento del supuesto: Gráfico de dispersión de X eY 0 0.2 0.4 0.6 0.8 1 1.2 0 50 100 150 200 XII. SUPUESTOS
  • 55.
    Porcentaje de casosbien clasificados XIII. AJUSTE DEL MODELO Test de Hosmer y Lemeshow H0: Clasificaciones observadas son iguales a las esperadas Si P>0,05, con 95% de confianza NO se rechaza H0, indicando un buen ajuste 1 0
  • 56.
    Pseudo R cuadrado XIII.AJUSTE DEL MODELO •McFadden •McFadden Ajustado 1 Ajuste Perfecto 0 Mal Ajuste (equivalente al modelo nulo) 1 Ajuste Perfecto 0 Mal Ajuste (equivalente al modelo nulo) •Cox & Snell •Nalgelkerke 1-L(M nulo)2/N (<1) Ajuste Perfecto 0 Mal Ajuste (equivalente al modelo nulo) 1 Ajuste Perfecto 0 Mal Ajuste (equivalente al modelo nulo)
  • 57.
    Análisis de Perfiles XIV.INTERPRETACIÓN DE RESULTADOS  Y=Tener pareja, X=Edad y Ocupado  Perfiles:  Ocupado de 40 años  Ocupado de 20 años  Desocupado de 40 años  Desocupado de 20 años
  • 58.
    Análisis de Perfiles XIV.INTERPRETACIÓN DE RESULTADOS
  • 59.
    Análisis de Perfiles XIV.INTERPRETACIÓN DE RESULTADOS
  • 60.
    Test de hipótesisde los coeficientes del modelo TEST DE RAZÓN DEVEROSIMILITUD:  H0:bk=0 k no incluido en el modelo reducido.  SiValor P<0.05, con 95% se rechaza H0 TEST DEWALD:  H0: bk=0  SiValor P<0.05, con 95% se rechaza H0 XIV. INTERPRETACIÓN DE RESULTADOS
  • 61.
    Coeficientes del modelo XIV.INTERPRETACIÓN DE RESULTADOS INTERPRETACIONES POSIBLES:  Interpretar b  b >0  Al aumentar la variable independiente, la probabilidad deY=1 aumenta  b <0  Al aumentar la variable independiente, la probabilidad deY=1 disminuye  Interpretar efectos marginales promedio (EMP)
  • 62.
    Coeficientes del modelo XIV.INTERPRETACIÓN DE RESULTADOS INTERPRETACIONES POSIBLES:  Interpretar efectos marginales promedio (EMP)  EFP>0: En promedio, cuando la variable independiente aumenta en 1, la variable dependiente aumenta en EMP  EFP<0: En promedio, cuando la variable independiente aumenta en 1, la variable dependiente disminuye en EMP
  • 63.
    Ejemplo XIV. INTERPRETACIÓN DERESULTADOS _cons -1.12406 .0091259 -123.17 0.000 -1.141947 -1.106174 ocupa1 .4620657 .0063266 73.04 0.000 .4496658 .4744656 edad .0208241 .0001692 123.07 0.000 .0204925 .0211557 pareja2 Coef. Std. Err. z P>|z| [95% Conf. Interval] > ocupa1 .1679902 .0021858 76.86 0.000 .1637061 .1722743 edad .0075709 .0000529 143.23 0.000 .0074673 .0076745 dy/dx Std. Err. z P>|z| [95% Conf. Interval] Delta-method
  • 64.
  • 65.
    Probit vs Logit XVI.PROBIT VS LOGIT  La estimación de los EMP suelen ser similares.  El modelo logit tiene una ecuación más sencilla y la magnitud de los coeficientes tienen una interpretación directa.  Se puede optar por uno u otro, en función de cual modelo ajuste mejor a los datos, aun cuando el ajuste suele ser similar.
  • 66.
    Causalidad en Modelos Probit yLogit  La existencia de relación estadística de la variable dependienteY con las variables independientes X no implica causalidad.  La causalidad puede ser de X aY o deY a X Recomendable incluir predictores X de un periodo previo  La causalidad puede deberse a otras variables Recomendable controlar  Aún siguiendo las recomendaciones no hay garantía de causalidad. XVII. CAUSALIDAD