Modelos de respuesta binaria. Modelo lineal de probabilidad. Modelos Logit y Probit. Formas de interpretación. Ratios de probabilidades. Efectos marginales. Bondad de ajuste
Bondad de ajuste. tabla de clasificación. Pseudo r-cuadrado. Aplicaciones. Perfiles de probabilidad.
Clase13 Modelos de variables dependientes limitadas
1. 1
Clase 13. Modelos de variables dependientes limitadas
Nerys Ram´ırez Mord´an
Pontificia Universidad Cat´olica Madre y Maestra
Econometr´ıa II (EC-413-T)
2 de octubre de 2018
2. 2
Contenido
1 Introducci´on
2 Modelos de respuesta binaria
Modelo lineal de probabilidad
Modelos Logit y Probit
3 Formas de interpretaci´on
Ratios de probabilidades
Efectos marginales
4 Bondad de ajuste
Bondad de ajuste. tabla de
clasificaci´on
Pseudo r-cuadrado
5 Aplicaciones
Perfiles de probabilidad
Microsimulaciones
Ejemplo II
Propensity score (PS)
6 Referencias
4. 4
Introducci´on
En la investigaci´on econ´omica es com´un considerar modelos donde
la variable que intentamos explicar (dependiente) toma valores
discretos, donde el MCO puede resultar no adecuado.
Los modelos de elecci´on discreta no tienen por objetivo el
comportamiento medio condicionado, sino estudiar los
determinante de la probabilidad de que una variable econ´omica
asuma un valor u otro.
5. 5
Introducci´on
Los modelos de elecci´on discreta resultan apropiados cuando el
objetivo no es predecir el comportamiento medio de un agregado,
sino analizar los factores determinantes de la probabilidad
(Rodr´ıguez y C´aceres, 2007, p.452).
En estos casos, las variables cualitativas (nominales y ordinales)
puede asumir valores discretos:
Binaria (trabajar o no; comprar o no; dejar de pagar un cr´edito o
no. . . ).
Discreta sin orden (elegir un medio de transporte).
Discretas en orden (calificaci´on de riesgo).
Por lo que, ahora estamos interesado en la probabilidad de
ocurrencia de dichos factores y no en la estimaci´on de su valores
medios.
7. 7
Modelos de respuesta binaria
En estos modelos (el caso m´as sencillo), la variable de dependiente
(Y ) puede tomar dos valores, “siendo usualmente 1 la categor´ıa de
inter´es”:
Yi =
1 pr(y = 1) = p
0 pr(y = 1) = (1 − p)
(1)
Donde Yi ∼ Bernnulli, con esperanza:
E(Y )=Pr(Y = 1) = p
Cuando se tiene una predictora X, la esperanza condicional de Yi
tambi´en sigue esta distribuci´on. Es decir, dadas las caracter´ısticas
del individuo cual es la probabilidad de que Yi=1:
E(Y |X = x) = Pr(Y = 1|X = x) = p(x)
8. 8
Modelo lineal de probabilidad
El modelo lineal, como primera aproximaci´on al problema, supone
una funci´on lineal de la esperanza condicional de la variable
binaria:
E(Y |X = x) = Pr(Y = 1|X = x) = p(x) = β0 + β1X (2)
Es decir, estima una regresi´on en que la variable dependiente es
binaria:
Yi = β0 + β1X1,i + ... + βkXk,i + ui, i = 1, 2, 3, ..., n (3)
9. 9
Modelo lineal de probabilidad
Se verifica:
E[Yi|X = x] = Pr[Y = 1|X = x] ∗ 1 + Pr[Y = 0|X = x] ∗ 0 (4)
Siendo la parte derecha de la ecuaci´on, la probabilidad de que la
variable dependiente sea igual a la unidad:
E[Yi|X = x] = E[β0 + β1X1,i + ... + βkXk,i + ui|X = x]
E[Yi|X = x] = Pr[Y = 1|X = x] = β0 + β1X1,i + ... + βkXk,i (5)
10. 10
Modelo lineal de probabilidad
Donde aplican los conocimientos de econometr´ıa vistos hasta el
momento. Los β s recogen el efecto parcial de una variaci´on de la
variable explicativa correspondiente sobre la probabilidad de
ocurrencia del evento estudiado, una vez controlado el resto de
factores incluidos en el modelo.
11. 11
Modelo lineal de probabilidad. Dificultades
1 Heterocedasticidad. Dado que
V ar(Y ) = p(x)(1 − p(x)) = (β0 + β1X)(1 − β0 − β1X)
2 Valores de p(x) no acotados [0,1]. Por lo que la probabilidad
esperada de Y puede no tener sentido.
3 El modelo asume una relaci´on lineal. Sin embargo, cuando y este
cerca de 1, se espera una menor variaci´on en p(x) proveniente de
un cambio en x.
4 El car´acter dic´otomo de y, impide el error se comporte como una
normal.
ui =
1 − α − βX si Y = 1
−α − βX si Y = 0
(6)
12. 12
Modelos lineales ´ındice
Una alternativa al modelo anterior es utilizar los denominados
modelos lineales ´ındices que utilizan la funci´on de distribuci´on
acumulada, para garantizar probabilidades condicionales acotadas
entre 0 y 1.
E(Y |X = x) = Pr(Y = 1|X = x) = F(β0 + β1X) + e(x) (7)
Por tanto, como E[e(x)] = 0, el modelo se expresa en t´erminos de
esperanzas condicionales, como:
Pr(x) = Y = F(β0 + β1X) (8)
13. 13
Modelos lineales ´ındice
Ahora se busca una funci´on F(x), cuya inversa transforme las
probabilidades condicionales p(x), para luego modelar esta
transformaci´on.
F−1
(p(x)) = β0 + β1X (9)
Primero se utiliza una funci´on lineal ´ındice que ofrezca un ´unico
valor que puede estar fuera del intervalo [0,1] y posteriormente se
utiliza la funci´on de distribuci´on.
“Se busca una funci´on F, cuya inversa transforme las
probabilidades condicionales p(x) y posteriormente, se modela
linealmente esta transformaci´on
.
14. 14
Repaso estad´ıstico: variable aleatoria y funci´on de distribuci´on
Una variable aleatoria es una funci´on X que toma los elementos
del conjunto Ω y lo transforma en n´umeros reales. Dado un
experimento aleatorio, a cada suceso del espacio de probabilidad
(Ω, p) le asignamos un valor num´erico, y se obtiene una variable
que hereda de Ω la probabilidad p de ocurrencia de cada suceso.
La distribuci´on de una v.a. viene determinada por los valores que
toma y la probabilidad de ocurrencia de estos.
15. 15
Repaso estad´ıstico: variable aleatoria y funci´on de distribuci´on
Sea X una variable aleatoria definida en (Ω, σ, p), la funci´on en el
rango [0,1], definida por:
F(xi) = Px((−´ınf, xi]) = Pr(X ≤ xi) xi ∈ X (10)
Llamada Funci´on de distribuci´on de X, cumple las siguientes
propiedades:
F(.) es no decreciente.
Limxi→−∞F(X) = 0 y Limxi→+∞F(X) = 1
F(.) es continua por la derecha.
16. 16
Modelos lineales ´ındice
1 Posteriormente, se aplica una funci´on acumulada al ´ındice. De
todas las posibilidades de F(.), las m´as utilizadas suelen ser:
La funci´on de distribuci´on de la normal (Probit):
Φ(Z) =
z
−∞
φ(x)dx =
z
−∞
1
2π
e(− 1
2 x2
)
dx (11)
La funci´on de distribuci´on log´ıstica (Logit), que forma parte de los
modelos param´etricos lineales generalizados, introducidos por
McCullagh y Nelder (1989):
Λ(Z) =
ez
1 − ez
(12)
17. 17
Estimaci´on de m´axima verosimilitud
Debido a la naturaleza no lineal de E(y|x), MCO y MCP no son
aplicables. Por ende, los par´ametros del modelo se estiman a partir
de la funci´on de verosimilitud L(β; y1, ..., yn), donde
y ∼ B(p, p(1 − p)) es decir, F(y) = Pr(Y = y) = py(1 − p)(1−y).
(Ver video, recomendado)
Por lo que, en una muestra aleatoria, siempre que la serie sea iid,
la probabilidad conjunta viene dada por:
N
i=1 Pr(Yi = yi|xi; βi, ..., βk)
N
i=1 [φ(βX)]yi [1 − φ(βX)]1−yi
Suele ser conveniente utilizar la funci´on en logaritmo:
Log L(β; y1, ..., yn) = i=1
N yilog(φ(βX)) + (1 − yi)log(1 − φ(βX))
18. 18
Modelos log´ıstico
Sea Y una variable binaria, la E[Y = 1|X = x] = Pr[x], se
modeliza mediante la regresi´on log´ıstica simple:
Logit(p(x)) =
eα+βx
1 − eα+βx
= exp(β0 + β1x) (13)
Equivalente a la transformaci´on Logit:
Logit(p(x)) = ln
p(x)
1 − p(x)
= β0 + β1x (14)
19. 19
Modelos de probabilidad. Coca-Cola
Probabilidad de seleccionar Coca Cola en funci´on de su precio
relativo (pratio) y de los productos mostrados durante las ventas
(dispcoke, dispcoke).
Dependent variable: coke
OLS logistic probit
pratio −0.40∗∗∗ −2.00∗∗∗ −1.15∗∗∗
(0.06) (0.31) (0.18)
dispcoke 0.08∗∗ 0.35∗∗ 0.22∗∗
(0.03) (0.16) (0.10)
disppepsi −0.17∗∗∗ −0.73∗∗∗ −0.45∗∗∗
(0.04) (0.17) (0.10)
Constant 0.89∗∗∗ 1.92∗∗∗ 1.11∗∗∗
(0.07) (0.33) (0.19)
Observations 1,140 1,140 1,140
20. 20
Comparar coeficientes entre modelos
Las magnitudes de las estimaciones de los coeficientes a trav´es de
los modelos no son comparables directamente (Wooldrige, 2009,
p.584). Una regla pr´actica seguida para comparar el logit con el
probit, es multiplicar los coeficientes probit por 1.6.
Para comparar las estimaciones logit y probit con las del MPL,
Estos factores escalares son de cerca de .301 (probit) y .179 (logit).
22. 22
Estrategia emp´ırica
Logiti = ln
Pr(Y = 1|x)
1 − Pr(Y = 1|x)
= β X + µ (15)
Como βi se interpreta como un efecto aditivo derivado de un
cambio unitario en la variable Xi sobre el logaritmo natural de la
ratio de probabilidades (Scotti, 2012), no es directamente
interpretable.
Por tanto, se suele recurrir a dos estrategias:
1 Raz´on de probabilidades.
2 Efectos marginales.
23. 23
Odds-Ratios
Los ratios o cocientes de probabilidades, resultan del cociente
entre la probabilidad de que Pr[Y = 1], f rente a la que no suceda
Pr[Y = 1 − 1].
El odd ratio, indica el n´umero de veces que es probable que ocurra
el fen´omeno, frente a que no ocurra. El odd ratio asociado a un
cambio de xjh a xjl, en la variable xj, manteniendo el resto de
variables constantes, viene dado por:
exp (zh)
exp (zl)
= eβ1(xjh−xjl) [0, ∞] (16)
24. 24
Modelos log´ıstico: interpretaci´on
El signo de β1 indica el sentido de cambio en la probabilidad de
que Y = 1, antes los cambios de x1.
β1 = 0 indica independencia, por lo que, la estimaci´on del modelo
coincide con la proporci´on de valores Y = 1. En t´erminos de
ventajas:
eα+βx
1 − eα+βx
= exp(β0 + β1x) = eβ0
˙eβ1x
(17)
La ventaja de de Y = 1 aumenta en eβ1 por cada unidad de
aumento de X.
θ (x + 1, x) =
p(x+1)
1−p(x+1)
p(x)
1−p(x)
=
exp (β0 + β1 (x + 1))
exp (β0 + β1 (x))
=
eβ0 eβ1xeβ1
eβ0 eβ1x
= eβ1
(18)
25. 25
Odds-Ratios
En palabras de Oscar Reyna (p.6), un coeficiente de 2.367, indica
que manteniendo todas las otras variables constantes, cuando x1
aumenta una unidad, es 2.367 veces m´as probable que la
dependiente est´e en la categor´ıa 1. En otras palabras, las
probabilidades Pr[y = 1] son un 136 % mayores cuando x1 mueve
una unidad (2.36 - 1). El coeficiente, sin embargo, no es
significativo.
El intervalo de confianza se obtiene aplicando el exponente al
intervalo de confianza tradicional (Ca˜nadas, 2013, p.54).
26. 26
Modelos de probabilidad. Ratios de probabilidad
Ahora se agregaran las ratios de probabilidades.
logistic Coef logistic Odds
pratio −2.00∗∗∗ 0.136
(0.31) (0.315)
dispcoke 0.35∗∗ 1.421∗∗∗
(0.16) (0.159)
disppepsi −0.73∗∗∗ −0.481∗∗∗
(0.17) (0.168)
Constant 1.92∗∗∗ 6.841∗∗∗
(0.33) (0.326)
27. 27
Efectos marginales
Los efectos marginales muestran el cambio en probabilidad
esperado tras un cambio en una unidad de la variable
independiente. En el caso de variables binarias se expresa a partir
del cambio 0 a 1 (Williams, 2018):
Xk = Pr(Y = 1|X, Xk = 1)– Pr(y = 1|X, Xk = 0)
En el caso de variables continuas, se presenta como un cambio
instant´aneo:
δE(Y |X=x)
δX = l´ım∆→0[Pr(Y =1|X,Xk+∆)– Pr(y=1|X,Xk)
∆ ]
29. 29
Efectos marginales: variables categ´oricas
Seg´un la definici´on del efecto marginal, este ser´a diferente en
funci´on de los valores de la variables independientes.
30. 30
Efectos marginales: variables categ´oricas
En el caso de variables categ´oricas con diferentes valores, el efecto
marginal indica el cambio en probabilidad de cada valor, respecto
al indicador de referencia, por lo que, los efectos marginales ser´an
diferentes en funci´on de los valores de las variables (Williams,
2018).
35. 35
Bondad de ajuste, consideraciones
Dada la caracter´ıstica de la Y , no es posiblemente que los datos se
encuentren sobre los datos la recta de regresi´on.
Dada la forma peculiar del gr´afico de dispersi´on, n
i=1 u2
i es mayor
a lo habitual, por lo que, los r-cuadrado son menores.
36. 36
Bondad de ajuste. tabla de clasificaci´on
En este define un predictor binario de yi como uno si la
probabilidad predicha es de al menos .5, y cero en caso contrario
(Wooldrige, 2009, p.581). Esta proporci´on de aciertos se determina
como A+D
n .
ˆYi = 0 ˆYi = 0
Yi = 0 p(x) < c A B
Yi = 1 p(x) > c C D
37. 37
Bondad de ajuste. tabla de clasificaci´on
En este sentido, se suele utilizar la proporci´on de valores predicho
correctamente como una primera bondad de ajuste:
Statistic true predicted Freq
1 0 0 507
2 1 0 263
3 0 1 123
4 1 1 247
38. 38
Bondad de ajuste, consideraciones
Aunque el porcentaje predicho correctamente es ´util como una
medida de la bondad de ajuste, puede ser confuso. En particular,
es posible obtener porcentajes muy altos predichos con precisi´on
aun cuando el resultado menos probable est´e predicho de manera
muy deficiente, por ende, en muchos casos es ideal verificar
el porcentaje en cada uno de los resultados.
Adem´as, suponer Y = 1 cuando y∗ > 0.5 puede llevarnos a
predecir m´as casos de los deseados, especialmente en casos
improbables, siendo una alternativa utilizar como umbral, la
fracci´on de ´exito de Pr[Y = 1] observada en la muestra.
39. 39
Bondad de ajuste: pseudo r-cuadrado
El p-seudo R2 de McFadden (1974), utiliza la funci´on de
verosimilitud del modelo no restringido (estimado, ln ˆβ ) y la
funci´on del modelo restringido (solo con constante, ln ¯Y ), que es
la probabilidad media incondicional.
En caso de las variables no tener poder explicativo, ambas
variables son iguales y la medida de ajuste es igual a cero.
˜R2
= 1 −
ln ˆβ
ln ¯Y
(20)
41. 41
Ej. 1: Predicci´on observada para cada individuo
Los modelos permiten medir la probabilidad de que ocurra el
acontecimiento considerado, a partir del modelo estimado
(Y = Pr(Y = 1|x)), lo que permite crear perfiles de
probabilidades.
Logiti = ln Pr(Y =1|x)
1−Pr(Y =1|x) = β X
Y
1−Y = eβ X
Y = (1 − Y )eβ X
Y = eβ X − Y eβ X
Y + Y eβ X = eβ X
(1 + eβ X)Y = eβ X
Pr(Y = 1|x) =
eβ X
1 + eβ X
(21)
42. 42
Ej. 1: Estimar probabilidades en valores concreto (R)
Como el modelo permite estimar probabilidades individuales para
cada persona, podemos crear perfiles de poblaci´on a partir de
caracter´ısticas personales, comparando estad´ısticos de tendencia y
dispersi´on entre los diversos grupos, a partir de la variable de
probabilidad estimada.
CASO 0: Obtenci´on de probabilidades para todas las
observaciones en el promedio de las dependientes (Marginal Effects
at the Means (MEMS)).
CASO 1: Obtenci´on de probabilidades para todas las
observaciones en valores espec´ıficos de las dependientes.
43. 43
Ej. 2: microsimulaciones
Las microsimulaciones son modelos que utilizan informaci´on a
nivel del agente microecon´omico individual (individuos, hogares,
firmas) para captar su heterogeneidad, permitiendo la evaluaci´on
de pol´ıtica ex-ante.
Es una experimentaci´on computacional donde se simulan
escenarios para comparar situaciones de:
1 Cambios de pol´ıtica y/o shocks ex´ogenos
2 Modificar el valor de una o m´as variables ex´ogenas
Esta metodolog´ıa, permite estudiar los cambios a nivel agregado,
en resultados a nivel de microdatos utilizando encuestas de
hogares (Cicowiez, 2012; Olivieri, 2012).
44. 44
Ej. 2: microsimulaciones
Seg´un Olivieri (2012), los modelos de microsimulaci´on:
1 Imita al enfoque experimental.
2 tiene en cuenta la heterogeneidadde los agentes econ´omicos.
3 Identifican con precisi´on qui´enes tienen mayor probabilidad de ser
ganadores y perdedores de las pol´ıticas publicas.
4 La mayor disposici´on de datos micro ha permitido se extienda el uso
de las microsimulaciones en los pa´ıses en desarrollo.
45. 45
Ej. 2: microsimulaciones. pobreza (1)
La simulaci´on se basa en modelos de comportamiento, utilizando
datos que reflejan la estructura de los mercados de trabajo, los
ingresos de los hogares y sus relaciones con la demograf´ıa, para
comparar su situaci´on (escenarios contraf´acticos) con respecto
al escenario antes del shock (escenario base). Involucran la
estimaci´on econom´etrica del modelo econ´omico.
Supongamos, que el mercado laboral pueden aproximarse
mediante selecci´on aleatoria -o modelada mediante modelos de
probabilidades- sobre salarios simulados; estados laborales
simulados, entre otros. Por ejemplo, el efecto de cambios en el
desempleo sobre la pobreza.
Por tanto, siguientedo el m´etodo del mercado de trabajo
segmentado con mobilidad aleatorea entre segmentos (Paes de
Barros y otros).
46. 46
Ej. 2: microsimulaciones. pobreza (2)
El ingreso per-c´apita del hogar, viene determinado por los ingresos
laborales (decisi´on ocupacional e ingresos) y no laborales (remesas,
rentas, intereses, transferencias p´ublicas).
ypchi =
1
nh
nh
i=1
ylbhi +
nh
i=1
ynlbhi (22)
Por lo que, el ingreso de las familias, y por ende la pobreza y la
distribuci´on, pueden cambiar asumiendo:
Una transferencia de remesas.
Cambios en el mercado de trabajo.
47. 47
Ej. 2: microsimulaciones. pobreza (3)
Supongamos la siguiente microdata de hogares, siendo $5,000 la linea
de pobreza:
h i sector empleo edu ylbi ypch pobre
1 1 . 0 3 0 5100 0
1 2 a 1 6 6800 5100 0
1 3 b 1 9 8500 5100 0
2 4 . 0 4 0 4350 1
2 5 a 1 12 8700 4350 1
3 6 . 0 4 0 5650 0
3 7 b 1 9 3600 5650 0
3 8 b 1 12 8000 5650 0
3 9 a 1 11 11000 5650 0
48. 48
Ej. 2: microsimulaciones. pobreza (4)
Supongamos un choque externo, genera una perdida de empleo en el
sector b, generando una perdida de empleo de afecta de forma
relativamente mayor a las personas con menor educaci´on:
h i Sect Empl Edu ypci ypch Pobre EmpS1 ypciS1 ypchS1 PobS1
1 1 . 0 3 0 5100 0 0 0 5100 0
1 2 a 1 6 6800 5100 0 1 6800 5100 1
1 3 b 1 9 8500 5100 0 1 8500 5100 1
2 4 . 0 4 0 4350 1 0 0 4350 0
2 5 a 1 12 8700 4350 1 1 8700 4350 1
3 6 . 0 4 0 5650 0 0 0 4750 1
3 7 b 1 9 3600 5650 0 0 0 4750 1
3 8 b 1 12 8000 5650 0 1 8000 4750 1
49. 49
Ej. 2: microsimulaciones. pobreza (5)
El efecto simulado del choque en el empleo, seg´un la estructura
supuesta, impacta en el ingreso -por ende, tambi´en en la
distribuci´on- y la pobreza, como se resume en la siguiente tabla.
Indicador Base Sim1
Ingreso pc 5,178 4,777.8
Pobreza 22 % 77.8 %
Desempleo 33.3 % 44.4 %
50. 50
Pron´ostico
Imagine el ejemplo anterior, pero simulando un incremento del
empleo, ahora cambia el problema, porque debemos imputar un
ingreso laboral a las personas anteriormente desempleada, en
funci´on de sus caracter´ısticas particulares (E[wi|x]).
Ahora, el proceso generador de ingreso laboral (Y L
i = Lixi) del
individuo i, se resume en:
ln (wi) = X1iβ + ui
L∗
i = X2iα + υ1
Li = m´ax (0, L∗
i )
(23)
51. 51
Pron´ostico
El ingreso laboral del individuo, se resume en funci´on de una
matriz de caracter´ısticas observables, los par´ametros del modelo, y
dos vectores de factores no observables que influyen en el salario
horario y las decisiones laborales:
Y L = f(X, β, α, u, υ)
Ahora, el ingreso familiar esta incidido por los ingresos no
laborales, estos suelen asumirse como ex´ogenos. En el pa´ıs se han
utilizado ajustes por factores por percentiles para el ingreso no
laboral (ver, Morillo, 2008).
52. 52
Ej. 3: Propensity score (PS)
Dada las limitaciones de los estudios experimentales y sus
inconvenientes de validez externas, no siempre es posible el dise˜no
ideal. Por tanto, se vienen utilizando los estudios observacionales.
El m´etodo de propensi´on construye una funci´on de probabilidad
condicionada (propensi´on) de pertenecer al grupo tratamiento en
funci´on de variables observadas.
e (x) = Pr[zi = 1|x]
El valor promedio de la diferencia de los efectos entre los grupos
estudiados (tratados y no tratados), condicionado al PS, igual al
efecto promedio del tratamiento:
E [y1|e(x), z = 1] − E [y1|e(x), z = 0] = E [y1 − y0|e(x)]
54. 54
Referencias
1 Albarran, P. (2011). Modelos de Elecci´on Discreta..
2 Ca˜nadas, J. 92011). Heterocedasticidad en modelos de regresi´on ordinal con R.
Instituto de Estudios Sociales Avanzados IESA-CSIC.
3 Escabias, Manuel. (2013). Regresi´on log´ıstica. Tratamiento computacional con
R. Universidad de Granada.
4 Philip Leifeld (2013). texreg: Conversion of Statistical Model Output in R to
LaTeX and HTML Tables. Journal of Statistical Software, 55(8), 1-24.
5 Rodr´ıguez, C. y C´aceres, J. (2007). Modelos de elecci´on discreta y
especificaciones ordenadas: una reflexi´on metodol´ogica. Universidad de La
Laguna.
6 Sharyn, O. Logit/Probit. Econometrics II.
7 Torres, O. (2014). Logit, Probit and Multinomial Logit models in R.
Princenton University.
8 Williams, R. (2018). Marginal Effects for Continuous Variables. University of
Notre Dame.
9 Wooldridge, J. (2009). Introducci´on a la Econometr´ıa: un enfoque moderno.
4ta. ed. Michigan State University. Cengage Learning.