Endogeneidad y estimación por variables instrumentales
1. 1
Clase 10. Endogeneidad y estimación por variables
instrumentales
Nerys Ramı́rez Mordán
Pontificia Universidad Católica Madre y Maestra
Econometrı́a II (EC-411-T)
11 de septiembre de 2018
2. 2
Contenido
1 Introducción
¿Cómo surge la
endogeneidad?
Tratamiento
2 Método de variables
instrumentales
Validez del instrumento
Estimador VI
Varianza del estimador VI
3 Mı́nimo cuadrado en 2 etapas
(MC2E)
Varianza del estimador
MC2E
Prueba de endogeneidad de
Hausman
Consideraciones finales
4 Referencias
4. 4
Introducción
En el modelo MCO de regresión múltiple:
yi = β0 + β1x1i + β2x2i + · · · + βkxki + ui (1)
Si E(u|xj) 6= 0 ∀j = 1, 2, · · · , k, se dice las variables explicativas
son endógenas, lo que invalida los estimadores MCO,
volviéndolos inconsistentes.
Endogeneidad cov[xj, u] 6= 0
Exogeneidad cov[xj, u] = 0
Por tanto, se dice que una variable xj es endógena si esta
correlacionada con ui (Wooldridge, 2010, p.54).
5. 5
¿Cómo surge la endogeneidad?
Sesgo por variable omitida.
Tratamiento endógeno: cuando en el modelo ln Y = β0x + αD + u,
se verifica corr(D, u) 6= 0.
Simultaneidad.
Error de medición, donde la variable x se aproxima a partir de
xproxy = x + e, lo que ocasiona que el error u0 = u + βe. Es decir,
corr(xproxy, u0) 6= 0.
6. 6
¿Cómo surge la endogeneidad? Variable omitida
Suponga el modelo de regresión:
yi = β0 + β1x1i + β2x2i + ei (2)
Pero se omite la variable relevante x2i, por lo que dy
dx = β2 + du
dx .
yi = β0 + β1x1i + (ei + β2x2i) (3)
7. 7
¿Cómo surge la endogeneidad? Tratamiento endógeno
Suponga necesitamos comparar los salarios de individuos que
participan en un programa de capacitación (P):
wi = β0 + β1P + β2Xi + e (4)
Pero, la participación es una variable de elección endógena:
Pi = α0 + α1D + α1xi + e (5)
Por lo que, el modelo a estimar es:
wi = β0 + β1 (α0 + α1D + α1xi) + β2Xi + e (6)
Dado corr (D, T) 6= 0, el no incluir a D en el modelo, el parámetro
β1 estarı́a capturando parte del efecto de D.
8. 8
¿Cómo surge la endogeneidad? Error de medida
Suponga el modelo de regresión:
yi = β0 + β1xi + ei (7)
Donde xi es una variable relevante (cov[xi, u] = 0), pero no
observada. Estando la variable observada (x∗
i ) sujeta a un error de
medición w.
wi = xi − x∗
i
Por lo que, utilizándola en el modelo:
yi = β0 + β1x∗
i + ei
yi = β0 + β1(xi − wi) + ei
yi = β0 + β1xi + (ei − β1wi)
Por lo que, el error esta correlado con la variable explicativa
observada.
9. 9
¿Cómo surge la endogeneidad? Simultaneidad
La simultaneidad. Ésta surge cuando una o más de las variables
explicativas se determina conjuntamente con la variable
dependiente (Wooldridge, 2009, p.546).
Suponga el modelo de regresión:
yi = β0 + β1xi + ei
Pero xi = f(y).
10. 10
Introducción
La idea de las estimaciones con variables instrumentales es
detectar los movimientos en x no correlacionados con el error
(Sánchez-Mangas, nd).
11. 11
Introducción
Alternativa 1: el método de variables instrumentales permite
obtener estimadores consistentes en situaciones donde MCO no.
Este, identifica un instrumento (Z) que cumpla la condición de
exogeneidad (cov(z, ) = 0) y relevancia (Corr(Zi, Xi) 6= 0).
yi = β0 + β1zi1 + ui
12. 12
Introducción
Alternativa 2: mı́nimos cuadrados en dos etapas (MC2E).
En la primera etapa estima la relación endógena, donde las
dependientes cumplen la condición de corr(X, ε) = 0, por tanto,
D̂ = π0 + π2Z tampoco lo estará (es decir, aı́sla la parte de D, no
correlacionada con ε), y en una segunda etapa se estima el modelo.
xi = α0 + α1Zi1 + α2Zi2 + ui
yi = β0 + β1x̂i1 + ui
14. 14
Justificación: variables omitidas
El método de variables instrumentales reconoce la presencia de
variables omitidas, dejando la variable inobservable en el termino
de error.
Tener en cuenta que MCO es más eficiente que VI cuando las
regresoras son exógenas, por lo que, VI solo se utiliza cuando se
demuestra endogeneidad de las variables.
15. 15
Variables instrumentales
La idea del método de VI es que dado el modelo:
yi = β0 + β1xi + i (8)
Donde x es una variable endógena (corr(xi, i) 6= 0) que hace
inconsistente el estimador MCO.
En consecuencia, necesitamos un instrumento (z) para aislar la
parte de x no correlacionada con . Por lo que, este instrumento
debe cumplir las condiciones de (Alonso, 2015):
1 Exogeneidad (cov(z, ) = 0). En términos prácticos, indica que zi no
debe estar correlacionada con las variables omitidas.
2 Relevancia (Corr(Zi, Xi) 6= 0). Cuando esta correlación es baja,
decimos enfrentamos instrumentos débiles.
16. 16
Ejemplo 1: Ecuación de salarios con variables omitidas
Supongamos un modelo de salario sobre la población activa:
log (w) = β0 + β1edui + β2hábili + ui
Pero al no disponer de una proxy adecuada para la variable hábil,
esta quedará contenida en el residuo del modelo:
log (w) = β0 + β1edui + (i = uii + β2hábil) (9)
En este contexto, el método de VI busca un instrumento (z), que
permita estimar la ecuación anterior, aún omitiendo la variable
hábil, utilizando una variable relacionada con la educación, pero
no con la variable omitida como: educación de la madre o el
número de hermanos.
17. 17
Validez del instrumento: Relevancia
La relevancia del instrumento se definió a partir de que la
Corr(Zi, Xi) 6= 0. Por tanto, dado que ambas variables son
observables, se puede testear a partir de la regresión.
xi = π0 + π1z + υ (10)
Testear ho : π1 = 0 frente a ho : π1 6= 0 para las variables
individuales.
Test F para testear ho : πj = 0 ∀j = 1, 2, ..., k̇, con k̇ número de
instrumentos.
18. 18
Validez del instrumento: Relevancia
La relevancia incide sobre la manera en que la distribución del
estadı́stico se aproxima a una normal (afectando la inferencia
(Bound y Bake, 1965)) e incrementa el sesgo (Hall y Piexe, 2003).
Gráfico 1. Relación precio del petróleo y gasolina premium
Fuente: Sánchez-Mangas, UAM.
19. 19
Validez del instrumento: exogeneidad
La exogeneidad del instrumento se definió como Corr(Zi, ) = 0,
de lo contrario no se aislará el componente de xi no correlado con
ui.
No podemos testear exogeneidad, en la práctica solo se supone por
conjetura económica (Alonso, 2015, p.16).
Respecto a las variables omitidas, esta condición crea una
diferencia importante entre una proxy y un instrumento, porque
en el caso de la proxy buscamos una alta correlación con la
variable omitida, mientras que en el instrumento no.
20. 20
Estimador VI
Dada la exogeneidad del instrumento Cov(Zi, i) = 0, utilizando el
método de los momentos:
E[u] = E[y − β0 − β1x] = 0
E[uz] = Cov(Zi, yi − β0 − β1xi1) = 0
De la primera ecuación se obtiene la constante:
1
N
P
(y − β0 − β1x) = 0
βV I
0 = ȳ − βV I
1 x̄
El estimador de VI se puede obtener (si z = x, βV I
i = βMCO
i ):
Cov(Zi, yi) − β1Cov(Zi, xi1) = 0
βV I
i =
Pn
i=1
(zi−z̄)(yi−ȳ)
Pn
i=1
(zi−z̄)(xi−x̄)
(11)
21. 21
Estimador VI
Por tanto, cuando el corr(Zi, ui) 6= 0 el estimador de VI es
consistente (sesgo de consistencia):
βV I
1i =
P
(zi − z̄) (yi − ȳ)
P
(zi − z̄) (xi − x̄)
=
P
(zi − z̄) Yi
P
(zi − z̄) Xi
=
P
(zi − z̄) (β0 + β1x1 + ui)
P
(zi − z̄) Xi
βV I
1i = β1 +
P
(zi − z̄) (ui)
P
(zi − z̄) xi
p
−
→ β1 +
cov (zi, ui)
cov (zi, xi)
= β1
22. 22
Varianza del estimador VI
Wooldridge (2009, p.511) muestra que la varianza asintótica del
estimador es:
V (β̂V I
1 ) =
σ̂2
nσ2
xρ2
xz
(12)
Siendo σ̂2 =
P
ũ2
n−k , estimado con el residuo del modelo de VI; ρ2
xz
es el cuadrado de la correlación poblacional entre x y z (solo en el
caso de regresión simple); σ2
x es la varianza poblacional de x.
23. 23
Varianza del estimador VI
V (β̂V I
1 ) =
σ̂2
P
(xi − x̄)2
R2
xz
(13)
Por tanto, si x es exógena, realizar VI en vez de MCO tiene un
coste en términos de eficiencia, en tal sentido, a menor correlación,
mayor varianza de VI respecto a MCO [recuerde que las varianza
muestral de x, σ2
x = STCx/n, se cancelan las n].
Dado que esta estimación difiere de la de MCO
V (β̂MCO
1 ) = σ̂2
P
(xi−x̄)2
por R2
xz, que al ser siempre menor que 1,
V (β̂V I
1 ) V (β̂MCO
1 ).
24. 24
Varianza del estimador VI
La desviación estándar del coeficiente se puede utilizar para
obtener los estadı́sticos t y realizar inferencia de la forma habitual.
tvi
β̂j
=
β̂j − βho
de(β̂V I
1 )
(14)
26. 26
MC2E
El método permite emplear más de una variable explicativa
exógena como instrumento (Wooldridge, 2009, p.521).
En una primera etapa se elimina la correlación entre la endógena y
el error, mediante instrumentos (variables exógenas) que están
altamente correlacionadas con la variable explicativa de interés.
Dado dos instrumentos válidos (z1 y z2), se podrı́a utilizar
cualquiera de estos para obtener VI, sin embargo, utilizar una
combinación de ambos será siempre más eficiente.
27. 27
MC2E
Suponiendo tres variables instrumentales (z1, z2 y z3) que se
pueden usar como VI, se estima en una primera etapa:
x2 = π̂0 + π̂1z1 + π̂2z2 + π̂3z3 + υ (15)
x̂2 = π̂0 + π̂1z1 + π̂2z2 + π̂3z3 (16)
Donde x̂2, es la parte de x2 no correlacionada con u (como zi no
están correlaciona con ui, una combinación lineal de estas
tampoco lo estará) se puede utilizar como instrumento de x2.
28. 28
MC2E
La ecuación:
x2 = π̂0 + π̂1z1 + π̂2z2 + π̂3z3 + υ (17)
Descompone la variable endógena de forma aditiva en dos
componentes:
1 La parte exógena de x, explicada en función de los instrumentos
π̂0 + π̂1z1 + π̂2z2 + π̂3z3.
2 La parte endógena υ, que es la parte de x no explicada por los
instrumentos.
29. 29
MC2E
Una vez se obtiene la parte exógena de x, se utiliza como
instrumento:
yi = β̂0 + β̂1x̂2 + β̂2xi + ui (18)
30. 30
Ejemplo 2: Ecuación de salarios de mujeres casadas
Suponga la siguiente ecuación de salarios:
ln salarioi = −18.5 + 0.109educi + ui
Ahora, se utiliza la variable de educación del padre como
instrumento de la variable educ ¿Qué suponemos sobre esta
variable?:
educi = 10.24 + 0.269educpadre + ui
Ahora, utilizando ˆ
educi, se estima la segunda etapa:
ln salarioi = 0.441 + 0.059 ˆ
educi + ui
31. 31
Varianza del estimador MC2E
Wooldridge (2009, p.511) muestra que la varianza asintótica del
estimador es:
V (β̂MC2E
1 ) =
σ̂2
ˆ
STC2
1 − R̂2
xz
Siendo σ̂2 =
P
ũ2
n−k , ˆ
STC2 es la variación total de x̂ y R̂2
xz es el R2
de la regresión de x̂ sobre todas las variables que aparecen en el
modelo estructural.
32. 32
Prueba de endogeneidad de Hausman
Cuando las variables explicativas son exógenas, los MC2E pueden
tener errores muy grandes, por tanto, la prueba de endogeneidad
nos ayudarı́an a detectar si se necesita estimar por VI o MC2E.
Housman (1978), utilizando un test χ2, sugirió comparar las
estimaciones de MCO y MC2E, y determinar si existen diferencias
estadı́sticamente significativas. Esto, porque ambos métodos,
deben ser iguales al menos en el limite dada la consistencia de los
estimadores.
33. 33
Prueba de endogeneidad de Hausman
Para testear si las diferencias en las estimaciones son significativas,
suponga una única variable endógena x3i:
yi = β0 + β1x1i + β2x2i + β3x3i + ui (19)
La prueba de regresión, estima x3i en función de todas las
variables instrumentales y regresoras:
x3i = π̂0 + π̂1z1 + π̂2z2 + π̂3z3 + π̂4x1i + π̂5x2i + υi (20)
34. 34
Prueba de endogeneidad de Hausman
Ahora, dada corr(Zj, u) = 0, x̂3i no esta correlacionada con ui,
solo si υ y u, tampoco lo están. Es decir, δ = 0 en u = δυ + , si los
errores de ambos modelos no están correlacionados.
Ahora, en la práctica, como υ no es observable, se utiliza su
estimación (υ̂) en el modelo original, estimado mediante MCO:
yi = β0 + β1x1i + β2x2i + β3x3i + δυ̂ + ui (21)
Sobre esta, se prueba si H0: δ = 0 (x es exógena), mediante el
estadı́stico t. Si se rechaza, la hipótesis nula x3i es endógena,
porque u y υ están correlacionados.
35. 35
Prueba de endogeneidad de Hausman
De forma práctica (Ramı́rez F., 2016, p.31):
1 Estimar un modelo entre la variable explicativa endógena, sobre
todas las variables explicativas incluyendo los instrumentos. Se
obtienen los residuos.
2 Se agrega este residuo a la ecuación estructural, se estima por MCO
y se evalúa la significancia de los coeficientes asociados a los
residuos. Si el coeficiente es estadı́sticamente distinto de cero, se
concluye que la variable de interés es endógena.
36. 36
Consideraciones finales
No es correcto estimar las dos etapas secuencialmente, porque el
termino de error (u), incluye υ.
En la práctica, es difı́cil encontrar instrumentos válidos.
38. 38
Referencias
1 Alonso, 2015 Variables Instrumentales. Departamento de Economı́a.
Universidad Carlos III de Madrid.
2 Francisco Ramı́rez (2016). Endogeneidad y estimación por variables
instrumentales. Econometrı́a II.
3 Sánchez-Mangas, R. (nd). Regresión con Variables Instrumentales (VI).
Universidad Autónoma de Madrid.
4 Wooldridge, J. (2009). Introducción a la Econometrı́a: un enfoque moderno.
4ta. ed. Michigan State University. Cengage Learning
5 Wooldridge, J. (2010). Econometric Analysis of Cross Section and Panel Data.