Endogeneidad y estimación por variables instrumentales

1
Clase 10. Endogeneidad y estimación por variables
instrumentales
Nerys Ramı́rez Mordán
Pontificia Universidad Católica Madre y Maestra
Econometrı́a II (EC-411-T)
11 de septiembre de 2018

2
Contenido
1 Introducción
¿Cómo surge la
endogeneidad?
Tratamiento
2 Método de variables
instrumentales
Validez del instrumento
Estimador VI
Varianza del estimador VI
3 Mı́nimo cuadrado en 2 etapas
(MC2E)
Varianza del estimador
MC2E
Prueba de endogeneidad de
Hausman
Consideraciones finales
4 Referencias

4
Introducción
En el modelo MCO de regresión múltiple:
yi = β0 + β1x1i + β2x2i + · · · + βkxki + ui (1)
Si E(u|xj) 6= 0 ∀j = 1, 2, · · · , k, se dice las variables explicativas
son endógenas, lo que invalida los estimadores MCO,
volviéndolos inconsistentes.
Endogeneidad cov[xj, u] 6= 0
Exogeneidad cov[xj, u] = 0
Por tanto, se dice que una variable xj es endógena si esta
correlacionada con ui (Wooldridge, 2010, p.54).

5
¿Cómo surge la endogeneidad?
Sesgo por variable omitida.
Tratamiento endógeno: cuando en el modelo ln Y = β0x + αD + u,
se verifica corr(D, u) 6= 0.
Simultaneidad.
Error de medición, donde la variable x se aproxima a partir de
xproxy = x + e, lo que ocasiona que el error u0 = u + βe. Es decir,
corr(xproxy, u0) 6= 0.

6
¿Cómo surge la endogeneidad? Variable omitida
Suponga el modelo de regresión:
yi = β0 + β1x1i + β2x2i + ei (2)
Pero se omite la variable relevante x2i, por lo que dy
dx = β2 + du
dx .
yi = β0 + β1x1i + (ei + β2x2i) (3)

7
¿Cómo surge la endogeneidad? Tratamiento endógeno
Suponga necesitamos comparar los salarios de individuos que
participan en un programa de capacitación (P):
wi = β0 + β1P + β2Xi + e (4)
Pero, la participación es una variable de elección endógena:
Pi = α0 + α1D + α1xi + e (5)
Por lo que, el modelo a estimar es:
wi = β0 + β1 (α0 + α1D + α1xi) + β2Xi + e (6)
Dado corr (D, T) 6= 0, el no incluir a D en el modelo, el parámetro
β1 estarı́a capturando parte del efecto de D.

8
¿Cómo surge la endogeneidad? Error de medida
yi = β0 + β1xi + ei (7)
Donde xi es una variable relevante (cov[xi, u] = 0), pero no
observada. Estando la variable observada (x∗
i ) sujeta a un error de
medición w.
wi = xi − x∗
i
Por lo que, utilizándola en el modelo:
yi = β0 + β1x∗
i + ei
yi = β0 + β1(xi − wi) + ei
yi = β0 + β1xi + (ei − β1wi)
Por lo que, el error esta correlado con la variable explicativa
observada.

9
¿Cómo surge la endogeneidad? Simultaneidad
La simultaneidad. Ésta surge cuando una o más de las variables
explicativas se determina conjuntamente con la variable
dependiente (Wooldridge, 2009, p.546).
yi = β0 + β1xi + ei
Pero xi = f(y).

10
Introducción
La idea de las estimaciones con variables instrumentales es
detectar los movimientos en x no correlacionados con el error
(Sánchez-Mangas, nd).

11
Introducción
Alternativa 1: el método de variables instrumentales permite
obtener estimadores consistentes en situaciones donde MCO no.
Este, identifica un instrumento (Z) que cumpla la condición de
exogeneidad (cov(z, ) = 0) y relevancia (Corr(Zi, Xi) 6= 0).
yi = β0 + β1zi1 + ui

12
Introducción
Alternativa 2: mı́nimos cuadrados en dos etapas (MC2E).
En la primera etapa estima la relación endógena, donde las
dependientes cumplen la condición de corr(X, ε) = 0, por tanto,
D̂ = π0 + π2Z tampoco lo estará (es decir, aı́sla la parte de D, no
correlacionada con ε), y en una segunda etapa se estima el modelo.
xi = α0 + α1Zi1 + α2Zi2 + ui
yi = β0 + β1x̂i1 + ui

13
Método de variables instrumentales

14
Justificación: variables omitidas
El método de variables instrumentales reconoce la presencia de
variables omitidas, dejando la variable inobservable en el termino
de error.
Tener en cuenta que MCO es más eficiente que VI cuando las
regresoras son exógenas, por lo que, VI solo se utiliza cuando se
demuestra endogeneidad de las variables.

15
Variables instrumentales
La idea del método de VI es que dado el modelo:
yi = β0 + β1xi + i (8)
Donde x es una variable endógena (corr(xi, i) 6= 0) que hace
inconsistente el estimador MCO.
En consecuencia, necesitamos un instrumento (z) para aislar la
parte de x no correlacionada con . Por lo que, este instrumento
debe cumplir las condiciones de (Alonso, 2015):
1 Exogeneidad (cov(z, ) = 0). En términos prácticos, indica que zi no
debe estar correlacionada con las variables omitidas.
2 Relevancia (Corr(Zi, Xi) 6= 0). Cuando esta correlación es baja,
decimos enfrentamos instrumentos débiles.

16
Ejemplo 1: Ecuación de salarios con variables omitidas
Supongamos un modelo de salario sobre la población activa:
log (w) = β0 + β1edui + β2hábili + ui
Pero al no disponer de una proxy adecuada para la variable hábil,
esta quedará contenida en el residuo del modelo:
log (w) = β0 + β1edui + (i = uii + β2hábil) (9)
En este contexto, el método de VI busca un instrumento (z), que
permita estimar la ecuación anterior, aún omitiendo la variable
hábil, utilizando una variable relacionada con la educación, pero
no con la variable omitida como: educación de la madre o el
número de hermanos.

17
Validez del instrumento: Relevancia
La relevancia del instrumento se definió a partir de que la
Corr(Zi, Xi) 6= 0. Por tanto, dado que ambas variables son
observables, se puede testear a partir de la regresión.
xi = π0 + π1z + υ (10)
Testear ho : π1 = 0 frente a ho : π1 6= 0 para las variables
individuales.
Test F para testear ho : πj = 0 ∀j = 1, 2, ..., k̇, con k̇ número de
instrumentos.

18
Validez del instrumento: Relevancia
La relevancia incide sobre la manera en que la distribución del
estadı́stico se aproxima a una normal (afectando la inferencia
(Bound y Bake, 1965)) e incrementa el sesgo (Hall y Piexe, 2003).
Gráfico 1. Relación precio del petróleo y gasolina premium
Fuente: Sánchez-Mangas, UAM.

19
Validez del instrumento: exogeneidad
La exogeneidad del instrumento se definió como Corr(Zi, ) = 0,
de lo contrario no se aislará el componente de xi no correlado con
ui.
No podemos testear exogeneidad, en la práctica solo se supone por
conjetura económica (Alonso, 2015, p.16).
Respecto a las variables omitidas, esta condición crea una
diferencia importante entre una proxy y un instrumento, porque
en el caso de la proxy buscamos una alta correlación con la
variable omitida, mientras que en el instrumento no.

20
Estimador VI
Dada la exogeneidad del instrumento Cov(Zi, i) = 0, utilizando el
método de los momentos:
E[u] = E[y − β0 − β1x] = 0
E[uz] = Cov(Zi, yi − β0 − β1xi1) = 0
De la primera ecuación se obtiene la constante:
1
N
P
(y − β0 − β1x) = 0
βV I
0 = ȳ − βV I
1 x̄
El estimador de VI se puede obtener (si z = x, βV I
i = βMCO
i ):
Cov(Zi, yi) − β1Cov(Zi, xi1) = 0
βV I
i =
Pn
i=1
(zi−z̄)(yi−ȳ)
Pn
i=1
(zi−z̄)(xi−x̄)
(11)

21
Estimador VI
Por tanto, cuando el corr(Zi, ui) 6= 0 el estimador de VI es
consistente (sesgo de consistencia):
βV I
1i =
P
(zi − z̄) (yi − ȳ)
P
(zi − z̄) (xi − x̄)
=
P
(zi − z̄) Yi
P
(zi − z̄) Xi
=
P
(zi − z̄) (β0 + β1x1 + ui)
P
(zi − z̄) Xi
βV I
1i = β1 +
P
(zi − z̄) (ui)
P
(zi − z̄) xi
p
−
→ β1 +
cov (zi, ui)
cov (zi, xi)
= β1

22
Wooldridge (2009, p.511) muestra que la varianza asintótica del
estimador es:
V (β̂V I
1 ) =
σ̂2
nσ2
xρ2
xz
(12)
Siendo σ̂2 =
P
ũ2
n−k , estimado con el residuo del modelo de VI; ρ2
xz
es el cuadrado de la correlación poblacional entre x y z (solo en el
caso de regresión simple); σ2
x es la varianza poblacional de x.

23
V (β̂V I
1 ) =
σ̂2
P
(xi − x̄)2
R2
xz
(13)
Por tanto, si x es exógena, realizar VI en vez de MCO tiene un
coste en términos de eficiencia, en tal sentido, a menor correlación,
mayor varianza de VI respecto a MCO [recuerde que las varianza
muestral de x, σ2
x = STCx/n, se cancelan las n].
Dado que esta estimación difiere de la de MCO

V (β̂MCO
1 ) = σ̂2
P
(xi−x̄)2

por R2
xz, que al ser siempre menor que 1,
V (β̂V I
1 ) V (β̂MCO
1 ).

24
La desviación estándar del coeficiente se puede utilizar para
obtener los estadı́sticos t y realizar inferencia de la forma habitual.
tvi
β̂j
=
β̂j − βho
de(β̂V I
1 )
(14)

25
Mı́nimo cuadrado en 2 etapas (MC2E)

26
MC2E
El método permite emplear más de una variable explicativa
exógena como instrumento (Wooldridge, 2009, p.521).
En una primera etapa se elimina la correlación entre la endógena y
el error, mediante instrumentos (variables exógenas) que están
altamente correlacionadas con la variable explicativa de interés.
Dado dos instrumentos válidos (z1 y z2), se podrı́a utilizar
cualquiera de estos para obtener VI, sin embargo, utilizar una
combinación de ambos será siempre más eficiente.

27
MC2E
Suponiendo tres variables instrumentales (z1, z2 y z3) que se
pueden usar como VI, se estima en una primera etapa:
x2 = π̂0 + π̂1z1 + π̂2z2 + π̂3z3 + υ (15)
x̂2 = π̂0 + π̂1z1 + π̂2z2 + π̂3z3 (16)
Donde x̂2, es la parte de x2 no correlacionada con u (como zi no
están correlaciona con ui, una combinación lineal de estas
tampoco lo estará) se puede utilizar como instrumento de x2.

28
MC2E
La ecuación:
x2 = π̂0 + π̂1z1 + π̂2z2 + π̂3z3 + υ (17)
Descompone la variable endógena de forma aditiva en dos
componentes:
1 La parte exógena de x, explicada en función de los instrumentos
π̂0 + π̂1z1 + π̂2z2 + π̂3z3.
2 La parte endógena υ, que es la parte de x no explicada por los
instrumentos.

29
MC2E
Una vez se obtiene la parte exógena de x, se utiliza como
instrumento:
yi = β̂0 + β̂1x̂2 + β̂2xi + ui (18)

30
Ejemplo 2: Ecuación de salarios de mujeres casadas
Suponga la siguiente ecuación de salarios:
ln salarioi = −18.5 + 0.109educi + ui
Ahora, se utiliza la variable de educación del padre como
instrumento de la variable educ ¿Qué suponemos sobre esta
variable?:
educi = 10.24 + 0.269educpadre + ui
Ahora, utilizando ˆ
educi, se estima la segunda etapa:
ln salarioi = 0.441 + 0.059 ˆ
educi + ui

31
Varianza del estimador MC2E
Wooldridge (2009, p.511) muestra que la varianza asintótica del
estimador es:
V (β̂MC2E
1 ) =
σ̂2
ˆ
STC2

1 − R̂2
xz

Siendo σ̂2 =
P
ũ2
n−k , ˆ
STC2 es la variación total de x̂ y R̂2
xz es el R2
de la regresión de x̂ sobre todas las variables que aparecen en el
modelo estructural.

32
Prueba de endogeneidad de Hausman
Cuando las variables explicativas son exógenas, los MC2E pueden
tener errores muy grandes, por tanto, la prueba de endogeneidad
nos ayudarı́an a detectar si se necesita estimar por VI o MC2E.
Housman (1978), utilizando un test χ2, sugirió comparar las
estimaciones de MCO y MC2E, y determinar si existen diferencias
estadı́sticamente significativas. Esto, porque ambos métodos,
deben ser iguales al menos en el limite dada la consistencia de los
estimadores.

33
Para testear si las diferencias en las estimaciones son significativas,
suponga una única variable endógena x3i:
yi = β0 + β1x1i + β2x2i + β3x3i + ui (19)
La prueba de regresión, estima x3i en función de todas las
variables instrumentales y regresoras:
x3i = π̂0 + π̂1z1 + π̂2z2 + π̂3z3 + π̂4x1i + π̂5x2i + υi (20)

34
Ahora, dada corr(Zj, u) = 0, x̂3i no esta correlacionada con ui,
solo si υ y u, tampoco lo están. Es decir, δ = 0 en u = δυ + , si los
errores de ambos modelos no están correlacionados.
Ahora, en la práctica, como υ no es observable, se utiliza su
estimación (υ̂) en el modelo original, estimado mediante MCO:
yi = β0 + β1x1i + β2x2i + β3x3i + δυ̂ + ui (21)
Sobre esta, se prueba si H0: δ = 0 (x es exógena), mediante el
estadı́stico t. Si se rechaza, la hipótesis nula x3i es endógena,
porque u y υ están correlacionados.

35
De forma práctica (Ramı́rez F., 2016, p.31):
1 Estimar un modelo entre la variable explicativa endógena, sobre
todas las variables explicativas incluyendo los instrumentos. Se
obtienen los residuos.
2 Se agrega este residuo a la ecuación estructural, se estima por MCO
y se evalúa la significancia de los coeficientes asociados a los
residuos. Si el coeficiente es estadı́sticamente distinto de cero, se
concluye que la variable de interés es endógena.

36
Consideraciones finales
No es correcto estimar las dos etapas secuencialmente, porque el
termino de error (u), incluye υ.
En la práctica, es difı́cil encontrar instrumentos válidos.

38
Referencias
1 Alonso, 2015 Variables Instrumentales. Departamento de Economı́a.
Universidad Carlos III de Madrid.
2 Francisco Ramı́rez (2016). Endogeneidad y estimación por variables
instrumentales. Econometrı́a II.
3 Sánchez-Mangas, R. (nd). Regresión con Variables Instrumentales (VI).
Universidad Autónoma de Madrid.
4 Wooldridge, J. (2009). Introducción a la Econometrı́a: un enfoque moderno.
4ta. ed. Michigan State University. Cengage Learning
5 Wooldridge, J. (2010). Econometric Analysis of Cross Section and Panel Data.

Endogeneidad y estimación por variables instrumentales

Recomendados

Recomendados

Más contenido relacionado

Similar a Endogeneidad y estimación por variables instrumentales

Similar a Endogeneidad y estimación por variables instrumentales (20)

Último

Último (20)

Endogeneidad y estimación por variables instrumentales