Este documento discute problemas de especificación y selección de modelos en econometría. Explica cómo la omisión de variables relevantes, el uso de variables proxy, la inclusión de variables irrelevantes y los errores de medición en las variables independientes pueden causar sesgos. También presenta pruebas como el test de Ramsey, el análisis de residuos y pruebas no anidadas para detectar errores de especificación. Finalmente, analiza criterios para seleccionar el mejor modelo, como el R2 ajustado, y problemas de datos como la endogeneidad y
PRESUPUESTOS COMO HERRAMIENTA DE GESTION - UNIAGUSTINIANA.pptx
Selección de modelo y problemas de datos en econometría
1. 1
Clase 6. Selecci´on del modelo y problemas de datos
Nerys Ram´ırez Mord´an
Pontificia Universidad Cat´olica Madre y Maestra
Econometr´ıa I (EC-411-T)
21 de julio de 2018
2. 2
Contenido
1 Introducci´on
2 Problemas de especificaci´on
Variable omitida
Uso de variables proxys
Variable irrelevante
Error de medici´on en las
independientes
3 Pruebas de errores de
especificaci´on
Detectar variables irrelevantes
An´alisis de los residuos
Test de Ramsey
Test no anidada de Davidson y
MacKinnon
4 Selecci´on del modelo
R2
corregido
Criterios de informaci´on
5 Problemas de datos
Muestras end´ogenas
Datos aberrantes e influyentes
Datos faltantes e imputaci´on
Dificultades para medir el efecto
causal
6 Referencias
4. 4
Introducci´on
La selecci´on del “mejor modelo” entre un conjunto de modelos
candidatos, es una etapa muy importante y complicada (Gujarati,
2004). Siendo una etapa cr´ıtica del proceso econom´etrico dado que
los errores −o sesgo− de especificaci´on pueden causar que los
coeficientes sean sesgados, ineficientes o inconsistentes.
Los m´etodos multi objetivos consideran es necesario tener en
cuenta m´ultiples criterios de selecci´on al momento de elegir un
modelo.
Es dif´ıcil alcanzar el modelo ideal, lo que s´ı se puede es modelizar
lo mejor posible empleando la Teor´ıa Econ´omica como gu´ıa
(Alonso, 2015).
5. 5
Introducci´on
Los modelos deben satisfacer (Gujarati, 2009, p.468):
1 Ser adecuado a los datos.
2 Ser consistente con la teor´ıa, tener sentido econ´omico.
3 Tener regresoras ex´ogenas d´ebiles (corr(u, x) = 0).
4 Mostrar consistencia en los par´ametros, respecto a la comparaci´on
de sus predicciones con la experiencia (ˆy realista).
5 Exhibir coherencia con los datos, en el sentido de que los residuos
estimados deben ser puramente aleatorios.
6. 6
Introducci´on
La forma funcional incorrecta del modelo indica que este no
representa correctamente la relaci´on funcional entre la variable
dependiente y las explicativas (Delpiano, 2008; Wooldridge, 2009,
p.300; Gujarati, 2009, p.470).
1 Omisi´on de t´erminos cuadr´aticos o interacciones.
2 Mal utilizaci´on de la transformaci´on logar´ıtmica.
3 Omisi´on de variables relevantes.
4 Errores de medici´on.
5 Incluir variables irrelevantes.
Establecer la causa del problema no es trivial.
8. 8
Omisi´on de variables relevantes
Anteriormente, hemos visto que la omisi´on de una variable
relevante causa sesgo en nuestra estimaciones de los par´ametros, y
que este sesgo depender´a de la correlaci´on de la variable omitida
con las dem´as variables independientes y su efecto sobre la
variable dependiente (Wooldridge, 2009, p.91).
Adicionalmente, omitir una variable relevante ocasiona problema
de inconsistencia.
9. 9
Omisi´on de variables relevantes
Suponga el modelo correcto es:
yi = β0 + β1x1 + β2x2 + u
Pero, por alguna raz´on, ha estimado:
yi = α0 + α1x1 + u∗
Por lo que:
α1 =
Cov(x1, y)
var(x1)
=
Cov(x1, β0 + β1x1 + β2x2 + u)
var(x1)
α1 = β1 + β2
Cov(x1, x2)
V ar(x1)
(1)
10. 10
Omisi´on de variables relevantes
Observe en la expresi´on anterior, que el sesgo generado por la
omisi´on de la variable relevante viene determinado por la relaci´on
de la variable omitida con las variables incluidas en el modelo β2 y
Cov(x1, x2).
Adem´as u∗ = u + β2x2, por lo que, ˆσ2
u esta sesgando σˆβ, haciendo
que las pruebas de hip´otesis conduzca a conclusiones equivocadas.
Adem´as, la varianza del modelo con variable omitida es menor a la
del estimador insesgado (¿Notas la disyuntiva entre eficiencia e
insesgadez?):
σ2
ˆα1
=
σ2
u∗
n
i=1 x2
ij
< σ2
ˆβ1
=
σ2
u
n
i=1 x2
ij
FIV (2)
11. 11
Omisi´on de variables relevantes
Una primera cuesti´on es tener en cuenta el modelo te´orico de
inter´es y pensar qu´e variables pueden faltar en el modelo emp´ırico.
Adicionalmente, el an´alisis de los residuos nos permite ver si este
tiene un comportamiento sistem´atico en relaci´on con el resto de
variables del modelo.
12. 12
Variables proxys
Una variable proxy es algo que est´a relacionado con la variable
que nos gustar´ıa controlar pero que no observamos.
Suponga desea estimar el modelo 3, pero x2 es una variable no
observable.
yi = β0 + β1x1 + β2x2 + u (3)
En este sentido, necesitamos una variable proxy de x2, que se
sustituye en el modelo anterior (¨x2) −normalmente se esta
interesado en el efecto parcial de las dem´as variables−.
yi = β0 + β1x1 + β2¨x2 + u (4)
13. 13
Inclusi´on de variables irrelevantes
Ahora, suponga que x2 es una variable irrelevante (β2 = 0), pero
se estima el modelo:
yi = β0 + β1x1 + β2x2 + u (5)
Los estimadores tienen varianzas mayores a las obtenidas en un
modelo correctamente especificado −m´as mayores a mayor
correlaci´on−. Es decir, se genera una p´erdida de eficiencia, pese
a que no se genera sesgo ni inconsistencia (Gujarati, 2009, p.73).
14. 14
Errores de medida en la variable independiente
Considere que la varianza del modelo ’correcto’:
σ2
ˆα1
=
σ2
u∗
n
i=1 x2
ij
(6)
Mientras que la varianza del estimador en el modelo donde se
incluye la variable irrelevante es:
σ2
ˆβ1
=
σ2
u
n
i=1 x2
ij 1 − R2
ji
(7)
Dado que 0 ≤ R2
ji ≤ 1, σˆα1 > σˆβ1
, generando la perdida de
eficiencia.
σ2
ˆα1
σ2
ˆβ1
=
1
1 − R2
ji
(8)
15. 15
Errores de medida en la variable independiente
Cuanto m´as correlacionada est´a una variable irrelevante con las
variables relevantes, mas aumentar´an las varianzas de los
estimadores de los coeficientes de las variables relevantes (Alonso,
2015, p.13).
Esto incide sobre h0 : βj = 0 llevando a indicar no so relevantes
variables que s´ı lo son.
16. 16
Errores de medida en la variable independiente
En los casos donde no contamos con la variable de estudio, sino
con aproximaciones:
Tenemos ingresos declarados, no el ingreso real.
Inflaci´on subyacente.
Los errores de medida aparecen cuando empleamos una medida
poco precisa de una variable econ´omica en un modelo de regresi´on.
En presencia de errores de medida, tenderemos a infraestimar la
magnitud (en valor absoluto) de la pendiente de la variable que se
mide con error.
17. 17
Errores de medida en la variable independiente
No siempre es posible observar todas las variables del modelo.
Adem´as, cunado utilizamos medidas imprecisas el modelo puede
obtener errores de medida (ahora, contrario en el caso de la proxy,
estamos interesados en el efecto parcial de estas variable).
˙yi = β0 + β1x1 + β2x∗
2 + u∗
(9)
Donde x∗
2 = x2 + ω, siendo ω el error de medidad, por lo que:
u∗ = ω + u.
Si corr(ω, xj) = 0 ∀j los estimadores por MCO resultan
insesgado y consistente. No obstante, implica menor eficiencia
(σ2
ω+u = σ2
ω + σ2
u∗ > σ2
u).
19. 19
Pruebas de errores de especificaci´on
Estas, intentan averiguar si se cometieron errores de especificaci´on,
aunque en la pr´actica, nunca se esta seguro de que el modelo
adoptado para las pruebas emp´ıricas representen la verdad
(Gujarati y Porter, 2009, p.477).
Lo tradicional es basarse en la teor´ıa para establecer un modelo y
posteriormente someterlo a las pruebas emp´ıricas y bondad de
ajuste (R2, F, t de significancia, signos de los coeficientes, DW).
20. 20
Detectar variables irrelevantes
Dado el modelo de regresi´on m´ultiple:
Yi = β0 + β1x1i + β2x2i + ... + βkxki = ui (10)
El test de significancia individual tˆβk
=
ˆβk
ee(ˆβk)
.
En el caso de dos variables irrelevantes, se utiliza el test F
tradicional.
Aqu´ı se realizan test de significancia teniendo en mente el modelo
’verdadero’, pero estas pruebas no permiten realizar m´etodos
ascendentes −ir agregando variables para estudiar su
significancia− o miner´ıa de datos cuyo objetivo es encontrar el
mejor modelo posterior a varias pruebas diagn´osticas.
21. 21
An´alisis de los residuos
El an´alisis de los residuos −generalmente estandarizados− se
utiliza como diagn´ostico visual para identificar formas funcionales
incorrectas u omisi´on de una variable importante.
La relaci´on sistem´atica en el gr´afico de dispersi´on o la
correlaci´on respecto alguna variable independiente apuntan a:
plot(ˆui, ˆyi) permite identificar la falta de linealidad,
heterocedasticidad y datos at´ıpicos.
plot(ˆui, xi) permite identificar si los problemas de no linealidad o
heterocedasticidad en los datos resulta de alguna variable.
Los gr´aficos de residuso parciales resultan de representar
plot(ˆu∗
i , xji) eliminando el efecto del resto de variables explicativas,
resultado ˆu∗
i de la regresi´on original, pero omitiendo la variable xj.
Observar plot(ˆui, xhi), siendo xhi una variable omitida, permite
verificar si existe alguna relaci´on.
22. 22
An´alisis de los residuos
Fuente: tomada deBIOST 515, https://courses.washington.edu/b515/l7.pdf
23. 23
An´alisis de los residuos
La prueba m´as utilizada para testear autocorrelaci´on serial de
primer orden, corresponde al estad´ıstico Durbin-Watson
(0 ≤ d ≤ 4, dado que d ≈ 2(1 − ˆρ), siendo ˆρ el autoregresivo de
primer orden, y estando ˆui ordenada seg´un una de las regresoras
del modelo) (Gujarati y Porter, 2009, p.479):
d =
n
i=1 (ˆui − ˆui−1)2
n
i=1 ˆu2
i
(11)
24. 24
Test Reset de Ramsey de forma funcional
El test de Ramsey (1969) testea la correcta especificaci´on del
modelo por medio de una prueba F de Fisher, verificando si las
combinaciones no lineales de los valores ajustados ayudan a
explicar la variable de respuesta.
Dado el modelo:
yi = β0 +1 Xi + ui (12)
El test obtiene ˆyi = E [y|X] = βX para estimar la variable
dependiente (yi) en funci´on de formas no lineales de las
independiente [βX)2, βX)2, ... , (βX)k], para verificar si tienen
alg´un efecto sobre y (Wooldrige, 2009, p.303).
25. 25
Test RESET de Ramsey de forma funcional
Estimando:
y = αx + ν1(βX)2
+ ν2(βX)3
+, . . . , +ν(k−1)(βX)k
+ u (13)
βX = ˆy en el modelo del paso 1.
Siendo H0 : que νi = 0 ∀i ∈ (1, k), por lo que, el modelo original
esta correctamente especificado.
Se testea a partir de un test F entre las ecuaciones 12 y 13. Por
tanto, un F significativo (se rechaza H0) es evidencia de
problemas de especificaci´on.
F =
(R2
nueva−R2
vieja)
(knuevo−kviejo)
(1−R2
nueva)
(n−(knuevo+1))
(14)
26. 26
Test de forma funcional no anidada
La inclusi´on o no de una variable en logaritmo, es una forma no
anidada que escapa a los test de hip´otesis cl´asicos.
y = β0 + ν1x1 + ν2x2 + u
Vs.
y = β0 + α1 log (x1) + α2 log (x2) + u
Mizon y Richard (1986), proponen plantear un modelo m´as
general, con ambas versiones y testear la significancia conjunta de
los coeficientes asociados a cada modelo (νi y αi).
y = β0 + ν1x1 + ν2x2 + α1 log (x1) + α2 log (x2) + u (15)
27. 27
Test de forma funcional no anidada
Seg´un Davidson y MacKinnon (1981), si el modelo lineal es el
correcto, los valores ajustados de otros modelos no resultar´ıan
significativos.
ˆy = β0 + ν1x1 + ν2x2 + u
ˆy∗ = β0 + α1 log (x1) + α2 log (x2) + u
Pudi´endose comparar el modelo, por medio del tradicional test t
de significancia sobre θ:
ˆy = β0 + ν1x1 + ν2x2 + θˆy∗
+ u (16)
29. 29
R2
corregido
Anteriormente vimos que R2 = 1 − SRC
STC . Pero este coeficiente
crece con el n´umero de variables, por ende se realiza un ajuste por
grados de libertad perdidos al agregar variables al modelo.
¯R2
= 1 −
SRC
(N−k)
STC
(N−1)
(17)
Ahora, este no necesariamente se incrementa, cuando aumenta el
n´umero de regresores. Tampoco, se puede interpretar como la
variaci´on porcentual.
30. 30
Criterios de informaci´on
Supongamos tenemos ¯s modelos (M1, M2, M3, ..., Ms) donde k
representa el n´umero de par´ametros que tiene el modelo Ms, seg´un
los criterios de informaci´on se elige el criterio que minimiza:
CI(k) = ln ˆσ2
k + k
C(N)
N
(18)
Donde ˆσ2
k es la varianza residual del modelo, N es el tama˜no de la
muestra y C(N) es el par´ametro de penalizaci´on.
31. 31
Criterios de informaci´on
Preferible a la bondad de ajuste, al comparar modelos suele
utilizarse los criterios de informaci´on.
El criterio AIC (Akaike information criterion) considera un
termino de penalizaci´on C(T) = 2.
AIC(k) = ln ˆσ2
k + k
2
N
(19)
Tambi´en puede obtenerse por un criterio bayesiano de informaci´on
(SBC, Bayesian Information Criterion) que considera un termino
de penalizaci´on c(t) = ln(T).
BIC(k) = ln ˆσ2
k + k
ln(N)
N
(20)
33. 33
Observaciones influyentes
Gujarati y Porter (2009, p.496) definen un valor at´ıpico como
aquellos que muestran altos residuos (ˆui = yi − ˆyi).
Una observaci´on es influyente si su consideraci´on o no, modifica
de forma sensible los resultados del modelo de regresi´on.
Fuente: tomada de Gujarati y Porter (2009, p.497)
La decisi´on de incluir o no una observaci´on influyente puede ser
dif´ıcil, dado que este incrementa la variabilidad de x, por ende
reduce sus errores est´andar.
34. 34
Datos faltantes e imputaci´on
Los datos faltantes distribuidos aleatoriamente pueden
incidir sobre el an´alisis al disminuir el tama˜no de la muestra e
inducir en la potencia de las pruebas de contraste de hip´otesis por
medio de una menor varianza.
Los datos faltantes no aleatorios ocasionan, una disminuci´on de
la representatividad de la muestra.
Los m´etodos de imputaci´on consisten en estimar los valores
ausente en funci´on del resto de variables o de alguna seleccionada.
Su aplicaci´on debe evaluarse con cautela (Medina y Galv´an, 2007).
35. 35
M´etodos de imputaci´on
An´alisis de casos completos (Listwise). Trabaja ´unicamente con las
observaciones que disponen de informaci´on completa para todas
las variables de la base de datos, asumiendo que la informaci´on
eliminada sigue la misma sub muestra de los datos completos.
obs mujer edad escolaridad salario ocupaci´on factorExpa
1 1 40 16 4,500 ? 50
2 0 35 15 ? 1 75
3 1 65 ? 1,200 1 100
4 0 23 12 2,500 2 80
5 0 25 ? ? 3 250
6 1 35 15 1,800 4 140
...
Fuente: tomado de Medina y Galv´an, 2007, p.22.
36. 36
M´etodos de imputaci´on
An´alisis de casos disponible. Trabaja ´unicamente con las
observaciones que disponen de informaci´on completa para registros
espec´ıficos de las variables con que se est´an trabajando. Ej.: la
corr(edu, edad) usar´ıa las observaciones 1, 2, 4, 6.
En muestras probabil´ıstica, la eliminaci´on de registros suele ser
inapropiada si no se hace el reconocimiento expl´ıcito de que las
observaciones que fueron seleccionadas con un procedimiento
aleatorio y probabilidad de selecci´on conocida −ajuste de los
factores de expansi´on−.
37. 37
M´etodos de imputaci´on
M´etodo de media incondicionada que asume un
comportamiento aleatorio (Xi ∼ iid), subestimando la varianza,
modificando la distribuci´on y aumentando la correlaci´on entre las
variables implicadas.
Imputaci´on para media condicionada con datos agrupados a
partir de categor´ıas correlacionadas con las variables de inter´es.
Hot deck, es un m´etodo no param´etrico que propone llenar los
vac´ıos (receptores) con observaciones con caracter´ısticas comunes
(donantes), haci´endose una selecci´on aleatoria del dato para evitar
reducir la varianza. Ej.: el salario2, ser´ıa sustituido con el salario5
dado comparten edad y escolaridad.
38. 38
M´etodos de imputaci´on
El m´etodo de regresi´on imputa informaci´on de yi en funci´on de
un grupo de covariantes (X). Luego, ˆY se utiliza para sustituir el
valor faltantes.
Cuando el m´etodo se aplica por subgrupos, es necesario garantizar
suficientes grados de libertad a lo interno de cada grupo
−representatividad de los grupos−.
39. 39
Dificultades para medir el efecto causal
Omisi´on de variables relevantes.
Simultaneidad.
Error de medida.
Selecci´on del modelo.
41. 41
Referencias
1 Gujarati y Porter, G. (2009). Econometr´ıa. 4ta. ed.
2 Medina, F. y Galv´an, M. (2007). Imputaci´on de datos: teor´ıa y pr´actica.
CEPAL - Serie Estudios estad´ısticos y prospectivos No 54.
3 Taveras, Hamilt´on. (2017). Medici´on de un efecto causal. Universidad
Aut´onoma de Santo Domingo
4 Wooldridge, J. (2009). Introducci´on a la Econometr´ıa: un enfoque moderno.
4ta. ed. Michigan State University. Cengage Learning.