Selección de modelo y problemas de datos en econometría

1
Clase 6. Selección del modelo y problemas de datos
Nerys Ram´ırez Mordán
Pontificia Universidad Católica Madre y Maestra
Econometr´ıa I (EC-411-T)
21 de julio de 2018

2
Contenido
1 Introducción
2 Problemas de especificación
Variable omitida
Uso de variables proxys
Variable irrelevante
Error de medición en las
independientes
3 Pruebas de errores de
especificación
Detectar variables irrelevantes
Análisis de los residuos
Test de Ramsey
Test no anidada de Davidson y
MacKinnon
4 Selección del modelo
R2
corregido
Criterios de información
5 Problemas de datos
Muestras endógenas
Datos aberrantes e influyentes
Datos faltantes e imputación
Dificultades para medir el efecto
causal
6 Referencias

4
Introducción
La selección del “mejor modelo” entre un conjunto de modelos
candidatos, es una etapa muy importante y complicada (Gujarati,
2004). Siendo una etapa cr´ıtica del proceso econométrico dado que
los errores −o sesgo− de especificación pueden causar que los
coeficientes sean sesgados, ineficientes o inconsistentes.
Los métodos multi objetivos consideran es necesario tener en
cuenta múltiples criterios de selección al momento de elegir un
modelo.
Es dif´ıcil alcanzar el modelo ideal, lo que s´ı se puede es modelizar
lo mejor posible empleando la Teor´ıa Económica como gu´ıa
(Alonso, 2015).

5
Introducción
Los modelos deben satisfacer (Gujarati, 2009, p.468):
1 Ser adecuado a los datos.
2 Ser consistente con la teor´ıa, tener sentido económico.
3 Tener regresoras exógenas débiles (corr(u, x) = 0).
4 Mostrar consistencia en los parámetros, respecto a la comparación
de sus predicciones con la experiencia (ˆy realista).
5 Exhibir coherencia con los datos, en el sentido de que los residuos
estimados deben ser puramente aleatorios.

6
Introducción
La forma funcional incorrecta del modelo indica que este no
representa correctamente la relación funcional entre la variable
dependiente y las explicativas (Delpiano, 2008; Wooldridge, 2009,
p.300; Gujarati, 2009, p.470).
1 Omisión de términos cuadráticos o interacciones.
2 Mal utilización de la transformación logar´ıtmica.
3 Omisión de variables relevantes.
4 Errores de medición.
5 Incluir variables irrelevantes.
Establecer la causa del problema no es trivial.

7
Problemas de especiﬁcaci´on

8
Omisión de variables relevantes
Anteriormente, hemos visto que la omisión de una variable
relevante causa sesgo en nuestra estimaciones de los parámetros, y
que este sesgo dependerá de la correlación de la variable omitida
con las demás variables independientes y su efecto sobre la
variable dependiente (Wooldridge, 2009, p.91).
Adicionalmente, omitir una variable relevante ocasiona problema
de inconsistencia.

9
Suponga el modelo correcto es:
yi = β0 + β1x1 + β2x2 + u
Pero, por alguna raz´on, ha estimado:
yi = α0 + α1x1 + u∗
Por lo que:
α1 =
Cov(x1, y)
var(x1)
=
Cov(x1, β0 + β1x1 + β2x2 + u)
var(x1)
α1 = β1 + β2
Cov(x1, x2)
V ar(x1)
(1)

10
Observe en la expresión anterior, que el sesgo generado por la
omisión de la variable relevante viene determinado por la relación
de la variable omitida con las variables incluidas en el modelo β2 y
Cov(x1, x2).
Además u∗ = u + β2x2, por lo que, ˆσ2
u esta sesgando σˆβ, haciendo
que las pruebas de hipótesis conduzca a conclusiones equivocadas.
Además, la varianza del modelo con variable omitida es menor a la
del estimador insesgado (¿Notas la disyuntiva entre eficiencia e
insesgadez?):
σ2
ˆα1
=
σ2
u∗
n
i=1 x2
ij
< σ2
ˆβ1
=
σ2
u
n
i=1 x2
ij
FIV (2)

11
Una primera cuestión es tener en cuenta el modelo teórico de
interés y pensar qué variables pueden faltar en el modelo emp´ırico.
Adicionalmente, el análisis de los residuos nos permite ver si este
tiene un comportamiento sistemático en relación con el resto de
variables del modelo.

12
Variables proxys
Una variable proxy es algo que est´a relacionado con la variable
que nos gustar´ıa controlar pero que no observamos.
Suponga desea estimar el modelo 3, pero x2 es una variable no
observable.
yi = β0 + β1x1 + β2x2 + u (3)
En este sentido, necesitamos una variable proxy de x2, que se
sustituye en el modelo anterior (¨x2) −normalmente se esta
interesado en el efecto parcial de las dem´as variables−.
yi = β0 + β1x1 + β2¨x2 + u (4)

13
Inclusión de variables irrelevantes
Ahora, suponga que x2 es una variable irrelevante (β2 = 0), pero
se estima el modelo:
yi = β0 + β1x1 + β2x2 + u (5)
Los estimadores tienen varianzas mayores a las obtenidas en un
modelo correctamente especificado −más mayores a mayor
correlación−. Es decir, se genera una pérdida de eficiencia, pese
a que no se genera sesgo ni inconsistencia (Gujarati, 2009, p.73).

14
Errores de medida en la variable independiente
Considere que la varianza del modelo ’correcto’:
σ2
ˆα1
=
σ2
u∗
n
i=1 x2
ij
(6)
Mientras que la varianza del estimador en el modelo donde se
incluye la variable irrelevante es:
σ2
ˆβ1
=
σ2
u
n
i=1 x2
ij 1 − R2
ji
(7)
Dado que 0 ≤ R2
ji ≤ 1, σˆα1 > σˆβ1
, generando la perdida de
eﬁciencia.
σ2
ˆα1
σ2
ˆβ1
=
1
1 − R2
ji
(8)

15
Cuanto más correlacionada está una variable irrelevante con las
variables relevantes, mas aumentarán las varianzas de los
estimadores de los coeficientes de las variables relevantes (Alonso,
2015, p.13).
Esto incide sobre h0 : βj = 0 llevando a indicar no so relevantes
variables que s´ı lo son.

16
En los casos donde no contamos con la variable de estudio, sino
con aproximaciones:
Tenemos ingresos declarados, no el ingreso real.
Inflación subyacente.
Los errores de medida aparecen cuando empleamos una medida
poco precisa de una variable económica en un modelo de regresión.
En presencia de errores de medida, tenderemos a infraestimar la
magnitud (en valor absoluto) de la pendiente de la variable que se
mide con error.

17
No siempre es posible observar todas las variables del modelo.
Adem´as, cunado utilizamos medidas imprecisas el modelo puede
obtener errores de medida (ahora, contrario en el caso de la proxy,
estamos interesados en el efecto parcial de estas variable).
˙yi = β0 + β1x1 + β2x∗
2 + u∗
(9)
Donde x∗
2 = x2 + ω, siendo ω el error de medidad, por lo que:
u∗ = ω + u.
Si corr(ω, xj) = 0 ∀j los estimadores por MCO resultan
insesgado y consistente. No obstante, implica menor eﬁciencia
(σ2
ω+u = σ2
ω + σ2
u∗ > σ2
u).

18
Pruebas de errores de especiﬁcaci´on

19
Pruebas de errores de especificación
Estas, intentan averiguar si se cometieron errores de especificación,
aunque en la práctica, nunca se esta seguro de que el modelo
adoptado para las pruebas emp´ıricas representen la verdad
(Gujarati y Porter, 2009, p.477).
Lo tradicional es basarse en la teor´ıa para establecer un modelo y
posteriormente someterlo a las pruebas emp´ıricas y bondad de
ajuste (R2, F, t de significancia, signos de los coeficientes, DW).

20
Detectar variables irrelevantes
Dado el modelo de regresión múltiple:
Yi = β0 + β1x1i + β2x2i + ... + βkxki = ui (10)
El test de significancia individual tˆβk
=
ˆβk
ee(ˆβk)
.
En el caso de dos variables irrelevantes, se utiliza el test F
tradicional.
Aqu´ı se realizan test de significancia teniendo en mente el modelo
’verdadero’, pero estas pruebas no permiten realizar métodos
ascendentes −ir agregando variables para estudiar su
significancia− o miner´ıa de datos cuyo objetivo es encontrar el
mejor modelo posterior a varias pruebas diagnósticas.

21
El análisis de los residuos −generalmente estandarizados− se
utiliza como diagnóstico visual para identificar formas funcionales
incorrectas u omisión de una variable importante.
La relación sistemática en el gráfico de dispersión o la
correlación respecto alguna variable independiente apuntan a:
plot(ûi, ˆyi) permite identificar la falta de linealidad,
heterocedasticidad y datos at´ıpicos.
plot(ûi, xi) permite identificar si los problemas de no linealidad o
heterocedasticidad en los datos resulta de alguna variable.
Los gráficos de residuso parciales resultan de representar
plot(û∗
i , xji) eliminando el efecto del resto de variables explicativas,
resultado û∗
i de la regresión original, pero omitiendo la variable xj.
Observar plot(ûi, xhi), siendo xhi una variable omitida, permite
verificar si existe alguna relación.

22
Fuente: tomada deBIOST 515, https://courses.washington.edu/b515/l7.pdf

23
La prueba más utilizada para testear autocorrelación serial de
primer orden, corresponde al estad´ıstico Durbin-Watson
(0 ≤ d ≤ 4, dado que d ≈ 2(1 − ˆρ), siendo ˆρ el autoregresivo de
primer orden, y estando ûi ordenada según una de las regresoras
del modelo) (Gujarati y Porter, 2009, p.479):
d =
n
i=1 (ûi − ûi−1)2
n
i=1 û2
i
(11)

24
Test Reset de Ramsey de forma funcional
El test de Ramsey (1969) testea la correcta especificación del
modelo por medio de una prueba F de Fisher, verificando si las
combinaciones no lineales de los valores ajustados ayudan a
explicar la variable de respuesta.
Dado el modelo:
yi = β0 +1 Xi + ui (12)
El test obtiene ˆyi = E [y|X] = βX para estimar la variable
dependiente (yi) en función de formas no lineales de las
independiente [βX)2, βX)2, ... , (βX)k], para verificar si tienen
algún efecto sobre y (Wooldrige, 2009, p.303).

25
Test RESET de Ramsey de forma funcional
Estimando:
y = αx + ν1(βX)2
+ ν2(βX)3
+, . . . , +ν(k−1)(βX)k
+ u (13)
βX = ˆy en el modelo del paso 1.
Siendo H0 : que νi = 0 ∀i ∈ (1, k), por lo que, el modelo original
esta correctamente especificado.
Se testea a partir de un test F entre las ecuaciones 12 y 13. Por
tanto, un F significativo (se rechaza H0) es evidencia de
problemas de especificación.
F =
(R2
nueva−R2
vieja)
(knuevo−kviejo)
(1−R2
nueva)
(n−(knuevo+1))
(14)

26
Test de forma funcional no anidada
La inclusión o no de una variable en logaritmo, es una forma no
anidada que escapa a los test de hipótesis clásicos.
y = β0 + ν1x1 + ν2x2 + u
Vs.
y = β0 + α1 log (x1) + α2 log (x2) + u
Mizon y Richard (1986), proponen plantear un modelo más
general, con ambas versiones y testear la significancia conjunta de
los coeficientes asociados a cada modelo (νi y αi).
y = β0 + ν1x1 + ν2x2 + α1 log (x1) + α2 log (x2) + u (15)

27
Test de forma funcional no anidada
Según Davidson y MacKinnon (1981), si el modelo lineal es el
correcto, los valores ajustados de otros modelos no resultar´ıan
significativos.
ˆy = β0 + ν1x1 + ν2x2 + u
ˆy∗ = β0 + α1 log (x1) + α2 log (x2) + u
Pudiéndose comparar el modelo, por medio del tradicional test t
de significancia sobre θ:
ˆy = β0 + ν1x1 + ν2x2 + θˆy∗
+ u (16)

29
R2
corregido
Anteriormente vimos que R2 = 1 − SRC
STC . Pero este coeficiente
crece con el número de variables, por ende se realiza un ajuste por
grados de libertad perdidos al agregar variables al modelo.
¯R2
= 1 −
SRC
(N−k)
STC
(N−1)
(17)
Ahora, este no necesariamente se incrementa, cuando aumenta el
número de regresores. Tampoco, se puede interpretar como la
variación porcentual.

30
Supongamos tenemos ¯s modelos (M1, M2, M3, ..., Ms) donde k
representa el número de parámetros que tiene el modelo Ms, según
los criterios de información se elige el criterio que minimiza:
CI(k) = ln ˆσ2
k + k
C(N)
N
(18)
Donde ˆσ2
k es la varianza residual del modelo, N es el tamaño de la
muestra y C(N) es el parámetro de penalización.

31
Preferible a la bondad de ajuste, al comparar modelos suele
utilizarse los criterios de información.
El criterio AIC (Akaike information criterion) considera un
termino de penalización C(T) = 2.
AIC(k) = ln ˆσ2
k + k
2
N
(19)
También puede obtenerse por un criterio bayesiano de información
(SBC, Bayesian Information Criterion) que considera un termino
de penalización c(t) = ln(T).
BIC(k) = ln ˆσ2
k + k
ln(N)
N
(20)

33
Observaciones influyentes
Gujarati y Porter (2009, p.496) definen un valor at´ıpico como
aquellos que muestran altos residuos (ûi = yi − ˆyi).
Una observación es influyente si su consideración o no, modifica
de forma sensible los resultados del modelo de regresión.
Fuente: tomada de Gujarati y Porter (2009, p.497)
La decisión de incluir o no una observación influyente puede ser
dif´ıcil, dado que este incrementa la variabilidad de x, por ende
reduce sus errores estándar.

34
Datos faltantes e imputación
Los datos faltantes distribuidos aleatoriamente pueden
incidir sobre el análisis al disminuir el tamaño de la muestra e
inducir en la potencia de las pruebas de contraste de hipótesis por
medio de una menor varianza.
Los datos faltantes no aleatorios ocasionan, una disminución de
la representatividad de la muestra.
Los métodos de imputación consisten en estimar los valores
ausente en función del resto de variables o de alguna seleccionada.
Su aplicación debe evaluarse con cautela (Medina y Galván, 2007).

35
Métodos de imputación
Análisis de casos completos (Listwise). Trabaja únicamente con las
observaciones que disponen de información completa para todas
las variables de la base de datos, asumiendo que la información
eliminada sigue la misma sub muestra de los datos completos.
obs mujer edad escolaridad salario ocupación factorExpa
1 1 40 16 4,500 ? 50
2 0 35 15 ? 1 75
3 1 65 ? 1,200 1 100
4 0 23 12 2,500 2 80
5 0 25 ? ? 3 250
6 1 35 15 1,800 4 140
...
Fuente: tomado de Medina y Galván, 2007, p.22.

36
Análisis de casos disponible. Trabaja únicamente con las
observaciones que disponen de información completa para registros
espec´ıficos de las variables con que se están trabajando. Ej.: la
corr(edu, edad) usar´ıa las observaciones 1, 2, 4, 6.
En muestras probabil´ıstica, la eliminación de registros suele ser
inapropiada si no se hace el reconocimiento expl´ıcito de que las
observaciones que fueron seleccionadas con un procedimiento
aleatorio y probabilidad de selección conocida −ajuste de los
factores de expansión−.

37
Método de media incondicionada que asume un
comportamiento aleatorio (Xi ∼ iid), subestimando la varianza,
modificando la distribución y aumentando la correlación entre las
variables implicadas.
Imputación para media condicionada con datos agrupados a
partir de categor´ıas correlacionadas con las variables de interés.
Hot deck, es un método no paramétrico que propone llenar los
vac´ıos (receptores) con observaciones con caracter´ısticas comunes
(donantes), haciéndose una selección aleatoria del dato para evitar
reducir la varianza. Ej.: el salario2, ser´ıa sustituido con el salario5
dado comparten edad y escolaridad.

38
El método de regresión imputa información de yi en función de
un grupo de covariantes (X). Luego, ˆY se utiliza para sustituir el
valor faltantes.
Cuando el método se aplica por subgrupos, es necesario garantizar
suficientes grados de libertad a lo interno de cada grupo
−representatividad de los grupos−.

39
Dificultades para medir el efecto causal
Omisión de variables relevantes.
Simultaneidad.
Error de medida.
Selección del modelo.

41
Referencias
1 Gujarati y Porter, G. (2009). Econometr´ıa. 4ta. ed.
2 Medina, F. y Galván, M. (2007). Imputación de datos: teor´ıa y práctica.
CEPAL - Serie Estudios estad´ısticos y prospectivos No 54.
3 Taveras, Hamiltón. (2017). Medición de un efecto causal. Universidad
Autónoma de Santo Domingo
4 Wooldridge, J. (2009). Introducción a la Econometr´ıa: un enfoque moderno.
4ta. ed. Michigan State University. Cengage Learning.

Selección de modelo y problemas de datos en econometría

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Selección de modelo y problemas de datos en econometría

Similar a Selección de modelo y problemas de datos en econometría (20)

Más de Nerys Ramírez Mordán

Más de Nerys Ramírez Mordán (9)

Último

Último (20)

Selección de modelo y problemas de datos en econometría