Este documento presenta varios temas sobre el modelo de regresión lineal. Introduce conceptos como variables cualitativas y cómo se pueden usar para interpretar los coeficientes. Explica cómo la colinealidad entre variables explicativas puede causar problemas en la estimación de los parámetros. También cubre cómo las transformaciones lineales de las variables no cambian la bondad de ajuste del modelo pero sí la interpretación de los coeficientes.
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Modelo de regresión: variables cualitativas, colinealidad y errores de especificación
1. Ver. 28/09/2006, Slide # 1
Noviembre 2009
Econometría I
Otras cuestiones sobre el Modelo de Regresión
Miguel Jerez y Sonia Sotoca
Universidad Complutense de Madrid
3. Ver. 28/09/2006, Slide # 3
Variables cualitativas (I): Ideas básicas
• A menudo los modelos de regresión incluyen variables explicativas binarias
(0-1) que reflejan una característica presente (=1) o ausente (=0) en parte de
la muestra
• A estas variables también se las denomina “variables dummy”, “variables
ficticias” o “variables cualitativas”
• Los coeficientes de las variables cualitativas pueden interpretarse como
medias, o diferencias de medias
• A partir de un mismo modelo básico de regresión con variables cualitativas
pueden obtenerse varias formas computables
• Todas las formas computables que se derivan de un mismo modelo básico
son equivalentes, lo único que cambia entre una y otra es la interpretación de
los parámetros
• Las variables cualitativas de un modelo de regresión pueden cruzarse
multiplicativamente con otras variables del modelo
• Combinando: (a) estos resultados sobre variables cualitativas y (b) el
contraste de hipótesis a partir de modelos libres y restringidos, resulta fácil
construir un test para la hipótesis de cambio estructural
4. Ver. 28/09/2006, Slide # 4
Variables cualitativas (II): Interpretación
En un modelo de regresión, los coeficientes de las variables cualitativas
pueden interpretarse como medias, o diferencias de medias
Supongamos una regresión del peso de los niños al nacer frente a las variables
SMOKE (=1: la madre fuma, =0: la madre no fuma) y PARITY (=1: la madre es
primípara, =0: la madre no es primípara)
El término
constante es el
peso esperado si la
madre no es
primípara ni fuma
Los otros
coeficientes son
diferenciales de
peso esperado si la
madre fuma o si es
primípara
5. Ver. 28/09/2006, Slide # 5
Variables cualitativas (III): Formas computables
Un mismo modelo básico de regresión con variables cualitativas da lugar a
varias formas computables
Todas las formas computables que se derivan de un mismo modelo básico son
equivalentes, lo único que cambia entre una y otra es la interpretación de los
parámetros
Los cuadros muestran dos formas computables derivadas del mismo modelo
básico. Los valores de la verosimilitud, suma de cuadrados y los criterios de
ajuste son los mismos. Asimismo, los parámetros de cualquiera de estos
modelos pueden calcularse a partir de los del otro
6. Ver. 28/09/2006, Slide # 6
Variables cualitativas (IV): Efectos cruzados
Las variables cualitativas de un modelo de regresión pueden cruzarse
multiplicativamente con otras variables del modelo para valorar si la
presencia conjunta de varias características personales refuerza o no el efecto
de los factores cualitativos
La nueva variable permite que
el peso esperado del hijo de una
madre primípara fumadora sea
distinto del de:
• una madre primípara no
fumadora, o
• de una madre fumadora no
primípara, o
• de una madre no primípara y
no fumadora
7. Ver. 28/09/2006, Slide # 7
Variables cualitativas (V): Contrastes de cambio estructural-1
Combinando los resultados previos sobre variables cualitativas y (b) el
contraste de hipótesis a partir de modelos libres y restringidos, resulta
fácil construir un test para la hipótesis de cambio estructural
• Consideremos el “modelo restringido”:
• ... y el “modelo libre”:
• A partir de la estimación MCO de ambos modelos, el estadístico:
permite contrastar la hipótesis nula de ausencia de cambio estructural. Este
contraste se conoce en la literatura econométrica como “Test de Chow”
= +y X b e
é ù é ùé ù é ù
ê ú ê úê ú ê ú= +
ê ú ê úê ú ê ú
ë û ë ûë û ë û
y X
y X
b e
b e
1 1 1 1
2 2 2 2
0
0
,
ˆ ˆ ˆ ˆ ˆ ˆ
ˆ ˆ
T T T
k n kT
n k
F F
k H
-
- --
=
0
:
e e e e e e
e e
1 1 2 2
8. Ver. 28/09/2006, Slide # 8
Variables cualitativas (VI): Contrastes de cambio estructural-2
• El análisis sobre el impacto de una madre fumadora sobre el peso de un niño al nacer puede
plantearse como un problema de cambio estructural
• El modelo en el listado de la izquierda pone en relación el peso con el período de gestación, si la
madre es primípara o no, la altura y el peso de la madre. Implícitamente se impone la restricción
de que los hijos de madres fumadoras pesan lo mismo que los de madres no fumadoras
• El modelo del listado de la derecha permite que todos los parámetros del modelo anterior sean
distintos para las madres fumadores y no fumadoras
• El estadístico de cambio estructural sería:((1174-5)/5)*(250.6734-232.3983)/250.6734 = 17.0450
• Por lo que la nula se rechaza al 5% de significación (valor crítico=2.124) y al 1% (valor
crítico=3.017). Alternativamente, el p-valor del test anterior es 0
10. Ver. 28/09/2006, Slide # 10
Colinealidad (I): Introducción
El término colinealidad (o multicolinealidad) en Econometría se refiere a una situación en
la que dos o más variables explicativas se parecen mucho y, por tanto, resulta difícil
medir sus efectos individuales sobre la variable endógena.
A veces se utilizan los términos “mala identificación” o “mal condicionamiento” como
sinónimos de colinealidad.
Cabe distinguir dos casos:
• Colinealidad exacta, cuando . En este caso existen infinitas soluciones del
sistema de ecuaciones normales:
• Colinealidad de grado, en este caso y, por tanto, existe una solución
formalmente óptima al problema de mínima suma de cuadrados. Sin embargo, esta
solución está mal condicionada, ya que la función objetivo es muy plana en el entorno
del óptimo y, por tanto, existen infinitas soluciones casi tan buenas como la óptima.
Dividiremos la discusión de este tema en los siguientes puntos:
• Efectos de la colinealidad.
• Casos en que suele presentarse este problema
• Criterios para decidir cuándo la colinealidad de grado constituye un problema.
• Soluciones al problema.
= 0T
X X
ˆ =T T
ΜCΟX X X yb
0;T
X X
11. Ver. 28/09/2006, Slide # 11
El efecto fundamental de la colinealidad exacta es que no existe una solución única del
sistema de ecuaciones normales.
Cuando la colinealidad es de grado:
• Las estimaciones individuales de los parámetros están mal identificadas
• Se produce una inflación de la varianza de las estimaciones.
• Las estimaciones resultan muy sensibles a la muestra.
Mala identificación de las estimaciones. Por ejemplo, sea el modelo:
en donde:
Sustituyendo (2) en (1) se obtiene:
y, si la varianza de ut es “pequeña”, el parámetro de xt2 estará mal identificado, ya que
esta variable aporta poca información que no esté ya contenida en xt1. En el límite, si la
varianza de ut fuera nula, tendríamos un problema de colinealidad exacta.
Colinealidad (II): Efectos-1
t t t ty x xb b b e= + + +0 1 1 2 2
t t tx x ua= +2 1 1
(1)
(2)
( ) ( )t t t t t t t ty x x u x ub b b a e b b b a b e= + + + + = + + + +0 1 1 2 1 1 0 1 2 1 1 2
12. Ver. 28/09/2006, Slide # 12
Inflación de la varianza de las estimaciones. Como:
si entonces las varianzas de los parámetros tenderán a ser mayores que en
una situación bien condicionada. Por tanto, los contrastes de hipótesis serán menos
precisos y, concretamente, puede ocurrir que se consideren no significativos parámetros
que lo serían si la colinealidad fuera menor.
Estimaciones sensibles a la muestra.
Puesto que la función objetivo (suma de cuadrados de residuos) es muy plana en el
entorno del óptimo, pequeños cambios en los valores de y o de X pueden dar lugar a
cambios importantes en las estimaciones.
Colinealidad (III): Efectos-2
( )ˆ( ) ( )
T
cov adje es s-
= =2 1 2 1
b T T
ΜCΟ T
X X X X
X X
0;T
X X
13. Ver. 28/09/2006, Slide # 13
Resulta frecuente que surja un problema de colinealidad en los siguientes casos:
• En modelos de series temporales, cuando se emplean variables explicativas
con tendencia.
• En modelos de series temporales, cuando se incluyen como variables
explicativas retardos sucesivos de la variable endógena o de alguna de las
variables explicativas. Esto provoca colinealidad porque los valores de una
variable económica en distintos instantes de tiempo suelen estar correlados entre sí.
• Cuando se consideran muchas variables explicativas. Lógicamente, a medida
que aumenta el número de variables explicativas, es más fácil que aparezca una
relación entre ellas, que de lugar a un problema de colinealidad.
• En modelos con variables cualitativas. Por ejemplo, en el modelo:
surge un problema de colinealidad exacta.
Colinealidad (IV): ¿Cuándo suele presentarse este problema?
si , , ,
; ;
en caso contrario
t t t t t t t
t n
y x x x x xb b b e
ì =ïï= + + + = = -í
ïïî
1
0 1 1 2 2 1 2 1
1 1 2
1
0
K
14. Ver. 28/09/2006, Slide # 14
Para decidir si la colinealidad de grado constituye un problema debemos tener en cuenta
los objetivos de nuestro análisis concreto. Por ejemplo, la colinealidad no nos preocupa
demasiado si nuestro objetivo es predecir, pero es un problema muy grave si el análisis se
centra en interpretar las estimaciones de los parámetros.
Para diagnosticar este problema estudiaremos dos métodos: a) los basados en la
correlación entre variables explicativas, y b) los basados en el tamaño de
Métodos basados en la correlación entre variables explicativas. Si calculamos los
coeficientes de correlación muestral entre cada par de variables, podemos decidir que
existe un problema de colinealidad si algún coeficiente de correlación es mayor (en valor
absoluto) que una tolerancia. Los problemas de este método son: a) sólo puede detectar
correlación entre pares de variables explicativas y b) la tolerancia es arbitraria.
Métodos basados en el tamaño de . Como sabemos:
siendo el i-ésimo autovalor de la matriz. Por tanto, podemos reducir el diagnóstico a
comprobar si la matriz tiene algún autovalor próximo a cero. Para evitar el problema de
unidades de medida, este análisis suele hacerse utilizando el número de condición de XTX
que se puede definirse de varias maneras:
Colinealidad (V): Criterios de diagnóstico
T
X X
T
X X
k
i
i
l
=
= Õ1
T
X X
il
max maxmin min
min max min max
; ; ;c c c c
c c
l ll l
l l l l
= = = = = =1 2 3 4
1 3
1 1
15. Ver. 28/09/2006, Slide # 15
Colinealidad (VI): Soluciones
• El problema de colinealidad se reduce a que la muestra no contiene suficiente
información para estimar todos los parámetros. Por ello, resolver el problema
requiere añadir nueva información, sea muestral o extramuestral, o cambiar la
especificación. Algunas posibles soluciones en esta línea son:
• Añadir nuevas observaciones. Aumentar el tamaño muestral puede reducir
un problema de colinealidad.
• Restringir parámetros. Evidentemente, si la Teoría Económica o la
experiencia sugieren algunas restricciones sobre los parámetros más
afectados por la colinealidad, imponerlas permitirá reducir el problema.
Obviamente, se corre el riesgo de imponer restricciones que no son ciertas.
• Suprimir variables. Si se suprimen variables que están correladas con otras,
la pérdida de capacidad explicativa será pequeña y la colinealidad se
reducirá.
• Transformar las variables del modelo. Si la colinealidad se debe a que se
están relacionando series temporales con tendencia, puede ser conveniente
transformar las variables para eliminar esta tendencia.
17. Ver. 28/09/2006, Slide # 17
Transformaciones lineales (I): Cambio de escala
Sea el modelo:
(1)
y el cambio de escala definido por:
(2)
Asimismo, sea el modelo definido en términos de las variables transformadas:
(3)
La cuestión que se plantea es: ¿qué relación existe entre los modelos (1) y (3)?
Sustituyendo (2) en (3) se obtiene: o, equivalentemente:
(4)
Identificando términos entre (4) y (1), y por las propiedades de la varianza, resulta:
(5)
ˆ ˆ ˆt t ty x0 1b b= + + e
;* *
t y t t x ty y x xl l= =
ˆ ˆ ˆ* * *
t t ty x* *
0 1b b= + + e
ˆ ˆ ˆ*
y t x t ty x* *
0 1l b b l= + + e
ˆ ˆ ˆ*x
t t t
y y y
y x* *
0 1
l
b b
l l l
= + +
1 1
e
* *
ˆ ˆ ˆ; ; ˆ ˆ ; ;ˆ ˆ*x
t t
y y y y
R R* *
0 0 1 1 e
l
b b b b s s
l l l l
= = = = =2 2 2 2
2
1 1 1
e e
18. Ver. 28/09/2006, Slide # 18
Transformaciones lineales (II): Cambio de origen
Análogamente, sea el modelo (1) y el cambio de origen definido por:
(6)
Asimismo, sea el modelo definido en términos de las variables transformadas:
(7)
Nuevamente, se trata de determinar qué relación existe entre los modelos (1) y (7).
Sustituyendo las relaciones (6) en (7) se obtiene:
(8)
o, equivalentemente:
(9)
e identificando términos entre esta ecuación y (1), se obtiene:
(10)
;* *
t t y t t xy y x xg g= + = +
ˆ ˆ ˆ* * *
t t ty x* *
0 1b b= + + e
( )ˆ ˆ ˆ*
t y t x ty x* *
0 1g b b g+ = + + + e
ˆ ˆ ˆ ˆ*
t x y t ty x* * *
0 1 1b b g g b= + - + + e
* *
ˆ ˆ ˆ ˆ ˆ; ; ˆ ˆ ; ;ˆ ˆ*
x y t t R R* * *
0 0 1 1 1 eb b b g g b b s s= + - = = = =2 2 2 2
e e
19. Ver. 28/09/2006, Slide # 19
Transformaciones lineales (III): El MLG en desviaciones con
respecto a la media
Un cambio de gran interés consiste en expresar las variables en desviaciones con
respecto a su media muestral, esto es:
(11)
En este caso, el término constante del modelo transformado es igual a cero, ya que, si
sumamos la ecuación (7) desde t=1 hasta t=n, y dividimos el resultado por n, resulta:
(12)
de donde, simplificando la expresión y teniendo en cuenta que la suma de residuos en un
modelo con término constante es igual a cero, se obtiene:
(13)
Por tanto, como la media muestral de las variables en desviaciones con respecto a la
media es cero, el término constante del modelo transformado tiene que ser nulo.
En modelos con término constante, trabajar con los datos en desviaciones con respecto a
la media puede tener interés porque las componentes de X'X pueden interpretarse como
momentos muestrales de las correspondientes variables y c) los coeficientes de regresión
pueden relacionarse con los coeficientes de correlación muestral entre las variables
;y xy xg g= - = -
ˆ ˆ ˆ
n n n
* * *
t t t
t=1 t=1 t=1
y n x
n n n n
* *
0 1b b= + +å å å
1 1 1 1
e
ˆ ˆ* *
y x* *
0 1b b= +
21. Ver. 28/09/2006, Slide # 21
Errores de especificación (I): Omitir variables relevantes
Supongamos que la especificación correcta es:
(1)
y nosotros especificamos erróneamente:
(2)
la cuestión general que se plantea es: ¿qué relaciones guarda el estimador MCO de
con el de ? Por definición:
(3)
cuya esperanza incondicional es: Por tanto,
cuando se omiten variables relevantes se incurre en un sesgo proporcional a la
correlación existente entre los regresores especificados y los omitidos. Si los dos
grupos de regresores son ortogonales entre sí, esto es, si , entonces la
estimación MCO de (2) proporciona estimaciones insesgadas de .
El estimador (3) es sesgado pero más eficiente que el del modelo correctamente
especificado, por lo que, en algún caso, la ganancia en eficiencia podría compensar el
sesgo.
[ ]
é ù
ê ú= +
ê ú
ë û
y X X 1
1 2
2
b
e
b
= +y X1a h
a
b
( ) [ ]
´
ˆ
- ì üé ùï ïï ïê ú= +í ýê úï ïï ïë ûî þ
1T T
X X X X X 1
1 1 1 1 2
2
b
a e
b
( ) ( )
´
ˆE
-
= +
1T T
X X X X1 1 1 1 2 2a b b
= 0T
X X1 2
1b
22. Ver. 28/09/2006, Slide # 22
Errores de especificación (II): Incluir variables irrelevantes
Supongamos que la especificación correcta es:
… y nosotros utilizamos:
Aplicando el lema de inversión de matrices particionadas, puede demostrarse que:
´
por lo que incluir variables irrelevantes es un problema fácil:
• … de detectar, mediante contrastes de significación, y
• … fácil de resolver, ya que sólo requiere excluir la variable irrelevante.
• Si la muestra es corta, merece la pena resolverlo ya que mantener las variables
irrelevantes supone perder eficiencia en la estimación
[ ]
a
a
é ù
ê ú= +
ê ú
ë û
y X Z 1
2
h
( ) ( ) [ ] ˆ; ; cov( ) cov( )ˆ ˆ ˆE E tr tr é ù= = ³ ê úë û
01 1 2a b a a b
= +y Xb e
23. Ver. 28/09/2006, Slide # 23
Miguel Jerez (mjerez@ccee.ucm.es)
Sonia Sotoca (sotoca@ccee.ucm.es)
Departamento de Fundamentos del Análisis Económico II
(Economía Cuantitativa)
Facultad de Ciencias Económicas, UCM
Más materiales en:
http://www.ucm.es/info/ecocuan/mjm/ectr1mj
http://econometriamj.blogspot.com/