Este documento resume los principales problemas que pueden violar los supuestos del modelo de regresión clásico, como la multicolinealidad, errores de especificación, heteroscedasticidad y autocorrelación. Explica cómo la multicolinealidad ocurre cuando las variables explicativas están correlacionadas y cómo esto puede inflar la varianza de los parámetros estimados. También cubre posibles soluciones como agregar observaciones, restringir parámetros o eliminar variables.
Violación de supuestos del modelo clásico: multicolinealidad
1. CAPITULO 3: Violación de los supuestos del Modelo Clásico Prof.: Juan Carlos Miranda C. Instituto de Estadístico Facultad de Ciencias Económicas y Administrativas Diciembre 2011 CURSO: ESTADÍSTICA EMPRESARIAL II (ESTD-241)
2.
3. Algunos problemas de la Regresión Múltiples Hipótesis del modelo Problema 1- Las variables X, toman valores distintos en la muestra 2- E(Y) = β ` X La distribución normal para los residuales e. 3- V(e) = σ 2 (ctes) 4- Los errores e son independientes entre sí. Multicolinealidad: las variables X, toman valores muy semejante en la muestra Errores de especificación. Es decir, E(Y) ≠ β ` X, falta de normalidad en los residuales. Heterocedasticidad V(e) ≠ σ 2 (distintas) Autocorrelación: Los errores e son dependientes entre sí.
4.
5. Multicolinealidad (0 colinealidad) El término multicolinealidad (o colinealidad) en Econometría se refiere a una situación en la que dos o más variables explicativas están fuertemente interrelacionadas y, por tanto, resulta difícil medir sus efectos individuales sobre la variable endógena. Cabe distinguir dos casos: . Multicolinealidad exacta , cuando . En este caso existen infinitas soluciones para el sistema • Multicolinealidad de grado (aproximada) , en este caso y, por tanto, existe una solución formalmente óptima al problema de mínima suma de cuadrados. Sin embargo, esta solución está mal condicionada , ya que la función objetivo es muy plana en el entorno del óptimo y, por tanto, existen infinitas soluciones casi tan buenas como la óptima. Para presentar este tema, seguiremos el siguiente esquema: • Efectos de la multicolinealidad. • Casos en que suele presentarse un problema de multicolinealidad. • Criterios para decidir cuándo la colinealidad de grado constituye un problema. • Soluciones al problema.
6.
7.
8. Efectos de la colinealidad El efecto fundamental de la colinealidad exacta es que no existe una solución única del sistema de ecuaciones normales. Cuando la colinealidad es de grado: • Las estimaciones individuales de los parámetros están mal identificadas • Se produce una inflación de la varianza de las estimaciones. • Las estimaciones resultan muy sensibles a la muestra. Mala identificación de las estimaciones . Por ejemplo, sea el modelo: en donde: Sustituyendo (2) en (1) se obtiene: y, si la varianza de u t es “pequeña”, el parámetro de x t 2 estará mal identificado, ya que esta variable aporta poca información que no esté ya contenida en x t 1 . En el límite, si la varianza de u t fuera nula, tendríamos un problema de colinealidad exacta.
9. Efectos de la colinealidad Inflación de la varianza de las estimaciones . Como: si entonces las varianzas de los parámetros tenderán a ser mayores que en una situación bien condicionada. Por tanto, los contrastes de hipótesis serán menos precisos y, concretamente, puede ocurrir que se consideren no significativos parámetros que lo serían si la colinealidad fuera menor. Estimaciones sensibles a la muestra . Puesto que la función objetivo (suma de cuadrados de residuos) es muy plana en el entorno del óptimo, pequeños cambios en los valores de y o de X pueden dar lugar a cambios importantes en las estimaciones.
10. Casos en que suele haber problemas de colinealidad Resulta frecuente que surja un problema de colinealidad en los siguientes casos: • En modelos de series temporales , cuando se emplean variables explicativas con tendencia. • En modelos de series temporales , cuando se incluyen como variables explicativas retardos sucesivos de la variable endógena o de alguna de las variables explicativas. Esto provoca colinealidad porque los valores de una variable económica en distintos instantes de tiempo suelen estar correlados entre sí. • Cuando se consideran muchas variables explicativas . Lógicamente, a medida que aumenta el número de variables explicativas, es más fácil que aparezca una relación entre ellas, que de lugar a un problema de colinealidad. • En modelos con variables cualitativas . surge un problema de colinealidad exacta. Por ejemplo, en el modelo:
11. Criterio de diagnóstico Para decidir si la colinealidad de grado constituye un problema debemos tener en cuenta los objetivos de nuestro análisis concreto. Por ejemplo, la colinealidad no nos preocupa demasiado si nuestro objetivo es predecir, pero es un problema muy grave si el análisis se centra en interpretar las estimaciones de los parámetros. Para diagnosticar este problema estudiaremos dos métodos: a) los basados en la correlación entre variables explicativas, y b) los basados en el tamaño de Métodos basados en la correlación entre variables explicativas. Si calculamos los coeficientes de correlación muestral entre cada par de variables, podemos decidir que existe un problema de colinealidad si algún coeficiente de correlación es mayor (en valor absoluto) que una tolerancia. Los problemas de este método son: a) sólo puede detectar correlación entre pares de variables explicativas y b) la tolerancia es arbitraria.
12. Criterio de diagnóstico Métodos basados en el tamaño de Como sabemos: Siendo el i -ésimo autovalor de la matriz. Por tanto, podemos reducir el diagnóstico a comprobar si la matriz tiene algún autovalor próximo a cero. Para evitar el problema de unidades de medida, este análisis suele hacerse utilizando el número de condición de X T X que se puede definirse de varias maneras: Fuerte multicolinealidad Colinealidad baja Autovalores de la matriz X T X
13. Soluciones El problema de colinealidad consiste, esencialmente, en que la muestra no contiene suficiente información para estimar todos los parámetros que se desean. Por ello, resolver el problema requiere añadir nueva información (muestral o extramuestral) o cambiar la especificación. Algunas posibles soluciones en esta línea son: Añadir nuevas observaciones . Aumentar el tamaño muestral puede reducir un problema de colinealidad de grado. Restringir parámetros . Evidentemente, si la Teoría Económica o la experiencia empírica sugieren algunas restricciones sobre los parámetros del modelo más afectados por la colinealidad, imponerlas permitirá reducir el problema. El riesgo que se corre es, obviamente, imponer restricciones que no son ciertas. Suprimir variables . Si se suprimen variables que están correladas con otras, la pérdida de capacidad explicativa será pequeña y la colinealidad se reducirá. Existe, sin embargo, el riesgo de eliminar variables que debieran mantenerse en el modelo ya que, como hemos visto, cuando hay colinealidad las varianzas de los parámetros están infladas y los parámetros pueden ser formalmente no significativos.
29. Errores de Especificación Omisión de variables relevantes - supongamos que el modelo correctamente especificado (MC), es el siguiente: - Especificamos incorrectamente el siguiente (MI), en el que no incorporamos a x t3 MI es el modelo restringido de MC imponiendo la hipótesis nula que es falsa. Esto implica: - El estimador de MCO del MI es insesgado. - El estimador de MCO del MI tiene una varianza inferior al estimador MCO del MC (este estimador es insesgado y eficiente).
30.
31.
32. Otros: No Normalidad 2) Contraste de Normalidad - Es un supuestos fundamental en la inferencia - Se debe contrastar siempre. Para ello: - Histograma de los residuos - Test de Jarque-Bera (J_B) y la asimetría (s). - Tiene en cuenta la curtosis (K) y la asimetría (s).
34. Otros: Selección de Modelos 2) Criterios de selección de modelos - R 2 - R 2 restringido - Medidas del error de previsión - Akaike info criterio (AIC) - Schwarz criterio (SC) Donde es el valor de la función de verosimilitud evaluada en el estimador MCO
41. Contrastes de Heterocedasticidad Contrastes: 1. Contraste F de Goldfeld-Quandt Supone distribución normal en los errores. Relación monótona creciente entre la varianza y uno de los regesores. Si la muestra no está dividida: I. Ordenar todas las observaciones por valores crecientes de la variable exógena “sospechosa”. II. Eliminar p observaciones centrales. Recomendado p=n/3
74. IV Autocorrelación En este tema se cuestionar, para los modelos que trabajan con datos de series de tiempo, una de las hipótesis que definen el Modelo de Regresión Lineal Normal Clásico. En concreto se analiza la hipótesis que establece que el vector de perturbaciones sigue una distribución según un vector normal esférico.
75. Autocorrelación La hipótesis de covarianzas nulas es muy interesante desde el punto de vista de las propiedades deseables para los estimadores mínimo cuadráticos ordinarios, pero con frecuencia esta hipótesis es difícil de aceptar en la práctica, en especial cuando las observaciones se suceden en el tiempo. En los casos de incumplimiento de la hipótesis de no autocorrelación es necesario formular el modelo de regresión de un modo más general prescindiendo de esta hipótesis; este modelo recibe el nombre de modelo de regresión lineal generalizado y su estimación se realizará aplicando métodos distintos al de mínimos cuadrados ordinarios.
76. Autocorrelación Matemáticamente este supuesto de autocorrelación se expresa a partir de la hipótesis que hace referencia a la covarianza de la perturbación que, como se ha señalado es no nula. se está considerando que el término de perturbación de una observación está relacionado con el término de perturbación de otras observaciones y por lo tanto la covarianza entre ellos es distinta de cero y se define como,
77. Detección de la Autocorrelación Para detectar la presencia de autocorrelación se pueden utilizar métodos gráficos y contrastes de hipótesis. A través de los contrastes gráficos se intuirá si existe autocorrelación cuando existan comportamientos sistemáticos para los residuos. Los contrastes de hipótesis, por su parte, permiten, a través de una regla de decisión, considerar si con los datos de la muestra y con un nivel de significación ( ) concreto se debe o no rechazar la hipótesis nula. Todos los contrastes numéricos de autocorrelación se plantean con idénticas hipótesis; así, podemos señalar que la forma general del contraste es:
78. Autocorrelación H 0 : No existe autocorrelación H 1 : Existe autocorrelación Esto es, en la hipótesis nula se considera que el término de perturbación correspondiente a una observación es independiente del correspondiente a cualquier otra observación. En la hipótesis alternativa se señala que el término de error de un modelo econométrico está autocorrelacionado a través del tiempo.
79. Contraste d de Durbin-Watson (1951) El contraste desarrollado por Durbin y Watson es la prueba más frecuentemente empleada para detectar la presencia de autocorrelación en los modelos de regresión. Este contraste permite verificar la hipótesis de no autocorrelación frente a la alternativa de autocorrelación de primer orden bajo un esquema autorregresivo Formulación de las hipótesis: No existe autocorrelación AR(1) Existe autocorrelación AR(1)
80. Contraste d de Durbin-Watson La forma concreta de la hipótesis alternativa establece unas cotas para el coeficiente de correlación; éstas son necesarias para garantizar algunas características del modelo, en concreto que la varianza es finita y se trata por tanto de un proceso no explosivo. Estadístico de prueba: A partir de este estadístico se puede interpretar que, · Si hay autocorrelación positiva las diferencias entre residuos que distan un periodo es muy pequeña por lo que el valor del estadístico d será próximo a cero. · Si hay autocorrelación negativa los residuos serán prácticamente iguales pero de signo contrario, su diferencia será por tanto grande y el estadístico será más próximo al límite superior que, como se verá, se establece en cuatro. · Si no hay autocorrelación, la relación entre los residuos será intermedia y por tanto, el valor del estadístico experimental también alcanzará un valor intermedio.
81. Contraste d de Durbin-Watson Para establecer los límites de variación del estadístico d la fórmula anterior se puede desarrollar obteniéndose una expresión en función del coeficiente de autocorrelación muestral de primer orden para los residuos dado que, cuando el tamaño de la muestra es grande, se puede considerar que
82. Contraste d de Durbin-Watson Entonces el estadístico d se puede expresar como, y dado que el coeficiente de correlación empírico de primer orden se calcula Entonces el estadístico experimental se puede expresar
83. Contraste d de Durbin-Watson Teniendo en cuenta los límites de variación del coeficiente de correlación empírico, - 1≤ ≥ 1, se puede deducir el rango de variación del estadístico de Durbin-Watson y el signo de la autocorrelación. se considera que existe autocorrelación negativa indica ausencia de autocorrelación se puede admitir que existe autocorrelación positiva Gráficamente se pueden señalar las regiones del contraste en el siguiente segmento:
84. Contraste d de Durbin-Watson El tratamiento empírico de este contraste requiere de las siguientes fases: 1) Estimación por mínimos cuadrados ordinarios (MCO) del modelo de regresión 2) Cálculo de los residuos MCO 3) Obtención del estadístico d (experimental) de Durbin-Watson 4) Búsqueda de los niveles críticos del contraste y, 5) Aplicación de la regla de decisión
85. Contraste de Breusch-Godfrey (1978) el contraste de Breusch-Godfrey se especifica con la finalidad de analizar si existe o no autocorrelación de orden superior a uno; para ello, en la hipótesis alternativa se incluyen especificaciones más generales que la del modelo autorregresivo de primer orden y que se pueden generalizar a cualquier especificación ARMA(p,q).