Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
Diapositivas de metodos econometricos
1. UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO
FACULTAD DE ECONOMÍA
MATERIAL AUDIOVISUAL
DIAPOSITIVAS
“REGRESIÓN LINEAL MÚTIPLE”
UNIDAD DE APRENDIZAJE: MÉTODOS ECONOMÉTRICOS
SEGUNDO SEMESTRE DE LA MAESTRÍA EN ECONOMÍA APLICADA
ELABORADO POR: MIGUEL ÁNGEL DÍAZ CARREÑO
OCTUBRE 2010
Powerpoint Templates
4. ÍNDICE
Objetivo
Introducción
El modelo de RLM
Suposiciones del modelo de RLM
Propiedades de los estimadores
El Estimador de σ2 y de la matriz de Var- Con
Intervalo de confianza para los coeficientes de regresión
Pruebas de Hipótesis sobre β
Predicción de Inferencias sobre µ|X1,X2,…,Xk
Bibliografía
Powerpoint Templates
5. Objetivo de la unidad 2
El alumno comprenderá los supuestos del modelo clásico de regresión lineal y
aplicará el método estadístico de mínimos cuadrados ordinarios para la
estimación de los parámetros de un modelo de regresión lineal simple y múltiple.
Además, realizará el correspondiente análisis de varianza (ANOVA) y explicará el
significado y utilidad de dichos estimadores.
Powerpoint Templates
6. Introducción
Regresión Lineal Múltiple (RLM) es una extensión del modelo de
Regresión Líneal Simple (el cual incluye una sola variable
independiente)
El modelo de RLM es más difícil de manipular debido a lo siguiente:
Sera mas difícil determinar cual es le mejor modelo ya que se tendrá
1
bastantes candidatos a elegir.
Sera más difícil de visualizar con luces de modelo ajustado
2 (especialmente cuando hay más de 2 variables independientes) ya que
no es posible graficar directamente los datos o el modelo ajustado (se
tienen más de 2 dimensiones).
3 Muchas veces es bastante difícil interpretar el mejor modelo ajustado
en términos del mundo real.
4 Para llevar a cabo los cálculos se requiere tener acceso a un computador
de tamaño adecuado y además que se disponga de paquetes estadísticos
confiables. Powerpoint Templates
7. El Modelo de RLM
En RLS se presento el siguiente modelo para el caso de que se
considere una sola variable dependiente:
Si tenemos en consideración mas de una variable independiente
(digamos k) una extensión lógica del modelo es:
Donde los β0, β1,…, βk son los coeficientes de regresión que
necesitan ser estimados y las X1, X2,…,XK son las variables
independientes que pueden ser todas distintas (variables básicas)
o bien algunas de ellas pueden ser función de algunas básicas.
Pro ejemplo podemos tener 4 variables X1, X2, X3, X4 donde X3
= X22 y X4 = X1 X2.
Powerpoint Templates
8. El modelo RLS tiene la siguiente estructura matricial:
Por lo tanto si extendemos la estructura del modelo de RLS A EL RML,
tendremos
Powerpoint Templates
9. El modelo de RLM tiene la forma condensada que ya presentemos para el
modelo de RLS, esto es:
Donde y es un vector de observaciones de orden n, X una matriz de
variables conocidas de orden [n x (k+1)], β es el vector de coeficiente de
regresión dimensional k+1 y ε un vector aleatorio de dimensiones n el cual
no es observable.
Powerpoint Templates
10. Ejemplo 4.
Supongamos que tenemos en consideración una variable dependiente (Y)
y dos variables independientes X1 y X2, las cuales toman los siguientes
valores:
TABLA NO. 2
Observaciones
X1 X2 Y
1 3 12 1.2
2 3 36 1.5
3 2 10 0.9
4 4 14 1.5
5 3 16 1.0
6 5 22 4.0
7 2 14 0.8
8 2 10 0.8
9 2 24 1.0
10 5 14 2.0
11 5 18 2.0
12 5 21 3.0
13 5 28 3.2
14 0 27 0.5
15 5 14 1.9
Powerpoint Templates
12. En este ejemplo el modelo en forma matricial es el siguiente:
Powerpoint Templates
13. Suposiciones del Modelo de RLM
A continuación se anotan las suposiciones sobre las cuales se basará el
modelo de RLM.
Suposición 1. Para cada combinación específica de valores de las
variables X1, X2,…,XK (por ejemplo X13=2 y X23=10), la variable
dependiente Y es una variable aleatoria univariada concierto distribución
probabilística.
Suposición 2. Las observaciones Y ( a los errores ε) son estadísticamente
independientes uno de otro.
Powerpoint Templates
14. Suposición 3. El valor esperado de Y por cada combinación especifica
de X1, X2,…,XK es una función líneal de X1, X2,…,XK, esto es:
O bien
Donde ε es el error aleatorio que refleja la diferencia entre una
observación individual Y y su verdadero valor esperado .
Powerpoint Templates
15. Cometarios sobre la suposición (3)
a)La superficie descrita por recibe el nombre de
ecuación de regresión (superficie de respuesta o superficie de
regresión).
b)Si algunas variables independientes son función de otras
variables básicas (por ejemplo X3=X22, X6=X1 X2 X4), la
expresión es realmente no lineal en las
variables básicas.
Powerpoint Templates
16. Las técnicas de RLM que describiremos se aplican a modelos que son
lineales o inherentemente lineales en los coeficientes de regresión,
independientemente de cómo se definan las variables. Así por ejemplo
es inherentemente lineal pues puede transformarse en un
modelo lineal si aplicamos la función logaritmo
y tendremos el modelo equivalente donde .
En cambio el modelo no es líneal ni inherentemente
líneal de tal forma que para manipularlo hay que usar técnicas de estas
notas.
Powerpoint Templates
17. Suposición 4. La varianza de Y es la misma para cualquier
combinación fija de X1,X2,…,XK , esto es,
(Homocedasticidad). O bien Var (ε)=σ2.
Suposición 5. Para cualquier combinación fija de X1, X2,…,XK, la
variable aleatoria univariada se distribuye normalmente. En otras
palabras
O bien
O bien en forma comprimida
Powerpoint Templates
18. Donde (X X) es de dimensión (k+1) x (k+1), β de dimensión (k+1) y
X y de (k+1).
Claramente la forma de la matriz (X X) y de los vectores β y X y son
extensiones directos del caso de RLS.
La solución de EN es:
Donde:
Powerpoint Templates
19. El modelo de regresión estimado (ecuación de regresión estimado) es:
O bien
La suma de cuadrados del error en este caso es
Powerpoint Templates
20. Continuación del ejemplo 4.
Las ecuaciones normales que corresponden a el ejemplo
presentado se construyen usando los cálculos previos que se
muestran debajo de la Tabla No. 2.
La inversa de la matriz X X en este caso es:
Powerpoint Templates
21. Por lo tanto el vector de estimuladores es :
La ecuación de regresión estimada es entonces
En forma matricial la ecuación de regresión estimada es
Powerpoint Templates
22. Por lo tanto el valor estimado de Y para una combinación fija de las
variables independiente, por ejemplo (1, 3, 36), es:
La suma de cuadrados del error para este caso es:
Powerpoint Templates
23. Propiedades de los Estimadores
A continuación se listan algunas de las propiedades de los estimadores
de MC que nos serán de gran utilidad en desarrollo posteriores.
Propiedad 1. Insesgamiento
Propiedad 2.
Powerpoint Templates
24. Propiedad 3.
Si
Donde Cii es el i-ésimo elemento de la diagonal de la matriz
C= (X X)-1 σ2.
Powerpoint Templates
25. Propiedad 4. La correlación entre Y y
De que para cualquier otra * se tiene que
En este ejemplo se tiene que
Powerpoint Templates
26. Por lo tanto
El Estimador de σ2 y de la matriz de Var- Cov
Un estimador de σ2 es insesgado si y solo si el modelo de RLM
propuesto es correcto esta dado por:
Powerpoint Templates
27. Por lo tanto el estimador de Var esta dado por
Para el ejemplo en cuestión mostraremos como se calcula el
estimador de σ2 de diferentes formas
Powerpoint Templates
28. Los estimadores de las varianzas y covarianzas de los serán:
Powerpoint Templates
29. Intervalo de Confianza para los Coeficientes de
Regresión
Bajo la suposición de que Y tiene una distribución normal,
presentaremos IC para los siguientes casos:
(a) IC para βi
(b) IC para combinaciones lineales de las β s de la forma .
(c) región de confianza para .
(a) IC para cada uno de los coeficientes de regresión.
Los IC para β0, β1, β2, … , βk se pueden construir de la misma forma
como generamos IC para los coeficientes de regresión en el
modelo de RLS, de tal forma que un IC de tamaño (1-α) para βi
esta dado por:
Powerpoint Templates
30. ( b) IC para una combinación lineal de los β s de la forma .
Para construir un IC para donde es un vector conocido lo
primero tenemos que calcular es Var ( ), la cual esta dada por :
Dado lo anterior el IC para esta dado por
Powerpoint Templates
31. (c ) Región de confianza para β.
Una región de confianza de tamaño (1-α) para todos los coeficientes
de regresión esta dado por la ecuación.
En general esta región de confianza es útil cuando se tiene pocos
coeficientes de regresión (2, 3 ó 4). Para el caso de que se construya
una región de confianza pata β0 y β1 en el modelo de RLS esta lucirá
como se muestra en la siguiente figura
β1
Región de confianza para β0 y β1
β1
en el modelo de RLS.
β0 β
Powerpoint Templates
0
32. Continua ejemplo 4.
(a) Los IC para β0, β1 y β2 para este ejemplo donde α= 0.05 son
Por lo tanto tendremos que los IC de tamaño 0.95 son
Powerpoint Templates
33. ( b) Supongamos que deseamos calcular un IC para β1 - β2.
En este caso ya que
El estimador de es
Powerpoint Templates
34. El estimador de para este caso será
Por lo tanto un IC de tamaño 0.95 para β1 - β2 será
Powerpoint Templates
35. Pruebas de Hipótesis sobre β
Una vez que el investigador ha estimado los coeficientes de regresión y
calculado sus varianzas, generalmente esta interesado en probar la
significancia del modelo o bien llevar a cabo apartado presentaremos la
forma de probar algunas de las hipótesis más comunes.
Antes de presentar los diferentes tipos de hipótesis a probar
introduciremos la siguiente notación.
Notación:
SCTotal no corregido =STC (no corregido)= y´y
Powerpoint Templates
36. Caso 1: Deseamos probar
En este caso la hipótesis nula significa:
H0: Todas las k variables independientes consideradas juntas no
explican una cantidad significativa de la variación de Y.
Estas hipótesis pueden escribirse en forma vectorial de la siguiente
manera:
Powerpoint Templates
37. La prueba se lleva a cabo construyendo la siguiente tabla del
ANOVA
F.V. g.l. S.C. C.M. FC Ft
R(β1, β2, K
…,βk| β0)
Error n-(k+1)
Total n-1
(corregido)
Powerpoint Templates
38. La regla de decisión es la siguiente:
Caso 2.
El caso mas general de prueba de hipótesis sobre β que podemos
plantear es aquel donde H0 es de la forma
H0: L β =Y
HA: L β ≠Y
Donde L es una matriz de q x (k+1) de constantes conocidas y de
rango q y Y es un vector de constantes conocidas de orden q.
A continuación presentaremos varios ejemplos de este tipo de hipótesis
para un caso de modelo de RLM. Templates
Powerpoint
39. Considerando el modelo Y=β0+ β1X1+ β2X2+ β3X3+ε.
(i) H0: 2 β1-β2- β3=0
HA: 2 β1- β2- β3≠0
En este caso L =(0 2 -1 -1); q=1 ; Y=0 ya que
(ii)
En este caso,
Powerpoint Templates
41. (iv) H0: β2=0
HA: β2≠0
Para este tipo de hipótesis en la cual se esta probando la significancia
de un solo parámetro tenemos que
L =(0 0 1 0) ; q=1 y Y=0
(v) H0: β2=0
HA: β2≠0
Para este tipo de hipótesis en la cual se esta probando la significancia
de un solo parámetro tenemos que
L =(0 0 1 0) ; q=1 y Y=0
Powerpoint Templates
42. La correspondencia L es:
Para probar la hipótesis H0: L β = Y contra HA: L β ≠ Y , la
estadística de prueba es
Powerpoint Templates
43. La
La regla de decisión es: Rechazo H0 con un nivel de significancia α si
F c ≥ Ft.
Casos particulares
(a) Para el caso
(b) Para el caso H0: βi=0 , HA: βi≠0
Powerpoint Templates
44. Continuación ejemplo 4.
Caso 1: En el modelo propuesto
deseamos probar
La tabla de ANOVA que corresponde a este ejemplo es
F.V. g.l. S.C. C.M. FC F212,0.05
Regresión 2 10.9592 5.4796 18.7979 3.89 0.0004
(X1,X2)
Error 15-3=12 3.4982 0.2915
Total 15-1=14 14.1574
(Corregido)
Powerpoint Templates
46. Conclusión:
Como FC= 18.7979 >Ft= 3.89. Concluimos que los datos dele estudio
muestran evidencia significativa (5%) de que el modelo de RLM que
incluye a las variables X1 y X2 explica una cantidad significativa de la
variación de Y.
Powerpoint Templates
47. Si llevamos a cabo la prueba de falta de ajuste de este modelo tenemos:
X1 X2 Y n1 gli (ni-1)S2i
2 10 0.9 , 0.8 2 1 0.005
5 14 2.0 , 1.9 2 1 0.005
TOTAL 2 0.01
Powerpoint Templates
49. Conclusión:
Como FC=69.764 > Ft=19.4 rechazamos
. Concluimos que dado que
también se rechazo , el modelo de
RLM no es el adecuado para
explicar la relación existente entre la variable
dependiente (Y) y las independientes X1, X2. Sugiere
que se intente otro modelo con más variables.
Powerpoint Templates
50. Caso 2: En el ejemplo que hemos venido desarrollando el modelo
propuesto es
Consideramos la siguiente hipótesis a ser probada.
H0=β1 – β2 =0
HA=β1 – β2 ≠0
En este caso L =(0 1 -1); q=1 y y=0 por lo tanto
Powerpoint Templates
51. Conclusión:
Con un nivel de significancia del 5% rechazamos la hipótesis
H0=β1 – β2 =0
Pruebas Parciales de F.
Supongamos que tenemos un modelo con 3 variables
independientes X1, X2, X3 y deseamos conocer la siguiente
información.
1. SC (β1| β0)=SC(X1): La SC resultante de usar únicamente
X1 para predecir Y.
2. SC (β2| β0 , β1) = SC(X2|X1): La SC extra explicada por X2
en adición a X1 para predecir Y.
3. SC (β3|β0, β1, β2)=SC (X3|X1,X2): La SC extra explicada
por X3 en adición a X1 y X2 para predecir a Y.
Powerpoint Templates
52. La información anterior es requerida para dar respuesta a las
siguientes preguntas:
Contribuye significativamente X1 a predecir a Y.
Contribuye significativamente la adición de X2 a predecir
Y después de haber tomado en cuenta la contribución de
X1.
Contribuye significativamente la adición de X3 a predecir
a Y después de haber tomado en cuenta a la contribución
de X1 y X2.
Powerpoint Templates
53. Al momento presente conocemos a la forma de dar respuesta a la
pregunta (1) ya que solamente involucra el ajuste de un modelo de
RLM. Para dar respuesta a la pregunta (2) y (3) usaremos las pruebas
de F parciales.
Para llevar a cabo un aprueba de F parcial para una variable, digamos
X*, dado que las variables X1, X2, …, XP ya se encuentran ene le
modelo, debemos calcular las SC extra resultante de adicionar a el
modelo X*, dado que ya se encuentra en el X1, X2, …, XP . Esta suma
de cuadrados se calcula mediante la formula.
Powerpoint Templates
54. SC extra de adicionar = SC de regresión - SC de regresión
X* dado X1, X2, …, XP Cuando X1, X2, …, XP y X* se Cuando X1, X2, …, XP (y no
encuentran todos en el modelo X*) están en el modelo
En forma compacta esto puede escribirse
SC (X*| X1, X2, …, XP) =SC (X1, X2, …, XP, X*)- SC (X1, X2, …, XP)
Recordemos que la SC (X1, X2, …, XP, X*) es la SC Regresión
resultante de ajustar el modelo
y la SC (X1, X2, …, XP) es la SC Regresión que obtenemos al
ajustar. El modelo
Para mayor generalidad suponga que consideramos el modelo
y deseamos calcular la SC (X3|X1,X2). Para tal caso tendremos que
ajustar dos modelos.
Powerpoint Templates
55. Modelo 1: o bien matricialmente
Y = X1β1 +ε donde:
En este caso
SC= Regresión = SC (X1, X2, X3) = y X1 ( X1 X1 )-1 X1 y
Powerpoint Templates
56. Modelo 2: el cual escrito matricialmente
Y = X2β2 +ε donde
En este caso
SC= Regresión = SC (X1, X2) = y X2 ( X2 X2 )-1 X2 y
Por lo tanto
SC (X3| X1, X2) =SC (X1, X2 , X3)- SC (X1 X2) = y X1 (X1 X1)-1
X1 y – y X2 (X2 X2)-1 X2 y
Powerpoint Templates
57. Deseamos probar la hipótesis nula
H0: La adición de X* a el modelo que ya contiene a las
variables X1, X2, …, XP NO mejora significativamente la
predicción de Y.
La estadística de prueba es
Esta estadística tiene la distribución de F con 1 y n-p-2 grados de
libertad bajo la H0. Esto es Ft=F1n-p-2 , α. La regla de decisión es:
RD: Rechazo H0 a un nivel de significancia α si FC ≥ Ft.
Nota: El CME (X1, X2, …, XP, X*) es el CME que resulta de ajustar el
modelo
Powerpoint Templates
59. A continuación se presentan los modelos estimados y las tablas del
ANOVA para varias combinaciones y variables.
MODELO 1: (Y, X1)
Modelo estimado
F.V. g.l. SC CM F
Regresión 1 9.6971 9.6971 26.4823 0.0004
(X1)
Error 13 4.7602
Total 14 14.4573
Powerpoint Templates
60. MODELO 2. ( Y, X2)
Modelo estimado
F.V. g.l. SC CM F
Regresión 1 1.1398 1.1398 1.1126 0.3115
(X1)
Error 13 13.3175 1.0244
Total 14 14.4573
Powerpoint Templates
61. MODELO 3. ( Y, X3)
Modelo estimado
F.V. g.l. SC CM F
Regresión 1 0.6046 0.6046 0.5374 0.5201
(X1)
Error 13 13.8527 1.0656
Total 14 14.4573
Powerpoint Templates
62. MODELO 4. ( Y, X4)
Modelo estimado
F.V. g.l. SC CM F
Regresión 2 10.9591 5.4796 18.7979 0.0004
(X1)
Error 12 3.4982 0.2915
Total 14 14.4573
Powerpoint Templates
63. MODELO 5. ( Y, X1 , X2 )
Modelo estimado
F.V. g.l. SC CM F
Regresión 2 10.6952 5.3476 17.0574 0.0005
(X1)
Error 12 3.7621 0.3135
Total 14 14.4573
Powerpoint Templates
64. MODELO 6. ( Y, X2 , X3 )
Modelo estimado
F.V. g.l. SC CM F
Regresión 2 3.5153 1.7577 1.9276 0.187
(X1)
Error 12 10.9420 0.9118
Total 14 14.4573
Powerpoint Templates
65. MODELO 7. ( Y, X1 , X2 , X3)
Modelo estimado
F.V. g.l. SC CM F
Regresión 3 11.3656 3.7885 13.4794 0.0008
(X1)
Error 11 3.0917 0.2811
Total 13 14.4573
Powerpoint Templates
66. Con las tablas del ANOVA presentadas podemos calcular las
siguientes SC parciales.
Usando los modelos 1 y 4 tenemos
SC (X2| X1) =SC (X1, X2)- SC (X1) = 10.9591-9.6971 = 1.262
De los modelos 4 y 7 tenemos
SC (X3| X1, X2) =SC (X1, X2 , X3)- SC (X1 ,X2) = 11.3656-10.9591 = 0.4065
Con los modelos 6 y 7 tenemos
SC (X1| X2, X3) =SC (X1, X2 , X3)- SC (X2 ,X3) = 11.3656-3.5153 = 7.8503
Con los modelos 5 y 7 tenemos
SC (21| X1, X3) =SC (X1, X2 , X3)- SC (X1 ,X3) = 11.3656- 10.6952 = 0.6704
Powerpoint Templates
67. Algunas de las pruebas de hipótesis que podemos llevar a cabo
se presentan a continuación
H0: La adición de X2 a el modelo que ya contiene a las variables
X1 NO mejora significativamente la predicción de Y.
La estadística de prueba es:
Ft= F115-1-2, 0.05= F112, 0.05 = 4.75
Powerpoint Templates
68. Como Ft =4.75 > FC= 4.329 concluimos que la adición de X2 a el
modelo que contiene a X1 no mejora significativamente la predicción
de Y a un nivel de significancia del 5%.
H0: La adición de X3 a el modelo que ya contiene a las variables
X1 y X2 no mejora significativamente la predicción de Y.
En este caso:
Powerpoint Templates
69. Concluimos que X3 no mejora significativamente (5%) la predicción de Y
si se adiciona a el modelo que ya contiene a X1, X2.
H0: La adición de X1 a el modelo que ya contiene a las variables
X2 y X3 no mejora significativamente la predicción de Y.
Para esta hipótesis
Concluiremos que la adición de X1 a el modelo que contiene a X2 y X3
mejora significativamente (5%) la predicción de Y.
Powerpoint Templates
70. Predicción de Inferencias sobre µ|X1,X2,…,Xk
En esta sección generaremos I.C. para donde X0 es un vector
especifico cuyos elementos son de la misma forma que una hilera de X
de tal forma que es el valor predicho en el punto X0. Por
ejemplo si el modelo propuesto fuera ,
entonces X0 = (1, X0, X02) para un valor especifico de X0.
La varianza de el valor predicho en el punto X0 es
Y su estimador es
Donde S2=CME
Powerpoint Templates
71. Un intervalo de confianza para de tamaño 1-α, esta dado por
Continuación ejemplo 5
Si consideramos los datos presentados en la tabla No. 3 y ajustamos el
modelo , tenemos que el modelo de
RLM estimado es
Powerpoint Templates
72. Supongamos que deseamos un I.C. de tamaño 0.95 para
tendremos que X0 =(1,2,36,1296) y por lo tanto
El C.I. buscando es
Por lo tanto I.C. es
[0.6437, 2.8468]
Donde S2 = CME = 0.2811 se obtuvo de la tabla del ANOVA que
corresponde a el modelo ajustado y (X X)-1 es
Powerpoint Templates
73. Bibliografía
Greene Willian H. (2003). Econometric Analysis. Fifth edition.
Prentice Hall, New Jersey
Johnston J. y J. Dinardo (1997). Econometric Methods. New York,
McGraw Hill, United States of America.
Quintana R. Luis y Miguel A. Mendoza G. (2008) Econometría
aplicada: modelos y aplicaciones a la economía mexicana. Plaza y
Valdés, México.
Wooldridge J. (2006). Introducción a la econometría: un enfoque
moderno. Segunda edición. Thompson, México.
Powerpoint Templates