Este documento presenta el modelo de regresión lineal general como uno de los métodos más populares y aplicados en análisis cuantitativo. Explica los supuestos, estimación por mínimos cuadrados ordinarios, interpretación de los coeficientes, y aplicación del modelo bivariado y multivariado. Se detalla el proceso de estimación en Excel y se ilustran conceptos como la función de regresión poblacional, recta de regresión muestral, y error estándar de la estimación.
2. 2
PUNTOS A TRATAR
FÁTIMA PONCE REGALADO
Sesión 10. MODELO DE REGRESIÓN LINEAL
GENERAL.
Presentación y Supuestos.
Estimación: Método de Mínimos Cuadrados Ordinarios
o Modelo Bivariado
o Modelo Multivariado.
Interpretación económica y estadística.
Aplicación.
Ejercicios.
3. 3FÁTIMA PONCE REGALADO
MODELO DE REGRESION LINEAL GENERAL (MRLG)
El MRLG, empleado para analizar el comportamiento de
una variable (Y) a través de variables independientes (Xs),
es uno de los más populares y aplicados.
Características:
La variable dependiente Y es cuantitativa. Si la variable
dependiente fuese cualitativa se requiere métodos de
estimación alternativos a MCO (Logit-probit)
La variable explicativa X tiene varianza muestral Sx² no
nula y además n ≥ K.
Se tiene una muestra suficiente (n).
4. 4FÁTIMA PONCE REGALADO
El MRLG es lineal en los parámetros.
Variables independientes (X’s) son deterministicos o fijos
No multicolinealidad (no relación lineal alta entre las X’s)
Exogeneidad (X es independiente de u)
Estabilidad Estructural de la función: Los parámetros (vector
β) se mantienen constantes a lo largo de la muestra.
SUPUESTOS DEL MRLG
µ N(0,2
µ I)
Media nula de las pertubaciones (E(u) = 0)
Homocedasticidad (igual varianza de u=2 )
No autocorrelación (No correlación de ui y uj)
Distribución normal de las perturbaciones.
5. 5FÁTIMA PONCE REGALADO
HOMOSCEDASTICIDAD
La recta de regresión de Ahorros
sobre Ingresos representa con igual
precisión la relación entre ingresos
y ahorros, independientemente de
los valores de ingreso.
Errores homoscedásticos:
Igual varianza
-.06
-.04
-.02
.00
.02
.04
.06
30 35 40 45 50 55 60 65 70 75
RESIDMCO
Los errores tienen un comportamiento
puramente aleatorio o irregular.
Errores no correlacionados:
Cov(ut,ut-1)=0
NO AUTOCORRELACIÓN
6. 6FÁTIMA PONCE REGALADO
EL ESTIMADOR MINIMO CUADRADO
ORDINARIO (MCO)
Es uno de los procedimientos más conocidos de
estimación de los parámetros poblacionales.
Se tiene una muestra de n observaciones.
Se plantea utilizar aquella combinación de α y β que
minimice los errores que el modelo cometerá.
Criterio MCO: Minimización de Σ e2
^
e = Y – Y
Elevar al cuadrado los errores individuales antes de
sumarlos para cumplir dos objetivos:
1. Penalizar los errores más grandes.
2. Cancelar el efecto de los valores positivos y negativos.
8. 8FÁTIMA PONCE REGALADO
EL MODELO DE REGRESIÓN LINEAL BIVARIADO
A nivel de observaciones, cada vector es un vector columna:
y1 1 x1 µ1
y2 1 x2 β µ2
y3 = 1 x3 + µ3
… … … …
yn 1 xn µn
nx1 nx2 nx1
observaciones
de la var.
dependiente
Y = X + µ
Observaciones de la
var. independiente
Perturbación
2x1
Objetivo: Estimar
=intercepto u
ordenada y,
=pendiente.
Modelo especificado: Y = + β X + µ
9. 9FÁTIMA PONCE REGALADO
LA RECTA DE REGRESIÓN
O Función de Regresión Poblacional (FRP), depende de los
parámetros poblacionales. Se obtiene cuando el valor de la
perturbación es cero (E(u)=0).
Es la parte sistemática o predecible del modelo y corresponde
al comportamiento promedio de la variable a explicar:
E(Yi / Xi) = E ( + βXi + ui)
= + βXi + E(ui)
E(Yi / Xi) = + βXi
La recta MCO recoge el comportamiento medio de la
variable Y, a partir de observaciones provenientes de una
muestra (X1,Y1), (X2,Y2), . . . , (Xn,Yn). Gráficamente, consiste
en calcular la pendiente y la ordenada que mejor se
ajusta a la nube de puntos.
11. 11FÁTIMA PONCE REGALADO
FUNCIÓN DE REGRESIÓN MUESTRAL
(caso bivariado)
X=xi
ei=error
^
Yi
(X,Y)
Relación observada
entre las variables
^
Yi
^
MUESTRA: Yi = Yi + ei
Y
X
Yi
12. 12FÁTIMA PONCE REGALADO
EL ESTIMADOR MINIMO CUADRADO
ORDINARIO (MCO)
Los estimadores que se emplean para encontrar la pendiente
(b) y el intercepto (a) de la recta de regresión MCO de mejor
ajuste son:
“b” es el estimador MCO de
β=ΔE(Y)/ΔX: Si β>0: un aumento unitario en la variable
explicativa X conlleva un aumento promedio de β
unidades en la variable dependiente. La pendiente
mide el efecto de un aumento marginal en la variable
explicativa sobre E(Y).
22
XnX
YXnXY
b
XbYa
“a” es el estimador MCO de
=E(Y|X=0): valor promedio de la variable dependiente Y
cuando el valor que toma la variable independiente es cero.
^
Y= a + b X Recta de regresión estimada por MCO
13. 13FÁTIMA PONCE REGALADO
ERROR ESTANDAR DE LA ESTIMACIÓN (se):
Mide la variabilidad o dispersión de los valores
observados alrededor de la recta de regresión
(=confiabilidad de la ecuación estimada)
2
)ˆ( 2
n
YY
se
Y= Valores de la variable dependiente.
Ŷ= Valores estimados con la ecuación
de estimación que corresponden a
cada valor de Y.
n = número de puntos utilizados para
ajustar la línea de regresión.
Grados de
libertad
Interpretación:
Mientras más grande sea el error estándar de la estimación, mayor
será la dispersión de los puntos alrededor de la línea de regresión.
Si se = 0 ecuación de estimación (Ŷ) nos da un estimador
perfecto de la variable dependiente.
15. 15FÁTIMA PONCE REGALADO
Estimación en Excel
a) Determinar la Mejor Ecuación de Regresión para los datos.
EN EXCEL emplear comando DATOS / ANALISIS DE DATOS
a) Escoger REGRESIÓN:
16. 16FÁTIMA PONCE REGALADO
Estimación en Excel
Rango de datos de
la variable
dependiente
Rango de datos
de las variables
independientes
Presenta cuadro
con los errores
estimados y
valor de Yestimado.
(Se explicará en
próxima sesión)
18. 18FÁTIMA PONCE REGALADO
MODELO DE REGRESIÓN LINEAL GENERAL
Si el modelo especificado es:
Y = β1 + β2X2 + β3X3 + … + βkXk + µ
Y = X β + µ
El análisis de regresión busca cuantificar la relación
existente entre la variable Y (dependiente) y las X’s
(independientes):
E(Y/X) = β1 + β2X2 + β3X3 + … + βkXk
El objetivo es estimar los parámetros (β’s) buscando
el valor más probable de Y dados los valores de X.
19. 19FÁTIMA PONCE REGALADO
A nivel de observaciones, cada X es un vector columna:
y1 1 x12 x13 ... x1k β1 µ1
y2 1 x22 x23 ... x2k β2 µ2
y3 = 1 x32 x33 … x3k β3 + µ3
… … … … … … … …
yn 1 xn2 xn3 … xnk βk µn
nx1 nxk kx1 nx1
vector de observaciones de perturbación
observaciones las var. exógenas
de la var.
dependiente
Y = X + µ
EL MRLG MULTIPLE ó MULTIVARIADO
Objetivo:
Estimar
intercepto,y
pendientes,
20. 20FÁTIMA PONCE REGALADO
SUPUESTOS DEL MRLG (1/2)
1. Hipótesis: Relación lineal de la variable dependiente Y con
un conjunto de k variables explicativas X:
Y = β1 + β2 X2 + β3 X3 + β4 X4 + … + βk Xk + µ
Y = X + µ
Forma Lineal: y = β1 + β2X2 + β3 X3 + µ
pendientes
Y
2 = ------------------
X2 de 1 unidad
21. 21FÁTIMA PONCE REGALADO
- Semilogarítmica: y = eβ1 + β2 X2 + β3 X3 + µ
linealización: ln y = β1 + β2 X2 + β3 X3 + µ
- Doblelogarítmica: y = β1 X2
β2 X3
β3 eµ
linealización: ln y = ln β1 + β2 ln X2 + β3 ln X3 + µ
tasa de crec.
elasticidades
Es una elasticidad de
Y respecto a X2.
%Y
2 = ------------
% X2
OTRAS FORMAS FUNCIONALES
22. 22FÁTIMA PONCE REGALADO
SUPUESTOS DEL MRLG (2/2)
2. Hipótesis sobre las perturbaciones (µ):
i) E (µ) = 0
ii) Var(µi)=2
µ Varianzas de las perturbaciones son iguales
(Homoscedasticidad).
iii) Cov(µi,µj)=0 Cada perturbación es No correlacionada
con todas las otras perturbaciones.
iv) Distribución de la perturbación: Normal: µ N (0, 2
µ I)
3. Hipótesis sobre los regresores (variables X’s):
i) X es matriz de valores fijos independiente de µ (No debe
haber relación lineal entre Xi y µ).
ii) No hay relación lineal exacta entre las variables X’s:
Los k vectores son Linealmente Independientes, es decir,
cada variable aporta información propia.
23. 23FÁTIMA PONCE REGALADO
FUNCIÓN DE REGRESIÓN
(caso múltiple)
X1
X2
Plano formado a través
de los puntos de la muestra:
^
Y = b1 + b2X2 + b3X3
Punto correspondiente en el plano
Punto observado
Error
Y
b1= intercepto
Fuente: Fig 13-1 Levin y Rubin(2010)
24. 24FÁTIMA PONCE REGALADO
FUNCIÓN DE REGRESIÓN POBLACIONAL
La función de regresión, objeto de estimación, se denomina Función
de Regresión Poblacional (FRP) y depende de los coeficientes
poblacionales desconocidos (parámetros: β1, β2,… βk ).
Se trata de la parte sistemática o predecible del modelo y corresponde
al comportamiento medio o esperado de la variable a explicar:
E(Yi/X) = E (β1+ β2X2i +… + βkXki + ui)
= β1+ β2X2i +… + βkXki + E(ui )
E(Yi/X) = β1+ β2X2i +… + βkXki
25. 25FÁTIMA PONCE REGALADO
MRLG (MÚLTIPLE):
interpretación de coeficientes
β1=E(Yi|Xi=0): valor medio de la variable dependiente
cuando el valor que toma la variable independiente es
cero. Es el intercepto u ordenada.
β2=ΔE(Yi)/Δx2i: un aumento unitario en la variable
independiente X2 conlleva un aumento medio de β2
unidades en la variable dependiente. La pendiente mide el
efecto de un aumento marginal en la variable explicativa
sobre E(Yi).
……
βk=ΔE(Yi)/Δxki: un aumento unitario en la variable
independiente Xk conlleva un aumento medio de βk
unidades en la variable dependiente.
26. 26FÁTIMA PONCE REGALADO
ESTIMADOR MINIMO CUADRADO ORDINARIO
(MCO)
Muestra de n observaciones.
Utilizar aquella combinación de β1, β2,… βk que minimice
los errores que el modelo cometerá.
Criterio MCO: Minimización de Σ e2 ,
^
βMCO = (X’X)-1 X’Y
^
β es variable aleatoria,
Estimador MCO de
^
e = Y – Y
^
Varianza del estimador MCO : MVC(β) = µ
2 (X’X)-1
Con este estimador (fórmula), empleando datos muestrales
^
cuantificamos los valores de los β’s: obtenemos β.
^
Con Media : E[ β ] = β
27. 27FÁTIMA PONCE REGALADO
PROPIEDADES DEL ESTIMADOR MCO
^
LINEAL: βMCO = f(Y)
^
INSESGADEZ: E[ βMCO ] = β
o Su distribución está centrada sobre el verdadero valor del
parámetro que está siendo estimado.
EFICIENCIA: El estimador MCO tiene menor varianza que
cualquier otro estimador lineal insesgado.
Teorema de Gauss-Markov:
^
El estimador βMCO es el Mejor Estimador Lineal Insesgado
(M.E.L.I. ) si se cumplen los supuestos básicos del MRLG.
28. 28FÁTIMA PONCE REGALADO
INTERPRETACIÓN Y EVALUACIÓN DE
RESULTADOS
Para evaluar los resultados de la estimación:
1. Interpretación Económica: signos, valores. Es muy
importante la unidad de medida.
2. Evaluación Estadística: R2, test de hipótesis de
significancia conjunta (Test F) y test de hipótesis de
significancia individual (test t).
3. Evaluación Econométrica (Si los supuestos básicos del
modelo se cumplen, especialmente los residuos).
30. 30FÁTIMA PONCE REGALADO
Aplicación 1:
La Demanda de Electricidad (1/2) */
I. Especificación: La ecuación teórica a estudiar es:
QD = 1 + 2 Ingreso + 3 Población + 4 Precio +
2 >0, 3 >0 y 4 <0
Ante una variación del Precio en 1 unidad, la
cantidad demandada de electricidad varía en
promedio en 4 GWh
donde:
QD = VEN : Volumen de energía vendida en GWh
Ingreso = PBI : PBI en millones de nuevos soles constantes.
Población = POB : Población del mercado (miles de habs.)
Precio = TAR : Tarifa promedio en ctvUS$/kWh en $ constantes.
*/ Basado en un trabajo práctico desarrollado por alumnos de Econometría Intermedia–PUCP (2008-I).
31. 31FÁTIMA PONCE REGALADO
Dependent Variable: VEN
Method: Least Squares
Sample: 1981 2001
Included observations: 21
Variable Coefficient Std. Error t-Statistic Prob.
PBI 0.067635 0.006660 10.15492 0.0000
POB 0.626912 0.045192 13.87215 0.0000
TAR -147.1479 50.80147 -2.896527 0.0100
C -9726.260 640.7192 -15.18022 0.0000
R-squared 0.984278 Mean dependent var 8178.407
Adjusted R-squared 0.981504 S.D. dependent var 1971.226
S.E. of regression 268.0884 Akaike info criterion 14.19015
Sum squared resid 1221814. Schwarz criterion 14.38911
Log likelihood -144.9966 F-statistic 354.7673
Durbin-Watson stat 1.751046 Prob(F-statistic) 0.000000
2. Se estima por MCO:
4 = Da el VEN ante un TAR en 1 unidad: Las Ventas
de electricidad se reducen en promedio en 147.1 mills de
nS/. cuando la TAR se en 1 ctvUS$/kWh
Aplicación 1:
La Demanda de Electricidad (2/2)
2 = Da el VEN ante un PBI en 1 unidad: Las
Ventas de electricidad se elevan en promedio en
0.067 mills de nS/. cuando el PBI se en 1 mll
de nS/.1992 2012
33. 33FÁTIMA PONCE REGALADO
I. BONDAD DE AJUSTE
Coeficiente de Determinación ó R2:
Mide el grado de ajuste lineal de la regresión e indica el %
de la variación observada de Y que es explicada por la
variación combinada lineal de los regresores (X’s).
0 < R2 < 1
Por ej.: Si R2=0.76 El 76% de las variaciones de la
variable endógena (cantidad p.e.) son explicadas por las
variaciones de las variables independientes del modelo.
NOTAR que: En muestras de Serie de Tiempo el valor del R2 va a estar
más cercano de 1 que en muestras de corte transversal, donde por lo
general sólo se tienen valores entre 0.2 y 0.5
34. 34FÁTIMA PONCE REGALADO
II. INFERENCIA ESTADISTICA
Si el modelo estimado es:
^ ^ ^ ^ ^
Y = β1 + β2X2 + β3X3 + … + βkXk ó
^
Y = b1 + b2X2 + b3X3 + … + bkXk
Test de significancia conjunta de vector β.
Prueba F–Fisher: βi asociados a las pendientes.
En MRL Múltiple 1ro. analizar test F y luego test individual t.
En un MRL Bivariado: F = (t)2
Test de significancia individual de βi .
^
Prueba t – student sólo se conoce 2
µ .
35. 35FÁTIMA PONCE REGALADO
TEST DE SIGNIFICANCIA CONJUNTA
(de todos los i asociados a pendientes)
Estadístico F (Análisis ANOVA):
H0 : vector β de pendientes = 0
H1 : vector β de pendientes 0
β2
β3 = 0
:
:
βk
^ Varianza explicada por la regresión
F =---------------------------------------------
Varianza no explicada por la regresión
^ SCE/(k-1)
F= ------------- ̃F(k-1,n-k)
SCR/(n-k)
36. 36FÁTIMA PONCE REGALADO
TEST DE SIGNIFICANCIA CONJUNTA
^
Si F>F%
(k-1,n-k)
Aceptar H1.
= 0.05
1-= 0.95
Aceptar H1
Aceptar H0: βde pendientes= 0
Valor crítico F%
^
Si F<F%
(k-1, n-k)
No rechazar H0.
=0.05 Prob < = 0.05
Análisis del P-valor:
Si: Prob 0.05 Se acepta la H0: βde pendientes = 0
Si: Prob < 0.05 Se rechaza la H0: βde pendientes = 0
37. 37FÁTIMA PONCE REGALADO
TEST DE SIGNIFICANCIA INDIVIDUAL (de i)
(Prueba a 2 colas)
H0: βi = 0 Var. X no es importante para explicar Y
H1: βi 0 Var. X es estadísticamente importante para explicar Y
^
i - i
^
SE(i)
^
t =
Estadístico t :
̃ t(n-k)
0
/2= 0.025
1-= 0.95
Región de rechazo
de H0
Región de
aceptac. de la H0
tt/2
(n-k)-t/2
(n-k)
=0.05
Prob < 0.05Prob < 0.05
Análisis del P-valor:
Si: Prob 0.05 Se acepta la H0: β = 0
Si: Prob < 0.05 Se rechaza la H0: β = 0
40. 40FÁTIMA PONCE REGALADO
Cont. Aplicación 1:
La Demanda de Electricidad (1/2)
I. Especificación:
La ecuación teórica a estudiar es:
donde:
VE : Volumen de energía vendida en GWh
PBI : PBI del área de influencia del mercado, en millones
nuevos soles constantes.
POB: Población del área de influencia del mercado (miles de habs.)
TAR : Tarifa promedio a cliente final en ctvUS$ / kWh en $ constantes.
VE = 1 + 2 PBI + 3 POB + 4 TAR +
QD = 1 + 2 Ingreso + 3 Población + 4 Precio +
II. Estimación:
La ecuación a estimar es:
2 >0, 3 >0 y 4 <0
41. 41FÁTIMA PONCE REGALADO
Dependent Variable: VEN
Method: Least Squares
Sample: 1981 2001
Included observations: 21
Variable Coefficient Std. Error t-Statistic Prob.
PBI 0.067635 0.006660 10.15492 0.0000
POB 0.626912 0.045192 13.87215 0.0000
TAR -147.1479 50.80147 -2.896527 0.0100
C -9726.260 640.7192 -15.18022 0.0000
R-squared 0.984278 Mean dependent var 8178.407
Adjusted R-squared 0.981504 S.D. dependent var 1971.226
S.E. of regression 268.0884 Akaike info criterion 14.19015
Sum squared resid 1221814. Schwarz criterion 14.38911
Log likelihood -144.9966 F-statistic 354.7673
Durbin-Watson stat 1.751046 Prob(F-statistic) 0.000000
2. Se estima por MCO:
3. Evaluación.
El 98% de las variaciones
de VEN son explicadas
por PBI, POB y TAR.
Cont. Aplicación 1:
La Demanda de Electricidad (2/2)
Test de significancia Conjunta:
Fest > Ftabla ó prob(F)<0.05
Rechazar H0.
1. │test│>│ttabla 2│ ó 2. prob <0.05
Test de significancia individual:
42. 42FÁTIMA PONCE REGALADO
Anderson, D., Sweeney, D. y Williams T. (2008). Estadística
para Administración y Economía. [10ma. Ed.] México,
Cengage Learning Editores S.A. de C.V., Cap 14 y 15.
Levin, R. y Rubin, D. (2010). Estadística para Administración
y Economía. Séptima Edición Revisada. Pearson Educación,
México. Prentice Hall. 2010. Cap. 12 y 13.
BIBLIOGRAFIA