Métodos de investigación cuantitativa: Regresión lineal múltiple

MÉTODOS DE INVESTIGACIÓN
CUANTITATIVA
Sesión 10
MODELO DE REGRESIÓN LINEAL GENERAL
FÁTIMA PONCE REGALADO 1

2
PUNTOS A TRATAR
FÁTIMA PONCE REGALADO
Sesión 10. MODELO DE REGRESIÓN LINEAL
GENERAL.
Presentación y Supuestos.
Estimación: Método de Mínimos Cuadrados Ordinarios
o Modelo Bivariado
o Modelo Multivariado.
Interpretación económica y estadística.
Aplicación.
Ejercicios.

3FÁTIMA PONCE REGALADO
MODELO DE REGRESION LINEAL GENERAL (MRLG)
El MRLG, empleado para analizar el comportamiento de
una variable (Y) a través de variables independientes (Xs),
es uno de los más populares y aplicados.
Características:
La variable dependiente Y es cuantitativa. Si la variable
dependiente fuese cualitativa se requiere métodos de
estimación alternativos a MCO (Logit-probit)
La variable explicativa X tiene varianza muestral Sx² no
nula y además n ≥ K.
Se tiene una muestra suficiente (n).

El MRLG es lineal en los parámetros.
Variables independientes (X’s) son deterministicos o fijos
No multicolinealidad (no relación lineal alta entre las X’s)
Exogeneidad (X es independiente de u)
 Estabilidad Estructural de la función: Los parámetros (vector
β) se mantienen constantes a lo largo de la muestra.
SUPUESTOS DEL MRLG
µ N(0,2
µ I)
 Media nula de las pertubaciones (E(u) = 0)
 Homocedasticidad (igual varianza de u=2 )
 No autocorrelación (No correlación de ui y uj)
 Distribución normal de las perturbaciones.

HOMOSCEDASTICIDAD
 La recta de regresión de Ahorros
sobre Ingresos representa con igual
precisión la relación entre ingresos
y ahorros, independientemente de
los valores de ingreso.
Errores homoscedásticos:
Igual varianza
-.06
-.04
-.02
.00
.02
.04
.06
30 35 40 45 50 55 60 65 70 75
RESIDMCO
 Los errores tienen un comportamiento
puramente aleatorio o irregular.
Errores no correlacionados:
Cov(ut,ut-1)=0
NO AUTOCORRELACIÓN

EL ESTIMADOR MINIMO CUADRADO
ORDINARIO (MCO)
Es uno de los procedimientos más conocidos de
estimación de los parámetros poblacionales.
Se tiene una muestra de n observaciones.
Se plantea utilizar aquella combinación de α y β que
minimice los errores que el modelo cometerá.
Criterio MCO: Minimización de Σ e2
^
e = Y – Y
Elevar al cuadrado los errores individuales antes de
sumarlos para cumplir dos objetivos:
1. Penalizar los errores más grandes.
2. Cancelar el efecto de los valores positivos y negativos.

MODELO DE
REGRESIÓN LINEAL
BIVARIADO

EL MODELO DE REGRESIÓN LINEAL BIVARIADO
A nivel de observaciones, cada vector es un vector columna:
y1 1 x1  µ1
y2 1 x2 β µ2
y3 = 1 x3 + µ3
… … … …
yn 1 xn µn
nx1 nx2 nx1
observaciones
de la var.
dependiente
Y = X  + µ
Observaciones de la
var. independiente
Perturbación
2x1
Objetivo: Estimar
=intercepto u
ordenada y,
=pendiente.
 Modelo especificado: Y =  + β X + µ

LA RECTA DE REGRESIÓN
O Función de Regresión Poblacional (FRP), depende de los
parámetros poblacionales. Se obtiene cuando el valor de la
perturbación es cero (E(u)=0).
Es la parte sistemática o predecible del modelo y corresponde
al comportamiento promedio de la variable a explicar:
E(Yi / Xi) = E ( + βXi + ui)
=  + βXi + E(ui)
E(Yi / Xi) = + βXi
 La recta MCO recoge el comportamiento medio de la
variable Y, a partir de observaciones provenientes de una
muestra (X1,Y1), (X2,Y2), . . . , (Xn,Yn). Gráficamente, consiste
en calcular la pendiente y la ordenada que mejor se
ajusta a la nube de puntos.

X=Ingreso
Y=Consumo
Función de Regresión
Poblacional
FUNCIÓN DE REGRESIÓN
(caso bivariado)
E(Y/X) =  + β X
X=Ingreso
Y=Consumo
Función de Regresión
Muestral
^
Y = a + b X

a

FUNCIÓN DE REGRESIÓN MUESTRAL
(caso bivariado)
X=xi
ei=error
^
Yi
(X,Y)
Relación observada
entre las variables
^
Yi
^
MUESTRA: Yi = Yi + ei
Y
X
Yi

EL ESTIMADOR MINIMO CUADRADO
ORDINARIO (MCO)
Los estimadores que se emplean para encontrar la pendiente
(b) y el intercepto (a) de la recta de regresión MCO de mejor
ajuste son:
“b” es el estimador MCO de 
β=ΔE(Y)/ΔX: Si β>0: un aumento unitario en la variable
explicativa X conlleva un aumento promedio de β
unidades en la variable dependiente. La pendiente
mide el efecto de un aumento marginal en la variable
explicativa sobre E(Y).
22
XnX
YXnXY
b





XbYa 
“a” es el estimador MCO de 
=E(Y|X=0): valor promedio de la variable dependiente Y
cuando el valor que toma la variable independiente es cero.
^
Y= a + b X Recta de regresión estimada por MCO

ERROR ESTANDAR DE LA ESTIMACIÓN (se):
Mide la variabilidad o dispersión de los valores
observados alrededor de la recta de regresión
(=confiabilidad de la ecuación estimada)
2
)ˆ( 2




n
YY
se
Y= Valores de la variable dependiente.
Ŷ= Valores estimados con la ecuación
de estimación que corresponden a
cada valor de Y.
n = número de puntos utilizados para
ajustar la línea de regresión.
Grados de
libertad
 Interpretación:
Mientras más grande sea el error estándar de la estimación, mayor
será la dispersión de los puntos alrededor de la línea de regresión.
 Si se = 0  ecuación de estimación (Ŷ) nos da un estimador
perfecto de la variable dependiente.

ANÁLISIS DE REGRESIÓN SIMPLE o BIVARIADA:
Aplicación: Crecimiento – Infraestructura móvil
Estimar la línea de regresión … en Excel
y = 7.2x + 210383
R² = 0.954
0
100,000
200,000
300,000
400,000
500,000
600,000
0 10000 20000 30000 40000
PBI(mllsdeS/.de2007)
Líneas móviles (miles)
PBI - Líneas Móviles
Estadísticasdelaregresión
Coeficientedecorrelaciónmúltiple 0.97706831
CoeficientededeterminaciónR^2 0.95466249
R^2 ajustado 0.95239561
Errortípico 21551.1878
Observaciones 22
ANÁLISISDEVARIANZA
GradosdelibertadSumadecuadradosPromediodeloscuadradosF ValorcríticodeF
Regresión 1 1.956E+11 1.956E+11 421.135817 6.6026E-15
Residuos 20 9289073882 464453694
Total 21 2.0489E+11
Coeficientes Errortípico Estadísticot Probabilidad Inferior95%
Intercepción 210383.26 6375.84822 32.9969054 6.477E-19 197083.474
Líneasmóvilesenservicio(miles) 7.19995394 0.3508477 20.5215939 6.6026E-15 6.46809847
Error estándar
de estimación
Coeficientes
estimados
R2

Estimación en Excel
a) Determinar la Mejor Ecuación de Regresión para los datos.
EN EXCEL emplear comando DATOS / ANALISIS DE DATOS
a) Escoger REGRESIÓN:

Estimación en Excel
Rango de datos de
la variable
dependiente
Rango de datos
de las variables
independientes
Presenta cuadro
con los errores
estimados y
valor de Yestimado.
(Se explicará en
próxima sesión)

MRLG MÚLTIPLE O
MULTIVARIADO

MODELO DE REGRESIÓN LINEAL GENERAL
 Si el modelo especificado es:
Y = β1 + β2X2 + β3X3 + … + βkXk + µ
Y = X β + µ
 El análisis de regresión busca cuantificar la relación
existente entre la variable Y (dependiente) y las X’s
(independientes):
E(Y/X) = β1 + β2X2 + β3X3 + … + βkXk
 El objetivo es estimar los parámetros (β’s) buscando
el valor más probable de Y dados los valores de X.

A nivel de observaciones, cada X es un vector columna:
y1 1 x12 x13 ... x1k β1 µ1
y2 1 x22 x23 ... x2k β2 µ2
y3 = 1 x32 x33 … x3k β3 + µ3
… … … … … … … …
yn 1 xn2 xn3 … xnk βk µn
nx1 nxk kx1 nx1
vector de observaciones de perturbación
observaciones las var. exógenas
de la var.
dependiente
Y = X  + µ
EL MRLG MULTIPLE ó MULTIVARIADO
Objetivo:
Estimar
intercepto,y
pendientes,

SUPUESTOS DEL MRLG (1/2)
1. Hipótesis: Relación lineal de la variable dependiente Y con
un conjunto de k variables explicativas X:
Y = β1 + β2 X2 + β3 X3 + β4 X4 + … + βk Xk + µ
Y = X  + µ
Forma Lineal: y = β1 + β2X2 + β3 X3 + µ
pendientes
Y
2 = ------------------
X2 de 1 unidad

- Semilogarítmica: y = eβ1 + β2 X2 + β3 X3 + µ
linealización: ln y = β1 + β2 X2 + β3 X3 + µ
- Doblelogarítmica: y = β1 X2
β2 X3
β3 eµ
linealización: ln y = ln β1 + β2 ln X2 + β3 ln X3 + µ
tasa de crec.
elasticidades
Es una elasticidad de
Y respecto a X2.
%Y
2 = ------------
% X2
OTRAS FORMAS FUNCIONALES

SUPUESTOS DEL MRLG (2/2)
2. Hipótesis sobre las perturbaciones (µ):
i) E (µ) = 0
ii) Var(µi)=2
µ Varianzas de las perturbaciones son iguales
(Homoscedasticidad).
iii) Cov(µi,µj)=0 Cada perturbación es No correlacionada
con todas las otras perturbaciones.
iv) Distribución de la perturbación: Normal: µ N (0, 2
µ I)
3. Hipótesis sobre los regresores (variables X’s):
i) X es matriz de valores fijos independiente de µ (No debe
haber relación lineal entre Xi y µ).
ii) No hay relación lineal exacta entre las variables X’s:
Los k vectores son Linealmente Independientes, es decir,
cada variable aporta información propia.

FUNCIÓN DE REGRESIÓN
(caso múltiple)
X1
X2
Plano formado a través
de los puntos de la muestra:
^
Y = b1 + b2X2 + b3X3
Punto correspondiente en el plano
Punto observado
Error
Y
b1= intercepto
Fuente: Fig 13-1 Levin y Rubin(2010)

FUNCIÓN DE REGRESIÓN POBLACIONAL
La función de regresión, objeto de estimación, se denomina Función
de Regresión Poblacional (FRP) y depende de los coeficientes
poblacionales desconocidos (parámetros: β1, β2,… βk ).
Se trata de la parte sistemática o predecible del modelo y corresponde
al comportamiento medio o esperado de la variable a explicar:
E(Yi/X) = E (β1+ β2X2i +… + βkXki + ui)
= β1+ β2X2i +… + βkXki + E(ui )
E(Yi/X) = β1+ β2X2i +… + βkXki

MRLG (MÚLTIPLE):
interpretación de coeficientes
β1=E(Yi|Xi=0): valor medio de la variable dependiente
cuando el valor que toma la variable independiente es
cero. Es el intercepto u ordenada.
β2=ΔE(Yi)/Δx2i: un aumento unitario en la variable
independiente X2 conlleva un aumento medio de β2
unidades en la variable dependiente. La pendiente mide el
efecto de un aumento marginal en la variable explicativa
sobre E(Yi).
……
βk=ΔE(Yi)/Δxki: un aumento unitario en la variable
independiente Xk conlleva un aumento medio de βk
unidades en la variable dependiente.

ESTIMADOR MINIMO CUADRADO ORDINARIO
(MCO)
 Muestra de n observaciones.
 Utilizar aquella combinación de β1, β2,… βk que minimice
los errores que el modelo cometerá.
 Criterio MCO: Minimización de Σ e2 ,
^
βMCO = (X’X)-1 X’Y
^
β es variable aleatoria,
Estimador MCO de 
^
e = Y – Y
^
Varianza del estimador MCO : MVC(β) = µ
2 (X’X)-1
Con este estimador (fórmula), empleando datos muestrales
^
cuantificamos los valores de los β’s: obtenemos β.
^
Con Media : E[ β ] = β

PROPIEDADES DEL ESTIMADOR MCO
^
 LINEAL: βMCO = f(Y)
^
 INSESGADEZ: E[ βMCO ] = β
o Su distribución está centrada sobre el verdadero valor del
parámetro que está siendo estimado.
 EFICIENCIA: El estimador MCO tiene menor varianza que
cualquier otro estimador lineal insesgado.
Teorema de Gauss-Markov:
^
El estimador βMCO es el Mejor Estimador Lineal Insesgado
(M.E.L.I. ) si se cumplen los supuestos básicos del MRLG.

INTERPRETACIÓN Y EVALUACIÓN DE
RESULTADOS
Para evaluar los resultados de la estimación:
1. Interpretación Económica: signos, valores. Es muy
importante la unidad de medida.
2. Evaluación Estadística: R2, test de hipótesis de
significancia conjunta (Test F) y test de hipótesis de
significancia individual (test t).
3. Evaluación Econométrica (Si los supuestos básicos del
modelo se cumplen, especialmente los residuos).

INTERPRETACIÓN
DE LA ESTIMACIÓN

Aplicación 1:
La Demanda de Electricidad (1/2) */
I. Especificación: La ecuación teórica a estudiar es:
QD = 1 + 2 Ingreso + 3 Población + 4 Precio + 
2 >0, 3 >0 y 4 <0
Ante una variación del Precio en 1 unidad, la
cantidad demandada de electricidad varía en
promedio en 4 GWh
donde:
QD = VEN : Volumen de energía vendida en GWh
Ingreso = PBI : PBI en millones de nuevos soles constantes.
Población = POB : Población del mercado (miles de habs.)
Precio = TAR : Tarifa promedio en ctvUS$/kWh en $ constantes.
*/ Basado en un trabajo práctico desarrollado por alumnos de Econometría Intermedia–PUCP (2008-I).

Dependent Variable: VEN
Method: Least Squares
Sample: 1981 2001
Included observations: 21
Variable Coefficient Std. Error t-Statistic Prob.
PBI 0.067635 0.006660 10.15492 0.0000
POB 0.626912 0.045192 13.87215 0.0000
TAR -147.1479 50.80147 -2.896527 0.0100
C -9726.260 640.7192 -15.18022 0.0000
R-squared 0.984278 Mean dependent var 8178.407
Adjusted R-squared 0.981504 S.D. dependent var 1971.226
S.E. of regression 268.0884 Akaike info criterion 14.19015
Sum squared resid 1221814. Schwarz criterion 14.38911
Log likelihood -144.9966 F-statistic 354.7673
Durbin-Watson stat 1.751046 Prob(F-statistic) 0.000000
2. Se estima por MCO:
4 = Da el VEN ante un TAR en 1 unidad: Las Ventas
de electricidad se reducen en promedio en 147.1 mills de
nS/. cuando la TAR se  en 1 ctvUS$/kWh
Aplicación 1:
La Demanda de Electricidad (2/2)
2 = Da el VEN ante un PBI en 1 unidad: Las
Ventas de electricidad se elevan en promedio en
0.067 mills de nS/. cuando el PBI se  en 1 mll
de nS/.1992 2012

EVALUACIÓN
ESTADÍSTICA DE LA
ESTIMACIÓN

I. BONDAD DE AJUSTE
 Coeficiente de Determinación ó R2:
Mide el grado de ajuste lineal de la regresión e indica el %
de la variación observada de Y que es explicada por la
variación combinada lineal de los regresores (X’s).
0 < R2 < 1
 Por ej.: Si R2=0.76  El 76% de las variaciones de la
variable endógena (cantidad p.e.) son explicadas por las
variaciones de las variables independientes del modelo.
 NOTAR que: En muestras de Serie de Tiempo el valor del R2 va a estar
más cercano de 1 que en muestras de corte transversal, donde por lo
general sólo se tienen valores entre 0.2 y 0.5

II. INFERENCIA ESTADISTICA
Si el modelo estimado es:
^ ^ ^ ^ ^
Y = β1 + β2X2 + β3X3 + … + βkXk ó
^
Y = b1 + b2X2 + b3X3 + … + bkXk
 Test de significancia conjunta de vector β.
Prueba F–Fisher: βi asociados a las pendientes.
En MRL Múltiple 1ro. analizar test F y luego test individual t.
En un MRL Bivariado: F = (t)2
 Test de significancia individual de βi .
^
Prueba t – student sólo se conoce 2
µ .

TEST DE SIGNIFICANCIA CONJUNTA
(de todos los i asociados a pendientes)
Estadístico F (Análisis ANOVA):
H0 : vector β de pendientes = 0
H1 : vector β de pendientes  0
β2
β3 = 0
:
:
βk
^ Varianza explicada por la regresión
F =--------------------------------------------- 
Varianza no explicada por la regresión
^ SCE/(k-1)
F= ------------- ̃F(k-1,n-k)
SCR/(n-k)

TEST DE SIGNIFICANCIA CONJUNTA
^
Si F>F%
(k-1,n-k)
Aceptar H1.
= 0.05
1-= 0.95
Aceptar H1
Aceptar H0: βde pendientes= 0
Valor crítico F%
^
Si F<F%
(k-1, n-k) 
No rechazar H0.
=0.05 Prob < = 0.05
Análisis del P-valor:
 Si: Prob  0.05  Se acepta la H0: βde pendientes = 0
 Si: Prob < 0.05  Se rechaza la H0: βde pendientes = 0

TEST DE SIGNIFICANCIA INDIVIDUAL (de i)
(Prueba a 2 colas)
H0: βi = 0 Var. X no es importante para explicar Y
H1: βi  0 Var. X es estadísticamente importante para explicar Y
^
i - i
^
SE(i)
^
t =
Estadístico t :
̃ t(n-k)
0
/2= 0.025
1-= 0.95
Región de rechazo
de H0
Región de
aceptac. de la H0
tt/2
(n-k)-t/2
(n-k)
=0.05
Prob < 0.05Prob < 0.05
Análisis del P-valor:
 Si: Prob  0.05  Se acepta la H0: β = 0
 Si: Prob < 0.05  Se rechaza la H0: β = 0

DISTRIBUCIÓN t
g.l.
Prueba de
dos colas
Valor 
IC
Para el caso de un i: (n-k) grados de libertad

INTERPRETACIÓN Y
EVALUACIÓN
ESTADÍSTICA DE LA
ESTIMACIÓN

Cont. Aplicación 1:
I. Especificación:
La ecuación teórica a estudiar es:
donde:
VE : Volumen de energía vendida en GWh
PBI : PBI del área de influencia del mercado, en millones
nuevos soles constantes.
POB: Población del área de influencia del mercado (miles de habs.)
TAR : Tarifa promedio a cliente final en ctvUS$ / kWh en $ constantes.
VE = 1 + 2 PBI + 3 POB + 4 TAR + 
QD = 1 + 2 Ingreso + 3 Población + 4 Precio + 
II. Estimación:
La ecuación a estimar es:
2 >0, 3 >0 y 4 <0

Dependent Variable: VEN
Method: Least Squares
Sample: 1981 2001
Included observations: 21
Variable Coefficient Std. Error t-Statistic Prob.
PBI 0.067635 0.006660 10.15492 0.0000
POB 0.626912 0.045192 13.87215 0.0000
TAR -147.1479 50.80147 -2.896527 0.0100
C -9726.260 640.7192 -15.18022 0.0000
R-squared 0.984278 Mean dependent var 8178.407
Adjusted R-squared 0.981504 S.D. dependent var 1971.226
S.E. of regression 268.0884 Akaike info criterion 14.19015
Sum squared resid 1221814. Schwarz criterion 14.38911
Log likelihood -144.9966 F-statistic 354.7673
Durbin-Watson stat 1.751046 Prob(F-statistic) 0.000000
2. Se estima por MCO:
3. Evaluación.
El 98% de las variaciones
de VEN son explicadas
por PBI, POB y TAR.
Cont. Aplicación 1:
Test de significancia Conjunta:
Fest > Ftabla ó prob(F)<0.05
 Rechazar H0.
1. │test│>│ttabla 2│ ó 2. prob <0.05
Test de significancia individual:

Anderson, D., Sweeney, D. y Williams T. (2008). Estadística
para Administración y Economía. [10ma. Ed.] México,
Cengage Learning Editores S.A. de C.V., Cap 14 y 15.
Levin, R. y Rubin, D. (2010). Estadística para Administración
y Economía. Séptima Edición Revisada. Pearson Educación,
México. Prentice Hall. 2010. Cap. 12 y 13.
BIBLIOGRAFIA

Métodos de investigación cuantitativa: Regresión lineal múltiple

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Métodos de investigación cuantitativa: Regresión lineal múltiple

Similar a Métodos de investigación cuantitativa: Regresión lineal múltiple (20)

Más de Metodos_Cuantitativos

Más de Metodos_Cuantitativos (14)

Último

Último (20)

Métodos de investigación cuantitativa: Regresión lineal múltiple