TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
Práctica 5.docx dei
1. Práctica 5.2. Problema resuelto de regresión lineal múltiple.
Problema 5. 4. “Una desea estimar los gastos en alimentación de una
familia en base a la información que proporcionan las variables
regresoras X1 =“ingresos mensuales” y X2 =“número de miembros de la familia”.
Para ello se recoge una muestra aleatoria simple de 15 familias cuyos
resultados son los de la tabla adjunta
(El gasto e ingreso está dado en cientos de miles de pesetas)”
Gasto Ingreso Tamaño Gasto Ingreso Tamaño
0'
43 2'
1 3 1'
29 8'
9 3
0'
31 1'
1 4 0'
35 2'
4 2
0'
32 0'
9 5 0'
35 1'
2 4
0'
46 1'
6 4 0'
78 4'
7 3
1'
25 6'
2 4 0'
43 3'
5 2
0'
44 2'
3 3 0'
47 2'
9 3
0'
52 1'
8 6 0'
38 1'
4 4
0'
29 1'
0 5
Datos del problema [ASCII] [spss-10] [sgplus-5]
Solución Problema 5.4.
Los datos en forma matricial:
2. Con estos datos se obtiene
Por tanto
De donde
El modelo de regresión lineal que se obtiene es:
3. A partir de esta ecuación se obtienen las predicciones y los residuos asociados
a las observaciones muestrales. Para la primera
observación se obtiene
Razonando así en todos los puntos muestrales se obtiene
Calculo de scR
También se puede calcular la scR de la siguiente forma
t
= t
Y - t
Xt
Y = yi
2
- 0 yi - 1 yix1i - 2 yix2i =
= 5'
7733 - .
8'
070 - 0'
149 .
32'
063 - 0'
077 .
28'
960
Se calculan los intervalos de confianza de los parámetros del modelo al 90%,
Para la varianza, 2
~ 12
2
5'
2253
< < 21'
0298
0'
0034 < 2
< 0'
0138
La varianza de los estimadores del modelo es
de donde se deduce que
4. V ar = 0'
00816 = 0'
0903
V ar = 0'
000099 = 0'
0099
V ar = 0'
00040 = 0'
0201
Intervalo de confianza para 0
t12
.
0'
0903 <-0'
160 - 0 < t12
.
0'
0903
- 0'
321 < 0 < 0'
001
Intervalo de confianza para 1 (ingreso)
t12
.
0'
0099 < 0'
149 - 1 < t12
.
0'
0099
0'
1314 < 1 < 0'
1666
Contrate H0 1 = 0, “la variable ingreso no influye” (contraste individual de la t)
Intervalo de confianza para 2 (tamaño)
t12
.
0'
0201 < 0'
077 - 2 < t12
.
0'
0201
0'
0412 < 2 < 0'
1128
Contrate H0 2 = 0, “la variable tamaño no influye” (contraste individual de la t)
Tabla Anova,
de donde
Tabla ANOVA
Fuentes de Suma de Grados de Varianzas
Variación Cuadrados libertad
scE (por el modelo) 1'
3595 2 e
2
= 0'
6797
scR (Residual) 0'
0721 12 R
2
= 0'
0060
scG (Global) 1'
4316 14 y
2
= 0'
1023
5. Con estos datos se obtiene el siguiente contraste conjunto de la F
El contraste conjunto de la F indica claramente la influencia del modelo en la
variable respuesta. Por tanto, de los contrastes individuales y del conjunto se
deduce la influencia de cada una de las dos variables regresoras y la influencia
conjunta del modelo.
Ahora se calcula el contraste individual de la F respecto a la
variable x2=“tamaño”, contraste que es equivalente al contraste individual de
la t. Para ello, se obtiene la regresión de la variable gasto respecto a la
variable ingreso,
la tabla ANOVA de este modelo es
Tabla ANOVA
Fuentes de Suma de Grados de Varianzas
Variación Cuadrados libertad
scE (ingreso) 1'
2716 1 e
2
= 1'
2716
scR (Residual) 0'
1600 13 R
2
= 0'
0123
scG (Global) 1'
4316 14 y
2
= 0'
1022
La variabilidad incremental debida a la variable diámetro es
este valor indica lo que aumenta la variabilidad explicada por el modelo al
introducir la variable tamaño.
Para contrastar la influencia o no de esta variable se utiliza el estadístico
6. que da el mismo p-valor que en el contraste individual de la t (hay pequeñas
diferencias por los resondeos).
Cálculo de los coeficientes de correlación:
El coeficiente de determinación,
El coeficiente de correlación múltiple
El coeficiente de determinación corregido por el número de grados de libertad.
El coeficiente de correlación simple entre las variables gasto e ingreso,
Este coeficiente es una medida de la relación lineal existente entre las
variables gasto e ingreso. También se puede calcular a partir del coeficiente de
determinación de la siguiente regresión
La tabla ANOVA del modelo es
Tabla ANOVA
Fuentes de Suma de Grados de Varianzas
Variación Cuadrados libertad
scE (ingreso) 1'
2716 1 e
2 = 1'
2716
scR (Residual) 0'
1600 13 R
2
= 0'
0123
scG (Global) 1'
4316 14 y
2
= 0'
1022
7. Análogamente, el coeficiente de correlación simple entre las variables gasto y
tamaño es,
Coeficiente de correlación parcial entre las variables gasto e ingreso.
r2
= =
= 0'
9496
r = 0'
974.
Otra forma más compleja de calcular este coeficiente es la siguiente: se
obtienen las siguientes regresiones y se guardan los residuos,
Gasto = 0'
6713 - 0'
0363 tamaño + e gasto.tamaño.
Ingreso = 5'
5923 - 07615 tamaño + e ingreso.tamaño.
Ahora el coeficiente de correlación parcial entre las variables gasto e ingreso se
obtiene como el coeficiente de correlación simple entre las
variables egasto.tamaño y eingreso.tamaño
r = =
= 0'
9740,
este coeficiente mide la relación entre las variables gasto e ingreso libres de la
influencia de la variable tamaño.
Análogamente se obtiene que
Estimación de la media condicionada.
“Estimar el gasto medio en alimentación de una familia con unos ingresos de x1 =
3'
0 y un tamaño de x2 = 4. Esto es ”.
Aplicando el modelo de regresión
Se calcula el valor de influencia asociado al dato h = =
8. hh = h
t -1
h
= = 0'
07649
nh = = 13'
073
La varianza del estimador es
Y un intervalo de confianza para mh al 90% es
Predicción de una observación.
“La familia Pérez que tiene unos ingresos de x1 = 3'
0 y un tamaño de x2 = 4. Esto
es ¿qué gasto en alimentación tendrá?”.
Aplicando el modelo de regresión estimado
La varianza de la predicción es
V ar = R
2
= 0'
0060 .
= 0'
0065
= 0'
0803
Y un intervalo de prdicción al 90% es
Algunos gráficos de interés que ayudan a resolver el problema son los
siguientes:
Gráficos parciales de las componentes