1. Problemas de Estadística II
Cuaderno II: Regresión Multiple
Ingeniería Industrial. Curso 2000/2001
1. Se realizan las regresiones lineales:
bx1 = b¯0 + b¯1x2 R2
= 0:99
by = b®0+ b®1x1 R2
= 0:8
(a) Indicar si el modelo de regresión by = b±0 + b±1x2 será bueno o no.
(b) ¿Qué se espera que ocurra al ajustar un modelo de la forma
by = b°0 + b°1x1+ b°2x2 ?
2. De una encuesta de presupuestos familiares se han obtenido los siguientes datos mensuales:
Gasto en
teléfono (G)
Renta
familiar (R)
Tamaño
familia (T)
2000
3000
5000
8000
12000
10000
80000
160000
240000
120000
2
4
3
6
10
(a) Construir e interpretar un modelo para explicar el gasto en teléfono en función de la
renta familiar y el tamaño de la familia.
(b) Calcular el coe…ciente de determinación y la varianza residual.
(c) Construir un intervalo de con…anza con nivel 0.95 para el efecto de la variable R.
(d) Indicar qué coe…cientes son signi…cativos.
(e) Si el tamaño de la familia permanece constante, calcular el incremento de gasto esperado
para un incremento de renta de 35000 ptas.
(f) Efectuar el contraste de la regresión.
1
2. 3. Sea
L = latitud en grados
A = altura en metros
T = temperatura media anual
(a) Explicar T en función de L y A:
L A T
Gijón 43.4 22 13.9
Vigo 43.2 45 14.9
Barcelona 41.3 95 16.4
Valencia 39.5 24 17.2
Almería 36.8 7 18
Cádiz 36.5 30 18
(b) Prever la temperatura media de Tortosa, sabiendo que la latitud es 40.5 y la altitud 50
m.
4. A partir de una muestra de 21 datos se estima una ecuación de regresión lineal entre el
tiempo de duración de un proceso y una variable de control x1: La ecuación que se obtiene
es:
by = 2 + x1 bs2
R = 1
(a) Sabiendo que bs2
y = 5; calcular el coe…ciente de correlación.
(b) Construir un intervalo de con…anza (® = 0:01) para el parámetro que mide el efecto de
x1:
(c) Prever un valor de by para x1 = 10 construyendo un intervalo de con…anza del 99%. (En
la muestra x = 0).
(d) Para mejorar la ecuación anterior se incluyen otras dos variables x2 y x3, obteniendo
de nuevo con los 21 datos la ecuación de regresión múltiple:
by = b¯0 + b¯1x1 + b¯2x2 + b¯3x3 bs2
R = 0:5
donde ¯0 = 2; ¯1 = 1:5; ¯2 = 0:3; var(¯1) = (0:1)2
; var(¯2) = (0:54)2
; var(¯3) = (0:2)2
:
Calcular el coe…ciente de correlación y justi…car si esta línea es mejor o no que la
anterior. ?‘Qué conclusión podemos extraer respecto a la relación entre x2 y x3?
5. Demostrar que en el modelo de regresión:
(a) e0 bY = 0
(b) X0
Y = X0 bY
2
3. 6. Explicar en qué condiciones si se introduce una nueva variable explicativa en un modelo de
regresión no se modi…can los coe…cientes de las demás variables.
7. El resultado de la regresión entre las variables X1; X2 e Y es el siguiente:
Y = 5+ 3
(4)
X1+ 2
(3)
X2
bs2
R = 1 bs2
y = 10
donde entre paréntesis …gura el error estándar. Analizar el resultado.
8. En base a una muestra de 30 observaciones anuales se ha estimado la siguiente ecuación e
regresión para la demanda de aceite de oliva de un determinado país:
log y = ¡0:05¡ 0:29
(0:05)
log x1+ 0:23
(0:08)
log x2+ 0:15
(0:10)
log x3+ 0:09
(0:09)
log x4
R2
= 0:75
donde:
y = demanda de aceite de oliva
x1 = precio del aceite de oliva
x2 = precio del aceite de girasol
x3 = precio de la mantequilla
x4 = renta de los consumidores
Los números entre paréntesis son las estimaciones de las desviaciones estándar de cada
parámetro estimado. Se pide:
(a) Interpretar los coe…cientes
(b) ¿Cómo afectaría a la demanda de aceite de oliva un aumento en su propio precio?
(c) Obtener un intervalo de con…anza al 99% para el coe…ciente del precio del aceite de
oliva en el modelo.
(d) Contrastar la hipótesis nula de que la elasticidad de la renta de la demanda de aceite
de oliva es cero. (¯4 = 0)
(e) Contrastar la hipótesis nula de que el precio de la mantequilla no in‡uye en la demanda
de aceite de oliva.
(f) En base al modelo estimado, ?‘podemos a…rmar que un aumento en el precio del aceite
de oliva implicaría un incremento de la demanda de aceite de oliva?
(g) Efectuar un contraste de regresión.
3
4. 9. Para estudiar la relación entre la variable Y y tres variables X1;X2 y X3 se toman 20 obser-
vaciones observándose unos datos tales que:
X0
X =
0
B
B
B
B
B
@
20 11 8 9
11 7 4 5
8 4 4 4
9 5 4 6
1
C
C
C
C
C
A
(X0
X)¡1
=
0
B
B
B
B
B
@
1 ¡1 ¡1 0
¡1 1:4 0:8 ¡0:2
¡1 0:8 1:85 ¡0:4
0 ¡0:2 ¡0:4 0:6
1
C
C
C
C
C
A
X0
Y =
0
B
B
B
B
B
@
327
210
138
130
1
C
C
C
C
C
A
Y 0
Y = 7950
y = 16:3
Se pide:
(a) Estimar el modelo
yi = ¯0 + ¯1x1i + ¯2x2i + ¯3x3i + ui
Indicar si los efectos estimados son signi…cativos mediante el contraste t y calcular R2
:
(b) Estimar el modelo
yi = ¯0 + ¯1x1i + ¯2x2i + ui
Indicar si los efectos estimados son signi…cativos mediante el contaste t y calcular R2
:
(c) A la vista de los resultados de los apartados anteriores, indicar qué modelo es mejor y
cómo son las variables X1; X2 y X3.
10. Se realiza un experimento para determinar la duración de vida de un producto (y) en función
de dos variables de fabricación (x1; x2) con los resultados siguientes:
y x1 x2
11 -10 0
8 0 -5
73 10 5
21 -10 0
46 0 5
30 10 -5
(a) Calcular la ecuación de regresión.
(b) Calcular bs2
R y R2
:
(c) Construir un intervalo de con…anza para la predicción en el punto (0; 0):
4
5. 11. Un investigador se plantea analizar el efecto de los años de estudio y los años de experiencia
laboral sobre la renta salarial de los trabajadores jóvenes. Para ello dispone de una muestra
de 20 individuos (entre 27 y 32 años) en la que observa:
y = Renta salarial (en millones de pesetas al año)
x1 = Años de estudios
x2 = Años de experiencia laboral
Además, el investigador cuenta con los datos que se adjuntan. En principio, se plantea un
modelo de regresión lineal que explique el nivel de renta en función del nivel de estudios y
los años de experiencia,
y = ¯0 + ¯1x1 + ¯2x2 + u
(a) Construye una tabla en la que aparezcan:
i. Los valores estimados para ¯0; ¯1; y ¯2:
ii. Sus desviaciones típicas (o estándar) estimadas.
iii. Los tres estadísticos t para las tres hipótesis nulas ¯0 = 0; ¯1 = 0 y ¯2 = 0:
iv. El coe…ciente de determinación.
(b) Contrasta las hipótesis nulas:
i. H0 : ¯1 = 0
H1 : ¯1 6= 0
ii. H0 : ¯2 = 0
H1 : ¯2 6= 0
iii. H0 : ¯1 = 0 y ¯2 = 0
iv. H1 : ¯1 6= 0 o ¯2 6= 0
(c) ?‘Se puede a…rmar que el nivel de estudios y los años de experiencia no tienen efecto
sobre el nivel de renta salarial?
(d) Alternativamente, el investigador se plantea el modelo de regresión
y = ¯0 + ¯1x1 + u
Para este modelo:
i. Estima los parámetros.
ii. Contrasta la hipótesis nula:
H0 : ¯1 = 0
H1 : ¯1 6= 0
iii. ?‘Cómo explicarías el resultado de este constraste y los del modelo de regresión
múltiple anterior?
5
6. iv. ?‘Puede existir algún problema de sesgo en la anterior estimación de ¯1 en este
modelo de regresión simple? Razona tu respuesta.
12. Conociendo los siguientes datos: cor(X1; Y ) = 0:4; cor(X2; Y ) = 0:3; cor(X1; X2) = 0;
sX1 = 3; sX2 = 5; sY = 10; las medias de X1; X2 e Y son cero y n = 100; se pide:
(a) Calcular la recta de regresión.
(b) Calcular R2
:
(c) Contrastar si los coe…cientes son signi…cativos y construir un intervalo de con…anza
para los mismos (® = 0:05):
(d) Indicar en qué se hubiera diferenciado el problema si
cor(X1; X2) 6= 0:
13. Se quiere estudiar si existe relación entre la velocidad (v); la cilindrada (c) y la potencia (p)
de las motos. para ello, se toma una muestra de 32 motos y se ajusta una serie de modelos
de regresión, quedando los siguientes resultados:
v = 89
(5:8)
+ 1:5
(0:1)
p R2
adj = 0:85 (1)
v =100
(7:4)
+ 0:1
(0:01)
c R2
adj = 0:72 (2)
v =88:7
(5:9)
+ 1:3
(0:26)
p+ 0:01
(0:019)
c R2
adj = 0:85 (3)
Indicar a la vista de las ecuaciones, qué relación tienen las variables p y c: ?‘Qué ecuación
eligiría usted?
14. Demostrar que el vector de valores previstos, según la estimación mínimo cuadrática, en un
modelo de regresión es la proyección ortogonal del vector Y (variable dependiente) sobre el
subespacio vectorial generado por las variables independientes 1; X1; : : : ; Xk.
15. Demostrar que los residuos de una recta de regresión satisfacen las siguientes ecuaciones:
nX
i=1
ei = 0
nX
i=1
eixi = 0
16. Dados los siguientes modelos de regresión
by = b¯0 + b¯1x R2
1
bx = b®0 + b®1x R2
2
Indicar la relación que existe entre b¯1 y b®1; ?‘y entre R2
1 y R2
2?
Demostrar que
b¯1
se(b¯1)
= b®1
se(b®1)
6
7. 17. Para estudiar la variable Edad de Jubilación de los trabajadores, se toma una muestra de
532 hombres que se jubilaronen 1987 obteniéndose
EJ = 63:1+ 0:047
(0:04)
AES¡ 0:75
(0:33)
ASAL¡ 0:09
(0:48)
CAS¡ 1:94
(0:65)
PAR
donde los valores entre paréntesis corresponden al error estándar y
EJ = Edad de jubilación
AES = Años de Estudio
ASAL =
8
<
:
1 si el trabajador es asalariado
0 en otro caso
CAS =
8
<
:
1 si el trabajador está casado
0 en otro caso
PAR =
8
<
:
1 si el trabajador estaba en paro el año anterior
0 en otro caso
Los residuos del modelo indican la conveniencia de introducir la variable AES2
obteniéndose:
EJ = 63:9¡ 0:25
(0:12)
AES+ 0:02
(0:007)
AES2
¡ 0:76
(0:32)
ASAL¡ 0:09
(0:48)
CAS¡ 2:12
(0:65)
PAR
cuyos residuos no parecen mostrar estructura. Se pide:
(a) Discutir qué variables son signi…cativas y por qué en el primer modelo.
(b) Hacer lo mismo con el segundo modelo.
(c) ?‘A qué se deben las diferencias?
(d) Indicar qué efecto tiene la educación sobre la edad de jubilación y calcualr la edad de
jubialción prevista de un hombre con pocos estudios (2 años), estudios medios (6 años)
o superiores (18 años) y comentar a qué podrían deberse las diferencias.
(e) Calcular la edad mínima de jubilación e indicar en qué valores de las variables explica-
tivas se obtendría.
18. Se pretende estudiar la relación entre la velocidad punta que alcanza un automóvil y su
peso y potencia. Se realizan tres regresiones con los resultados siguientes (los valores entre
paréntesis corresponden al error estándar):
V = 137:95+ 0:46
(0:028)
POT R2
= 0:8724
V = 125:75+ 0:07
(0:0098)
PESO R2
= 0:5509
V = 145:01+ 0:52
(0:05)
POT¡ 0:01
(0:0097)
PESO R2
= 0:8759
Comentar los resultados.
7