Ad2 tema3-12

TEMA 3
Modelo de regresi´n simple
o
Jos´ R. Berrendero
e
Departamento de Matem´ticas
a
Universidad Aut´noma de Madrid
o

An´lisis de Datos - Grado en Biolog´
a
ıa

Estructura de este tema

Planteamiento del problema. Ejemplos.
El modelo de regresiń lineal simple.
o
Recta de regresiń de m´
o
ınimos cuadrados.
Estimaciń, IC y contrastes para los par´metros del modelo.
o
a
An´lisis de la varianza en el modelo de regresiń lineal simple.
a
o
Predicciń.
o
Algunos modelos linealizables.
Diagn´stico del modelo.
o

Ejemplo: temperatura y vibraciń de las alas
o

Los grillos son ectotermos, por lo que sus
procesos fisiol´gicos y su metabolismo
o
estń influidos por la temperatura. Con
a
el fin de estudiar estas cuestiones se ha
medido el n´mero de vibraciones por seu
gundo de las alas de un grupo de grillos
a varias temperaturas.

Vibraciones/seg.
20.0
16.0
19.8
18.4
17.1
15.5
14.7
17.1
15.4
16.2
15.0
17.2
16.0
17.0
14.1

Temp.
88.6
71.6
93.3
84.3
80.6
75.2
69.7
82.0
69.4
83.3
78.6
82.6
80.6
83.5
76.3

Ejemplo: Temperatura y vibraciń de las alas
o

Consideramos dos variables (fichero grillos.sav):
X : Temperatura
Y : N´mero de vibraciones de las alas por segundo
u
¿Qu´ podemos decir sobre la relaciń entre las dos variables?
e
o
¿Podemos afirmar (con un nivel de significaciń dado) que al aumentar la
o
temperatura, aumenta la frecuencia de vibraciń?
o
¿Podemos predecir aproximadamente el valor de la variable Y si sabemos
el valor de X ? ¿Qu´ grado de fiabilidad tiene la predicciń?
e
o

Ejemplo: renta y fracaso escolar en la CAM
Ejemplo

q

30

35

q

Arganda

25

q
q
q
q

q

20

q

q
q
q

q
q

q

15

q

q

q

q
q

10

% fracaso escolar

q
q
q

q

10

12

14

16

18

Renta (en miles de euros)

Torrelodones

20

22

Covarianza
Se dispone de un conjunto de n pares de observaciones
(x1 , y1 ), . . . , (xn , yn ).

La covarianza entre x e y sirve para cuantiﬁcar el grado de relaci´n lineal
o
que hay entre x e y :
covxy

1
=
n

n
i=1

1
(xi − x )(yi − y ) =
¯
¯
n

n

xi yi − n¯y
x¯
i=1

Propiedades:
covxy = covyx .
covxy depende de las unidades en que se miden x e y .
covxx = vx , es decir, la covarianza de x con x es la varianza de x.

Interpretaci´n de la covarianza
o

2

q

q

q
q

qq

q
q

q
q
q

q

−2

q q

q

q

q

q

q
q
q
qq

q

q

q

q

y

q

q

q
q
q
q
q
qq q
q
q
qq
q
q q
q
q
q
q
q
q q q
q
q
q q q
q
q q q q
q q
q q
q
q
q
q
q q
q
q
q q
q qq
q
q q qq
q
q
q
q
q
q q q
qq q
q
qq q
q
q q
qq
q
q
q
q
q q qq q
q
q
q q
q qqq
qq q
q q
q
q
qq
q q q q
q
q
q q q qq q q q
q
q
q
qq
q q
q
qq
qq
q q
q q qq
q
q
q
q qq
q q
q
q q q q
q
qq q
q
q q qq
q
q qq q
q
q
q
q
qq q
q
q q qq q q q
q
q
q
q
q
q
qqq
q qq
q
q
q
q q qq q qq q q qq qq q qq q
q
q qq q q q
q
q q qq q
q qq
qq qq
q
q q qq q
q qq q
q q q q
q q q
q
q
qq
q
q
q
q qq q q q q
q q q q qq
q
q q qq
q q
q
q q q
q q q q q q qq q q qqq q q q qq qq
q
q
q q
qq
qq q q
q
q
q
q q qq q q qq q q q q q q q qq q
q
q qq q q
q q
q
q
q q q
q
q
q
q
q
qq
qqqq
q q q q q
q q q
q
q q q q
q
qq q q q q
q
q
q
qq
q
qq
q
q q
q
q
q
q q q
q
qq q
q
q
q qq q
q
q
q
q
q
q
q q q
q q
qq q q
q
qq
q
q q q
qq
q
q
qq
q
q
q
q q q
q
q q
q q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q q q
q q
q
q
q

q

q
q q

0

q

−2

y
0

q

q

q
q q

q

q

q

q
q

4

q

q

q

q

2

4

q
q
q
q
q
q
q
q
q q
q q
q
q
q q
q
q
qq q q q
q q q q
qq q
q q q
q q
q
q
q
q q q qq q
q q
q
qq q
q
q
q
q
q
q q
qq
q q q
q
q q
q
q
qq q q q q
q
q
q q
q q q
q
q
q q q
q
q
q
q
q qq
qq
qq
q
q q
q
q q q qq q q
q q q q
q
q
q
q
q
q
qq
q
q q
q
q
q q qq qq q q q q q q
q
q q q
q q
q q
q
q
qq
q q
q
q q q
q
q q
q
q
q qqqq
q q
q
q
q
qq q q
qq q
q
q
q
q
q
q q q qq q qq q qq q qq q
q q
q
qq
q
q
q
qq q qq q q
q
q q
q
q
q q q qq
qq q
q
q
q q q
q
qq
q
q
q
q
q qq
q
q
q q q q q qqq
qq
q
q
q
q q
q
q
q q qq
q
q q q
q
q
q
q
qq qq q q
q q q q q qq q q q q q q
q
qq q q q
q
qq
q
q
q q
q
q
q
q
q
qq q
q q
q q qq
q
q
qq q q q q
q q
q
q
q
q
q
q q q q qq qq q q q q
q q
q qq
qq
q
q
q
qq q
q qq q q
q q q qq
q q
q q q q q q q qqq
qq q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq q
q
q
q
q
q q q q q
qq
q
q
q
qq
q
q
q
q
q q q
qq
q
q qq
q
q
q
q
q
qq q
q
q
q
q
q
q
q
qq
q
q
q
q q
q
q
q
q
q

q

q

q
q

−4

q
q

q

−4

q

−2

−1

0

1

q

−2

−1

2

q

q

q

q

q

2

q

q

q

q

q

q

q
q
qq
q
q
q
q
q
q q
q
q
qq q q
q
q
q
q q
q q
q
q
q q
q
q
qq
q
qq
q q q
q q
q q
q
q qq
q
q
q qq q
q q
q
q
qq q q q q
q
q q qq q
q
q
qq
q
qq
q
q
q q q
q
q
q
q
q q q
q
q
q
q
q
q
q q q
q q qq q
q
q
q q
q q qq q
q q
qq
q
q qq
q qq
q
q
q
q qq
qq q qq
q
q
q q
q
qq q q q q
q
q
q
q q
q q
q q
q
q
qq q q
q
q
q q qq q q
q
q
q
q
q q
q
q
q
qq q q
q
q
qq q q q q
q
q
q q
q qq q
q q qq
q q
qq q
q
q
q
q
q
q
q qq q q q
q
q
q q q
q q qq q
q
q q
q
q q
q q
qq
q q
q
q
q
q q
q
q qq q
q
q
q
q q qq q
q
q
q
qq
q
qq q
q
qq q
qq
q
q qq
q
q qq q q
q
q
q
q
q
q q q
q qq
q
qq
q
q
q
q
q
q
q q
q
q q q
qq qq q
q
q
q
q q q q
q
q
q
q
q
qq
q
q q
q
qq q q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q q
q
q q q qq q
q
qq
q q
q q q
qq
q
q
q
q
q
q q
qq q q
q q
q
qq q
q
q
q
q
q
q
q
q
q
q
q
qq
q qq
q qq
q
q
q
q
q
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q qq
q
q
q
q
q
q
q
q

q
q

q
q

−1

q

q
q
q

−2

0
Covarianza aprox. cero

1

2

q
q

q

4

q
qq
q
q

q

y

q

−1

q

q
q

q

q

2

0

q

q

q

q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q
q q
qq
q
q
q
q q
q q q
q
qq
qq
q
q
q
q
qq q
q q q
q
q
q
qq q
q
q
q
q
q
q q
q
q
q
q q q
q
q q q
q
q
q
q
q q
q
q
q q
qq q
q q qq
q
q
q q qq q
q
q
qq
q
q
qq
q
qqq q q q
q
q
q q
q
q
q q
q
q
q
q
qq
qq
q q q
q
q
q
q q q q q
q q qq q
q
q q
q
q
qq
q
q
q
q
q
qq
q q
qq q qqq
q
qq
q q
q
q
q
q
q
q
q q q q
qq q
q
q q q q q qq q q
q qqq
q
qq q
q
q
q
q q
q qq qq q qqq
q
q
q qq q
qq
q
q
q
q
qq q q
q
qq q
q
q
q qq q q q q
q
q q q qqq q q q q qqq
q q q
q
q q
q
q
q
qq q
q
q qq
q
q
qq q
q q
q qq q q q qqq q q q
q
q
q qq
q
q q
q
q
q q
q
q
q
q q q q q q q q q q qqq qq q q q
q
q
q
q q q q q qq q q qq
q qq q q q q
q q
q
q
q
q
q q q q
q
q
q
q
q q q qq q qqq
q
qq q q q qq q q
qq
q
q qq q q
q
q q q q q q qq q qq q q qqq q q
q
q
q
q
q q q q q qq q
qq
q
qq
q
q
q q
q
q
q q
q q
q qq
q
q q
q qq
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q

q

0

1

q
q
q

6

q

q

−2

q
q
q q q
q
q
q
q
q

q
q

y

1

q

q

−2

0
Covarianza negativa

q

q

q

q

q

2

Covarianza positiva

q

q

q
q

q

−2

−1

0
Covarianza aprox. cero

1

2

q
q
q

Coeficiente de correlaciń
o
Resulta conveniente disponer de una medida de relaciń lineal que no
o
dependa de las unidades. Para ello, se normaliza covxy dividiendo por el
producto de desviaciones t´
ıpicas, lo que lleva al coeficiente de
correlaciń:
o
covxy
rxy = √ √ .
vx vy
Propiedades:
No depende de las unidades
Siempre toma valores entre -1 y 1.
Su signo se interpreta igual que el de la covarianza
S´lo vale 1 ´ -1 cuando los puntos estń perfectamente alineados.
o
o
a
Aunque rxy ≈ 0, las variables x e y no son necesariamente
independientes.

Desviación
típica
1,7319

Media
Vibraciones
16,633
Estadísticos descriptivos
Temperatura
79,973

N
15

Correlaciones

Vibraciones

Media
16,633

Desviación
Vibraciones
Correlación de Pearson
1
típica
N
Sig. (bilateral)
N
1,7319
15 15

Vibraciones

Temperatura

Temperatura

79,973

Sig. (bilateral)
6,7170
N

Correlaciones

15

6,7170

Vibraciones


Temperatura
,836

Sig. (bilateral)
N

1

,000
15

15


,836

1

,000
15

20,0

19,0

N

Temperatura

Vibraciones

Sig. (bilateral)

20,0

Vibraciones Temperatura
1
,836
19,0

18,0

,000
15

17,0

Sig. (bilateral)
N

18,0

,836

16,0

Vibraciones

Vibraciones

,000
15

15,0

15
1

17,0

15
16,0

14,0
65,0

20,0

70,0

75,0

80,0

Temperatura

85,0

15,0

,000
15

N

15

Correlaciones

Temperatura
,836

Sig. (bilateral)

,000

Temperatura
15

,836

15

Vibraciones
1

90,0

95,0

15

Problema de regresiń
o

Observamos dos variables, X e Y , el objetivo es analizar la relaciń
o
existente entre ambas de forma que podamos predecir o aproximar el valor
de la variable Y a partir del valor de la variable X .
La variable Y se llama variable respuesta
La variable X se llama variable regresora o explicativa
En un problema de regresiń (a diferencia de cuando calculamos el
o
coeficiente de correlaciń) el papel de las dos variables no es sim´trico.
o
e

Recta de regresiń
o
Frecuentemente, existe entre las variables una relaciń aproximadamente
o
lineal:
Yi ≈ β0 + β1 xi .

La recta y = β0 + β1 x es una recta de regresiń.
o
El par´metro β1 es la pendiente de la recta. Indica la variaciń
a
o
media de la variable respuesta cuando X aumenta una unidad.
El par´metro β0 es el t´rmino independiente de la recta. Indica el
a
e
valor medio de Y cuando X = 0.
Objetivo: estimar los par´metros β0 y β1 a partir de los datos (xi , Yi ),
a
i = 1, . . . , n.

11

ˆ
ˆ
Datos con β0 ≈ 3, β1 ≈ 0.5 y r ≈ 0.8

12

q

10

q

9

q

q

y3

y1

8

q

10

q

q

q

q

6

8

7

q

4

5

q

6

q
q

q

4

6

8

10

12

14

4

q

q

q

q

6

8

x1

q

q

8

14

q

10
y4

7
5

8

q
q

q

q
q
q
q
q

6

4

y2

12

q

q

q

6

10

12

9

q
q

q

3

q

q

x3

q

q

4

q

q

6

8

10
x2

12

14

q
q
q

8

10

12

14
x4

16

18

El modelo de regresiń lineal simple
o

Para poder hacer inferencia (IC y contrastes) sobre los par´metros,
a
suponemos que se verifica el siguiente modelo:
Para todas las observaciones i = 1, . . . , n
Yi = β0 + β1 xi + ui ,
donde:
El valor medio de los errores ui es cero.
Todos los errores ui tienen la misma varianza σ 2 (homocedasticidad).
Las variables ui tienen distribuciń normal.
o
Las variables ui son independientes.

58

STATISTICAL INFERENCE

Figure 3.4 Joint density functions (shown symbolically) of the bivariate normal distributions of the form
(3.9) with varying m.

where f ðx; mÞ is the normal density function of N ðm; 1Þ. Figure 3.4 shows symboli-

30

¿En qu´ situaciones se veriﬁca el modelo?
e
q

q

q

2

q

q

q

qq q
q
q q qq
q
qq
q
q

q
qq
qq q
q q

q
q
q

20

q

q

q
q

q

q

q
q

q

q

y3

q

qq

q
q

q

0

4

q
q

3

y1

5

q
q

q

10

6

7

q

q
q

q

q
q
q
qq q
q
qq qq
q
qq q
qq q
q
q
q
q q
q

q

q
q

q
q q
qq q

q

q
q

q
q
q

q

1

2

3

4

5

q

q
q

−10

1

q
q

6

1

2

3

4

5

q

q

q
q

y4

q
q
qq q q
q
qq q
q

4

y2

15

5

20

6

25

q

10

q
q
q
q

3

q

0

−4

−2

q q
q q
q
q qqq q
qq q q q q q
qq
q
q
q
q qq q q

0

q
qq
q
q

qq
q
q

q

q

q
q
q
q q
qq
q q
q q

q
q
q

2
x2

q

qq
q
q q qq
q q
q q
q qq
q
q q q

q

2

5

q
q
q

6

x

7

x

4

1

2

3

4
x

5

6

La recta de m´
ınimos cuadrados
ˆ
ˆ
Si estimamos β0 y β1 mediante β0 y β1 , la predicciń de la variable
o
respuesta Yi en funciń de la regresora xi es:
o
ˆ
ˆ
ˆ
Yi = β0 + β1 xi
Unos buenos estimadores deben ser tales que los errores de predicciń
o
ˆ
ˆ
ˆ
ei = Yi − Yi = Yi − (β0 + β1 xi )
sean pequeõs.
n
La recta de regresiń de m´
o
ınimos cuadrados viene dada por los valores
ˆ
ˆ
β0 y β1 para los que se minimiza:
n

[Yi − (β0 + β1 xi )]2
i=1

q

3

3

q

2

q

2

q

q

q

1

q
q

y

y

1

q
q
qqq

0

q

q
q

q

q

q

q
−1

−1

qqq

q

0

q

q

q

q

q
−2

q

−1

0
x

1

2

−2

−1

0
x

1

2

Estimadores de m´
ınimos cuadrados
Pendiente:

√
v
ˆ1 = covxy = r √ y = r Sy .
β
vx
vx
Sx

T´rmino independiente:
e
ˆ
¯
ˆ¯
β0 = Y − β1 x

Al igual que en los modelos de los temas anteriores:
ˆ
ˆ
ˆ
A las predicciones Yi = β0 + β1 xi se les llama valores ajustados o
pronosticados.
ˆ
A los errores ei = Yi − Yi se les llama residuos.

o
Estimadores de los par´metros:
a
Sy
1.73
ˆ
= 0.84
= 0.2155
β1 = rxy
Sx
6.72
ˆ
¯
ˆ¯
β0 = Y − β1 x = 16.633 − 0.2155 × 79.973 = −0.615
Recta de regresi´n:
o
y = −0.615 + 0.2155x
Predicci´n de Y0 para x0 = 80:
o
ˆ
Y0 = −0.615 + 0.2155 × 80 = 16.625

Diagrama de dispersi´n y recta estimada
o
20,0

19,0

Vibraciones

18,0

17,0

16,0

15,0
R2 Lineal = 0,7

14,0
65,0

70,0

75,0

80,0

Temperatura

85,0

90,0

95,0

Observaciones

La recta de m´
ınimos cuadrados pasa por el punto cuyas coordenadas
son las medias: (¯, Y ).
x ¯
Si la variable regresora se incrementa en una desviaciń t´
o ıpica
∆x = Sx , entonces la predicciń de la variable respuesta se
o
ˆ
incrementa en r desviaciones t´
ıpicas: ∆Y = rSy
Puede demostrarse que la suma de los residuos siempre vale cero.
La recta para predecir Y en funciń de X no es la misma que la recta
o
para predecir X en funciń de Y .
o

La varianza residual

La varianza residual es un estimador insesgado de σ 2 :
2
SR =

n
2
i=1 ei

n−2

=

n
i=1 (Yi

ˆ
− Yi )2
=
n−2

n
i=1 (Yi

ˆ
ˆ
− β 0 − β 1 x i )2
.
n−2

Se pierden dos grados de libertad puesto que los residuos veriﬁcan dos
restricciones:
La media de los residuos es igual a cero.
La covarianza entre los residuos y la variable regresora es tambi´n
e
igual a cero.

Una simulaciń
o

Supongamos que σ = 1, β0 = 0 y β1 = 1.
Entonces el modelo es
Yi = xi + ui ,
donde los errores ui tienen distribuciń normal estńdar y son
o
a
independientes.
Fijamos xi = 1, 2, . . . , 10 (n = 10) y generamos las respuestas
correspondientes de acuerdo con este modelo.
Posteriormente calculamos la recta de m´
ınimos cuadrados y la
representamos junto con la verdadera recta y = x.

10

Repetimos 6 veces el experimento
q

q

8

10

q

q

q
q

8

8

q
q

q

q
q

q

6

q

q

6

6

q
q

q

4

q
q

4

q

4

q

q
q

2

q

2

q

q

0

0

2

q

q

2

4

6

8

10

0

q

2

4

8

10

0

2

4

x

q

6

8

10

x

q

10

10

x

6

q

q

10

0

q

q

q

8

8

q

8

q

q

q

q

6

q

q

6

q
q

q

q

4

q

6

q

q

q

2

4

4

q

q

q

q
q

2

2

0

q

q

−2

q

0

2

4

6
x

8

10

0

q

2

4

6
x

8

10

0

2

4

6
x

8

10

10

q

q

8

10

q

q

q
q

8

8

q
q

q

q
q

q

6

q

q

6

6

q
q

q

4

q
q

4

q

4

q

q
q

2

q

2

q

q

0

0

2

q

q

2

4

6

8

10

0

q

2

4

8

10

0

2

4

beta1=
1.11

q

6

8

10

beta1=
0.84

q

10

10

beta1=
0.9

6

q

q

10

0

q

q

q

8

8

q

8

q

q

q

q

6

q

q

6

q
q

q

q

4

q

6

q

q

q

2

4

4

q

q

q

q
q

2

2

0

q

q

−2

q

0

2

4

6
beta1=
0.95

8

10

0

q

2

4

6
beta1=
1.01

8

10

0

2

4

6
beta1=
0.99

8

10


100

250

Los estimadores son
centrados y tienen
distribuci´n normal.
o

0

Existen f´rmulas del
o
ˆ
error t´
ıpico de β0 y
ˆ1 que miden su
β
variabilidad.

−1

0

β0

1

2

0

50

150

−2

0.6

0.8

1.0

β1

1.2

1.4

Estas f´rmulas son
o
las que se utilizan
para calcular IC y
llevar a cabo
contrastes en lo que
sigue.

Error t´
ıpico del estimador de la pendiente

ˆ
error t´
ıpico de β1 =

SR
n
i=1 (xi

− x )2
¯

= SR

1
nvx

Al aumentar nvx , el error t´
ıpico de la pendiente disminuye (es decir, la
estimaciń de la pendiente es m´s precisa).
o
a
Conviene diseãr el experimento de forma que los valores xi tengan la
n
mayor dispersiń posible.
o

Error t´
ıpico del estimador del t´rmino independiente
e

ˆ
error t´
ıpico de β0 = SR

1
x2
¯
+
n nvx

Si x 2 es grande, se estima con menos precisi´n el t´rmino
¯
o
e
independiente.

Intervalos de confianza
ˆ
Los intervalos de confianza de nivel 1 − α para los par´metros βi (i = 0, 1)
a
tienen la estructura habitual:
ˆ
IC1−α (βi ) ≡ βi

ˆ
tn−2,α/2 × error t´
ıpico de βi

En comparaciń con los intervalos de confianza para la media:
o
Los grados de libertad son n − 2 en lugar de n − 1.
La f´rmula del error t´
o
ıpico es m´s complicada.
a
El intervalo de confianza para σ 2 tambiń tiene la estructura que ya hemos
e
visto en los modelos de los temas anteriores:
IC1−α (σ 2 ) ≡

2
2
(n − 2)SR (n − 2)SR
, 2
χ2
n−2;α/2 χn−2;1−α/2

o

2
Para los datos del ejemplo se ha calculado SR = 0.97.

Calcula los errores t´
ıpicos de los estimadores de la pendiente y del
t´rmino independiente.
e
Calcula un intervalo de conﬁanza de nivel 95% para β1 .
Calcula un intervalo de conﬁanza de nivel 95% para β0 .

Contrastes para los par´metros
a

Contraste bilateral:
Hip´tesis: H0 : βi = 0 frente a H1 : βi = 0
o
Regiń cr´
o
ıtica:
ˆ
|β i |
R=
> tn−2,α/2
ˆ
error t´
ıpico de βi

.

Contrastes unilaterales:
Hip´tesis: H0 : βi ≤ 0 frente a H1 : βi > 0
o
Regiń cr´
o
ıtica:
ˆ
βi
R=
> tn−2,α
ˆ
error t´
ıpico de βi
Hip´tesis: H0 : βi ≥ 0 frente a H1 : βi < 0
o
Regiń cr´
o
ıtica:
ˆ
βi
R=
< −tn−2,α
ˆ
error t´
ıpico de βi

.

.

o

¿Aportan los datos evidencia para afirmar (α = 0.01) que la
temperatura tiene una influencia significativa sobre la frecuencia de
vibraciń de las alas?
o
¿Podemos afirmar a nivel α = 0.01 que al aumentar la temperatura
aumenta la frecuencia media de vibraciń de las alas?
o
Escribe la regiń cr´
o
ıtica para contrastar H0 : β1 = 1 frente a
H1 : β1 = 1.

Con SPSS: temperatura y vibraciones
Resumen del modelo
R
,836 a

Modelo
1

R cuadrado
corregida
,677

R cuadrado
,700

Error típ. de la
estimación
,9849

a. Variables predictoras: (Constante), Temperatura
ANOVAb

Modelo
1
Regresión

Suma de
cuadrados
29,383

1

Media
cuadrática
29,383
,970

gl

Residual

12,611

13

Total

41,993

F
30,290

Sig.
,000 a

14

a. Variables predictoras: (Constante), Temperatura
b. Variable dependiente: Vibraciones
Coeficientesa

Coeficientes no estandarizados
Modelo
1
(Constante)
Temperatura

B
-,615

Error típ.
3,144

,216

,039

a. Variable dependiente: Vibraciones

Coeficientes
tipificados
Beta

t
-,196
,836

Sig.
,848

5,504

,000

Con SPSS: renta y fracaso escolar
&[PageTitle]
Resumen del modelob
R cuadrado
corregida
Modelo
R
R cuadrado
a
1
,742
,550
,528
a. Variables predictoras: (Constante), Renta
b. Variable dependiente: Fracaso

Error típ. de la
estimación
4,7566

ANOVAb
Suma de
cuadrados
gl
Regresión
580,516
1
Residual
475,133
21
Total
1055,649
22
a. Variables predictoras: (Constante), Renta
b. Variable dependiente: Fracaso

Modelo
1

Media
cuadrática
580,516
22,625

F
25,658

Sig.
,000a

t
10,562
-5,065

Sig.
,000
,000

Coeficientesa

Coeficientes no
estandarizados
Modelo
B
Error típ.
1
(Constante)
38,494
3,645
Renta
-1,347
,266
a. Variable dependiente: Fracaso

Coeficientes
estandarizad
os
Beta
-,742

Cuestiones
Escribe la ecuaciń de la recta de m´
o
ınimos cuadrados que describe el
nivel de fracaso escolar como funciń de la renta.
o
Calcula intervalos de confianza de nivel 95% para la pendiente y el
t´rmino independiente de la recta de regresiń.
e
o
¿Podemos afirmar, a nivel α = 0.05 que niveles m´s altos de renta
a
estń asociados a niveles m´s bajos de fracaso escolar?
a
a
¿Cuńto vale el coeficiente de correlaciń entre el nivel de renta y el
a
o
porcentaje de fracaso escolar?
¿Qu´ porcentaje de fracaso escolar se predice en una poblaciń cuya
e
o
renta es x0 = 13000 euros?
¿Cu´l es el residuo correspondiente a Colmenar Viejo?
a

An´lisis de la varianza en regresi´n simple
a
o

Yi
¯
Yi − Y

ˆ
= Yi + ei
ˆ
¯
= (Yi − Y ) + ei

n

n

¯
(Yi − Y )2 =
i=1

n

ˆ
¯
(Yi − Y )2 +
i=1

ei2
i=1

SCT = SCE + SCR

SCT mide la variabilidad total (tiene n − 1 gl)
SCE mide la variabilidad explicada por el modelo (tiene 1 gl)
SCR mide la variabilidad no explicada o residual (tiene n − 2 gl)

Tabla ANOVA y contraste F
Fuente de variaciń
o
Explicada (SCE)
Residual (SCR)
Total (SCT)

Suma de cuadrados
n
ˆ
¯ 2
i=1 (Yi − Y )
n
2
i=1 ei
n
¯
(Yi − Y )2
i=1

gl
1
n−2
n−1

cuadrados medios
n
ˆ
¯ 2
i=1 (Yi − Y )
2
SR =

estad´
ıstico
F

n
2
i=1 ei
n−2

2
El estad´
ıstico F es igual a SCE/SR .

Si F es suficientemente grande (la variabilidad explicada es muy grande
respecto a la no explicada), se debe rechazar H0 : β1 = 0.
Bajo H0 : β1 = 0, el estad´
ıstico F tiene distribuciń F1,n−2 . La regiń
o
o
cr´
ıtica de nivel α del contraste es:
R = {F > F1,n−2;α }

Tabla ANOVA y contraste F
Para contrastar H0 : β1 = 0 a nivel α hemos considerado tres
procedimientos:
Calcular un IC de nivel de conﬁanza 1 − α para β1 y rechazar H0 si 0
no pertenece al intervalo.
ˆ
Dividir |β1 | por su error t´
ıpico y rechazar H0 si el valor obtenido es
superior a tn−2;α/2 .
2
Calcular F = SCE/SR y rechazar H0 si el valor obtenido es superior a
F1,n−2;α .

Los tres m´todos son equivalentes en este modelo.
e

Evaluaciń del ajuste
o
Para valorar el grado con el que la recta se ajusta a los datos se emplean
varias medidas:
El coeficiente de correlaciń r .
o
El coeficiente de determinaciń:
o
R2 =

Variabilidad explicada
SCE
=
Variabilidad total
SCT

En el modelo de regresiń simple R 2 = r 2 , el coeficiente de
o
determinaciń coincide con el coeficiente de correlaciń al cuadrado.
o
o
El error cuadr´tico medio:
a
ECM =

n
i=1 (Yi

n

ˆ
− Yi )2

=

Puede comprobarse que ECM = Vy (1 − r 2 ).

n
2
i=1 ei

n

.

Cuestiones

ˆ
Si SCT = 8100, SCE = 6900 y β1 = −6.7. Calcula el coeficiente de
correlaciń entre la variable regresora y la variable respuesta.
o
Para un conjunto de 20 datos se sabe que SCT = 7200, SCE = 2900
ˆ
y β1 = 3.1. Calcula el coeficiente de correlaciń, el coeficiente de
o
determinaciń y el error cuadr´tico medio.
o
a

Inferencia sobre la variable respuesta
Una de las razones para ajustar un modelo de regresiń simple es obtener
o
informaciń sobre Y cuando x toma un valor x0 conocido. Hay dos
o
problemas relacionados con este objetivo:
Estimar el valor medio de Y para los individuos de la poblaciń
o
para los que X = x0 . Si µ0 es este valor medio,
µ0 = β0 + β1 x0 .
Predecir el valor individual que tomar´ la variable Y para una
a
nueva observaciń para la que se sabe que X = x0 . Si Y0 es este
o
valor,
Y0 = β0 + β1 x0 + u0 .
¿Qu´ problema es m´s dif´ de los dos?
e
a
ıcil
¿Qu´ estimador y qu´ predicciń resultan razonables para µ0 y Y0 ?
e
e
o

Estimaciń y predicciń puntual
o
o
En ambos casos, el estimador (o predicciń) puntual es:
o
ˆ
ˆ
ˆ
¯
ˆ
Y0 = β0 + β1 x0 = Y + β1 (x0 − x ).
¯
Sin embargo, el intervalo de confianza para µ0 es diferente del intervalo de
predicciń para Y0 .
o
Intervalo de confianza para µ0 de nivel 1 − α:


2
¯
ˆ
Y0 tn−2;α/2 SR 1 + (x0 − x ) 
n
nVx
Intervalo de predicciń para Y0 de nivel 1 − α:
o


2
¯
ˆ
Y0 tn−2;α/2 SR 1 + 1 + (x0 − x ) 
n
nVx

o
Calcula un intervalo de confianza de nivel 95% para el n´mero medio
u
de vibraciones de las alas de los grillos cuando la temperatura es de
80 grados Farenheit.
Calcula un intervalo de predicciń de nivel 95% para el n´mero de
o
u
vibraciones de las alas de un grillo cuando la temperatura es de 80
grados Farenheit.
En una poblaciń de la Comunidad de Madrid se sabe que la renta
o
per c´pita es 1000 euros inferior a la media de los datos disponibles.
a
Calcula un intervalo de predicciń de nivel 95% del porcentaje de
o
fracaso escolar en esa poblaciń. Repite el ejercicio para una
o
poblaciń cuya renta sea 1000 euros superior a la media.
o

% Fracaso
Renta

Medias
20.73
13.19

Cuasidesviaciones t´
ıpicas
6.92
3.81

Intervalos de conﬁanza y predicci´n
o
Bandas de
predicción

Bandas de
confianza

media

&[PageTitle]
Intervalos de conﬁanza para la media

Intervalos de confianza
40,0

Fracaso

30,0

20,0

10,0
Sq r lineal = 0,55

7,500

10,000

12,500

15,000

Renta

17,500

20,000

22,500

Renta

Intervalos de predicci´n para valores individuales
o
Intervalos de predicción
40,0

Fracaso

30,0

20,0

10,0
Sq r lineal = 0,55

7,500

10,000

12,500

15,000

Renta

17,500

20,000

22,500

Estimaciń de algunas relaciones no lineales
o

A veces, aunque la relaciń entre x e Y no sea lineal, el modelo de
o
regresiń simple puede aplicarse despu´s de transformar adecuadamente
o
e
las variables.
Modelos:
Modelo de regresiń exponencial
o
Modelo de regresiń logar´
o
ıtmica
Modelo de regresiń potencial
o

Modelo de regresi´n exponencial
o
La variable respuesta es aproximadamente una funci´n exponencial de la
o
variable regresora:
Y ≈ ae bx
Se linealiza tomando logaritmos:
log Y ≈ log a + bx

Si ajustamos un modelo lineal a
(x1 , log Y1 ), . . . , (xn , log Yn )
ˆ
obtenemos los estimadores log a y b.
Invirtiendo los cambios obtenemos los estimadores ˆ y b.
a ˆ

Modelo de regresi´n logar´
o
ıtmica

La variable respuesta es aproximadamente una funci´n lineal del logaritmo
o
de la variable regresora:
Y ≈ β0 + β1 log x

(log x1 , Y1 ), . . . , (log xn , Yn )
ˆ
ˆ
obtenemos los estimadores β0 y β1 .

Modelo de regresi´n potencial
o
La variable respuesta es proporcional a una potencia de la variable
regresora:
Y ≈ ax b
Se linealiza tomando logaritmos:
log Y ≈ log a + b log x

(log x1 , log Y1 ), . . . , (log xn , log Yn )
ˆ
obtenemos los estimadores log a y b.
Invirtiendo los cambios obtenemos los estimadores ˆ y b.
a ˆ

Ejemplo: renta y fracaso escolar

q
q
q

q
q
q

q
q
q

q

q

q
q

q

15

q

q

q

q
q

3.0

q
q
q

log−Fracaso

q

q
q q

q
q
q

q

q

q
q

q

q
q

2.5

25

30

q

20

Fracaso

q

3.5

35

q

q

10

q

10

12

14

16

18

q

20

22

10

12

14

16

Renta

3.5

35

q
q

q

q

q
q

15

q
q

q

q
q

3.0

log−Fracaso

q

q
q
q

q

q
q
q

q

q

q

q

q

q
q

2.5

30
25

q
q
q

q

q

q

2.4

2.6
log−Renta

q

q

q

q

10

Fracaso

20

22

q
q

q

2.2

20

q

q

q
q

18

Renta

q

q

q

q

q

q

2.8

q

3.0

2.2

2.4

2.6
log−Renta

2.8

3.0

Ejemplo: renta y fracaso escolar
Resumen del modelo y estimaciones de los parámetros

Ecuación

Resumen del modelo
R cuadrado

F

gl1

Estimaciones de los parámetros
gl2

Sig.

Constante

b1

Lineal

,550

25,658

1

21

,000

38,494

-1,347

Logarítmica

,572

28,032

1

21

,000

70,584

-19,600

Potencia

,610

32,809

1

21

,000

293,923

-1,066

Exponencial

,594

30,691

1

21

,000

51,642

-,074

Diagn´stico del modelo: linealidad y homocedasticidad
o
El gr´fico m´s util para el diagn´stico del modelo es el de residuos frente a
a
a ´
o
valores ajustados:
ˆ
ˆ
(Y1 , e1 ), . . . , (Yn , en )
Se suelen utilizar los residuos estandarizados, que bajo las hip´tesis del
o
modelo tienen aproximadamente la distribuciń normal estńdar.
o
a
La hip´tesis de normalidad se valora a partir de un gr´fico de probabilidad
o
a
de los residuos.
La homocedasticidad se puede confirmar si
No hay patrones sistem´ticos en el gr´fico.
a
a
La variabilidad es aproximadamente constante a lo largo de todo el
rango de valores ajustados.
Los residuos estandarizados que no estń comprendidos entre los valores -3
a
y 3 pueden corresponder a datos at´
ıpicos potencialmente influyentes.

Residuos frente a valores ajustados

Residuos frente a valores ajustados
q

6

1

5
2

3

4

5

2

3

4

5

5
y4

q
qq
q
q
qq
q
qq
qq
q
qq
qq
qq
q
q
qq
qq
q

q
q

q
q
q

q

q
q

1

2

3

x

4

5

1

2

x

3

4

5

x

3

x

q
q
q
q
q
q

3

y3
4

q

q

q q q

1

q
q

q

q
qq
qq
q
q
q

q

q
q

q
qq
q
qq

3

q

q q

q

5

20
y2

q

q
q
q
qq
qq
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
qq
q
q

q
q

2

2

q

q

q
q
q
q
q q
q q
qq
qq
q
q
q
q qq
q
q
qq
q
q
q
q
q

2

3

q
q
q
q
q

q

q
q
q
q
q

10

q

q
q

15

5
4

y1

q q
q q
q
q qq qqq
qq
q
q
qq
q
qq
q

q

q
q
q
q

q
q

q
q

q
q
q
q q
q
q
q
q

q
q

4

25

q

q
q
q

qq

6

q
q

6

q
q
q
q

q

2

q

3

q

q
q

3

q

q
q

q

q q

q
q
q q
q q q q q
q
q
q qq
q
q qq
q q qqqqq
q
q
qq

−1

q

3

4
Ajustados

5

6

qq

5

10
Ajustados

q

q

0

0

q

q

q
q

q
q
q

q

q

qq q
q

q
qq
q
q q
qq

q

q
q

q

q

q
q

q

q q

q

q

15

q
q

q
q
q

q

q q

0

q

q

q
q

q

q

q

q
q

q

q

2

q

q q

q

q q
qq
q qq
q
q
q
qq q
q q q qq
q
q
q

−1

q

q

q q
q
q

−2

q

Residuos

q

q
q

q

−1

q

Residuos

1

2
q
q

−2

−1

q q

qq
q
q q
q
qq

q q
q
qq

−3

q

qq q
qq

q
q

1

q
q
q
qq
q
q
q qq
q
qq
q q
q
q
q
q

0

0

q

q

q

q
q
q

−2

Residuos

1

q q
q

q

q
q
q

q

1

q

q

q

Residuos

q

q

2

2

q
q

20

25

2

3

4
Ajustados

5

q

q

6

2

3

4
Ajustados

5

6

Diagn´stico del modelo: normalidad
o

Precauciones al aplicar el modelo de regresi´n simple
o

Existencia de datos at´
ıpicos
Extrapolaci´n
o
Mezcla de poblaciones diferentes
Datos temporales

Datos at´
ıpicos

5

q
q

0

1

2

3

4

q
q

q
qq
q q
q q
q
qq q
q
q
q
q q
q q q
q q qq
q
q qq
q q
q
q
qq
q
q
qq
q

q
q
qqq
q
q
qq
q

q
q

q

−1

0

1

2

3

4

Ejemplo: Temperatura e intensidad de luz en estrellas
Para 47 estrellas se han registrado el log de la temperatura efectiva en la
superﬁcie (Temp) y el log de la intensidad de su luz (Intens).

6.0

q

q
q
q

q

q
q

q

q q
q
q

q
q
q

q

q

q

5.0

q

q

q q

q

q

q

q
q

q

4.5

q

q

q
q
q

q
q
q

q
q
q

q

q

q

q

4.0

log(Intensidad)

5.5

q

q

3.6

3.8

4.0

4.2

log(Temperatura)

4.4

4.6

Ejemplo: Temperatura e intensidad de luz en estrellas

6.0

q

q
q
q

q

q
q

q

q q
q
q

q
q
q

q

q

q

5.0

q

q q

q

q
q

q

q
q

q

4.5

q

q

q
q
q

q
q
q

q
q
q

q

q

q

q

4.0

log(Intensidad)

5.5

q

q

3.6

3.8

4.0

4.2

log(Temperatura)

4.4

4.6

Extrapolaci´n
o
Verdadera
relación
Ybuena
Ypredicción

Recta de
regresión
estimada

xpredicción

Mezcla de poblaciones

Regresión con
todos los datos

Ejemplo: n´mero de pie y estatura
u

Datos temporales (correlaci´n esp´rea
o
u

PNB en EE.UU e incidencia del melanoma en la poblaci´n masculina en
o
Connecticut (1936-1972)

Ad2 tema3-12

Recomendados

Recomendados

Más contenido relacionado

Más de Victor Jurado Mamani

Más de Victor Jurado Mamani (7)

Último

Último (20)

Ad2 tema3-12