SlideShare una empresa de Scribd logo
1 de 68
Descargar para leer sin conexión
TEMA 3
Modelo de regresi´n simple
o
Jos´ R. Berrendero
e
Departamento de Matem´ticas
a
Universidad Aut´noma de Madrid
o

An´lisis de Datos - Grado en Biolog´
a
ıa
Estructura de este tema

Planteamiento del problema. Ejemplos.
El modelo de regresi´n lineal simple.
o
Recta de regresi´n de m´
o
ınimos cuadrados.
Estimaci´n, IC y contrastes para los par´metros del modelo.
o
a
An´lisis de la varianza en el modelo de regresi´n lineal simple.
a
o
Predicci´n.
o
Algunos modelos linealizables.
Diagn´stico del modelo.
o
Ejemplo: temperatura y vibraci´n de las alas
o

Los grillos son ectotermos, por lo que sus
procesos fisiol´gicos y su metabolismo
o
est´n influidos por la temperatura. Con
a
el fin de estudiar estas cuestiones se ha
medido el n´mero de vibraciones por seu
gundo de las alas de un grupo de grillos
a varias temperaturas.

Vibraciones/seg.
20.0
16.0
19.8
18.4
17.1
15.5
14.7
17.1
15.4
16.2
15.0
17.2
16.0
17.0
14.1

Temp.
88.6
71.6
93.3
84.3
80.6
75.2
69.7
82.0
69.4
83.3
78.6
82.6
80.6
83.5
76.3
Ejemplo: Temperatura y vibraci´n de las alas
o

Consideramos dos variables (fichero grillos.sav):
X : Temperatura
Y : N´mero de vibraciones de las alas por segundo
u
¿Qu´ podemos decir sobre la relaci´n entre las dos variables?
e
o
¿Podemos afirmar (con un nivel de significaci´n dado) que al aumentar la
o
temperatura, aumenta la frecuencia de vibraci´n?
o
¿Podemos predecir aproximadamente el valor de la variable Y si sabemos
el valor de X ? ¿Qu´ grado de fiabilidad tiene la predicci´n?
e
o
Ejemplo: renta y fracaso escolar en la CAM
Ejemplo
q

30

35

q

Arganda

25

q
q
q
q

q

20

q

q
q
q

q
q

q

15

q

q

q

q
q

10

% fracaso escolar

q
q
q

q

10

12

14

16

18

Renta (en miles de euros)

Torrelodones

20

22
Covarianza
Se dispone de un conjunto de n pares de observaciones
(x1 , y1 ), . . . , (xn , yn ).

La covarianza entre x e y sirve para cuantificar el grado de relaci´n lineal
o
que hay entre x e y :
covxy

1
=
n

n
i=1

1
(xi − x )(yi − y ) =
¯
¯
n

n

xi yi − n¯y
x¯
i=1

Propiedades:
covxy = covyx .
covxy depende de las unidades en que se miden x e y .
covxx = vx , es decir, la covarianza de x con x es la varianza de x.
Interpretaci´n de la covarianza
o

2

q

q

q
q

qq

q
q

q
q
q

q

−2

q q

q

q

q

q

q
q
q
qq

q

q

q

q

y

q

q

q
q
q
q
q
qq q
q
q
qq
q
q q
q
q
q
q
q
q q q
q
q
q q q
q
q q q q
q q
q q
q
q
q
q
q q
q
q
q q
q qq
q
q q qq
q
q
q
q
q
q q q
qq q
q
qq q
q
q q
qq
q
q
q
q
q q qq q
q
q
q q
q qqq
qq q
q q
q
q
qq
q q q q
q
q
q q q qq q q q
q
q
q
qq
q q
q
qq
qq
q q
q q qq
q
q
q
q qq
q q
q
q q q q
q
qq q
q
q q qq
q
q qq q
q
q
q
q
qq q
q
q q qq q q q
q
q
q
q
q
q
qqq
q qq
q
q
q
q q qq q qq q q qq qq q qq q
q
q qq q q q
q
q q qq q
q qq
qq qq
q
q q qq q
q qq q
q q q q
q q q
q
q
qq
q
q
q
q qq q q q q
q q q q qq
q
q q qq
q q
q
q q q
q q q q q q qq q q qqq q q q qq qq
q
q
q q
qq
qq q q
q
q
q
q q qq q q qq q q q q q q q qq q
q
q qq q q
q q
q
q
q q q
q
q
q
q
q
qq
qqqq
q q q q q
q q q
q
q q q q
q
qq q q q q
q
q
q
qq
q
qq
q
q q
q
q
q
q q q
q
qq q
q
q
q qq q
q
q
q
q
q
q
q q q
q q
qq q q
q
qq
q
q q q
qq
q
q
qq
q
q
q
q q q
q
q q
q q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q q q
q q
q
q
q

q

q
q q

0

q

−2

y
0

q

q

q
q q

q

q

q

q
q

4

q

q

q

q

2

4

q
q
q
q
q
q
q
q
q q
q q
q
q
q q
q
q
qq q q q
q q q q
qq q
q q q
q q
q
q
q
q q q qq q
q q
q
qq q
q
q
q
q
q
q q
qq
q q q
q
q q
q
q
qq q q q q
q
q
q q
q q q
q
q
q q q
q
q
q
q
q qq
qq
qq
q
q q
q
q q q qq q q
q q q q
q
q
q
q
q
q
qq
q
q q
q
q
q q qq qq q q q q q q
q
q q q
q q
q q
q
q
qq
q q
q
q q q
q
q q
q
q
q qqqq
q q
q
q
q
qq q q
qq q
q
q
q
q
q
q q q qq q qq q qq q qq q
q q
q
qq
q
q
q
qq q qq q q
q
q q
q
q
q q q qq
qq q
q
q
q q q
q
qq
q
q
q
q
q qq
q
q
q q q q q qqq
qq
q
q
q
q q
q
q
q q qq
q
q q q
q
q
q
q
qq qq q q
q q q q q qq q q q q q q
q
qq q q q
q
qq
q
q
q q
q
q
q
q
q
qq q
q q
q q qq
q
q
qq q q q q
q q
q
q
q
q
q
q q q q qq qq q q q q
q q
q qq
qq
q
q
q
qq q
q qq q q
q q q qq
q q
q q q q q q q qqq
qq q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq q
q
q
q
q
q q q q q
qq
q
q
q
qq
q
q
q
q
q q q
qq
q
q qq
q
q
q
q
q
qq q
q
q
q
q
q
q
q
qq
q
q
q
q q
q
q
q
q
q

q

q

q
q

−4

q
q

q

−4

q

−2

−1

0

1

q

−2

−1

2

q

q

q

q

q

2

q

q

q

q

q

q

q
q
qq
q
q
q
q
q
q q
q
q
qq q q
q
q
q
q q
q q
q
q
q q
q
q
qq
q
qq
q q q
q q
q q
q
q qq
q
q
q qq q
q q
q
q
qq q q q q
q
q q qq q
q
q
qq
q
qq
q
q
q q q
q
q
q
q
q q q
q
q
q
q
q
q
q q q
q q qq q
q
q
q q
q q qq q
q q
qq
q
q qq
q qq
q
q
q
q qq
qq q qq
q
q
q q
q
qq q q q q
q
q
q
q q
q q
q q
q
q
qq q q
q
q
q q qq q q
q
q
q
q
q q
q
q
q
qq q q
q
q
qq q q q q
q
q
q q
q qq q
q q qq
q q
qq q
q
q
q
q
q
q
q qq q q q
q
q
q q q
q q qq q
q
q q
q
q q
q q
qq
q q
q
q
q
q q
q
q qq q
q
q
q
q q qq q
q
q
q
qq
q
qq q
q
qq q
qq
q
q qq
q
q qq q q
q
q
q
q
q
q q q
q qq
q
qq
q
q
q
q
q
q
q q
q
q q q
qq qq q
q
q
q
q q q q
q
q
q
q
q
qq
q
q q
q
qq q q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q q
q
q q q qq q
q
qq
q q
q q q
qq
q
q
q
q
q
q q
qq q q
q q
q
qq q
q
q
q
q
q
q
q
q
q
q
q
qq
q qq
q qq
q
q
q
q
q
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q qq
q
q
q
q
q
q
q
q

q
q

q
q

−1

q

q
q
q

−2

0
Covarianza aprox. cero

1

2

q
q

q

4

q
qq
q
q

q

y

q

−1

q

q
q

q

q

2

0

q

q

q

q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q
q q
qq
q
q
q
q q
q q q
q
qq
qq
q
q
q
q
qq q
q q q
q
q
q
qq q
q
q
q
q
q
q q
q
q
q
q q q
q
q q q
q
q
q
q
q q
q
q
q q
qq q
q q qq
q
q
q q qq q
q
q
qq
q
q
qq
q
qqq q q q
q
q
q q
q
q
q q
q
q
q
q
qq
qq
q q q
q
q
q
q q q q q
q q qq q
q
q q
q
q
qq
q
q
q
q
q
qq
q q
qq q qqq
q
qq
q q
q
q
q
q
q
q
q q q q
qq q
q
q q q q q qq q q
q qqq
q
qq q
q
q
q
q q
q qq qq q qqq
q
q
q qq q
qq
q
q
q
q
qq q q
q
qq q
q
q
q qq q q q q
q
q q q qqq q q q q qqq
q q q
q
q q
q
q
q
qq q
q
q qq
q
q
qq q
q q
q qq q q q qqq q q q
q
q
q qq
q
q q
q
q
q q
q
q
q
q q q q q q q q q q qqq qq q q q
q
q
q
q q q q q qq q q qq
q qq q q q q
q q
q
q
q
q
q q q q
q
q
q
q
q q q qq q qqq
q
qq q q q qq q q
qq
q
q qq q q
q
q q q q q q qq q qq q q qqq q q
q
q
q
q
q q q q q qq q
qq
q
qq
q
q
q q
q
q
q q
q q
q qq
q
q q
q qq
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q

q

0

1

q
q
q

6

q

q

−2

q
q
q q q
q
q
q
q
q

q
q

y

1

q

q

−2

0
Covarianza negativa

q

q

q

q

q

2

Covarianza positiva

q

q

q
q

q

−2

−1

0
Covarianza aprox. cero

1

2

q
q
q
Coeficiente de correlaci´n
o
Resulta conveniente disponer de una medida de relaci´n lineal que no
o
dependa de las unidades. Para ello, se normaliza covxy dividiendo por el
producto de desviaciones t´
ıpicas, lo que lleva al coeficiente de
correlaci´n:
o
covxy
rxy = √ √ .
vx vy
Propiedades:
No depende de las unidades
Siempre toma valores entre -1 y 1.
Su signo se interpreta igual que el de la covarianza
S´lo vale 1 ´ -1 cuando los puntos est´n perfectamente alineados.
o
o
a
Aunque rxy ≈ 0, las variables x e y no son necesariamente
independientes.
Desviación
típica
1,7319

Media
Vibraciones
16,633
Estadísticos descriptivos
Temperatura
79,973

N
15

Correlaciones

Vibraciones

Media
16,633

Desviación
Vibraciones
Correlación de Pearson
1
típica
N
Sig. (bilateral)
N
1,7319
15 15

Vibraciones

Temperatura

Temperatura

79,973

Correlación de Pearson
Sig. (bilateral)
6,7170
N

Correlaciones

15

6,7170

Vibraciones

Correlación de Pearson

Temperatura
,836

Sig. (bilateral)
N

1

,000
15

15

Correlación de Pearson

,836

1

,000
15

20,0

19,0

Correlación de Pearson
N

Temperatura

Vibraciones

Sig. (bilateral)

20,0

Vibraciones Temperatura
1
,836
19,0

18,0

,000
15

17,0

Correlación de Pearson
Sig. (bilateral)
N

18,0

,836

16,0

Vibraciones

Vibraciones

,000
15

15,0

15
1

17,0

15
16,0

14,0
65,0

20,0

70,0

75,0

80,0

Temperatura

85,0

15,0

,000
15

N

15

Correlaciones

Temperatura
,836

Sig. (bilateral)

,000

Temperatura
15

,836

15

Vibraciones
1

90,0

95,0

15
Problema de regresi´n
o

Observamos dos variables, X e Y , el objetivo es analizar la relaci´n
o
existente entre ambas de forma que podamos predecir o aproximar el valor
de la variable Y a partir del valor de la variable X .
La variable Y se llama variable respuesta
La variable X se llama variable regresora o explicativa
En un problema de regresi´n (a diferencia de cuando calculamos el
o
coeficiente de correlaci´n) el papel de las dos variables no es sim´trico.
o
e
Recta de regresi´n
o
Frecuentemente, existe entre las variables una relaci´n aproximadamente
o
lineal:
Yi ≈ β0 + β1 xi .

La recta y = β0 + β1 x es una recta de regresi´n.
o
El par´metro β1 es la pendiente de la recta. Indica la variaci´n
a
o
media de la variable respuesta cuando X aumenta una unidad.
El par´metro β0 es el t´rmino independiente de la recta. Indica el
a
e
valor medio de Y cuando X = 0.
Objetivo: estimar los par´metros β0 y β1 a partir de los datos (xi , Yi ),
a
i = 1, . . . , n.
11

ˆ
ˆ
Datos con β0 ≈ 3, β1 ≈ 0.5 y r ≈ 0.8

12

q

10

q

9

q

q

y3

y1

8

q

10

q

q

q

q

6

8

7

q

4

5

q

6

q
q

q

4

6

8

10

12

14

4

q

q

q

q

6

8

x1

q

q

8

14

q

10
y4

7
5

8

q
q

q

q
q
q
q
q

6

4

y2

12

q

q

q

6

10

12

9

q
q

q

3

q

q

x3

q

q

4

q

q

6

8

10
x2

12

14

q
q
q

8

10

12

14
x4

16

18
El modelo de regresi´n lineal simple
o

Para poder hacer inferencia (IC y contrastes) sobre los par´metros,
a
suponemos que se verifica el siguiente modelo:
Para todas las observaciones i = 1, . . . , n
Yi = β0 + β1 xi + ui ,
donde:
El valor medio de los errores ui es cero.
Todos los errores ui tienen la misma varianza σ 2 (homocedasticidad).
Las variables ui tienen distribuci´n normal.
o
Las variables ui son independientes.
58

STATISTICAL INFERENCE

Figure 3.4 Joint density functions (shown symbolically) of the bivariate normal distributions of the form
(3.9) with varying m.

where f ðx; mÞ is the normal density function of N ðm; 1Þ. Figure 3.4 shows symboli-
30

¿En qu´ situaciones se verifica el modelo?
e
q

q

q

2

q

q

q

qq q
q
q q qq
q
qq
q
q

q
qq
qq q
q q

q
q
q

20

q

q

q
q

q

q

q
q

q

q

y3

q

qq

q
q

q

0

4

q
q

3

y1

5

q
q

q

10

6

7

q

q
q

q

q
q
q
qq q
q
qq qq
q
qq q
qq q
q
q
q
q q
q

q

q
q

q
q q
qq q

q

q
q

q
q
q

q

1

2

3

4

5

q

q
q

−10

1

q
q

6

1

2

3

4

5

q

q

q
q

y4

q
q
qq q q
q
qq q
q

4

y2

15

5

20

6

25

q

10

q
q
q
q

3

q

0

−4

−2

q q
q q
q
q qqq q
qq q q q q q
qq
q
q
q
q qq q q

0

q
qq
q
q

qq
q
q

q

q

q
q
q
q q
qq
q q
q q

q
q
q

2
x2

q

qq
q
q q qq
q q
q q
q qq
q
q q q

q

2

5

q
q
q

6

x

7

x

4

1

2

3

4
x

5

6
La recta de m´
ınimos cuadrados
ˆ
ˆ
Si estimamos β0 y β1 mediante β0 y β1 , la predicci´n de la variable
o
respuesta Yi en funci´n de la regresora xi es:
o
ˆ
ˆ
ˆ
Yi = β0 + β1 xi
Unos buenos estimadores deben ser tales que los errores de predicci´n
o
ˆ
ˆ
ˆ
ei = Yi − Yi = Yi − (β0 + β1 xi )
sean peque˜os.
n
La recta de regresi´n de m´
o
ınimos cuadrados viene dada por los valores
ˆ
ˆ
β0 y β1 para los que se minimiza:
n

[Yi − (β0 + β1 xi )]2
i=1
q

3

3

q

2

q

2

q

q

q

1

q
q

y

y

1

q
q
qqq

0

q

q
q

q

q

q

q
−1

−1

qqq

q

0

q

q

q

q

q
−2

q

−1

0
x

1

2

−2

−1

0
x

1

2
Estimadores de m´
ınimos cuadrados
Pendiente:

√
v
ˆ1 = covxy = r √ y = r Sy .
β
vx
vx
Sx

T´rmino independiente:
e
ˆ
¯
ˆ¯
β0 = Y − β1 x

Al igual que en los modelos de los temas anteriores:
ˆ
ˆ
ˆ
A las predicciones Yi = β0 + β1 xi se les llama valores ajustados o
pronosticados.
ˆ
A los errores ei = Yi − Yi se les llama residuos.
Ejemplo: temperatura y vibraci´n de las alas
o
Estimadores de los par´metros:
a
Sy
1.73
ˆ
= 0.84
= 0.2155
β1 = rxy
Sx
6.72
ˆ
¯
ˆ¯
β0 = Y − β1 x = 16.633 − 0.2155 × 79.973 = −0.615
Recta de regresi´n:
o
y = −0.615 + 0.2155x
Predicci´n de Y0 para x0 = 80:
o
ˆ
Y0 = −0.615 + 0.2155 × 80 = 16.625
Diagrama de dispersi´n y recta estimada
o
20,0

19,0

Vibraciones

18,0

17,0

16,0

15,0
R2 Lineal = 0,7

14,0
65,0

70,0

75,0

80,0

Temperatura

85,0

90,0

95,0
Observaciones

La recta de m´
ınimos cuadrados pasa por el punto cuyas coordenadas
son las medias: (¯, Y ).
x ¯
Si la variable regresora se incrementa en una desviaci´n t´
o ıpica
∆x = Sx , entonces la predicci´n de la variable respuesta se
o
ˆ
incrementa en r desviaciones t´
ıpicas: ∆Y = rSy
Puede demostrarse que la suma de los residuos siempre vale cero.
La recta para predecir Y en funci´n de X no es la misma que la recta
o
para predecir X en funci´n de Y .
o
La varianza residual

La varianza residual es un estimador insesgado de σ 2 :
2
SR =

n
2
i=1 ei

n−2

=

n
i=1 (Yi

ˆ
− Yi )2
=
n−2

n
i=1 (Yi

ˆ
ˆ
− β 0 − β 1 x i )2
.
n−2

Se pierden dos grados de libertad puesto que los residuos verifican dos
restricciones:
La media de los residuos es igual a cero.
La covarianza entre los residuos y la variable regresora es tambi´n
e
igual a cero.
Una simulaci´n
o

Supongamos que σ = 1, β0 = 0 y β1 = 1.
Entonces el modelo es
Yi = xi + ui ,
donde los errores ui tienen distribuci´n normal est´ndar y son
o
a
independientes.
Fijamos xi = 1, 2, . . . , 10 (n = 10) y generamos las respuestas
correspondientes de acuerdo con este modelo.
Posteriormente calculamos la recta de m´
ınimos cuadrados y la
representamos junto con la verdadera recta y = x.
10

Repetimos 6 veces el experimento
q

q

8

10

q

q

q
q

8

8

q
q

q

q
q

q

6

q

q

6

6

q
q

q

4

q
q

4

q

4

q

q
q

2

q

2

q

q

0

0

2

q

q

2

4

6

8

10

0

q

2

4

8

10

0

2

4

x

q

6

8

10

x

q

10

10

x

6

q

q

10

0

q

q

q

8

8

q

8

q

q

q

q

6

q

q

6

q
q

q

q

4

q

6

q

q

q

2

4

4

q

q

q

q
q

2

2

0

q

q

−2

q

0

2

4

6
x

8

10

0

q

2

4

6
x

8

10

0

2

4

6
x

8

10
10

Repetimos 6 veces el experimento
q

q

8

10

q

q

q
q

8

8

q
q

q

q
q

q

6

q

q

6

6

q
q

q

4

q
q

4

q

4

q

q
q

2

q

2

q

q

0

0

2

q

q

2

4

6

8

10

0

q

2

4

8

10

0

2

4

beta1=
1.11

q

6

8

10

beta1=
0.84

q

10

10

beta1=
0.9

6

q

q

10

0

q

q

q

8

8

q

8

q

q

q

q

6

q

q

6

q
q

q

q

4

q

6

q

q

q

2

4

4

q

q

q

q
q

2

2

0

q

q

−2

q

0

2

4

6
beta1=
0.95

8

10

0

q

2

4

6
beta1=
1.01

8

10

0

2

4

6
beta1=
0.99

8

10
Repetimos 1000 veces el experimento

100

250

Los estimadores son
centrados y tienen
distribuci´n normal.
o

0

Existen f´rmulas del
o
ˆ
error t´
ıpico de β0 y
ˆ1 que miden su
β
variabilidad.

−1

0

β0

1

2

0

50

150

−2

0.6

0.8

1.0

β1

1.2

1.4

Estas f´rmulas son
o
las que se utilizan
para calcular IC y
llevar a cabo
contrastes en lo que
sigue.
Error t´
ıpico del estimador de la pendiente

ˆ
error t´
ıpico de β1 =

SR
n
i=1 (xi

− x )2
¯

= SR

1
nvx

Al aumentar nvx , el error t´
ıpico de la pendiente disminuye (es decir, la
estimaci´n de la pendiente es m´s precisa).
o
a
Conviene dise˜ar el experimento de forma que los valores xi tengan la
n
mayor dispersi´n posible.
o
Error t´
ıpico del estimador del t´rmino independiente
e

ˆ
error t´
ıpico de β0 = SR

1
x2
¯
+
n nvx

Si x 2 es grande, se estima con menos precisi´n el t´rmino
¯
o
e
independiente.
Intervalos de confianza
ˆ
Los intervalos de confianza de nivel 1 − α para los par´metros βi (i = 0, 1)
a
tienen la estructura habitual:
ˆ
IC1−α (βi ) ≡ βi

ˆ
tn−2,α/2 × error t´
ıpico de βi

En comparaci´n con los intervalos de confianza para la media:
o
Los grados de libertad son n − 2 en lugar de n − 1.
La f´rmula del error t´
o
ıpico es m´s complicada.
a
El intervalo de confianza para σ 2 tambi´n tiene la estructura que ya hemos
e
visto en los modelos de los temas anteriores:
IC1−α (σ 2 ) ≡

2
2
(n − 2)SR (n − 2)SR
, 2
χ2
n−2;α/2 χn−2;1−α/2
Ejemplo: temperatura y vibraci´n de las alas
o

2
Para los datos del ejemplo se ha calculado SR = 0.97.

Calcula los errores t´
ıpicos de los estimadores de la pendiente y del
t´rmino independiente.
e
Calcula un intervalo de confianza de nivel 95% para β1 .
Calcula un intervalo de confianza de nivel 95% para β0 .
Contrastes para los par´metros
a

Contraste bilateral:
Hip´tesis: H0 : βi = 0 frente a H1 : βi = 0
o
Regi´n cr´
o
ıtica:
ˆ
|β i |
R=
> tn−2,α/2
ˆ
error t´
ıpico de βi

.

Contrastes unilaterales:
Hip´tesis: H0 : βi ≤ 0 frente a H1 : βi > 0
o
Regi´n cr´
o
ıtica:
ˆ
βi
R=
> tn−2,α
ˆ
error t´
ıpico de βi
Hip´tesis: H0 : βi ≥ 0 frente a H1 : βi < 0
o
Regi´n cr´
o
ıtica:
ˆ
βi
R=
< −tn−2,α
ˆ
error t´
ıpico de βi

.

.
Ejemplo: temperatura y vibraci´n de las alas
o

¿Aportan los datos evidencia para afirmar (α = 0.01) que la
temperatura tiene una influencia significativa sobre la frecuencia de
vibraci´n de las alas?
o
¿Podemos afirmar a nivel α = 0.01 que al aumentar la temperatura
aumenta la frecuencia media de vibraci´n de las alas?
o
Escribe la regi´n cr´
o
ıtica para contrastar H0 : β1 = 1 frente a
H1 : β1 = 1.
Con SPSS: temperatura y vibraciones
Resumen del modelo
R
,836 a

Modelo
1

R cuadrado
corregida
,677

R cuadrado
,700

Error típ. de la
estimación
,9849

a. Variables predictoras: (Constante), Temperatura
ANOVAb

Modelo
1
Regresión

Suma de
cuadrados
29,383

1

Media
cuadrática
29,383
,970

gl

Residual

12,611

13

Total

41,993

F
30,290

Sig.
,000 a

14

a. Variables predictoras: (Constante), Temperatura
b. Variable dependiente: Vibraciones
Coeficientesa

Coeficientes no estandarizados
Modelo
1
(Constante)
Temperatura

B
-,615

Error típ.
3,144

,216

,039

a. Variable dependiente: Vibraciones

Coeficientes
tipificados
Beta

t
-,196
,836

Sig.
,848

5,504

,000
Con SPSS: renta y fracaso escolar
&[PageTitle]
Resumen del modelob
R cuadrado
corregida
Modelo
R
R cuadrado
a
1
,742
,550
,528
a. Variables predictoras: (Constante), Renta
b. Variable dependiente: Fracaso

Error típ. de la
estimación
4,7566

ANOVAb
Suma de
cuadrados
gl
Regresión
580,516
1
Residual
475,133
21
Total
1055,649
22
a. Variables predictoras: (Constante), Renta
b. Variable dependiente: Fracaso

Modelo
1

Media
cuadrática
580,516
22,625

F
25,658

Sig.
,000a

t
10,562
-5,065

Sig.
,000
,000

Coeficientesa

Coeficientes no
estandarizados
Modelo
B
Error típ.
1
(Constante)
38,494
3,645
Renta
-1,347
,266
a. Variable dependiente: Fracaso

Coeficientes
estandarizad
os
Beta
-,742
Cuestiones
Escribe la ecuaci´n de la recta de m´
o
ınimos cuadrados que describe el
nivel de fracaso escolar como funci´n de la renta.
o
Calcula intervalos de confianza de nivel 95% para la pendiente y el
t´rmino independiente de la recta de regresi´n.
e
o
¿Podemos afirmar, a nivel α = 0.05 que niveles m´s altos de renta
a
est´n asociados a niveles m´s bajos de fracaso escolar?
a
a
¿Cu´nto vale el coeficiente de correlaci´n entre el nivel de renta y el
a
o
porcentaje de fracaso escolar?
¿Qu´ porcentaje de fracaso escolar se predice en una poblaci´n cuya
e
o
renta es x0 = 13000 euros?
¿Cu´l es el residuo correspondiente a Colmenar Viejo?
a
An´lisis de la varianza en regresi´n simple
a
o

Yi
¯
Yi − Y

ˆ
= Yi + ei
ˆ
¯
= (Yi − Y ) + ei

n

n

¯
(Yi − Y )2 =
i=1

n

ˆ
¯
(Yi − Y )2 +
i=1

ei2
i=1

SCT = SCE + SCR

SCT mide la variabilidad total (tiene n − 1 gl)
SCE mide la variabilidad explicada por el modelo (tiene 1 gl)
SCR mide la variabilidad no explicada o residual (tiene n − 2 gl)
Tabla ANOVA y contraste F
Fuente de variaci´n
o
Explicada (SCE)
Residual (SCR)
Total (SCT)

Suma de cuadrados
n
ˆ
¯ 2
i=1 (Yi − Y )
n
2
i=1 ei
n
¯
(Yi − Y )2
i=1

gl
1
n−2
n−1

cuadrados medios
n
ˆ
¯ 2
i=1 (Yi − Y )
2
SR =

estad´
ıstico
F

n
2
i=1 ei
n−2

2
El estad´
ıstico F es igual a SCE/SR .

Si F es suficientemente grande (la variabilidad explicada es muy grande
respecto a la no explicada), se debe rechazar H0 : β1 = 0.
Bajo H0 : β1 = 0, el estad´
ıstico F tiene distribuci´n F1,n−2 . La regi´n
o
o
cr´
ıtica de nivel α del contraste es:
R = {F > F1,n−2;α }
Tabla ANOVA y contraste F
Para contrastar H0 : β1 = 0 a nivel α hemos considerado tres
procedimientos:
Calcular un IC de nivel de confianza 1 − α para β1 y rechazar H0 si 0
no pertenece al intervalo.
ˆ
Dividir |β1 | por su error t´
ıpico y rechazar H0 si el valor obtenido es
superior a tn−2;α/2 .
2
Calcular F = SCE/SR y rechazar H0 si el valor obtenido es superior a
F1,n−2;α .

Los tres m´todos son equivalentes en este modelo.
e
Evaluaci´n del ajuste
o
Para valorar el grado con el que la recta se ajusta a los datos se emplean
varias medidas:
El coeficiente de correlaci´n r .
o
El coeficiente de determinaci´n:
o
R2 =

Variabilidad explicada
SCE
=
Variabilidad total
SCT

En el modelo de regresi´n simple R 2 = r 2 , el coeficiente de
o
determinaci´n coincide con el coeficiente de correlaci´n al cuadrado.
o
o
El error cuadr´tico medio:
a
ECM =

n
i=1 (Yi

n

ˆ
− Yi )2

=

Puede comprobarse que ECM = Vy (1 − r 2 ).

n
2
i=1 ei

n

.
Cuestiones

ˆ
Si SCT = 8100, SCE = 6900 y β1 = −6.7. Calcula el coeficiente de
correlaci´n entre la variable regresora y la variable respuesta.
o
Para un conjunto de 20 datos se sabe que SCT = 7200, SCE = 2900
ˆ
y β1 = 3.1. Calcula el coeficiente de correlaci´n, el coeficiente de
o
determinaci´n y el error cuadr´tico medio.
o
a
Inferencia sobre la variable respuesta
Una de las razones para ajustar un modelo de regresi´n simple es obtener
o
informaci´n sobre Y cuando x toma un valor x0 conocido. Hay dos
o
problemas relacionados con este objetivo:
Estimar el valor medio de Y para los individuos de la poblaci´n
o
para los que X = x0 . Si µ0 es este valor medio,
µ0 = β0 + β1 x0 .
Predecir el valor individual que tomar´ la variable Y para una
a
nueva observaci´n para la que se sabe que X = x0 . Si Y0 es este
o
valor,
Y0 = β0 + β1 x0 + u0 .
¿Qu´ problema es m´s dif´ de los dos?
e
a
ıcil
¿Qu´ estimador y qu´ predicci´n resultan razonables para µ0 y Y0 ?
e
e
o
Estimaci´n y predicci´n puntual
o
o
En ambos casos, el estimador (o predicci´n) puntual es:
o
ˆ
ˆ
ˆ
¯
ˆ
Y0 = β0 + β1 x0 = Y + β1 (x0 − x ).
¯
Sin embargo, el intervalo de confianza para µ0 es diferente del intervalo de
predicci´n para Y0 .
o
Intervalo de confianza para µ0 de nivel 1 − α:


2
¯
ˆ
Y0 tn−2;α/2 SR 1 + (x0 − x ) 
n
nVx
Intervalo de predicci´n para Y0 de nivel 1 − α:
o


2
¯
ˆ
Y0 tn−2;α/2 SR 1 + 1 + (x0 − x ) 
n
nVx
Ejemplo: temperatura y vibraci´n de las alas
o
Calcula un intervalo de confianza de nivel 95% para el n´mero medio
u
de vibraciones de las alas de los grillos cuando la temperatura es de
80 grados Farenheit.
Calcula un intervalo de predicci´n de nivel 95% para el n´mero de
o
u
vibraciones de las alas de un grillo cuando la temperatura es de 80
grados Farenheit.
En una poblaci´n de la Comunidad de Madrid se sabe que la renta
o
per c´pita es 1000 euros inferior a la media de los datos disponibles.
a
Calcula un intervalo de predicci´n de nivel 95% del porcentaje de
o
fracaso escolar en esa poblaci´n. Repite el ejercicio para una
o
poblaci´n cuya renta sea 1000 euros superior a la media.
o

% Fracaso
Renta

Medias
20.73
13.19

Cuasidesviaciones t´
ıpicas
6.92
3.81
Intervalos de confianza y predicci´n
o
Bandas de
predicción

Bandas de
confianza

media
&[PageTitle]
Intervalos de confianza para la media

Intervalos de confianza
40,0

Fracaso

30,0

20,0

10,0
Sq r lineal = 0,55

7,500

10,000

12,500

15,000

Renta

17,500

20,000

22,500
Renta

Intervalos de predicci´n para valores individuales
o
Intervalos de predicción
40,0

Fracaso

30,0

20,0

10,0
Sq r lineal = 0,55

7,500

10,000

12,500

15,000

Renta

17,500

20,000

22,500
Estimaci´n de algunas relaciones no lineales
o

A veces, aunque la relaci´n entre x e Y no sea lineal, el modelo de
o
regresi´n simple puede aplicarse despu´s de transformar adecuadamente
o
e
las variables.
Modelos:
Modelo de regresi´n exponencial
o
Modelo de regresi´n logar´
o
ıtmica
Modelo de regresi´n potencial
o
Modelo de regresi´n exponencial
o
La variable respuesta es aproximadamente una funci´n exponencial de la
o
variable regresora:
Y ≈ ae bx
Se linealiza tomando logaritmos:
log Y ≈ log a + bx

Si ajustamos un modelo lineal a
(x1 , log Y1 ), . . . , (xn , log Yn )
ˆ
obtenemos los estimadores log a y b.
Invirtiendo los cambios obtenemos los estimadores ˆ y b.
a ˆ
Modelo de regresi´n logar´
o
ıtmica

La variable respuesta es aproximadamente una funci´n lineal del logaritmo
o
de la variable regresora:
Y ≈ β0 + β1 log x

Si ajustamos un modelo lineal a
(log x1 , Y1 ), . . . , (log xn , Yn )
ˆ
ˆ
obtenemos los estimadores β0 y β1 .
Modelo de regresi´n potencial
o
La variable respuesta es proporcional a una potencia de la variable
regresora:
Y ≈ ax b
Se linealiza tomando logaritmos:
log Y ≈ log a + b log x

Si ajustamos un modelo lineal a
(log x1 , log Y1 ), . . . , (log xn , log Yn )
ˆ
obtenemos los estimadores log a y b.
Invirtiendo los cambios obtenemos los estimadores ˆ y b.
a ˆ
Ejemplo: renta y fracaso escolar

q
q
q

q
q
q

q
q
q

q

q

q
q

q

15

q

q

q

q
q

3.0

q
q
q

log−Fracaso

q

q
q q

q
q
q

q

q

q
q

q

q
q

2.5

25

30

q

20

Fracaso

q

3.5

35

q

q

10

q

10

12

14

16

18

q

20

22

10

12

14

16

Renta

3.5

35

q
q

q

q

q
q

15

q
q

q

q
q

3.0

log−Fracaso

q

q
q
q

q

q
q
q

q

q

q

q

q

q
q

2.5

30
25

q
q
q

q

q

q

2.4

2.6
log−Renta

q

q

q

q

10

Fracaso

20

22

q
q

q

2.2

20

q

q

q
q

18

Renta

q

q

q

q

q

q

2.8

q

3.0

2.2

2.4

2.6
log−Renta

2.8

3.0
Ejemplo: renta y fracaso escolar
Resumen del modelo y estimaciones de los parámetros

Ecuación

Resumen del modelo
R cuadrado

F

gl1

Estimaciones de los parámetros
gl2

Sig.

Constante

b1

Lineal

,550

25,658

1

21

,000

38,494

-1,347

Logarítmica

,572

28,032

1

21

,000

70,584

-19,600

Potencia

,610

32,809

1

21

,000

293,923

-1,066

Exponencial

,594

30,691

1

21

,000

51,642

-,074
Diagn´stico del modelo: linealidad y homocedasticidad
o
El gr´fico m´s util para el diagn´stico del modelo es el de residuos frente a
a
a ´
o
valores ajustados:
ˆ
ˆ
(Y1 , e1 ), . . . , (Yn , en )
Se suelen utilizar los residuos estandarizados, que bajo las hip´tesis del
o
modelo tienen aproximadamente la distribuci´n normal est´ndar.
o
a
La hip´tesis de normalidad se valora a partir de un gr´fico de probabilidad
o
a
de los residuos.
La homocedasticidad se puede confirmar si
No hay patrones sistem´ticos en el gr´fico.
a
a
La variabilidad es aproximadamente constante a lo largo de todo el
rango de valores ajustados.
Los residuos estandarizados que no est´n comprendidos entre los valores -3
a
y 3 pueden corresponder a datos at´
ıpicos potencialmente influyentes.
Residuos frente a valores ajustados
Residuos frente a valores ajustados
q

6

1

5
2

3

4

5

2

3

4

5

5
y4

q
qq
q
q
qq
q
qq
qq
q
qq
qq
qq
q
q
qq
qq
q

q
q

q
q
q

q

q
q

1

2

3

x

4

5

1

2

x

3

4

5

x

3

x

q
q
q
q
q
q

3

y3
4

q

q

q q q

1

q
q

q

q
qq
qq
q
q
q

q

q
q

q
qq
q
qq

3

q

q q

q

5

20
y2

q

q
q
q
qq
qq
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
qq
q
q

q
q

2

2

q

q

q
q
q
q
q q
q q
qq
qq
q
q
q
q qq
q
q
qq
q
q
q
q
q

2

3

q
q
q
q
q

q

q
q
q
q
q

10

q

q
q

15

5
4

y1

q q
q q
q
q qq qqq
qq
q
q
qq
q
qq
q

q

q
q
q
q

q
q

q
q

q
q
q
q q
q
q
q
q

q
q

4

25

q

q
q
q

qq

6

q
q

6

q
q
q
q

q

2

q

3

q

q
q

3

q

q
q

q

q q

q
q
q q
q q q q q
q
q
q qq
q
q qq
q q qqqqq
q
q
qq

−1

q

3

4
Ajustados

5

6

qq

5

10
Ajustados

q

q

0

0

q

q

q
q

q
q
q

q

q

qq q
q

q
qq
q
q q
qq

q

q
q

q

q

q
q

q

q q

q

q

15

q
q

q
q
q

q

q q

0

q

q

q
q

q

q

q

q
q

q

q

2

q

q q

q

q q
qq
q qq
q
q
q
qq q
q q q qq
q
q
q

−1

q

q

q q
q
q

−2

q

Residuos

q

q
q

q

−1

q

Residuos

1

2
q
q

−2

−1

q q

qq
q
q q
q
qq

q q
q
qq

−3

q

qq q
qq

q
q

1

q
q
q
qq
q
q
q qq
q
qq
q q
q
q
q
q

0

0

q

q

q

q
q
q

−2

Residuos

1

q q
q

q

q
q
q

q

1

q

q

q

Residuos

q

q

2

2

q
q

20

25

2

3

4
Ajustados

5

q

q

6

2

3

4
Ajustados

5

6
Diagn´stico del modelo: normalidad
o
Precauciones al aplicar el modelo de regresi´n simple
o

Existencia de datos at´
ıpicos
Extrapolaci´n
o
Mezcla de poblaciones diferentes
Datos temporales
Datos at´
ıpicos

5

q
q

0

1

2

3

4

q
q

q
qq
q q
q q
q
qq q
q
q
q
q q
q q q
q q qq
q
q qq
q q
q
q
qq
q
q
qq
q

q
q
qqq
q
q
qq
q

q
q

q

−1

0

1

2

3

4
Datos at´
ıpicos

5

q
q

0

1

2

3

4

q
q

q
qq
q q
q q
q
qq q
q
q
q
q q
q q q
q q qq
q
q qq
q q
q
q
qq
q
q
qq
q

q
q
qqq
q
q
qq
q

q
q

q

−1

0

1

2

3

4
Datos at´
ıpicos

5

q
q

0

1

2

3

4

q
q

q
qq
q q
q q
q
qq q
q
q
q
q q
q q q
q q qq
q
q qq
q q
q
q
qq
q
q
qq
q

q
q
qqq
q
q
qq
q

q
q

q

−1

0

1

2

3

4
Datos at´
ıpicos

5

q
q

0

1

2

3

4

q
q

q
qq
q q
q q
q
qq q
q
q
q
q q
q q q
q q qq
q
q qq
q q
q
q
qq
q
q
qq
q

q
q
qqq
q
q
qq
q

q
q

q

−1

0

1

2

3

4
Ejemplo: Temperatura e intensidad de luz en estrellas
Para 47 estrellas se han registrado el log de la temperatura efectiva en la
superficie (Temp) y el log de la intensidad de su luz (Intens).

6.0

q

q
q
q

q

q
q

q

q q
q
q

q
q
q

q

q

q

5.0

q

q

q q

q

q

q

q
q

q

4.5

q

q

q
q
q

q
q
q

q
q
q

q

q

q

q

4.0

log(Intensidad)

5.5

q

q

3.6

3.8

4.0

4.2

log(Temperatura)

4.4

4.6
Ejemplo: Temperatura e intensidad de luz en estrellas

6.0

q

q
q
q

q

q
q

q

q q
q
q

q
q
q

q

q

q

5.0

q

q q

q

q
q

q

q
q

q

4.5

q

q

q
q
q

q
q
q

q
q
q

q

q

q

q

4.0

log(Intensidad)

5.5

q

q

3.6

3.8

4.0

4.2

log(Temperatura)

4.4

4.6
Extrapolaci´n
o
Verdadera
relación
Ybuena
Ypredicción

Recta de
regresión
estimada

xpredicción
Mezcla de poblaciones

Regresión con
todos los datos
Ejemplo: n´mero de pie y estatura
u
Datos temporales (correlaci´n esp´rea
o
u

PNB en EE.UU e incidencia del melanoma en la poblaci´n masculina en
o
Connecticut (1936-1972)

Más contenido relacionado

Más de Victor Jurado Mamani

Más de Victor Jurado Mamani (7)

Ar843s
Ar843sAr843s
Ar843s
 
4.globalizacion
4.globalizacion4.globalizacion
4.globalizacion
 
Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012
Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012
Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012
 
Timoshenko resistencia-de-materiales-tomo-ii
Timoshenko resistencia-de-materiales-tomo-iiTimoshenko resistencia-de-materiales-tomo-ii
Timoshenko resistencia-de-materiales-tomo-ii
 
Tema4 regresionycorrelacion
Tema4 regresionycorrelacionTema4 regresionycorrelacion
Tema4 regresionycorrelacion
 
____ccgg u
  ____ccgg u  ____ccgg u
____ccgg u
 
Puntofijo
PuntofijoPuntofijo
Puntofijo
 

Último

Procesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptxProcesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptxMapyMerma1
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxjosetrinidadchavez
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfromanmillans
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PCCesarFernandez937857
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadAlejandrino Halire Ccahuana
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzprofefilete
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...JAVIER SOLIS NOYOLA
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfsamyarrocha1
 
Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleJonathanCovena1
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxAna Fernandez
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALEDUCCUniversidadCatl
 
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDUFICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDUgustavorojas179704
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para eventoDiegoMtsS
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptxJunkotantik
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Baker Publishing Company
 
Movimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en VenezuelaMovimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en Venezuelacocuyelquemao
 

Último (20)

Procesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptxProcesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptx
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdf
 
Earth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversaryEarth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversary
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PC
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdad
 
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdfTema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdf
 
Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo Sostenible
 
Sesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdfSesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdf
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docx
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
 
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDUFICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para evento
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptx
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
 
Movimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en VenezuelaMovimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en Venezuela
 
Unidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDIUnidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDI
 

Ad2 tema3-12

  • 1. TEMA 3 Modelo de regresi´n simple o Jos´ R. Berrendero e Departamento de Matem´ticas a Universidad Aut´noma de Madrid o An´lisis de Datos - Grado en Biolog´ a ıa
  • 2. Estructura de este tema Planteamiento del problema. Ejemplos. El modelo de regresi´n lineal simple. o Recta de regresi´n de m´ o ınimos cuadrados. Estimaci´n, IC y contrastes para los par´metros del modelo. o a An´lisis de la varianza en el modelo de regresi´n lineal simple. a o Predicci´n. o Algunos modelos linealizables. Diagn´stico del modelo. o
  • 3. Ejemplo: temperatura y vibraci´n de las alas o Los grillos son ectotermos, por lo que sus procesos fisiol´gicos y su metabolismo o est´n influidos por la temperatura. Con a el fin de estudiar estas cuestiones se ha medido el n´mero de vibraciones por seu gundo de las alas de un grupo de grillos a varias temperaturas. Vibraciones/seg. 20.0 16.0 19.8 18.4 17.1 15.5 14.7 17.1 15.4 16.2 15.0 17.2 16.0 17.0 14.1 Temp. 88.6 71.6 93.3 84.3 80.6 75.2 69.7 82.0 69.4 83.3 78.6 82.6 80.6 83.5 76.3
  • 4. Ejemplo: Temperatura y vibraci´n de las alas o Consideramos dos variables (fichero grillos.sav): X : Temperatura Y : N´mero de vibraciones de las alas por segundo u ¿Qu´ podemos decir sobre la relaci´n entre las dos variables? e o ¿Podemos afirmar (con un nivel de significaci´n dado) que al aumentar la o temperatura, aumenta la frecuencia de vibraci´n? o ¿Podemos predecir aproximadamente el valor de la variable Y si sabemos el valor de X ? ¿Qu´ grado de fiabilidad tiene la predicci´n? e o
  • 5. Ejemplo: renta y fracaso escolar en la CAM Ejemplo
  • 7. Covarianza Se dispone de un conjunto de n pares de observaciones (x1 , y1 ), . . . , (xn , yn ). La covarianza entre x e y sirve para cuantificar el grado de relaci´n lineal o que hay entre x e y : covxy 1 = n n i=1 1 (xi − x )(yi − y ) = ¯ ¯ n n xi yi − n¯y x¯ i=1 Propiedades: covxy = covyx . covxy depende de las unidades en que se miden x e y . covxx = vx , es decir, la covarianza de x con x es la varianza de x.
  • 8. Interpretaci´n de la covarianza o 2 q q q q qq q q q q q q −2 q q q q q q q q q qq q q q q y q q q q q q q qq q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q q q qq q q qq q q q q qq q q q q q q qq q q q q q q qqq qq q q q q q qq q q q q q q q q q qq q q q q q q qq q q q qq qq q q q q qq q q q q qq q q q q q q q q qq q q q q qq q q qq q q q q q qq q q q q qq q q q q q q q q q qqq q qq q q q q q qq q qq q q qq qq q qq q q q qq q q q q q q qq q q qq qq qq q q q qq q q qq q q q q q q q q q q qq q q q q qq q q q q q q q q qq q q q qq q q q q q q q q q q q q qq q q qqq q q q qq qq q q q q qq qq q q q q q q q qq q q qq q q q q q q q qq q q q qq q q q q q q q q q q q q q q qq qqqq q q q q q q q q q q q q q q qq q q q q q q q qq q qq q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q qq q q q qq q q q q qq q q qq q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q 0 q −2 y 0 q q q q q q q q q q 4 q q q q 2 4 q q q q q q q q q q q q q q q q q q qq q q q q q q q qq q q q q q q q q q q q q qq q q q q qq q q q q q q q q qq q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q qq qq qq q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q qq qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qqqq q q q q q qq q q qq q q q q q q q q q qq q qq q qq q qq q q q q qq q q q qq q qq q q q q q q q q q q qq qq q q q q q q q qq q q q q q qq q q q q q q q qqq qq q q q q q q q q q qq q q q q q q q q qq qq q q q q q q q qq q q q q q q q qq q q q q qq q q q q q q q q q qq q q q q q qq q q qq q q q q q q q q q q q q q q q qq qq q q q q q q q qq qq q q q qq q q qq q q q q q qq q q q q q q q q q qqq qq q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q q q q q qq q q q qq q q q q q q q qq q q qq q q q q q qq q q q q q q q q qq q q q q q q q q q q q q q q −4 q q q −4 q −2 −1 0 1 q −2 −1 2 q q q q q 2 q q q q q q q q qq q q q q q q q q q qq q q q q q q q q q q q q q q q qq q qq q q q q q q q q q qq q q q qq q q q q q qq q q q q q q q qq q q q qq q qq q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q qq q q q qq q q qq q qq q q q q qq qq q qq q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q qq q q q q qq q q q q q q q q q qq q q q qq q q qq q q q q q q q q qq q q q q q q q q q q qq q q q q q q q q q qq q q q q q q q q q qq q q q q q q qq q q q q qq q qq q q qq q qq q q qq q q qq q q q q q q q q q q q qq q qq q q q q q q q q q q q q qq qq q q q q q q q q q q q q q qq q q q q qq q q qq q q q q q q q q qq q q q q q q q q q q qq q q qq q q q q q qq q q q q q q q qq q q q q q qq q q q q q q q q q q q q qq q qq q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q −1 q q q q −2 0 Covarianza aprox. cero 1 2 q q q 4 q qq q q q y q −1 q q q q q 2 0 q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q qq qq q q q q qq q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q qq q q q qq q q qq q qqq q q q q q q q q q q q q q q q qq qq q q q q q q q q q q q q q qq q q q q q q qq q q q q q qq q q qq q qqq q qq q q q q q q q q q q q q qq q q q q q q q qq q q q qqq q qq q q q q q q q qq qq q qqq q q q qq q qq q q q q qq q q q qq q q q q qq q q q q q q q q qqq q q q q qqq q q q q q q q q q qq q q q qq q q qq q q q q qq q q q qqq q q q q q q qq q q q q q q q q q q q q q q q q q q q q qqq qq q q q q q q q q q q q qq q q qq q qq q q q q q q q q q q q q q q q q q q q q q qq q qqq q qq q q q qq q q qq q q qq q q q q q q q q q qq q qq q q qqq q q q q q q q q q q q qq q qq q qq q q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q q q q q q q q 0 1 q q q 6 q q −2 q q q q q q q q q q q q y 1 q q −2 0 Covarianza negativa q q q q q 2 Covarianza positiva q q q q q −2 −1 0 Covarianza aprox. cero 1 2 q q q
  • 9. Coeficiente de correlaci´n o Resulta conveniente disponer de una medida de relaci´n lineal que no o dependa de las unidades. Para ello, se normaliza covxy dividiendo por el producto de desviaciones t´ ıpicas, lo que lleva al coeficiente de correlaci´n: o covxy rxy = √ √ . vx vy Propiedades: No depende de las unidades Siempre toma valores entre -1 y 1. Su signo se interpreta igual que el de la covarianza S´lo vale 1 ´ -1 cuando los puntos est´n perfectamente alineados. o o a Aunque rxy ≈ 0, las variables x e y no son necesariamente independientes.
  • 10. Desviación típica 1,7319 Media Vibraciones 16,633 Estadísticos descriptivos Temperatura 79,973 N 15 Correlaciones Vibraciones Media 16,633 Desviación Vibraciones Correlación de Pearson 1 típica N Sig. (bilateral) N 1,7319 15 15 Vibraciones Temperatura Temperatura 79,973 Correlación de Pearson Sig. (bilateral) 6,7170 N Correlaciones 15 6,7170 Vibraciones Correlación de Pearson Temperatura ,836 Sig. (bilateral) N 1 ,000 15 15 Correlación de Pearson ,836 1 ,000 15 20,0 19,0 Correlación de Pearson N Temperatura Vibraciones Sig. (bilateral) 20,0 Vibraciones Temperatura 1 ,836 19,0 18,0 ,000 15 17,0 Correlación de Pearson Sig. (bilateral) N 18,0 ,836 16,0 Vibraciones Vibraciones ,000 15 15,0 15 1 17,0 15 16,0 14,0 65,0 20,0 70,0 75,0 80,0 Temperatura 85,0 15,0 ,000 15 N 15 Correlaciones Temperatura ,836 Sig. (bilateral) ,000 Temperatura 15 ,836 15 Vibraciones 1 90,0 95,0 15
  • 11. Problema de regresi´n o Observamos dos variables, X e Y , el objetivo es analizar la relaci´n o existente entre ambas de forma que podamos predecir o aproximar el valor de la variable Y a partir del valor de la variable X . La variable Y se llama variable respuesta La variable X se llama variable regresora o explicativa En un problema de regresi´n (a diferencia de cuando calculamos el o coeficiente de correlaci´n) el papel de las dos variables no es sim´trico. o e
  • 12. Recta de regresi´n o Frecuentemente, existe entre las variables una relaci´n aproximadamente o lineal: Yi ≈ β0 + β1 xi . La recta y = β0 + β1 x es una recta de regresi´n. o El par´metro β1 es la pendiente de la recta. Indica la variaci´n a o media de la variable respuesta cuando X aumenta una unidad. El par´metro β0 es el t´rmino independiente de la recta. Indica el a e valor medio de Y cuando X = 0. Objetivo: estimar los par´metros β0 y β1 a partir de los datos (xi , Yi ), a i = 1, . . . , n.
  • 13. 11 ˆ ˆ Datos con β0 ≈ 3, β1 ≈ 0.5 y r ≈ 0.8 12 q 10 q 9 q q y3 y1 8 q 10 q q q q 6 8 7 q 4 5 q 6 q q q 4 6 8 10 12 14 4 q q q q 6 8 x1 q q 8 14 q 10 y4 7 5 8 q q q q q q q q 6 4 y2 12 q q q 6 10 12 9 q q q 3 q q x3 q q 4 q q 6 8 10 x2 12 14 q q q 8 10 12 14 x4 16 18
  • 14. El modelo de regresi´n lineal simple o Para poder hacer inferencia (IC y contrastes) sobre los par´metros, a suponemos que se verifica el siguiente modelo: Para todas las observaciones i = 1, . . . , n Yi = β0 + β1 xi + ui , donde: El valor medio de los errores ui es cero. Todos los errores ui tienen la misma varianza σ 2 (homocedasticidad). Las variables ui tienen distribuci´n normal. o Las variables ui son independientes.
  • 15. 58 STATISTICAL INFERENCE Figure 3.4 Joint density functions (shown symbolically) of the bivariate normal distributions of the form (3.9) with varying m. where f ðx; mÞ is the normal density function of N ðm; 1Þ. Figure 3.4 shows symboli-
  • 16. 30 ¿En qu´ situaciones se verifica el modelo? e q q q 2 q q q qq q q q q qq q qq q q q qq qq q q q q q q 20 q q q q q q q q q q y3 q qq q q q 0 4 q q 3 y1 5 q q q 10 6 7 q q q q q q q qq q q qq qq q qq q qq q q q q q q q q q q q q q qq q q q q q q q q 1 2 3 4 5 q q q −10 1 q q 6 1 2 3 4 5 q q q q y4 q q qq q q q qq q q 4 y2 15 5 20 6 25 q 10 q q q q 3 q 0 −4 −2 q q q q q q qqq q qq q q q q q qq q q q q qq q q 0 q qq q q qq q q q q q q q q q qq q q q q q q q 2 x2 q qq q q q qq q q q q q qq q q q q q 2 5 q q q 6 x 7 x 4 1 2 3 4 x 5 6
  • 17. La recta de m´ ınimos cuadrados ˆ ˆ Si estimamos β0 y β1 mediante β0 y β1 , la predicci´n de la variable o respuesta Yi en funci´n de la regresora xi es: o ˆ ˆ ˆ Yi = β0 + β1 xi Unos buenos estimadores deben ser tales que los errores de predicci´n o ˆ ˆ ˆ ei = Yi − Yi = Yi − (β0 + β1 xi ) sean peque˜os. n La recta de regresi´n de m´ o ınimos cuadrados viene dada por los valores ˆ ˆ β0 y β1 para los que se minimiza: n [Yi − (β0 + β1 xi )]2 i=1
  • 19. Estimadores de m´ ınimos cuadrados Pendiente: √ v ˆ1 = covxy = r √ y = r Sy . β vx vx Sx T´rmino independiente: e ˆ ¯ ˆ¯ β0 = Y − β1 x Al igual que en los modelos de los temas anteriores: ˆ ˆ ˆ A las predicciones Yi = β0 + β1 xi se les llama valores ajustados o pronosticados. ˆ A los errores ei = Yi − Yi se les llama residuos.
  • 20. Ejemplo: temperatura y vibraci´n de las alas o Estimadores de los par´metros: a Sy 1.73 ˆ = 0.84 = 0.2155 β1 = rxy Sx 6.72 ˆ ¯ ˆ¯ β0 = Y − β1 x = 16.633 − 0.2155 × 79.973 = −0.615 Recta de regresi´n: o y = −0.615 + 0.2155x Predicci´n de Y0 para x0 = 80: o ˆ Y0 = −0.615 + 0.2155 × 80 = 16.625
  • 21. Diagrama de dispersi´n y recta estimada o 20,0 19,0 Vibraciones 18,0 17,0 16,0 15,0 R2 Lineal = 0,7 14,0 65,0 70,0 75,0 80,0 Temperatura 85,0 90,0 95,0
  • 22. Observaciones La recta de m´ ınimos cuadrados pasa por el punto cuyas coordenadas son las medias: (¯, Y ). x ¯ Si la variable regresora se incrementa en una desviaci´n t´ o ıpica ∆x = Sx , entonces la predicci´n de la variable respuesta se o ˆ incrementa en r desviaciones t´ ıpicas: ∆Y = rSy Puede demostrarse que la suma de los residuos siempre vale cero. La recta para predecir Y en funci´n de X no es la misma que la recta o para predecir X en funci´n de Y . o
  • 23. La varianza residual La varianza residual es un estimador insesgado de σ 2 : 2 SR = n 2 i=1 ei n−2 = n i=1 (Yi ˆ − Yi )2 = n−2 n i=1 (Yi ˆ ˆ − β 0 − β 1 x i )2 . n−2 Se pierden dos grados de libertad puesto que los residuos verifican dos restricciones: La media de los residuos es igual a cero. La covarianza entre los residuos y la variable regresora es tambi´n e igual a cero.
  • 24. Una simulaci´n o Supongamos que σ = 1, β0 = 0 y β1 = 1. Entonces el modelo es Yi = xi + ui , donde los errores ui tienen distribuci´n normal est´ndar y son o a independientes. Fijamos xi = 1, 2, . . . , 10 (n = 10) y generamos las respuestas correspondientes de acuerdo con este modelo. Posteriormente calculamos la recta de m´ ınimos cuadrados y la representamos junto con la verdadera recta y = x.
  • 25. 10 Repetimos 6 veces el experimento q q 8 10 q q q q 8 8 q q q q q q 6 q q 6 6 q q q 4 q q 4 q 4 q q q 2 q 2 q q 0 0 2 q q 2 4 6 8 10 0 q 2 4 8 10 0 2 4 x q 6 8 10 x q 10 10 x 6 q q 10 0 q q q 8 8 q 8 q q q q 6 q q 6 q q q q 4 q 6 q q q 2 4 4 q q q q q 2 2 0 q q −2 q 0 2 4 6 x 8 10 0 q 2 4 6 x 8 10 0 2 4 6 x 8 10
  • 26. 10 Repetimos 6 veces el experimento q q 8 10 q q q q 8 8 q q q q q q 6 q q 6 6 q q q 4 q q 4 q 4 q q q 2 q 2 q q 0 0 2 q q 2 4 6 8 10 0 q 2 4 8 10 0 2 4 beta1= 1.11 q 6 8 10 beta1= 0.84 q 10 10 beta1= 0.9 6 q q 10 0 q q q 8 8 q 8 q q q q 6 q q 6 q q q q 4 q 6 q q q 2 4 4 q q q q q 2 2 0 q q −2 q 0 2 4 6 beta1= 0.95 8 10 0 q 2 4 6 beta1= 1.01 8 10 0 2 4 6 beta1= 0.99 8 10
  • 27. Repetimos 1000 veces el experimento 100 250 Los estimadores son centrados y tienen distribuci´n normal. o 0 Existen f´rmulas del o ˆ error t´ ıpico de β0 y ˆ1 que miden su β variabilidad. −1 0 β0 1 2 0 50 150 −2 0.6 0.8 1.0 β1 1.2 1.4 Estas f´rmulas son o las que se utilizan para calcular IC y llevar a cabo contrastes en lo que sigue.
  • 28. Error t´ ıpico del estimador de la pendiente ˆ error t´ ıpico de β1 = SR n i=1 (xi − x )2 ¯ = SR 1 nvx Al aumentar nvx , el error t´ ıpico de la pendiente disminuye (es decir, la estimaci´n de la pendiente es m´s precisa). o a Conviene dise˜ar el experimento de forma que los valores xi tengan la n mayor dispersi´n posible. o
  • 29. Error t´ ıpico del estimador del t´rmino independiente e ˆ error t´ ıpico de β0 = SR 1 x2 ¯ + n nvx Si x 2 es grande, se estima con menos precisi´n el t´rmino ¯ o e independiente.
  • 30. Intervalos de confianza ˆ Los intervalos de confianza de nivel 1 − α para los par´metros βi (i = 0, 1) a tienen la estructura habitual: ˆ IC1−α (βi ) ≡ βi ˆ tn−2,α/2 × error t´ ıpico de βi En comparaci´n con los intervalos de confianza para la media: o Los grados de libertad son n − 2 en lugar de n − 1. La f´rmula del error t´ o ıpico es m´s complicada. a El intervalo de confianza para σ 2 tambi´n tiene la estructura que ya hemos e visto en los modelos de los temas anteriores: IC1−α (σ 2 ) ≡ 2 2 (n − 2)SR (n − 2)SR , 2 χ2 n−2;α/2 χn−2;1−α/2
  • 31. Ejemplo: temperatura y vibraci´n de las alas o 2 Para los datos del ejemplo se ha calculado SR = 0.97. Calcula los errores t´ ıpicos de los estimadores de la pendiente y del t´rmino independiente. e Calcula un intervalo de confianza de nivel 95% para β1 . Calcula un intervalo de confianza de nivel 95% para β0 .
  • 32. Contrastes para los par´metros a Contraste bilateral: Hip´tesis: H0 : βi = 0 frente a H1 : βi = 0 o Regi´n cr´ o ıtica: ˆ |β i | R= > tn−2,α/2 ˆ error t´ ıpico de βi . Contrastes unilaterales: Hip´tesis: H0 : βi ≤ 0 frente a H1 : βi > 0 o Regi´n cr´ o ıtica: ˆ βi R= > tn−2,α ˆ error t´ ıpico de βi Hip´tesis: H0 : βi ≥ 0 frente a H1 : βi < 0 o Regi´n cr´ o ıtica: ˆ βi R= < −tn−2,α ˆ error t´ ıpico de βi . .
  • 33. Ejemplo: temperatura y vibraci´n de las alas o ¿Aportan los datos evidencia para afirmar (α = 0.01) que la temperatura tiene una influencia significativa sobre la frecuencia de vibraci´n de las alas? o ¿Podemos afirmar a nivel α = 0.01 que al aumentar la temperatura aumenta la frecuencia media de vibraci´n de las alas? o Escribe la regi´n cr´ o ıtica para contrastar H0 : β1 = 1 frente a H1 : β1 = 1.
  • 34. Con SPSS: temperatura y vibraciones Resumen del modelo R ,836 a Modelo 1 R cuadrado corregida ,677 R cuadrado ,700 Error típ. de la estimación ,9849 a. Variables predictoras: (Constante), Temperatura ANOVAb Modelo 1 Regresión Suma de cuadrados 29,383 1 Media cuadrática 29,383 ,970 gl Residual 12,611 13 Total 41,993 F 30,290 Sig. ,000 a 14 a. Variables predictoras: (Constante), Temperatura b. Variable dependiente: Vibraciones Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) Temperatura B -,615 Error típ. 3,144 ,216 ,039 a. Variable dependiente: Vibraciones Coeficientes tipificados Beta t -,196 ,836 Sig. ,848 5,504 ,000
  • 35. Con SPSS: renta y fracaso escolar &[PageTitle] Resumen del modelob R cuadrado corregida Modelo R R cuadrado a 1 ,742 ,550 ,528 a. Variables predictoras: (Constante), Renta b. Variable dependiente: Fracaso Error típ. de la estimación 4,7566 ANOVAb Suma de cuadrados gl Regresión 580,516 1 Residual 475,133 21 Total 1055,649 22 a. Variables predictoras: (Constante), Renta b. Variable dependiente: Fracaso Modelo 1 Media cuadrática 580,516 22,625 F 25,658 Sig. ,000a t 10,562 -5,065 Sig. ,000 ,000 Coeficientesa Coeficientes no estandarizados Modelo B Error típ. 1 (Constante) 38,494 3,645 Renta -1,347 ,266 a. Variable dependiente: Fracaso Coeficientes estandarizad os Beta -,742
  • 36. Cuestiones Escribe la ecuaci´n de la recta de m´ o ınimos cuadrados que describe el nivel de fracaso escolar como funci´n de la renta. o Calcula intervalos de confianza de nivel 95% para la pendiente y el t´rmino independiente de la recta de regresi´n. e o ¿Podemos afirmar, a nivel α = 0.05 que niveles m´s altos de renta a est´n asociados a niveles m´s bajos de fracaso escolar? a a ¿Cu´nto vale el coeficiente de correlaci´n entre el nivel de renta y el a o porcentaje de fracaso escolar? ¿Qu´ porcentaje de fracaso escolar se predice en una poblaci´n cuya e o renta es x0 = 13000 euros? ¿Cu´l es el residuo correspondiente a Colmenar Viejo? a
  • 37. An´lisis de la varianza en regresi´n simple a o Yi ¯ Yi − Y ˆ = Yi + ei ˆ ¯ = (Yi − Y ) + ei n n ¯ (Yi − Y )2 = i=1 n ˆ ¯ (Yi − Y )2 + i=1 ei2 i=1 SCT = SCE + SCR SCT mide la variabilidad total (tiene n − 1 gl) SCE mide la variabilidad explicada por el modelo (tiene 1 gl) SCR mide la variabilidad no explicada o residual (tiene n − 2 gl)
  • 38. Tabla ANOVA y contraste F Fuente de variaci´n o Explicada (SCE) Residual (SCR) Total (SCT) Suma de cuadrados n ˆ ¯ 2 i=1 (Yi − Y ) n 2 i=1 ei n ¯ (Yi − Y )2 i=1 gl 1 n−2 n−1 cuadrados medios n ˆ ¯ 2 i=1 (Yi − Y ) 2 SR = estad´ ıstico F n 2 i=1 ei n−2 2 El estad´ ıstico F es igual a SCE/SR . Si F es suficientemente grande (la variabilidad explicada es muy grande respecto a la no explicada), se debe rechazar H0 : β1 = 0. Bajo H0 : β1 = 0, el estad´ ıstico F tiene distribuci´n F1,n−2 . La regi´n o o cr´ ıtica de nivel α del contraste es: R = {F > F1,n−2;α }
  • 39. Tabla ANOVA y contraste F Para contrastar H0 : β1 = 0 a nivel α hemos considerado tres procedimientos: Calcular un IC de nivel de confianza 1 − α para β1 y rechazar H0 si 0 no pertenece al intervalo. ˆ Dividir |β1 | por su error t´ ıpico y rechazar H0 si el valor obtenido es superior a tn−2;α/2 . 2 Calcular F = SCE/SR y rechazar H0 si el valor obtenido es superior a F1,n−2;α . Los tres m´todos son equivalentes en este modelo. e
  • 40. Evaluaci´n del ajuste o Para valorar el grado con el que la recta se ajusta a los datos se emplean varias medidas: El coeficiente de correlaci´n r . o El coeficiente de determinaci´n: o R2 = Variabilidad explicada SCE = Variabilidad total SCT En el modelo de regresi´n simple R 2 = r 2 , el coeficiente de o determinaci´n coincide con el coeficiente de correlaci´n al cuadrado. o o El error cuadr´tico medio: a ECM = n i=1 (Yi n ˆ − Yi )2 = Puede comprobarse que ECM = Vy (1 − r 2 ). n 2 i=1 ei n .
  • 41. Cuestiones ˆ Si SCT = 8100, SCE = 6900 y β1 = −6.7. Calcula el coeficiente de correlaci´n entre la variable regresora y la variable respuesta. o Para un conjunto de 20 datos se sabe que SCT = 7200, SCE = 2900 ˆ y β1 = 3.1. Calcula el coeficiente de correlaci´n, el coeficiente de o determinaci´n y el error cuadr´tico medio. o a
  • 42. Inferencia sobre la variable respuesta Una de las razones para ajustar un modelo de regresi´n simple es obtener o informaci´n sobre Y cuando x toma un valor x0 conocido. Hay dos o problemas relacionados con este objetivo: Estimar el valor medio de Y para los individuos de la poblaci´n o para los que X = x0 . Si µ0 es este valor medio, µ0 = β0 + β1 x0 . Predecir el valor individual que tomar´ la variable Y para una a nueva observaci´n para la que se sabe que X = x0 . Si Y0 es este o valor, Y0 = β0 + β1 x0 + u0 . ¿Qu´ problema es m´s dif´ de los dos? e a ıcil ¿Qu´ estimador y qu´ predicci´n resultan razonables para µ0 y Y0 ? e e o
  • 43. Estimaci´n y predicci´n puntual o o En ambos casos, el estimador (o predicci´n) puntual es: o ˆ ˆ ˆ ¯ ˆ Y0 = β0 + β1 x0 = Y + β1 (x0 − x ). ¯ Sin embargo, el intervalo de confianza para µ0 es diferente del intervalo de predicci´n para Y0 . o Intervalo de confianza para µ0 de nivel 1 − α:   2 ¯ ˆ Y0 tn−2;α/2 SR 1 + (x0 − x )  n nVx Intervalo de predicci´n para Y0 de nivel 1 − α: o   2 ¯ ˆ Y0 tn−2;α/2 SR 1 + 1 + (x0 − x )  n nVx
  • 44. Ejemplo: temperatura y vibraci´n de las alas o Calcula un intervalo de confianza de nivel 95% para el n´mero medio u de vibraciones de las alas de los grillos cuando la temperatura es de 80 grados Farenheit. Calcula un intervalo de predicci´n de nivel 95% para el n´mero de o u vibraciones de las alas de un grillo cuando la temperatura es de 80 grados Farenheit. En una poblaci´n de la Comunidad de Madrid se sabe que la renta o per c´pita es 1000 euros inferior a la media de los datos disponibles. a Calcula un intervalo de predicci´n de nivel 95% del porcentaje de o fracaso escolar en esa poblaci´n. Repite el ejercicio para una o poblaci´n cuya renta sea 1000 euros superior a la media. o % Fracaso Renta Medias 20.73 13.19 Cuasidesviaciones t´ ıpicas 6.92 3.81
  • 45. Intervalos de confianza y predicci´n o Bandas de predicción Bandas de confianza media
  • 46. &[PageTitle] Intervalos de confianza para la media Intervalos de confianza 40,0 Fracaso 30,0 20,0 10,0 Sq r lineal = 0,55 7,500 10,000 12,500 15,000 Renta 17,500 20,000 22,500
  • 47. Renta Intervalos de predicci´n para valores individuales o Intervalos de predicción 40,0 Fracaso 30,0 20,0 10,0 Sq r lineal = 0,55 7,500 10,000 12,500 15,000 Renta 17,500 20,000 22,500
  • 48. Estimaci´n de algunas relaciones no lineales o A veces, aunque la relaci´n entre x e Y no sea lineal, el modelo de o regresi´n simple puede aplicarse despu´s de transformar adecuadamente o e las variables. Modelos: Modelo de regresi´n exponencial o Modelo de regresi´n logar´ o ıtmica Modelo de regresi´n potencial o
  • 49. Modelo de regresi´n exponencial o La variable respuesta es aproximadamente una funci´n exponencial de la o variable regresora: Y ≈ ae bx Se linealiza tomando logaritmos: log Y ≈ log a + bx Si ajustamos un modelo lineal a (x1 , log Y1 ), . . . , (xn , log Yn ) ˆ obtenemos los estimadores log a y b. Invirtiendo los cambios obtenemos los estimadores ˆ y b. a ˆ
  • 50. Modelo de regresi´n logar´ o ıtmica La variable respuesta es aproximadamente una funci´n lineal del logaritmo o de la variable regresora: Y ≈ β0 + β1 log x Si ajustamos un modelo lineal a (log x1 , Y1 ), . . . , (log xn , Yn ) ˆ ˆ obtenemos los estimadores β0 y β1 .
  • 51. Modelo de regresi´n potencial o La variable respuesta es proporcional a una potencia de la variable regresora: Y ≈ ax b Se linealiza tomando logaritmos: log Y ≈ log a + b log x Si ajustamos un modelo lineal a (log x1 , log Y1 ), . . . , (log xn , log Yn ) ˆ obtenemos los estimadores log a y b. Invirtiendo los cambios obtenemos los estimadores ˆ y b. a ˆ
  • 52. Ejemplo: renta y fracaso escolar q q q q q q q q q q q q q q 15 q q q q q 3.0 q q q log−Fracaso q q q q q q q q q q q q q q 2.5 25 30 q 20 Fracaso q 3.5 35 q q 10 q 10 12 14 16 18 q 20 22 10 12 14 16 Renta 3.5 35 q q q q q q 15 q q q q q 3.0 log−Fracaso q q q q q q q q q q q q q q q 2.5 30 25 q q q q q q 2.4 2.6 log−Renta q q q q 10 Fracaso 20 22 q q q 2.2 20 q q q q 18 Renta q q q q q q 2.8 q 3.0 2.2 2.4 2.6 log−Renta 2.8 3.0
  • 53. Ejemplo: renta y fracaso escolar Resumen del modelo y estimaciones de los parámetros Ecuación Resumen del modelo R cuadrado F gl1 Estimaciones de los parámetros gl2 Sig. Constante b1 Lineal ,550 25,658 1 21 ,000 38,494 -1,347 Logarítmica ,572 28,032 1 21 ,000 70,584 -19,600 Potencia ,610 32,809 1 21 ,000 293,923 -1,066 Exponencial ,594 30,691 1 21 ,000 51,642 -,074
  • 54. Diagn´stico del modelo: linealidad y homocedasticidad o El gr´fico m´s util para el diagn´stico del modelo es el de residuos frente a a a ´ o valores ajustados: ˆ ˆ (Y1 , e1 ), . . . , (Yn , en ) Se suelen utilizar los residuos estandarizados, que bajo las hip´tesis del o modelo tienen aproximadamente la distribuci´n normal est´ndar. o a La hip´tesis de normalidad se valora a partir de un gr´fico de probabilidad o a de los residuos. La homocedasticidad se puede confirmar si No hay patrones sistem´ticos en el gr´fico. a a La variabilidad es aproximadamente constante a lo largo de todo el rango de valores ajustados. Los residuos estandarizados que no est´n comprendidos entre los valores -3 a y 3 pueden corresponder a datos at´ ıpicos potencialmente influyentes.
  • 55. Residuos frente a valores ajustados
  • 56. Residuos frente a valores ajustados q 6 1 5 2 3 4 5 2 3 4 5 5 y4 q qq q q qq q qq qq q qq qq qq q q qq qq q q q q q q q q q 1 2 3 x 4 5 1 2 x 3 4 5 x 3 x q q q q q q 3 y3 4 q q q q q 1 q q q q qq qq q q q q q q q qq q qq 3 q q q q 5 20 y2 q q q q qq qq q q q q q q q qq q q q q qq q qq q q q q 2 2 q q q q q q q q q q qq qq q q q q qq q q qq q q q q q 2 3 q q q q q q q q q q q 10 q q q 15 5 4 y1 q q q q q q qq qqq qq q q qq q qq q q q q q q q q q q q q q q q q q q q q q 4 25 q q q q qq 6 q q 6 q q q q q 2 q 3 q q q 3 q q q q q q q q q q q q q q q q q q qq q q qq q q qqqqq q q qq −1 q 3 4 Ajustados 5 6 qq 5 10 Ajustados q q 0 0 q q q q q q q q q qq q q q qq q q q qq q q q q q q q q q q q q 15 q q q q q q q q 0 q q q q q q q q q q q 2 q q q q q q qq q qq q q q qq q q q q qq q q q −1 q q q q q q −2 q Residuos q q q q −1 q Residuos 1 2 q q −2 −1 q q qq q q q q qq q q q qq −3 q qq q qq q q 1 q q q qq q q q qq q qq q q q q q q 0 0 q q q q q q −2 Residuos 1 q q q q q q q q 1 q q q Residuos q q 2 2 q q 20 25 2 3 4 Ajustados 5 q q 6 2 3 4 Ajustados 5 6
  • 57. Diagn´stico del modelo: normalidad o
  • 58. Precauciones al aplicar el modelo de regresi´n simple o Existencia de datos at´ ıpicos Extrapolaci´n o Mezcla de poblaciones diferentes Datos temporales
  • 59. Datos at´ ıpicos 5 q q 0 1 2 3 4 q q q qq q q q q q qq q q q q q q q q q q q qq q q qq q q q q qq q q qq q q q qqq q q qq q q q q −1 0 1 2 3 4
  • 60. Datos at´ ıpicos 5 q q 0 1 2 3 4 q q q qq q q q q q qq q q q q q q q q q q q qq q q qq q q q q qq q q qq q q q qqq q q qq q q q q −1 0 1 2 3 4
  • 61. Datos at´ ıpicos 5 q q 0 1 2 3 4 q q q qq q q q q q qq q q q q q q q q q q q qq q q qq q q q q qq q q qq q q q qqq q q qq q q q q −1 0 1 2 3 4
  • 62. Datos at´ ıpicos 5 q q 0 1 2 3 4 q q q qq q q q q q qq q q q q q q q q q q q qq q q qq q q q q qq q q qq q q q qqq q q qq q q q q −1 0 1 2 3 4
  • 63. Ejemplo: Temperatura e intensidad de luz en estrellas Para 47 estrellas se han registrado el log de la temperatura efectiva en la superficie (Temp) y el log de la intensidad de su luz (Intens). 6.0 q q q q q q q q q q q q q q q q q q 5.0 q q q q q q q q q q 4.5 q q q q q q q q q q q q q q q 4.0 log(Intensidad) 5.5 q q 3.6 3.8 4.0 4.2 log(Temperatura) 4.4 4.6
  • 64. Ejemplo: Temperatura e intensidad de luz en estrellas 6.0 q q q q q q q q q q q q q q q q q q 5.0 q q q q q q q q q q 4.5 q q q q q q q q q q q q q q q 4.0 log(Intensidad) 5.5 q q 3.6 3.8 4.0 4.2 log(Temperatura) 4.4 4.6
  • 66. Mezcla de poblaciones Regresión con todos los datos
  • 67. Ejemplo: n´mero de pie y estatura u
  • 68. Datos temporales (correlaci´n esp´rea o u PNB en EE.UU e incidencia del melanoma en la poblaci´n masculina en o Connecticut (1936-1972)