SlideShare una empresa de Scribd logo
TEMA 3
Modelo de regresi´n simple
o
Jos´ R. Berrendero
e
Departamento de Matem´ticas
a
Universidad Aut´noma de Madrid
o

An´lisis de Datos - Grado en Biolog´
a
ıa
Estructura de este tema

Planteamiento del problema. Ejemplos.
El modelo de regresi´n lineal simple.
o
Recta de regresi´n de m´
o
ınimos cuadrados.
Estimaci´n, IC y contrastes para los par´metros del modelo.
o
a
An´lisis de la varianza en el modelo de regresi´n lineal simple.
a
o
Predicci´n.
o
Algunos modelos linealizables.
Diagn´stico del modelo.
o
Ejemplo: temperatura y vibraci´n de las alas
o

Los grillos son ectotermos, por lo que sus
procesos fisiol´gicos y su metabolismo
o
est´n influidos por la temperatura. Con
a
el fin de estudiar estas cuestiones se ha
medido el n´mero de vibraciones por seu
gundo de las alas de un grupo de grillos
a varias temperaturas.

Vibraciones/seg.
20.0
16.0
19.8
18.4
17.1
15.5
14.7
17.1
15.4
16.2
15.0
17.2
16.0
17.0
14.1

Temp.
88.6
71.6
93.3
84.3
80.6
75.2
69.7
82.0
69.4
83.3
78.6
82.6
80.6
83.5
76.3
Ejemplo: Temperatura y vibraci´n de las alas
o

Consideramos dos variables (fichero grillos.sav):
X : Temperatura
Y : N´mero de vibraciones de las alas por segundo
u
¿Qu´ podemos decir sobre la relaci´n entre las dos variables?
e
o
¿Podemos afirmar (con un nivel de significaci´n dado) que al aumentar la
o
temperatura, aumenta la frecuencia de vibraci´n?
o
¿Podemos predecir aproximadamente el valor de la variable Y si sabemos
el valor de X ? ¿Qu´ grado de fiabilidad tiene la predicci´n?
e
o
Ejemplo: renta y fracaso escolar en la CAM
Ejemplo
q

30

35

q

Arganda

25

q
q
q
q

q

20

q

q
q
q

q
q

q

15

q

q

q

q
q

10

% fracaso escolar

q
q
q

q

10

12

14

16

18

Renta (en miles de euros)

Torrelodones

20

22
Covarianza
Se dispone de un conjunto de n pares de observaciones
(x1 , y1 ), . . . , (xn , yn ).

La covarianza entre x e y sirve para cuantificar el grado de relaci´n lineal
o
que hay entre x e y :
covxy

1
=
n

n
i=1

1
(xi − x )(yi − y ) =
¯
¯
n

n

xi yi − n¯y
x¯
i=1

Propiedades:
covxy = covyx .
covxy depende de las unidades en que se miden x e y .
covxx = vx , es decir, la covarianza de x con x es la varianza de x.
Interpretaci´n de la covarianza
o

2

q

q

q
q

qq

q
q

q
q
q

q

−2

q q

q

q

q

q

q
q
q
qq

q

q

q

q

y

q

q

q
q
q
q
q
qq q
q
q
qq
q
q q
q
q
q
q
q
q q q
q
q
q q q
q
q q q q
q q
q q
q
q
q
q
q q
q
q
q q
q qq
q
q q qq
q
q
q
q
q
q q q
qq q
q
qq q
q
q q
qq
q
q
q
q
q q qq q
q
q
q q
q qqq
qq q
q q
q
q
qq
q q q q
q
q
q q q qq q q q
q
q
q
qq
q q
q
qq
qq
q q
q q qq
q
q
q
q qq
q q
q
q q q q
q
qq q
q
q q qq
q
q qq q
q
q
q
q
qq q
q
q q qq q q q
q
q
q
q
q
q
qqq
q qq
q
q
q
q q qq q qq q q qq qq q qq q
q
q qq q q q
q
q q qq q
q qq
qq qq
q
q q qq q
q qq q
q q q q
q q q
q
q
qq
q
q
q
q qq q q q q
q q q q qq
q
q q qq
q q
q
q q q
q q q q q q qq q q qqq q q q qq qq
q
q
q q
qq
qq q q
q
q
q
q q qq q q qq q q q q q q q qq q
q
q qq q q
q q
q
q
q q q
q
q
q
q
q
qq
qqqq
q q q q q
q q q
q
q q q q
q
qq q q q q
q
q
q
qq
q
qq
q
q q
q
q
q
q q q
q
qq q
q
q
q qq q
q
q
q
q
q
q
q q q
q q
qq q q
q
qq
q
q q q
qq
q
q
qq
q
q
q
q q q
q
q q
q q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q q q
q q
q
q
q

q

q
q q

0

q

−2

y
0

q

q

q
q q

q

q

q

q
q

4

q

q

q

q

2

4

q
q
q
q
q
q
q
q
q q
q q
q
q
q q
q
q
qq q q q
q q q q
qq q
q q q
q q
q
q
q
q q q qq q
q q
q
qq q
q
q
q
q
q
q q
qq
q q q
q
q q
q
q
qq q q q q
q
q
q q
q q q
q
q
q q q
q
q
q
q
q qq
qq
qq
q
q q
q
q q q qq q q
q q q q
q
q
q
q
q
q
qq
q
q q
q
q
q q qq qq q q q q q q
q
q q q
q q
q q
q
q
qq
q q
q
q q q
q
q q
q
q
q qqqq
q q
q
q
q
qq q q
qq q
q
q
q
q
q
q q q qq q qq q qq q qq q
q q
q
qq
q
q
q
qq q qq q q
q
q q
q
q
q q q qq
qq q
q
q
q q q
q
qq
q
q
q
q
q qq
q
q
q q q q q qqq
qq
q
q
q
q q
q
q
q q qq
q
q q q
q
q
q
q
qq qq q q
q q q q q qq q q q q q q
q
qq q q q
q
qq
q
q
q q
q
q
q
q
q
qq q
q q
q q qq
q
q
qq q q q q
q q
q
q
q
q
q
q q q q qq qq q q q q
q q
q qq
qq
q
q
q
qq q
q qq q q
q q q qq
q q
q q q q q q q qqq
qq q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq q
q
q
q
q
q q q q q
qq
q
q
q
qq
q
q
q
q
q q q
qq
q
q qq
q
q
q
q
q
qq q
q
q
q
q
q
q
q
qq
q
q
q
q q
q
q
q
q
q

q

q

q
q

−4

q
q

q

−4

q

−2

−1

0

1

q

−2

−1

2

q

q

q

q

q

2

q

q

q

q

q

q

q
q
qq
q
q
q
q
q
q q
q
q
qq q q
q
q
q
q q
q q
q
q
q q
q
q
qq
q
qq
q q q
q q
q q
q
q qq
q
q
q qq q
q q
q
q
qq q q q q
q
q q qq q
q
q
qq
q
qq
q
q
q q q
q
q
q
q
q q q
q
q
q
q
q
q
q q q
q q qq q
q
q
q q
q q qq q
q q
qq
q
q qq
q qq
q
q
q
q qq
qq q qq
q
q
q q
q
qq q q q q
q
q
q
q q
q q
q q
q
q
qq q q
q
q
q q qq q q
q
q
q
q
q q
q
q
q
qq q q
q
q
qq q q q q
q
q
q q
q qq q
q q qq
q q
qq q
q
q
q
q
q
q
q qq q q q
q
q
q q q
q q qq q
q
q q
q
q q
q q
qq
q q
q
q
q
q q
q
q qq q
q
q
q
q q qq q
q
q
q
qq
q
qq q
q
qq q
qq
q
q qq
q
q qq q q
q
q
q
q
q
q q q
q qq
q
qq
q
q
q
q
q
q
q q
q
q q q
qq qq q
q
q
q
q q q q
q
q
q
q
q
qq
q
q q
q
qq q q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q q
q
q q q qq q
q
qq
q q
q q q
qq
q
q
q
q
q
q q
qq q q
q q
q
qq q
q
q
q
q
q
q
q
q
q
q
q
qq
q qq
q qq
q
q
q
q
q
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q qq
q
q
q
q
q
q
q
q

q
q

q
q

−1

q

q
q
q

−2

0
Covarianza aprox. cero

1

2

q
q

q

4

q
qq
q
q

q

y

q

−1

q

q
q

q

q

2

0

q

q

q

q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q
q q
qq
q
q
q
q q
q q q
q
qq
qq
q
q
q
q
qq q
q q q
q
q
q
qq q
q
q
q
q
q
q q
q
q
q
q q q
q
q q q
q
q
q
q
q q
q
q
q q
qq q
q q qq
q
q
q q qq q
q
q
qq
q
q
qq
q
qqq q q q
q
q
q q
q
q
q q
q
q
q
q
qq
qq
q q q
q
q
q
q q q q q
q q qq q
q
q q
q
q
qq
q
q
q
q
q
qq
q q
qq q qqq
q
qq
q q
q
q
q
q
q
q
q q q q
qq q
q
q q q q q qq q q
q qqq
q
qq q
q
q
q
q q
q qq qq q qqq
q
q
q qq q
qq
q
q
q
q
qq q q
q
qq q
q
q
q qq q q q q
q
q q q qqq q q q q qqq
q q q
q
q q
q
q
q
qq q
q
q qq
q
q
qq q
q q
q qq q q q qqq q q q
q
q
q qq
q
q q
q
q
q q
q
q
q
q q q q q q q q q q qqq qq q q q
q
q
q
q q q q q qq q q qq
q qq q q q q
q q
q
q
q
q
q q q q
q
q
q
q
q q q qq q qqq
q
qq q q q qq q q
qq
q
q qq q q
q
q q q q q q qq q qq q q qqq q q
q
q
q
q
q q q q q qq q
qq
q
qq
q
q
q q
q
q
q q
q q
q qq
q
q q
q qq
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q

q

0

1

q
q
q

6

q

q

−2

q
q
q q q
q
q
q
q
q

q
q

y

1

q

q

−2

0
Covarianza negativa

q

q

q

q

q

2

Covarianza positiva

q

q

q
q

q

−2

−1

0
Covarianza aprox. cero

1

2

q
q
q
Coeficiente de correlaci´n
o
Resulta conveniente disponer de una medida de relaci´n lineal que no
o
dependa de las unidades. Para ello, se normaliza covxy dividiendo por el
producto de desviaciones t´
ıpicas, lo que lleva al coeficiente de
correlaci´n:
o
covxy
rxy = √ √ .
vx vy
Propiedades:
No depende de las unidades
Siempre toma valores entre -1 y 1.
Su signo se interpreta igual que el de la covarianza
S´lo vale 1 ´ -1 cuando los puntos est´n perfectamente alineados.
o
o
a
Aunque rxy ≈ 0, las variables x e y no son necesariamente
independientes.
Desviación
típica
1,7319

Media
Vibraciones
16,633
Estadísticos descriptivos
Temperatura
79,973

N
15

Correlaciones

Vibraciones

Media
16,633

Desviación
Vibraciones
Correlación de Pearson
1
típica
N
Sig. (bilateral)
N
1,7319
15 15

Vibraciones

Temperatura

Temperatura

79,973

Correlación de Pearson
Sig. (bilateral)
6,7170
N

Correlaciones

15

6,7170

Vibraciones

Correlación de Pearson

Temperatura
,836

Sig. (bilateral)
N

1

,000
15

15

Correlación de Pearson

,836

1

,000
15

20,0

19,0

Correlación de Pearson
N

Temperatura

Vibraciones

Sig. (bilateral)

20,0

Vibraciones Temperatura
1
,836
19,0

18,0

,000
15

17,0

Correlación de Pearson
Sig. (bilateral)
N

18,0

,836

16,0

Vibraciones

Vibraciones

,000
15

15,0

15
1

17,0

15
16,0

14,0
65,0

20,0

70,0

75,0

80,0

Temperatura

85,0

15,0

,000
15

N

15

Correlaciones

Temperatura
,836

Sig. (bilateral)

,000

Temperatura
15

,836

15

Vibraciones
1

90,0

95,0

15
Problema de regresi´n
o

Observamos dos variables, X e Y , el objetivo es analizar la relaci´n
o
existente entre ambas de forma que podamos predecir o aproximar el valor
de la variable Y a partir del valor de la variable X .
La variable Y se llama variable respuesta
La variable X se llama variable regresora o explicativa
En un problema de regresi´n (a diferencia de cuando calculamos el
o
coeficiente de correlaci´n) el papel de las dos variables no es sim´trico.
o
e
Recta de regresi´n
o
Frecuentemente, existe entre las variables una relaci´n aproximadamente
o
lineal:
Yi ≈ β0 + β1 xi .

La recta y = β0 + β1 x es una recta de regresi´n.
o
El par´metro β1 es la pendiente de la recta. Indica la variaci´n
a
o
media de la variable respuesta cuando X aumenta una unidad.
El par´metro β0 es el t´rmino independiente de la recta. Indica el
a
e
valor medio de Y cuando X = 0.
Objetivo: estimar los par´metros β0 y β1 a partir de los datos (xi , Yi ),
a
i = 1, . . . , n.
11

ˆ
ˆ
Datos con β0 ≈ 3, β1 ≈ 0.5 y r ≈ 0.8

12

q

10

q

9

q

q

y3

y1

8

q

10

q

q

q

q

6

8

7

q

4

5

q

6

q
q

q

4

6

8

10

12

14

4

q

q

q

q

6

8

x1

q

q

8

14

q

10
y4

7
5

8

q
q

q

q
q
q
q
q

6

4

y2

12

q

q

q

6

10

12

9

q
q

q

3

q

q

x3

q

q

4

q

q

6

8

10
x2

12

14

q
q
q

8

10

12

14
x4

16

18
El modelo de regresi´n lineal simple
o

Para poder hacer inferencia (IC y contrastes) sobre los par´metros,
a
suponemos que se verifica el siguiente modelo:
Para todas las observaciones i = 1, . . . , n
Yi = β0 + β1 xi + ui ,
donde:
El valor medio de los errores ui es cero.
Todos los errores ui tienen la misma varianza σ 2 (homocedasticidad).
Las variables ui tienen distribuci´n normal.
o
Las variables ui son independientes.
58

STATISTICAL INFERENCE

Figure 3.4 Joint density functions (shown symbolically) of the bivariate normal distributions of the form
(3.9) with varying m.

where f ðx; mÞ is the normal density function of N ðm; 1Þ. Figure 3.4 shows symboli-
30

¿En qu´ situaciones se verifica el modelo?
e
q

q

q

2

q

q

q

qq q
q
q q qq
q
qq
q
q

q
qq
qq q
q q

q
q
q

20

q

q

q
q

q

q

q
q

q

q

y3

q

qq

q
q

q

0

4

q
q

3

y1

5

q
q

q

10

6

7

q

q
q

q

q
q
q
qq q
q
qq qq
q
qq q
qq q
q
q
q
q q
q

q

q
q

q
q q
qq q

q

q
q

q
q
q

q

1

2

3

4

5

q

q
q

−10

1

q
q

6

1

2

3

4

5

q

q

q
q

y4

q
q
qq q q
q
qq q
q

4

y2

15

5

20

6

25

q

10

q
q
q
q

3

q

0

−4

−2

q q
q q
q
q qqq q
qq q q q q q
qq
q
q
q
q qq q q

0

q
qq
q
q

qq
q
q

q

q

q
q
q
q q
qq
q q
q q

q
q
q

2
x2

q

qq
q
q q qq
q q
q q
q qq
q
q q q

q

2

5

q
q
q

6

x

7

x

4

1

2

3

4
x

5

6
La recta de m´
ınimos cuadrados
ˆ
ˆ
Si estimamos β0 y β1 mediante β0 y β1 , la predicci´n de la variable
o
respuesta Yi en funci´n de la regresora xi es:
o
ˆ
ˆ
ˆ
Yi = β0 + β1 xi
Unos buenos estimadores deben ser tales que los errores de predicci´n
o
ˆ
ˆ
ˆ
ei = Yi − Yi = Yi − (β0 + β1 xi )
sean peque˜os.
n
La recta de regresi´n de m´
o
ınimos cuadrados viene dada por los valores
ˆ
ˆ
β0 y β1 para los que se minimiza:
n

[Yi − (β0 + β1 xi )]2
i=1
q

3

3

q

2

q

2

q

q

q

1

q
q

y

y

1

q
q
qqq

0

q

q
q

q

q

q

q
−1

−1

qqq

q

0

q

q

q

q

q
−2

q

−1

0
x

1

2

−2

−1

0
x

1

2
Estimadores de m´
ınimos cuadrados
Pendiente:

√
v
ˆ1 = covxy = r √ y = r Sy .
β
vx
vx
Sx

T´rmino independiente:
e
ˆ
¯
ˆ¯
β0 = Y − β1 x

Al igual que en los modelos de los temas anteriores:
ˆ
ˆ
ˆ
A las predicciones Yi = β0 + β1 xi se les llama valores ajustados o
pronosticados.
ˆ
A los errores ei = Yi − Yi se les llama residuos.
Ejemplo: temperatura y vibraci´n de las alas
o
Estimadores de los par´metros:
a
Sy
1.73
ˆ
= 0.84
= 0.2155
β1 = rxy
Sx
6.72
ˆ
¯
ˆ¯
β0 = Y − β1 x = 16.633 − 0.2155 × 79.973 = −0.615
Recta de regresi´n:
o
y = −0.615 + 0.2155x
Predicci´n de Y0 para x0 = 80:
o
ˆ
Y0 = −0.615 + 0.2155 × 80 = 16.625
Diagrama de dispersi´n y recta estimada
o
20,0

19,0

Vibraciones

18,0

17,0

16,0

15,0
R2 Lineal = 0,7

14,0
65,0

70,0

75,0

80,0

Temperatura

85,0

90,0

95,0
Observaciones

La recta de m´
ınimos cuadrados pasa por el punto cuyas coordenadas
son las medias: (¯, Y ).
x ¯
Si la variable regresora se incrementa en una desviaci´n t´
o ıpica
∆x = Sx , entonces la predicci´n de la variable respuesta se
o
ˆ
incrementa en r desviaciones t´
ıpicas: ∆Y = rSy
Puede demostrarse que la suma de los residuos siempre vale cero.
La recta para predecir Y en funci´n de X no es la misma que la recta
o
para predecir X en funci´n de Y .
o
La varianza residual

La varianza residual es un estimador insesgado de σ 2 :
2
SR =

n
2
i=1 ei

n−2

=

n
i=1 (Yi

ˆ
− Yi )2
=
n−2

n
i=1 (Yi

ˆ
ˆ
− β 0 − β 1 x i )2
.
n−2

Se pierden dos grados de libertad puesto que los residuos verifican dos
restricciones:
La media de los residuos es igual a cero.
La covarianza entre los residuos y la variable regresora es tambi´n
e
igual a cero.
Una simulaci´n
o

Supongamos que σ = 1, β0 = 0 y β1 = 1.
Entonces el modelo es
Yi = xi + ui ,
donde los errores ui tienen distribuci´n normal est´ndar y son
o
a
independientes.
Fijamos xi = 1, 2, . . . , 10 (n = 10) y generamos las respuestas
correspondientes de acuerdo con este modelo.
Posteriormente calculamos la recta de m´
ınimos cuadrados y la
representamos junto con la verdadera recta y = x.
10

Repetimos 6 veces el experimento
q

q

8

10

q

q

q
q

8

8

q
q

q

q
q

q

6

q

q

6

6

q
q

q

4

q
q

4

q

4

q

q
q

2

q

2

q

q

0

0

2

q

q

2

4

6

8

10

0

q

2

4

8

10

0

2

4

x

q

6

8

10

x

q

10

10

x

6

q

q

10

0

q

q

q

8

8

q

8

q

q

q

q

6

q

q

6

q
q

q

q

4

q

6

q

q

q

2

4

4

q

q

q

q
q

2

2

0

q

q

−2

q

0

2

4

6
x

8

10

0

q

2

4

6
x

8

10

0

2

4

6
x

8

10
10

Repetimos 6 veces el experimento
q

q

8

10

q

q

q
q

8

8

q
q

q

q
q

q

6

q

q

6

6

q
q

q

4

q
q

4

q

4

q

q
q

2

q

2

q

q

0

0

2

q

q

2

4

6

8

10

0

q

2

4

8

10

0

2

4

beta1=
1.11

q

6

8

10

beta1=
0.84

q

10

10

beta1=
0.9

6

q

q

10

0

q

q

q

8

8

q

8

q

q

q

q

6

q

q

6

q
q

q

q

4

q

6

q

q

q

2

4

4

q

q

q

q
q

2

2

0

q

q

−2

q

0

2

4

6
beta1=
0.95

8

10

0

q

2

4

6
beta1=
1.01

8

10

0

2

4

6
beta1=
0.99

8

10
Repetimos 1000 veces el experimento

100

250

Los estimadores son
centrados y tienen
distribuci´n normal.
o

0

Existen f´rmulas del
o
ˆ
error t´
ıpico de β0 y
ˆ1 que miden su
β
variabilidad.

−1

0

β0

1

2

0

50

150

−2

0.6

0.8

1.0

β1

1.2

1.4

Estas f´rmulas son
o
las que se utilizan
para calcular IC y
llevar a cabo
contrastes en lo que
sigue.
Error t´
ıpico del estimador de la pendiente

ˆ
error t´
ıpico de β1 =

SR
n
i=1 (xi

− x )2
¯

= SR

1
nvx

Al aumentar nvx , el error t´
ıpico de la pendiente disminuye (es decir, la
estimaci´n de la pendiente es m´s precisa).
o
a
Conviene dise˜ar el experimento de forma que los valores xi tengan la
n
mayor dispersi´n posible.
o
Error t´
ıpico del estimador del t´rmino independiente
e

ˆ
error t´
ıpico de β0 = SR

1
x2
¯
+
n nvx

Si x 2 es grande, se estima con menos precisi´n el t´rmino
¯
o
e
independiente.
Intervalos de confianza
ˆ
Los intervalos de confianza de nivel 1 − α para los par´metros βi (i = 0, 1)
a
tienen la estructura habitual:
ˆ
IC1−α (βi ) ≡ βi

ˆ
tn−2,α/2 × error t´
ıpico de βi

En comparaci´n con los intervalos de confianza para la media:
o
Los grados de libertad son n − 2 en lugar de n − 1.
La f´rmula del error t´
o
ıpico es m´s complicada.
a
El intervalo de confianza para σ 2 tambi´n tiene la estructura que ya hemos
e
visto en los modelos de los temas anteriores:
IC1−α (σ 2 ) ≡

2
2
(n − 2)SR (n − 2)SR
, 2
χ2
n−2;α/2 χn−2;1−α/2
Ejemplo: temperatura y vibraci´n de las alas
o

2
Para los datos del ejemplo se ha calculado SR = 0.97.

Calcula los errores t´
ıpicos de los estimadores de la pendiente y del
t´rmino independiente.
e
Calcula un intervalo de confianza de nivel 95% para β1 .
Calcula un intervalo de confianza de nivel 95% para β0 .
Contrastes para los par´metros
a

Contraste bilateral:
Hip´tesis: H0 : βi = 0 frente a H1 : βi = 0
o
Regi´n cr´
o
ıtica:
ˆ
|β i |
R=
> tn−2,α/2
ˆ
error t´
ıpico de βi

.

Contrastes unilaterales:
Hip´tesis: H0 : βi ≤ 0 frente a H1 : βi > 0
o
Regi´n cr´
o
ıtica:
ˆ
βi
R=
> tn−2,α
ˆ
error t´
ıpico de βi
Hip´tesis: H0 : βi ≥ 0 frente a H1 : βi < 0
o
Regi´n cr´
o
ıtica:
ˆ
βi
R=
< −tn−2,α
ˆ
error t´
ıpico de βi

.

.
Ejemplo: temperatura y vibraci´n de las alas
o

¿Aportan los datos evidencia para afirmar (α = 0.01) que la
temperatura tiene una influencia significativa sobre la frecuencia de
vibraci´n de las alas?
o
¿Podemos afirmar a nivel α = 0.01 que al aumentar la temperatura
aumenta la frecuencia media de vibraci´n de las alas?
o
Escribe la regi´n cr´
o
ıtica para contrastar H0 : β1 = 1 frente a
H1 : β1 = 1.
Con SPSS: temperatura y vibraciones
Resumen del modelo
R
,836 a

Modelo
1

R cuadrado
corregida
,677

R cuadrado
,700

Error típ. de la
estimación
,9849

a. Variables predictoras: (Constante), Temperatura
ANOVAb

Modelo
1
Regresión

Suma de
cuadrados
29,383

1

Media
cuadrática
29,383
,970

gl

Residual

12,611

13

Total

41,993

F
30,290

Sig.
,000 a

14

a. Variables predictoras: (Constante), Temperatura
b. Variable dependiente: Vibraciones
Coeficientesa

Coeficientes no estandarizados
Modelo
1
(Constante)
Temperatura

B
-,615

Error típ.
3,144

,216

,039

a. Variable dependiente: Vibraciones

Coeficientes
tipificados
Beta

t
-,196
,836

Sig.
,848

5,504

,000
Con SPSS: renta y fracaso escolar
&[PageTitle]
Resumen del modelob
R cuadrado
corregida
Modelo
R
R cuadrado
a
1
,742
,550
,528
a. Variables predictoras: (Constante), Renta
b. Variable dependiente: Fracaso

Error típ. de la
estimación
4,7566

ANOVAb
Suma de
cuadrados
gl
Regresión
580,516
1
Residual
475,133
21
Total
1055,649
22
a. Variables predictoras: (Constante), Renta
b. Variable dependiente: Fracaso

Modelo
1

Media
cuadrática
580,516
22,625

F
25,658

Sig.
,000a

t
10,562
-5,065

Sig.
,000
,000

Coeficientesa

Coeficientes no
estandarizados
Modelo
B
Error típ.
1
(Constante)
38,494
3,645
Renta
-1,347
,266
a. Variable dependiente: Fracaso

Coeficientes
estandarizad
os
Beta
-,742
Cuestiones
Escribe la ecuaci´n de la recta de m´
o
ınimos cuadrados que describe el
nivel de fracaso escolar como funci´n de la renta.
o
Calcula intervalos de confianza de nivel 95% para la pendiente y el
t´rmino independiente de la recta de regresi´n.
e
o
¿Podemos afirmar, a nivel α = 0.05 que niveles m´s altos de renta
a
est´n asociados a niveles m´s bajos de fracaso escolar?
a
a
¿Cu´nto vale el coeficiente de correlaci´n entre el nivel de renta y el
a
o
porcentaje de fracaso escolar?
¿Qu´ porcentaje de fracaso escolar se predice en una poblaci´n cuya
e
o
renta es x0 = 13000 euros?
¿Cu´l es el residuo correspondiente a Colmenar Viejo?
a
An´lisis de la varianza en regresi´n simple
a
o

Yi
¯
Yi − Y

ˆ
= Yi + ei
ˆ
¯
= (Yi − Y ) + ei

n

n

¯
(Yi − Y )2 =
i=1

n

ˆ
¯
(Yi − Y )2 +
i=1

ei2
i=1

SCT = SCE + SCR

SCT mide la variabilidad total (tiene n − 1 gl)
SCE mide la variabilidad explicada por el modelo (tiene 1 gl)
SCR mide la variabilidad no explicada o residual (tiene n − 2 gl)
Tabla ANOVA y contraste F
Fuente de variaci´n
o
Explicada (SCE)
Residual (SCR)
Total (SCT)

Suma de cuadrados
n
ˆ
¯ 2
i=1 (Yi − Y )
n
2
i=1 ei
n
¯
(Yi − Y )2
i=1

gl
1
n−2
n−1

cuadrados medios
n
ˆ
¯ 2
i=1 (Yi − Y )
2
SR =

estad´
ıstico
F

n
2
i=1 ei
n−2

2
El estad´
ıstico F es igual a SCE/SR .

Si F es suficientemente grande (la variabilidad explicada es muy grande
respecto a la no explicada), se debe rechazar H0 : β1 = 0.
Bajo H0 : β1 = 0, el estad´
ıstico F tiene distribuci´n F1,n−2 . La regi´n
o
o
cr´
ıtica de nivel α del contraste es:
R = {F > F1,n−2;α }
Tabla ANOVA y contraste F
Para contrastar H0 : β1 = 0 a nivel α hemos considerado tres
procedimientos:
Calcular un IC de nivel de confianza 1 − α para β1 y rechazar H0 si 0
no pertenece al intervalo.
ˆ
Dividir |β1 | por su error t´
ıpico y rechazar H0 si el valor obtenido es
superior a tn−2;α/2 .
2
Calcular F = SCE/SR y rechazar H0 si el valor obtenido es superior a
F1,n−2;α .

Los tres m´todos son equivalentes en este modelo.
e
Evaluaci´n del ajuste
o
Para valorar el grado con el que la recta se ajusta a los datos se emplean
varias medidas:
El coeficiente de correlaci´n r .
o
El coeficiente de determinaci´n:
o
R2 =

Variabilidad explicada
SCE
=
Variabilidad total
SCT

En el modelo de regresi´n simple R 2 = r 2 , el coeficiente de
o
determinaci´n coincide con el coeficiente de correlaci´n al cuadrado.
o
o
El error cuadr´tico medio:
a
ECM =

n
i=1 (Yi

n

ˆ
− Yi )2

=

Puede comprobarse que ECM = Vy (1 − r 2 ).

n
2
i=1 ei

n

.
Cuestiones

ˆ
Si SCT = 8100, SCE = 6900 y β1 = −6.7. Calcula el coeficiente de
correlaci´n entre la variable regresora y la variable respuesta.
o
Para un conjunto de 20 datos se sabe que SCT = 7200, SCE = 2900
ˆ
y β1 = 3.1. Calcula el coeficiente de correlaci´n, el coeficiente de
o
determinaci´n y el error cuadr´tico medio.
o
a
Inferencia sobre la variable respuesta
Una de las razones para ajustar un modelo de regresi´n simple es obtener
o
informaci´n sobre Y cuando x toma un valor x0 conocido. Hay dos
o
problemas relacionados con este objetivo:
Estimar el valor medio de Y para los individuos de la poblaci´n
o
para los que X = x0 . Si µ0 es este valor medio,
µ0 = β0 + β1 x0 .
Predecir el valor individual que tomar´ la variable Y para una
a
nueva observaci´n para la que se sabe que X = x0 . Si Y0 es este
o
valor,
Y0 = β0 + β1 x0 + u0 .
¿Qu´ problema es m´s dif´ de los dos?
e
a
ıcil
¿Qu´ estimador y qu´ predicci´n resultan razonables para µ0 y Y0 ?
e
e
o
Estimaci´n y predicci´n puntual
o
o
En ambos casos, el estimador (o predicci´n) puntual es:
o
ˆ
ˆ
ˆ
¯
ˆ
Y0 = β0 + β1 x0 = Y + β1 (x0 − x ).
¯
Sin embargo, el intervalo de confianza para µ0 es diferente del intervalo de
predicci´n para Y0 .
o
Intervalo de confianza para µ0 de nivel 1 − α:


2
¯
ˆ
Y0 tn−2;α/2 SR 1 + (x0 − x ) 
n
nVx
Intervalo de predicci´n para Y0 de nivel 1 − α:
o


2
¯
ˆ
Y0 tn−2;α/2 SR 1 + 1 + (x0 − x ) 
n
nVx
Ejemplo: temperatura y vibraci´n de las alas
o
Calcula un intervalo de confianza de nivel 95% para el n´mero medio
u
de vibraciones de las alas de los grillos cuando la temperatura es de
80 grados Farenheit.
Calcula un intervalo de predicci´n de nivel 95% para el n´mero de
o
u
vibraciones de las alas de un grillo cuando la temperatura es de 80
grados Farenheit.
En una poblaci´n de la Comunidad de Madrid se sabe que la renta
o
per c´pita es 1000 euros inferior a la media de los datos disponibles.
a
Calcula un intervalo de predicci´n de nivel 95% del porcentaje de
o
fracaso escolar en esa poblaci´n. Repite el ejercicio para una
o
poblaci´n cuya renta sea 1000 euros superior a la media.
o

% Fracaso
Renta

Medias
20.73
13.19

Cuasidesviaciones t´
ıpicas
6.92
3.81
Intervalos de confianza y predicci´n
o
Bandas de
predicción

Bandas de
confianza

media
&[PageTitle]
Intervalos de confianza para la media

Intervalos de confianza
40,0

Fracaso

30,0

20,0

10,0
Sq r lineal = 0,55

7,500

10,000

12,500

15,000

Renta

17,500

20,000

22,500
Renta

Intervalos de predicci´n para valores individuales
o
Intervalos de predicción
40,0

Fracaso

30,0

20,0

10,0
Sq r lineal = 0,55

7,500

10,000

12,500

15,000

Renta

17,500

20,000

22,500
Estimaci´n de algunas relaciones no lineales
o

A veces, aunque la relaci´n entre x e Y no sea lineal, el modelo de
o
regresi´n simple puede aplicarse despu´s de transformar adecuadamente
o
e
las variables.
Modelos:
Modelo de regresi´n exponencial
o
Modelo de regresi´n logar´
o
ıtmica
Modelo de regresi´n potencial
o
Modelo de regresi´n exponencial
o
La variable respuesta es aproximadamente una funci´n exponencial de la
o
variable regresora:
Y ≈ ae bx
Se linealiza tomando logaritmos:
log Y ≈ log a + bx

Si ajustamos un modelo lineal a
(x1 , log Y1 ), . . . , (xn , log Yn )
ˆ
obtenemos los estimadores log a y b.
Invirtiendo los cambios obtenemos los estimadores ˆ y b.
a ˆ
Modelo de regresi´n logar´
o
ıtmica

La variable respuesta es aproximadamente una funci´n lineal del logaritmo
o
de la variable regresora:
Y ≈ β0 + β1 log x

Si ajustamos un modelo lineal a
(log x1 , Y1 ), . . . , (log xn , Yn )
ˆ
ˆ
obtenemos los estimadores β0 y β1 .
Modelo de regresi´n potencial
o
La variable respuesta es proporcional a una potencia de la variable
regresora:
Y ≈ ax b
Se linealiza tomando logaritmos:
log Y ≈ log a + b log x

Si ajustamos un modelo lineal a
(log x1 , log Y1 ), . . . , (log xn , log Yn )
ˆ
obtenemos los estimadores log a y b.
Invirtiendo los cambios obtenemos los estimadores ˆ y b.
a ˆ
Ejemplo: renta y fracaso escolar

q
q
q

q
q
q

q
q
q

q

q

q
q

q

15

q

q

q

q
q

3.0

q
q
q

log−Fracaso

q

q
q q

q
q
q

q

q

q
q

q

q
q

2.5

25

30

q

20

Fracaso

q

3.5

35

q

q

10

q

10

12

14

16

18

q

20

22

10

12

14

16

Renta

3.5

35

q
q

q

q

q
q

15

q
q

q

q
q

3.0

log−Fracaso

q

q
q
q

q

q
q
q

q

q

q

q

q

q
q

2.5

30
25

q
q
q

q

q

q

2.4

2.6
log−Renta

q

q

q

q

10

Fracaso

20

22

q
q

q

2.2

20

q

q

q
q

18

Renta

q

q

q

q

q

q

2.8

q

3.0

2.2

2.4

2.6
log−Renta

2.8

3.0
Ejemplo: renta y fracaso escolar
Resumen del modelo y estimaciones de los parámetros

Ecuación

Resumen del modelo
R cuadrado

F

gl1

Estimaciones de los parámetros
gl2

Sig.

Constante

b1

Lineal

,550

25,658

1

21

,000

38,494

-1,347

Logarítmica

,572

28,032

1

21

,000

70,584

-19,600

Potencia

,610

32,809

1

21

,000

293,923

-1,066

Exponencial

,594

30,691

1

21

,000

51,642

-,074
Diagn´stico del modelo: linealidad y homocedasticidad
o
El gr´fico m´s util para el diagn´stico del modelo es el de residuos frente a
a
a ´
o
valores ajustados:
ˆ
ˆ
(Y1 , e1 ), . . . , (Yn , en )
Se suelen utilizar los residuos estandarizados, que bajo las hip´tesis del
o
modelo tienen aproximadamente la distribuci´n normal est´ndar.
o
a
La hip´tesis de normalidad se valora a partir de un gr´fico de probabilidad
o
a
de los residuos.
La homocedasticidad se puede confirmar si
No hay patrones sistem´ticos en el gr´fico.
a
a
La variabilidad es aproximadamente constante a lo largo de todo el
rango de valores ajustados.
Los residuos estandarizados que no est´n comprendidos entre los valores -3
a
y 3 pueden corresponder a datos at´
ıpicos potencialmente influyentes.
Residuos frente a valores ajustados
Residuos frente a valores ajustados
q

6

1

5
2

3

4

5

2

3

4

5

5
y4

q
qq
q
q
qq
q
qq
qq
q
qq
qq
qq
q
q
qq
qq
q

q
q

q
q
q

q

q
q

1

2

3

x

4

5

1

2

x

3

4

5

x

3

x

q
q
q
q
q
q

3

y3
4

q

q

q q q

1

q
q

q

q
qq
qq
q
q
q

q

q
q

q
qq
q
qq

3

q

q q

q

5

20
y2

q

q
q
q
qq
qq
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
qq
q
q

q
q

2

2

q

q

q
q
q
q
q q
q q
qq
qq
q
q
q
q qq
q
q
qq
q
q
q
q
q

2

3

q
q
q
q
q

q

q
q
q
q
q

10

q

q
q

15

5
4

y1

q q
q q
q
q qq qqq
qq
q
q
qq
q
qq
q

q

q
q
q
q

q
q

q
q

q
q
q
q q
q
q
q
q

q
q

4

25

q

q
q
q

qq

6

q
q

6

q
q
q
q

q

2

q

3

q

q
q

3

q

q
q

q

q q

q
q
q q
q q q q q
q
q
q qq
q
q qq
q q qqqqq
q
q
qq

−1

q

3

4
Ajustados

5

6

qq

5

10
Ajustados

q

q

0

0

q

q

q
q

q
q
q

q

q

qq q
q

q
qq
q
q q
qq

q

q
q

q

q

q
q

q

q q

q

q

15

q
q

q
q
q

q

q q

0

q

q

q
q

q

q

q

q
q

q

q

2

q

q q

q

q q
qq
q qq
q
q
q
qq q
q q q qq
q
q
q

−1

q

q

q q
q
q

−2

q

Residuos

q

q
q

q

−1

q

Residuos

1

2
q
q

−2

−1

q q

qq
q
q q
q
qq

q q
q
qq

−3

q

qq q
qq

q
q

1

q
q
q
qq
q
q
q qq
q
qq
q q
q
q
q
q

0

0

q

q

q

q
q
q

−2

Residuos

1

q q
q

q

q
q
q

q

1

q

q

q

Residuos

q

q

2

2

q
q

20

25

2

3

4
Ajustados

5

q

q

6

2

3

4
Ajustados

5

6
Diagn´stico del modelo: normalidad
o
Precauciones al aplicar el modelo de regresi´n simple
o

Existencia de datos at´
ıpicos
Extrapolaci´n
o
Mezcla de poblaciones diferentes
Datos temporales
Datos at´
ıpicos

5

q
q

0

1

2

3

4

q
q

q
qq
q q
q q
q
qq q
q
q
q
q q
q q q
q q qq
q
q qq
q q
q
q
qq
q
q
qq
q

q
q
qqq
q
q
qq
q

q
q

q

−1

0

1

2

3

4
Datos at´
ıpicos

5

q
q

0

1

2

3

4

q
q

q
qq
q q
q q
q
qq q
q
q
q
q q
q q q
q q qq
q
q qq
q q
q
q
qq
q
q
qq
q

q
q
qqq
q
q
qq
q

q
q

q

−1

0

1

2

3

4
Datos at´
ıpicos

5

q
q

0

1

2

3

4

q
q

q
qq
q q
q q
q
qq q
q
q
q
q q
q q q
q q qq
q
q qq
q q
q
q
qq
q
q
qq
q

q
q
qqq
q
q
qq
q

q
q

q

−1

0

1

2

3

4
Datos at´
ıpicos

5

q
q

0

1

2

3

4

q
q

q
qq
q q
q q
q
qq q
q
q
q
q q
q q q
q q qq
q
q qq
q q
q
q
qq
q
q
qq
q

q
q
qqq
q
q
qq
q

q
q

q

−1

0

1

2

3

4
Ejemplo: Temperatura e intensidad de luz en estrellas
Para 47 estrellas se han registrado el log de la temperatura efectiva en la
superficie (Temp) y el log de la intensidad de su luz (Intens).

6.0

q

q
q
q

q

q
q

q

q q
q
q

q
q
q

q

q

q

5.0

q

q

q q

q

q

q

q
q

q

4.5

q

q

q
q
q

q
q
q

q
q
q

q

q

q

q

4.0

log(Intensidad)

5.5

q

q

3.6

3.8

4.0

4.2

log(Temperatura)

4.4

4.6
Ejemplo: Temperatura e intensidad de luz en estrellas

6.0

q

q
q
q

q

q
q

q

q q
q
q

q
q
q

q

q

q

5.0

q

q q

q

q
q

q

q
q

q

4.5

q

q

q
q
q

q
q
q

q
q
q

q

q

q

q

4.0

log(Intensidad)

5.5

q

q

3.6

3.8

4.0

4.2

log(Temperatura)

4.4

4.6
Extrapolaci´n
o
Verdadera
relación
Ybuena
Ypredicción

Recta de
regresión
estimada

xpredicción
Mezcla de poblaciones

Regresión con
todos los datos
Ejemplo: n´mero de pie y estatura
u
Datos temporales (correlaci´n esp´rea
o
u

PNB en EE.UU e incidencia del melanoma en la poblaci´n masculina en
o
Connecticut (1936-1972)

Más contenido relacionado

Más de Victor Jurado Mamani

Ar843s
Ar843sAr843s
4.globalizacion
4.globalizacion4.globalizacion
4.globalizacion
Victor Jurado Mamani
 
Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012
Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012
Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012
Victor Jurado Mamani
 
Timoshenko resistencia-de-materiales-tomo-ii
Timoshenko resistencia-de-materiales-tomo-iiTimoshenko resistencia-de-materiales-tomo-ii
Timoshenko resistencia-de-materiales-tomo-ii
Victor Jurado Mamani
 
Tema4 regresionycorrelacion
Tema4 regresionycorrelacionTema4 regresionycorrelacion
Tema4 regresionycorrelacion
Victor Jurado Mamani
 
____ccgg u
  ____ccgg u  ____ccgg u
Puntofijo
PuntofijoPuntofijo

Más de Victor Jurado Mamani (7)

Ar843s
Ar843sAr843s
Ar843s
 
4.globalizacion
4.globalizacion4.globalizacion
4.globalizacion
 
Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012
Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012
Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012
 
Timoshenko resistencia-de-materiales-tomo-ii
Timoshenko resistencia-de-materiales-tomo-iiTimoshenko resistencia-de-materiales-tomo-ii
Timoshenko resistencia-de-materiales-tomo-ii
 
Tema4 regresionycorrelacion
Tema4 regresionycorrelacionTema4 regresionycorrelacion
Tema4 regresionycorrelacion
 
____ccgg u
  ____ccgg u  ____ccgg u
____ccgg u
 
Puntofijo
PuntofijoPuntofijo
Puntofijo
 

Último

Guia para Docentes como usar ChatGPT Mineduc Ccesa007.pdf
Guia para Docentes como usar ChatGPT  Mineduc Ccesa007.pdfGuia para Docentes como usar ChatGPT  Mineduc Ccesa007.pdf
Guia para Docentes como usar ChatGPT Mineduc Ccesa007.pdf
Demetrio Ccesa Rayme
 
Sesión: El espiritismo desenmascarado.pdf
Sesión: El espiritismo desenmascarado.pdfSesión: El espiritismo desenmascarado.pdf
Sesión: El espiritismo desenmascarado.pdf
https://gramadal.wordpress.com/
 
Respuesta del icfes pre saber verificadas
Respuesta del icfes pre saber verificadasRespuesta del icfes pre saber verificadas
Respuesta del icfes pre saber verificadas
KarenCaicedo28
 
Evaluacion del tercer trimestre del 2023-2024
Evaluacion del tercer trimestre del 2023-2024Evaluacion del tercer trimestre del 2023-2024
Evaluacion del tercer trimestre del 2023-2024
israelsouza67
 
CONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIA
CONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIACONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIA
CONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIA
ginnazamudio
 
El Cerebro se Cambia a si Mismo-Norman Doidge.pdf
El Cerebro se Cambia a si Mismo-Norman Doidge.pdfEl Cerebro se Cambia a si Mismo-Norman Doidge.pdf
El Cerebro se Cambia a si Mismo-Norman Doidge.pdf
Robert Zuñiga Vargas
 
Lecciones 10 Esc. Sabática. El espiritismo desenmascarado docx
Lecciones 10 Esc. Sabática. El espiritismo desenmascarado docxLecciones 10 Esc. Sabática. El espiritismo desenmascarado docx
Lecciones 10 Esc. Sabática. El espiritismo desenmascarado docx
Alejandrino Halire Ccahuana
 
La vida de Martin Miguel de Güemes para niños de primaria
La vida de Martin Miguel de Güemes para niños de primariaLa vida de Martin Miguel de Güemes para niños de primaria
La vida de Martin Miguel de Güemes para niños de primaria
EricaCouly1
 
Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLM
Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLMExamen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLM
Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLM
Juan Martín Martín
 
Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.
Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.
Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.
20minutos
 
Triduo Eudista: Jesucristo, Sumo y Eterno Sacerdote; El Corazón de Jesús y el...
Triduo Eudista: Jesucristo, Sumo y Eterno Sacerdote; El Corazón de Jesús y el...Triduo Eudista: Jesucristo, Sumo y Eterno Sacerdote; El Corazón de Jesús y el...
Triduo Eudista: Jesucristo, Sumo y Eterno Sacerdote; El Corazón de Jesús y el...
Unidad de Espiritualidad Eudista
 
pueblos originarios de chile presentacion twinkl.pptx
pueblos originarios de chile presentacion twinkl.pptxpueblos originarios de chile presentacion twinkl.pptx
pueblos originarios de chile presentacion twinkl.pptx
RAMIREZNICOLE
 
Power Point: El espiritismo desenmascarado
Power Point: El espiritismo desenmascaradoPower Point: El espiritismo desenmascarado
Power Point: El espiritismo desenmascarado
https://gramadal.wordpress.com/
 
Examen de la EvAU 2024 en Navarra Latín.
Examen de la EvAU 2024 en Navarra Latín.Examen de la EvAU 2024 en Navarra Latín.
Examen de la EvAU 2024 en Navarra Latín.
amayaltc18
 
Las Tecnologias Digitales en los Aprendizajesdel Siglo XXI UNESCO Ccesa007.pdf
Las Tecnologias Digitales en los Aprendizajesdel Siglo XXI  UNESCO Ccesa007.pdfLas Tecnologias Digitales en los Aprendizajesdel Siglo XXI  UNESCO Ccesa007.pdf
Las Tecnologias Digitales en los Aprendizajesdel Siglo XXI UNESCO Ccesa007.pdf
Demetrio Ccesa Rayme
 
SEMIOLOGIA DE HEMORRAGIAS DIGESTIVAS.pptx
SEMIOLOGIA DE HEMORRAGIAS DIGESTIVAS.pptxSEMIOLOGIA DE HEMORRAGIAS DIGESTIVAS.pptx
SEMIOLOGIA DE HEMORRAGIAS DIGESTIVAS.pptx
Osiris Urbano
 
Mundo ABC Examen 1 Grado- Tercer Trimestre.pdf
Mundo ABC Examen 1 Grado- Tercer Trimestre.pdfMundo ABC Examen 1 Grado- Tercer Trimestre.pdf
Mundo ABC Examen 1 Grado- Tercer Trimestre.pdf
ViriEsteva
 
3° SES COMU LUN10 CUENTO DIA DEL PADRE 933623393 PROF YESSENIA (1).docx
3° SES COMU LUN10  CUENTO DIA DEL PADRE  933623393 PROF YESSENIA (1).docx3° SES COMU LUN10  CUENTO DIA DEL PADRE  933623393 PROF YESSENIA (1).docx
3° SES COMU LUN10 CUENTO DIA DEL PADRE 933623393 PROF YESSENIA (1).docx
rosannatasaycoyactay
 
RETROALIMENTACIÓN PARA EL EXAMEN ÚNICO AUXILIAR DE ENFERMERIA.docx
RETROALIMENTACIÓN PARA EL EXAMEN ÚNICO AUXILIAR DE ENFERMERIA.docxRETROALIMENTACIÓN PARA EL EXAMEN ÚNICO AUXILIAR DE ENFERMERIA.docx
RETROALIMENTACIÓN PARA EL EXAMEN ÚNICO AUXILIAR DE ENFERMERIA.docx
100078171
 

Último (20)

Guia para Docentes como usar ChatGPT Mineduc Ccesa007.pdf
Guia para Docentes como usar ChatGPT  Mineduc Ccesa007.pdfGuia para Docentes como usar ChatGPT  Mineduc Ccesa007.pdf
Guia para Docentes como usar ChatGPT Mineduc Ccesa007.pdf
 
Sesión: El espiritismo desenmascarado.pdf
Sesión: El espiritismo desenmascarado.pdfSesión: El espiritismo desenmascarado.pdf
Sesión: El espiritismo desenmascarado.pdf
 
Respuesta del icfes pre saber verificadas
Respuesta del icfes pre saber verificadasRespuesta del icfes pre saber verificadas
Respuesta del icfes pre saber verificadas
 
Evaluacion del tercer trimestre del 2023-2024
Evaluacion del tercer trimestre del 2023-2024Evaluacion del tercer trimestre del 2023-2024
Evaluacion del tercer trimestre del 2023-2024
 
CONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIA
CONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIACONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIA
CONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIA
 
El Cerebro se Cambia a si Mismo-Norman Doidge.pdf
El Cerebro se Cambia a si Mismo-Norman Doidge.pdfEl Cerebro se Cambia a si Mismo-Norman Doidge.pdf
El Cerebro se Cambia a si Mismo-Norman Doidge.pdf
 
Lecciones 10 Esc. Sabática. El espiritismo desenmascarado docx
Lecciones 10 Esc. Sabática. El espiritismo desenmascarado docxLecciones 10 Esc. Sabática. El espiritismo desenmascarado docx
Lecciones 10 Esc. Sabática. El espiritismo desenmascarado docx
 
La vida de Martin Miguel de Güemes para niños de primaria
La vida de Martin Miguel de Güemes para niños de primariaLa vida de Martin Miguel de Güemes para niños de primaria
La vida de Martin Miguel de Güemes para niños de primaria
 
Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLM
Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLMExamen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLM
Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLM
 
Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.
Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.
Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.
 
A VISITA DO SENHOR BISPO .
A VISITA DO SENHOR BISPO                .A VISITA DO SENHOR BISPO                .
A VISITA DO SENHOR BISPO .
 
Triduo Eudista: Jesucristo, Sumo y Eterno Sacerdote; El Corazón de Jesús y el...
Triduo Eudista: Jesucristo, Sumo y Eterno Sacerdote; El Corazón de Jesús y el...Triduo Eudista: Jesucristo, Sumo y Eterno Sacerdote; El Corazón de Jesús y el...
Triduo Eudista: Jesucristo, Sumo y Eterno Sacerdote; El Corazón de Jesús y el...
 
pueblos originarios de chile presentacion twinkl.pptx
pueblos originarios de chile presentacion twinkl.pptxpueblos originarios de chile presentacion twinkl.pptx
pueblos originarios de chile presentacion twinkl.pptx
 
Power Point: El espiritismo desenmascarado
Power Point: El espiritismo desenmascaradoPower Point: El espiritismo desenmascarado
Power Point: El espiritismo desenmascarado
 
Examen de la EvAU 2024 en Navarra Latín.
Examen de la EvAU 2024 en Navarra Latín.Examen de la EvAU 2024 en Navarra Latín.
Examen de la EvAU 2024 en Navarra Latín.
 
Las Tecnologias Digitales en los Aprendizajesdel Siglo XXI UNESCO Ccesa007.pdf
Las Tecnologias Digitales en los Aprendizajesdel Siglo XXI  UNESCO Ccesa007.pdfLas Tecnologias Digitales en los Aprendizajesdel Siglo XXI  UNESCO Ccesa007.pdf
Las Tecnologias Digitales en los Aprendizajesdel Siglo XXI UNESCO Ccesa007.pdf
 
SEMIOLOGIA DE HEMORRAGIAS DIGESTIVAS.pptx
SEMIOLOGIA DE HEMORRAGIAS DIGESTIVAS.pptxSEMIOLOGIA DE HEMORRAGIAS DIGESTIVAS.pptx
SEMIOLOGIA DE HEMORRAGIAS DIGESTIVAS.pptx
 
Mundo ABC Examen 1 Grado- Tercer Trimestre.pdf
Mundo ABC Examen 1 Grado- Tercer Trimestre.pdfMundo ABC Examen 1 Grado- Tercer Trimestre.pdf
Mundo ABC Examen 1 Grado- Tercer Trimestre.pdf
 
3° SES COMU LUN10 CUENTO DIA DEL PADRE 933623393 PROF YESSENIA (1).docx
3° SES COMU LUN10  CUENTO DIA DEL PADRE  933623393 PROF YESSENIA (1).docx3° SES COMU LUN10  CUENTO DIA DEL PADRE  933623393 PROF YESSENIA (1).docx
3° SES COMU LUN10 CUENTO DIA DEL PADRE 933623393 PROF YESSENIA (1).docx
 
RETROALIMENTACIÓN PARA EL EXAMEN ÚNICO AUXILIAR DE ENFERMERIA.docx
RETROALIMENTACIÓN PARA EL EXAMEN ÚNICO AUXILIAR DE ENFERMERIA.docxRETROALIMENTACIÓN PARA EL EXAMEN ÚNICO AUXILIAR DE ENFERMERIA.docx
RETROALIMENTACIÓN PARA EL EXAMEN ÚNICO AUXILIAR DE ENFERMERIA.docx
 

Ad2 tema3-12

  • 1. TEMA 3 Modelo de regresi´n simple o Jos´ R. Berrendero e Departamento de Matem´ticas a Universidad Aut´noma de Madrid o An´lisis de Datos - Grado en Biolog´ a ıa
  • 2. Estructura de este tema Planteamiento del problema. Ejemplos. El modelo de regresi´n lineal simple. o Recta de regresi´n de m´ o ınimos cuadrados. Estimaci´n, IC y contrastes para los par´metros del modelo. o a An´lisis de la varianza en el modelo de regresi´n lineal simple. a o Predicci´n. o Algunos modelos linealizables. Diagn´stico del modelo. o
  • 3. Ejemplo: temperatura y vibraci´n de las alas o Los grillos son ectotermos, por lo que sus procesos fisiol´gicos y su metabolismo o est´n influidos por la temperatura. Con a el fin de estudiar estas cuestiones se ha medido el n´mero de vibraciones por seu gundo de las alas de un grupo de grillos a varias temperaturas. Vibraciones/seg. 20.0 16.0 19.8 18.4 17.1 15.5 14.7 17.1 15.4 16.2 15.0 17.2 16.0 17.0 14.1 Temp. 88.6 71.6 93.3 84.3 80.6 75.2 69.7 82.0 69.4 83.3 78.6 82.6 80.6 83.5 76.3
  • 4. Ejemplo: Temperatura y vibraci´n de las alas o Consideramos dos variables (fichero grillos.sav): X : Temperatura Y : N´mero de vibraciones de las alas por segundo u ¿Qu´ podemos decir sobre la relaci´n entre las dos variables? e o ¿Podemos afirmar (con un nivel de significaci´n dado) que al aumentar la o temperatura, aumenta la frecuencia de vibraci´n? o ¿Podemos predecir aproximadamente el valor de la variable Y si sabemos el valor de X ? ¿Qu´ grado de fiabilidad tiene la predicci´n? e o
  • 5. Ejemplo: renta y fracaso escolar en la CAM Ejemplo
  • 7. Covarianza Se dispone de un conjunto de n pares de observaciones (x1 , y1 ), . . . , (xn , yn ). La covarianza entre x e y sirve para cuantificar el grado de relaci´n lineal o que hay entre x e y : covxy 1 = n n i=1 1 (xi − x )(yi − y ) = ¯ ¯ n n xi yi − n¯y x¯ i=1 Propiedades: covxy = covyx . covxy depende de las unidades en que se miden x e y . covxx = vx , es decir, la covarianza de x con x es la varianza de x.
  • 8. Interpretaci´n de la covarianza o 2 q q q q qq q q q q q q −2 q q q q q q q q q qq q q q q y q q q q q q q qq q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q q q qq q q qq q q q q qq q q q q q q qq q q q q q q qqq qq q q q q q qq q q q q q q q q q qq q q q q q q qq q q q qq qq q q q q qq q q q q qq q q q q q q q q qq q q q q qq q q qq q q q q q qq q q q q qq q q q q q q q q q qqq q qq q q q q q qq q qq q q qq qq q qq q q q qq q q q q q q qq q q qq qq qq q q q qq q q qq q q q q q q q q q q qq q q q q qq q q q q q q q q qq q q q qq q q q q q q q q q q q q qq q q qqq q q q qq qq q q q q qq qq q q q q q q q qq q q qq q q q q q q q qq q q q qq q q q q q q q q q q q q q q qq qqqq q q q q q q q q q q q q q q qq q q q q q q q qq q qq q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q qq q q q qq q q q q qq q q qq q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q 0 q −2 y 0 q q q q q q q q q q 4 q q q q 2 4 q q q q q q q q q q q q q q q q q q qq q q q q q q q qq q q q q q q q q q q q q qq q q q q qq q q q q q q q q qq q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q qq qq qq q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q qq qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qqqq q q q q q qq q q qq q q q q q q q q q qq q qq q qq q qq q q q q qq q q q qq q qq q q q q q q q q q q qq qq q q q q q q q qq q q q q q qq q q q q q q q qqq qq q q q q q q q q q qq q q q q q q q q qq qq q q q q q q q qq q q q q q q q qq q q q q qq q q q q q q q q q qq q q q q q qq q q qq q q q q q q q q q q q q q q q qq qq q q q q q q q qq qq q q q qq q q qq q q q q q qq q q q q q q q q q qqq qq q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q q q q q qq q q q qq q q q q q q q qq q q qq q q q q q qq q q q q q q q q qq q q q q q q q q q q q q q q −4 q q q −4 q −2 −1 0 1 q −2 −1 2 q q q q q 2 q q q q q q q q qq q q q q q q q q q qq q q q q q q q q q q q q q q q qq q qq q q q q q q q q q qq q q q qq q q q q q qq q q q q q q q qq q q q qq q qq q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q qq q q q qq q q qq q qq q q q q qq qq q qq q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q qq q q q q qq q q q q q q q q q qq q q q qq q q qq q q q q q q q q qq q q q q q q q q q q qq q q q q q q q q q qq q q q q q q q q q qq q q q q q q qq q q q q qq q qq q q qq q qq q q qq q q qq q q q q q q q q q q q qq q qq q q q q q q q q q q q q qq qq q q q q q q q q q q q q q qq q q q q qq q q qq q q q q q q q q qq q q q q q q q q q q qq q q qq q q q q q qq q q q q q q q qq q q q q q qq q q q q q q q q q q q q qq q qq q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q −1 q q q q −2 0 Covarianza aprox. cero 1 2 q q q 4 q qq q q q y q −1 q q q q q 2 0 q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q qq qq q q q q qq q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q qq q q q qq q q qq q qqq q q q q q q q q q q q q q q q qq qq q q q q q q q q q q q q q qq q q q q q q qq q q q q q qq q q qq q qqq q qq q q q q q q q q q q q q qq q q q q q q q qq q q q qqq q qq q q q q q q q qq qq q qqq q q q qq q qq q q q q qq q q q qq q q q q qq q q q q q q q q qqq q q q q qqq q q q q q q q q q qq q q q qq q q qq q q q q qq q q q qqq q q q q q q qq q q q q q q q q q q q q q q q q q q q q qqq qq q q q q q q q q q q q qq q q qq q qq q q q q q q q q q q q q q q q q q q q q q qq q qqq q qq q q q qq q q qq q q qq q q q q q q q q q qq q qq q q qqq q q q q q q q q q q q qq q qq q qq q q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q q q q q q q q 0 1 q q q 6 q q −2 q q q q q q q q q q q q y 1 q q −2 0 Covarianza negativa q q q q q 2 Covarianza positiva q q q q q −2 −1 0 Covarianza aprox. cero 1 2 q q q
  • 9. Coeficiente de correlaci´n o Resulta conveniente disponer de una medida de relaci´n lineal que no o dependa de las unidades. Para ello, se normaliza covxy dividiendo por el producto de desviaciones t´ ıpicas, lo que lleva al coeficiente de correlaci´n: o covxy rxy = √ √ . vx vy Propiedades: No depende de las unidades Siempre toma valores entre -1 y 1. Su signo se interpreta igual que el de la covarianza S´lo vale 1 ´ -1 cuando los puntos est´n perfectamente alineados. o o a Aunque rxy ≈ 0, las variables x e y no son necesariamente independientes.
  • 10. Desviación típica 1,7319 Media Vibraciones 16,633 Estadísticos descriptivos Temperatura 79,973 N 15 Correlaciones Vibraciones Media 16,633 Desviación Vibraciones Correlación de Pearson 1 típica N Sig. (bilateral) N 1,7319 15 15 Vibraciones Temperatura Temperatura 79,973 Correlación de Pearson Sig. (bilateral) 6,7170 N Correlaciones 15 6,7170 Vibraciones Correlación de Pearson Temperatura ,836 Sig. (bilateral) N 1 ,000 15 15 Correlación de Pearson ,836 1 ,000 15 20,0 19,0 Correlación de Pearson N Temperatura Vibraciones Sig. (bilateral) 20,0 Vibraciones Temperatura 1 ,836 19,0 18,0 ,000 15 17,0 Correlación de Pearson Sig. (bilateral) N 18,0 ,836 16,0 Vibraciones Vibraciones ,000 15 15,0 15 1 17,0 15 16,0 14,0 65,0 20,0 70,0 75,0 80,0 Temperatura 85,0 15,0 ,000 15 N 15 Correlaciones Temperatura ,836 Sig. (bilateral) ,000 Temperatura 15 ,836 15 Vibraciones 1 90,0 95,0 15
  • 11. Problema de regresi´n o Observamos dos variables, X e Y , el objetivo es analizar la relaci´n o existente entre ambas de forma que podamos predecir o aproximar el valor de la variable Y a partir del valor de la variable X . La variable Y se llama variable respuesta La variable X se llama variable regresora o explicativa En un problema de regresi´n (a diferencia de cuando calculamos el o coeficiente de correlaci´n) el papel de las dos variables no es sim´trico. o e
  • 12. Recta de regresi´n o Frecuentemente, existe entre las variables una relaci´n aproximadamente o lineal: Yi ≈ β0 + β1 xi . La recta y = β0 + β1 x es una recta de regresi´n. o El par´metro β1 es la pendiente de la recta. Indica la variaci´n a o media de la variable respuesta cuando X aumenta una unidad. El par´metro β0 es el t´rmino independiente de la recta. Indica el a e valor medio de Y cuando X = 0. Objetivo: estimar los par´metros β0 y β1 a partir de los datos (xi , Yi ), a i = 1, . . . , n.
  • 13. 11 ˆ ˆ Datos con β0 ≈ 3, β1 ≈ 0.5 y r ≈ 0.8 12 q 10 q 9 q q y3 y1 8 q 10 q q q q 6 8 7 q 4 5 q 6 q q q 4 6 8 10 12 14 4 q q q q 6 8 x1 q q 8 14 q 10 y4 7 5 8 q q q q q q q q 6 4 y2 12 q q q 6 10 12 9 q q q 3 q q x3 q q 4 q q 6 8 10 x2 12 14 q q q 8 10 12 14 x4 16 18
  • 14. El modelo de regresi´n lineal simple o Para poder hacer inferencia (IC y contrastes) sobre los par´metros, a suponemos que se verifica el siguiente modelo: Para todas las observaciones i = 1, . . . , n Yi = β0 + β1 xi + ui , donde: El valor medio de los errores ui es cero. Todos los errores ui tienen la misma varianza σ 2 (homocedasticidad). Las variables ui tienen distribuci´n normal. o Las variables ui son independientes.
  • 15. 58 STATISTICAL INFERENCE Figure 3.4 Joint density functions (shown symbolically) of the bivariate normal distributions of the form (3.9) with varying m. where f ðx; mÞ is the normal density function of N ðm; 1Þ. Figure 3.4 shows symboli-
  • 16. 30 ¿En qu´ situaciones se verifica el modelo? e q q q 2 q q q qq q q q q qq q qq q q q qq qq q q q q q q 20 q q q q q q q q q q y3 q qq q q q 0 4 q q 3 y1 5 q q q 10 6 7 q q q q q q q qq q q qq qq q qq q qq q q q q q q q q q q q q q qq q q q q q q q q 1 2 3 4 5 q q q −10 1 q q 6 1 2 3 4 5 q q q q y4 q q qq q q q qq q q 4 y2 15 5 20 6 25 q 10 q q q q 3 q 0 −4 −2 q q q q q q qqq q qq q q q q q qq q q q q qq q q 0 q qq q q qq q q q q q q q q q qq q q q q q q q 2 x2 q qq q q q qq q q q q q qq q q q q q 2 5 q q q 6 x 7 x 4 1 2 3 4 x 5 6
  • 17. La recta de m´ ınimos cuadrados ˆ ˆ Si estimamos β0 y β1 mediante β0 y β1 , la predicci´n de la variable o respuesta Yi en funci´n de la regresora xi es: o ˆ ˆ ˆ Yi = β0 + β1 xi Unos buenos estimadores deben ser tales que los errores de predicci´n o ˆ ˆ ˆ ei = Yi − Yi = Yi − (β0 + β1 xi ) sean peque˜os. n La recta de regresi´n de m´ o ınimos cuadrados viene dada por los valores ˆ ˆ β0 y β1 para los que se minimiza: n [Yi − (β0 + β1 xi )]2 i=1
  • 19. Estimadores de m´ ınimos cuadrados Pendiente: √ v ˆ1 = covxy = r √ y = r Sy . β vx vx Sx T´rmino independiente: e ˆ ¯ ˆ¯ β0 = Y − β1 x Al igual que en los modelos de los temas anteriores: ˆ ˆ ˆ A las predicciones Yi = β0 + β1 xi se les llama valores ajustados o pronosticados. ˆ A los errores ei = Yi − Yi se les llama residuos.
  • 20. Ejemplo: temperatura y vibraci´n de las alas o Estimadores de los par´metros: a Sy 1.73 ˆ = 0.84 = 0.2155 β1 = rxy Sx 6.72 ˆ ¯ ˆ¯ β0 = Y − β1 x = 16.633 − 0.2155 × 79.973 = −0.615 Recta de regresi´n: o y = −0.615 + 0.2155x Predicci´n de Y0 para x0 = 80: o ˆ Y0 = −0.615 + 0.2155 × 80 = 16.625
  • 21. Diagrama de dispersi´n y recta estimada o 20,0 19,0 Vibraciones 18,0 17,0 16,0 15,0 R2 Lineal = 0,7 14,0 65,0 70,0 75,0 80,0 Temperatura 85,0 90,0 95,0
  • 22. Observaciones La recta de m´ ınimos cuadrados pasa por el punto cuyas coordenadas son las medias: (¯, Y ). x ¯ Si la variable regresora se incrementa en una desviaci´n t´ o ıpica ∆x = Sx , entonces la predicci´n de la variable respuesta se o ˆ incrementa en r desviaciones t´ ıpicas: ∆Y = rSy Puede demostrarse que la suma de los residuos siempre vale cero. La recta para predecir Y en funci´n de X no es la misma que la recta o para predecir X en funci´n de Y . o
  • 23. La varianza residual La varianza residual es un estimador insesgado de σ 2 : 2 SR = n 2 i=1 ei n−2 = n i=1 (Yi ˆ − Yi )2 = n−2 n i=1 (Yi ˆ ˆ − β 0 − β 1 x i )2 . n−2 Se pierden dos grados de libertad puesto que los residuos verifican dos restricciones: La media de los residuos es igual a cero. La covarianza entre los residuos y la variable regresora es tambi´n e igual a cero.
  • 24. Una simulaci´n o Supongamos que σ = 1, β0 = 0 y β1 = 1. Entonces el modelo es Yi = xi + ui , donde los errores ui tienen distribuci´n normal est´ndar y son o a independientes. Fijamos xi = 1, 2, . . . , 10 (n = 10) y generamos las respuestas correspondientes de acuerdo con este modelo. Posteriormente calculamos la recta de m´ ınimos cuadrados y la representamos junto con la verdadera recta y = x.
  • 25. 10 Repetimos 6 veces el experimento q q 8 10 q q q q 8 8 q q q q q q 6 q q 6 6 q q q 4 q q 4 q 4 q q q 2 q 2 q q 0 0 2 q q 2 4 6 8 10 0 q 2 4 8 10 0 2 4 x q 6 8 10 x q 10 10 x 6 q q 10 0 q q q 8 8 q 8 q q q q 6 q q 6 q q q q 4 q 6 q q q 2 4 4 q q q q q 2 2 0 q q −2 q 0 2 4 6 x 8 10 0 q 2 4 6 x 8 10 0 2 4 6 x 8 10
  • 26. 10 Repetimos 6 veces el experimento q q 8 10 q q q q 8 8 q q q q q q 6 q q 6 6 q q q 4 q q 4 q 4 q q q 2 q 2 q q 0 0 2 q q 2 4 6 8 10 0 q 2 4 8 10 0 2 4 beta1= 1.11 q 6 8 10 beta1= 0.84 q 10 10 beta1= 0.9 6 q q 10 0 q q q 8 8 q 8 q q q q 6 q q 6 q q q q 4 q 6 q q q 2 4 4 q q q q q 2 2 0 q q −2 q 0 2 4 6 beta1= 0.95 8 10 0 q 2 4 6 beta1= 1.01 8 10 0 2 4 6 beta1= 0.99 8 10
  • 27. Repetimos 1000 veces el experimento 100 250 Los estimadores son centrados y tienen distribuci´n normal. o 0 Existen f´rmulas del o ˆ error t´ ıpico de β0 y ˆ1 que miden su β variabilidad. −1 0 β0 1 2 0 50 150 −2 0.6 0.8 1.0 β1 1.2 1.4 Estas f´rmulas son o las que se utilizan para calcular IC y llevar a cabo contrastes en lo que sigue.
  • 28. Error t´ ıpico del estimador de la pendiente ˆ error t´ ıpico de β1 = SR n i=1 (xi − x )2 ¯ = SR 1 nvx Al aumentar nvx , el error t´ ıpico de la pendiente disminuye (es decir, la estimaci´n de la pendiente es m´s precisa). o a Conviene dise˜ar el experimento de forma que los valores xi tengan la n mayor dispersi´n posible. o
  • 29. Error t´ ıpico del estimador del t´rmino independiente e ˆ error t´ ıpico de β0 = SR 1 x2 ¯ + n nvx Si x 2 es grande, se estima con menos precisi´n el t´rmino ¯ o e independiente.
  • 30. Intervalos de confianza ˆ Los intervalos de confianza de nivel 1 − α para los par´metros βi (i = 0, 1) a tienen la estructura habitual: ˆ IC1−α (βi ) ≡ βi ˆ tn−2,α/2 × error t´ ıpico de βi En comparaci´n con los intervalos de confianza para la media: o Los grados de libertad son n − 2 en lugar de n − 1. La f´rmula del error t´ o ıpico es m´s complicada. a El intervalo de confianza para σ 2 tambi´n tiene la estructura que ya hemos e visto en los modelos de los temas anteriores: IC1−α (σ 2 ) ≡ 2 2 (n − 2)SR (n − 2)SR , 2 χ2 n−2;α/2 χn−2;1−α/2
  • 31. Ejemplo: temperatura y vibraci´n de las alas o 2 Para los datos del ejemplo se ha calculado SR = 0.97. Calcula los errores t´ ıpicos de los estimadores de la pendiente y del t´rmino independiente. e Calcula un intervalo de confianza de nivel 95% para β1 . Calcula un intervalo de confianza de nivel 95% para β0 .
  • 32. Contrastes para los par´metros a Contraste bilateral: Hip´tesis: H0 : βi = 0 frente a H1 : βi = 0 o Regi´n cr´ o ıtica: ˆ |β i | R= > tn−2,α/2 ˆ error t´ ıpico de βi . Contrastes unilaterales: Hip´tesis: H0 : βi ≤ 0 frente a H1 : βi > 0 o Regi´n cr´ o ıtica: ˆ βi R= > tn−2,α ˆ error t´ ıpico de βi Hip´tesis: H0 : βi ≥ 0 frente a H1 : βi < 0 o Regi´n cr´ o ıtica: ˆ βi R= < −tn−2,α ˆ error t´ ıpico de βi . .
  • 33. Ejemplo: temperatura y vibraci´n de las alas o ¿Aportan los datos evidencia para afirmar (α = 0.01) que la temperatura tiene una influencia significativa sobre la frecuencia de vibraci´n de las alas? o ¿Podemos afirmar a nivel α = 0.01 que al aumentar la temperatura aumenta la frecuencia media de vibraci´n de las alas? o Escribe la regi´n cr´ o ıtica para contrastar H0 : β1 = 1 frente a H1 : β1 = 1.
  • 34. Con SPSS: temperatura y vibraciones Resumen del modelo R ,836 a Modelo 1 R cuadrado corregida ,677 R cuadrado ,700 Error típ. de la estimación ,9849 a. Variables predictoras: (Constante), Temperatura ANOVAb Modelo 1 Regresión Suma de cuadrados 29,383 1 Media cuadrática 29,383 ,970 gl Residual 12,611 13 Total 41,993 F 30,290 Sig. ,000 a 14 a. Variables predictoras: (Constante), Temperatura b. Variable dependiente: Vibraciones Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) Temperatura B -,615 Error típ. 3,144 ,216 ,039 a. Variable dependiente: Vibraciones Coeficientes tipificados Beta t -,196 ,836 Sig. ,848 5,504 ,000
  • 35. Con SPSS: renta y fracaso escolar &[PageTitle] Resumen del modelob R cuadrado corregida Modelo R R cuadrado a 1 ,742 ,550 ,528 a. Variables predictoras: (Constante), Renta b. Variable dependiente: Fracaso Error típ. de la estimación 4,7566 ANOVAb Suma de cuadrados gl Regresión 580,516 1 Residual 475,133 21 Total 1055,649 22 a. Variables predictoras: (Constante), Renta b. Variable dependiente: Fracaso Modelo 1 Media cuadrática 580,516 22,625 F 25,658 Sig. ,000a t 10,562 -5,065 Sig. ,000 ,000 Coeficientesa Coeficientes no estandarizados Modelo B Error típ. 1 (Constante) 38,494 3,645 Renta -1,347 ,266 a. Variable dependiente: Fracaso Coeficientes estandarizad os Beta -,742
  • 36. Cuestiones Escribe la ecuaci´n de la recta de m´ o ınimos cuadrados que describe el nivel de fracaso escolar como funci´n de la renta. o Calcula intervalos de confianza de nivel 95% para la pendiente y el t´rmino independiente de la recta de regresi´n. e o ¿Podemos afirmar, a nivel α = 0.05 que niveles m´s altos de renta a est´n asociados a niveles m´s bajos de fracaso escolar? a a ¿Cu´nto vale el coeficiente de correlaci´n entre el nivel de renta y el a o porcentaje de fracaso escolar? ¿Qu´ porcentaje de fracaso escolar se predice en una poblaci´n cuya e o renta es x0 = 13000 euros? ¿Cu´l es el residuo correspondiente a Colmenar Viejo? a
  • 37. An´lisis de la varianza en regresi´n simple a o Yi ¯ Yi − Y ˆ = Yi + ei ˆ ¯ = (Yi − Y ) + ei n n ¯ (Yi − Y )2 = i=1 n ˆ ¯ (Yi − Y )2 + i=1 ei2 i=1 SCT = SCE + SCR SCT mide la variabilidad total (tiene n − 1 gl) SCE mide la variabilidad explicada por el modelo (tiene 1 gl) SCR mide la variabilidad no explicada o residual (tiene n − 2 gl)
  • 38. Tabla ANOVA y contraste F Fuente de variaci´n o Explicada (SCE) Residual (SCR) Total (SCT) Suma de cuadrados n ˆ ¯ 2 i=1 (Yi − Y ) n 2 i=1 ei n ¯ (Yi − Y )2 i=1 gl 1 n−2 n−1 cuadrados medios n ˆ ¯ 2 i=1 (Yi − Y ) 2 SR = estad´ ıstico F n 2 i=1 ei n−2 2 El estad´ ıstico F es igual a SCE/SR . Si F es suficientemente grande (la variabilidad explicada es muy grande respecto a la no explicada), se debe rechazar H0 : β1 = 0. Bajo H0 : β1 = 0, el estad´ ıstico F tiene distribuci´n F1,n−2 . La regi´n o o cr´ ıtica de nivel α del contraste es: R = {F > F1,n−2;α }
  • 39. Tabla ANOVA y contraste F Para contrastar H0 : β1 = 0 a nivel α hemos considerado tres procedimientos: Calcular un IC de nivel de confianza 1 − α para β1 y rechazar H0 si 0 no pertenece al intervalo. ˆ Dividir |β1 | por su error t´ ıpico y rechazar H0 si el valor obtenido es superior a tn−2;α/2 . 2 Calcular F = SCE/SR y rechazar H0 si el valor obtenido es superior a F1,n−2;α . Los tres m´todos son equivalentes en este modelo. e
  • 40. Evaluaci´n del ajuste o Para valorar el grado con el que la recta se ajusta a los datos se emplean varias medidas: El coeficiente de correlaci´n r . o El coeficiente de determinaci´n: o R2 = Variabilidad explicada SCE = Variabilidad total SCT En el modelo de regresi´n simple R 2 = r 2 , el coeficiente de o determinaci´n coincide con el coeficiente de correlaci´n al cuadrado. o o El error cuadr´tico medio: a ECM = n i=1 (Yi n ˆ − Yi )2 = Puede comprobarse que ECM = Vy (1 − r 2 ). n 2 i=1 ei n .
  • 41. Cuestiones ˆ Si SCT = 8100, SCE = 6900 y β1 = −6.7. Calcula el coeficiente de correlaci´n entre la variable regresora y la variable respuesta. o Para un conjunto de 20 datos se sabe que SCT = 7200, SCE = 2900 ˆ y β1 = 3.1. Calcula el coeficiente de correlaci´n, el coeficiente de o determinaci´n y el error cuadr´tico medio. o a
  • 42. Inferencia sobre la variable respuesta Una de las razones para ajustar un modelo de regresi´n simple es obtener o informaci´n sobre Y cuando x toma un valor x0 conocido. Hay dos o problemas relacionados con este objetivo: Estimar el valor medio de Y para los individuos de la poblaci´n o para los que X = x0 . Si µ0 es este valor medio, µ0 = β0 + β1 x0 . Predecir el valor individual que tomar´ la variable Y para una a nueva observaci´n para la que se sabe que X = x0 . Si Y0 es este o valor, Y0 = β0 + β1 x0 + u0 . ¿Qu´ problema es m´s dif´ de los dos? e a ıcil ¿Qu´ estimador y qu´ predicci´n resultan razonables para µ0 y Y0 ? e e o
  • 43. Estimaci´n y predicci´n puntual o o En ambos casos, el estimador (o predicci´n) puntual es: o ˆ ˆ ˆ ¯ ˆ Y0 = β0 + β1 x0 = Y + β1 (x0 − x ). ¯ Sin embargo, el intervalo de confianza para µ0 es diferente del intervalo de predicci´n para Y0 . o Intervalo de confianza para µ0 de nivel 1 − α:   2 ¯ ˆ Y0 tn−2;α/2 SR 1 + (x0 − x )  n nVx Intervalo de predicci´n para Y0 de nivel 1 − α: o   2 ¯ ˆ Y0 tn−2;α/2 SR 1 + 1 + (x0 − x )  n nVx
  • 44. Ejemplo: temperatura y vibraci´n de las alas o Calcula un intervalo de confianza de nivel 95% para el n´mero medio u de vibraciones de las alas de los grillos cuando la temperatura es de 80 grados Farenheit. Calcula un intervalo de predicci´n de nivel 95% para el n´mero de o u vibraciones de las alas de un grillo cuando la temperatura es de 80 grados Farenheit. En una poblaci´n de la Comunidad de Madrid se sabe que la renta o per c´pita es 1000 euros inferior a la media de los datos disponibles. a Calcula un intervalo de predicci´n de nivel 95% del porcentaje de o fracaso escolar en esa poblaci´n. Repite el ejercicio para una o poblaci´n cuya renta sea 1000 euros superior a la media. o % Fracaso Renta Medias 20.73 13.19 Cuasidesviaciones t´ ıpicas 6.92 3.81
  • 45. Intervalos de confianza y predicci´n o Bandas de predicción Bandas de confianza media
  • 46. &[PageTitle] Intervalos de confianza para la media Intervalos de confianza 40,0 Fracaso 30,0 20,0 10,0 Sq r lineal = 0,55 7,500 10,000 12,500 15,000 Renta 17,500 20,000 22,500
  • 47. Renta Intervalos de predicci´n para valores individuales o Intervalos de predicción 40,0 Fracaso 30,0 20,0 10,0 Sq r lineal = 0,55 7,500 10,000 12,500 15,000 Renta 17,500 20,000 22,500
  • 48. Estimaci´n de algunas relaciones no lineales o A veces, aunque la relaci´n entre x e Y no sea lineal, el modelo de o regresi´n simple puede aplicarse despu´s de transformar adecuadamente o e las variables. Modelos: Modelo de regresi´n exponencial o Modelo de regresi´n logar´ o ıtmica Modelo de regresi´n potencial o
  • 49. Modelo de regresi´n exponencial o La variable respuesta es aproximadamente una funci´n exponencial de la o variable regresora: Y ≈ ae bx Se linealiza tomando logaritmos: log Y ≈ log a + bx Si ajustamos un modelo lineal a (x1 , log Y1 ), . . . , (xn , log Yn ) ˆ obtenemos los estimadores log a y b. Invirtiendo los cambios obtenemos los estimadores ˆ y b. a ˆ
  • 50. Modelo de regresi´n logar´ o ıtmica La variable respuesta es aproximadamente una funci´n lineal del logaritmo o de la variable regresora: Y ≈ β0 + β1 log x Si ajustamos un modelo lineal a (log x1 , Y1 ), . . . , (log xn , Yn ) ˆ ˆ obtenemos los estimadores β0 y β1 .
  • 51. Modelo de regresi´n potencial o La variable respuesta es proporcional a una potencia de la variable regresora: Y ≈ ax b Se linealiza tomando logaritmos: log Y ≈ log a + b log x Si ajustamos un modelo lineal a (log x1 , log Y1 ), . . . , (log xn , log Yn ) ˆ obtenemos los estimadores log a y b. Invirtiendo los cambios obtenemos los estimadores ˆ y b. a ˆ
  • 52. Ejemplo: renta y fracaso escolar q q q q q q q q q q q q q q 15 q q q q q 3.0 q q q log−Fracaso q q q q q q q q q q q q q q 2.5 25 30 q 20 Fracaso q 3.5 35 q q 10 q 10 12 14 16 18 q 20 22 10 12 14 16 Renta 3.5 35 q q q q q q 15 q q q q q 3.0 log−Fracaso q q q q q q q q q q q q q q q 2.5 30 25 q q q q q q 2.4 2.6 log−Renta q q q q 10 Fracaso 20 22 q q q 2.2 20 q q q q 18 Renta q q q q q q 2.8 q 3.0 2.2 2.4 2.6 log−Renta 2.8 3.0
  • 53. Ejemplo: renta y fracaso escolar Resumen del modelo y estimaciones de los parámetros Ecuación Resumen del modelo R cuadrado F gl1 Estimaciones de los parámetros gl2 Sig. Constante b1 Lineal ,550 25,658 1 21 ,000 38,494 -1,347 Logarítmica ,572 28,032 1 21 ,000 70,584 -19,600 Potencia ,610 32,809 1 21 ,000 293,923 -1,066 Exponencial ,594 30,691 1 21 ,000 51,642 -,074
  • 54. Diagn´stico del modelo: linealidad y homocedasticidad o El gr´fico m´s util para el diagn´stico del modelo es el de residuos frente a a a ´ o valores ajustados: ˆ ˆ (Y1 , e1 ), . . . , (Yn , en ) Se suelen utilizar los residuos estandarizados, que bajo las hip´tesis del o modelo tienen aproximadamente la distribuci´n normal est´ndar. o a La hip´tesis de normalidad se valora a partir de un gr´fico de probabilidad o a de los residuos. La homocedasticidad se puede confirmar si No hay patrones sistem´ticos en el gr´fico. a a La variabilidad es aproximadamente constante a lo largo de todo el rango de valores ajustados. Los residuos estandarizados que no est´n comprendidos entre los valores -3 a y 3 pueden corresponder a datos at´ ıpicos potencialmente influyentes.
  • 55. Residuos frente a valores ajustados
  • 56. Residuos frente a valores ajustados q 6 1 5 2 3 4 5 2 3 4 5 5 y4 q qq q q qq q qq qq q qq qq qq q q qq qq q q q q q q q q q 1 2 3 x 4 5 1 2 x 3 4 5 x 3 x q q q q q q 3 y3 4 q q q q q 1 q q q q qq qq q q q q q q q qq q qq 3 q q q q 5 20 y2 q q q q qq qq q q q q q q q qq q q q q qq q qq q q q q 2 2 q q q q q q q q q q qq qq q q q q qq q q qq q q q q q 2 3 q q q q q q q q q q q 10 q q q 15 5 4 y1 q q q q q q qq qqq qq q q qq q qq q q q q q q q q q q q q q q q q q q q q q 4 25 q q q q qq 6 q q 6 q q q q q 2 q 3 q q q 3 q q q q q q q q q q q q q q q q q q qq q q qq q q qqqqq q q qq −1 q 3 4 Ajustados 5 6 qq 5 10 Ajustados q q 0 0 q q q q q q q q q qq q q q qq q q q qq q q q q q q q q q q q q 15 q q q q q q q q 0 q q q q q q q q q q q 2 q q q q q q qq q qq q q q qq q q q q qq q q q −1 q q q q q q −2 q Residuos q q q q −1 q Residuos 1 2 q q −2 −1 q q qq q q q q qq q q q qq −3 q qq q qq q q 1 q q q qq q q q qq q qq q q q q q q 0 0 q q q q q q −2 Residuos 1 q q q q q q q q 1 q q q Residuos q q 2 2 q q 20 25 2 3 4 Ajustados 5 q q 6 2 3 4 Ajustados 5 6
  • 57. Diagn´stico del modelo: normalidad o
  • 58. Precauciones al aplicar el modelo de regresi´n simple o Existencia de datos at´ ıpicos Extrapolaci´n o Mezcla de poblaciones diferentes Datos temporales
  • 59. Datos at´ ıpicos 5 q q 0 1 2 3 4 q q q qq q q q q q qq q q q q q q q q q q q qq q q qq q q q q qq q q qq q q q qqq q q qq q q q q −1 0 1 2 3 4
  • 60. Datos at´ ıpicos 5 q q 0 1 2 3 4 q q q qq q q q q q qq q q q q q q q q q q q qq q q qq q q q q qq q q qq q q q qqq q q qq q q q q −1 0 1 2 3 4
  • 61. Datos at´ ıpicos 5 q q 0 1 2 3 4 q q q qq q q q q q qq q q q q q q q q q q q qq q q qq q q q q qq q q qq q q q qqq q q qq q q q q −1 0 1 2 3 4
  • 62. Datos at´ ıpicos 5 q q 0 1 2 3 4 q q q qq q q q q q qq q q q q q q q q q q q qq q q qq q q q q qq q q qq q q q qqq q q qq q q q q −1 0 1 2 3 4
  • 63. Ejemplo: Temperatura e intensidad de luz en estrellas Para 47 estrellas se han registrado el log de la temperatura efectiva en la superficie (Temp) y el log de la intensidad de su luz (Intens). 6.0 q q q q q q q q q q q q q q q q q q 5.0 q q q q q q q q q q 4.5 q q q q q q q q q q q q q q q 4.0 log(Intensidad) 5.5 q q 3.6 3.8 4.0 4.2 log(Temperatura) 4.4 4.6
  • 64. Ejemplo: Temperatura e intensidad de luz en estrellas 6.0 q q q q q q q q q q q q q q q q q q 5.0 q q q q q q q q q q 4.5 q q q q q q q q q q q q q q q 4.0 log(Intensidad) 5.5 q q 3.6 3.8 4.0 4.2 log(Temperatura) 4.4 4.6
  • 66. Mezcla de poblaciones Regresión con todos los datos
  • 67. Ejemplo: n´mero de pie y estatura u
  • 68. Datos temporales (correlaci´n esp´rea o u PNB en EE.UU e incidencia del melanoma en la poblaci´n masculina en o Connecticut (1936-1972)