1. TEMA 3
Modelo de regresi´n simple
o
Jos´ R. Berrendero
e
Departamento de Matem´ticas
a
Universidad Aut´noma de Madrid
o
An´lisis de Datos - Grado en Biolog´
a
ıa
2. Estructura de este tema
Planteamiento del problema. Ejemplos.
El modelo de regresi´n lineal simple.
o
Recta de regresi´n de m´
o
ınimos cuadrados.
Estimaci´n, IC y contrastes para los par´metros del modelo.
o
a
An´lisis de la varianza en el modelo de regresi´n lineal simple.
a
o
Predicci´n.
o
Algunos modelos linealizables.
Diagn´stico del modelo.
o
3. Ejemplo: temperatura y vibraci´n de las alas
o
Los grillos son ectotermos, por lo que sus
procesos fisiol´gicos y su metabolismo
o
est´n influidos por la temperatura. Con
a
el fin de estudiar estas cuestiones se ha
medido el n´mero de vibraciones por seu
gundo de las alas de un grupo de grillos
a varias temperaturas.
Vibraciones/seg.
20.0
16.0
19.8
18.4
17.1
15.5
14.7
17.1
15.4
16.2
15.0
17.2
16.0
17.0
14.1
Temp.
88.6
71.6
93.3
84.3
80.6
75.2
69.7
82.0
69.4
83.3
78.6
82.6
80.6
83.5
76.3
4. Ejemplo: Temperatura y vibraci´n de las alas
o
Consideramos dos variables (fichero grillos.sav):
X : Temperatura
Y : N´mero de vibraciones de las alas por segundo
u
¿Qu´ podemos decir sobre la relaci´n entre las dos variables?
e
o
¿Podemos afirmar (con un nivel de significaci´n dado) que al aumentar la
o
temperatura, aumenta la frecuencia de vibraci´n?
o
¿Podemos predecir aproximadamente el valor de la variable Y si sabemos
el valor de X ? ¿Qu´ grado de fiabilidad tiene la predicci´n?
e
o
7. Covarianza
Se dispone de un conjunto de n pares de observaciones
(x1 , y1 ), . . . , (xn , yn ).
La covarianza entre x e y sirve para cuantificar el grado de relaci´n lineal
o
que hay entre x e y :
covxy
1
=
n
n
i=1
1
(xi − x )(yi − y ) =
¯
¯
n
n
xi yi − n¯y
x¯
i=1
Propiedades:
covxy = covyx .
covxy depende de las unidades en que se miden x e y .
covxx = vx , es decir, la covarianza de x con x es la varianza de x.
9. Coeficiente de correlaci´n
o
Resulta conveniente disponer de una medida de relaci´n lineal que no
o
dependa de las unidades. Para ello, se normaliza covxy dividiendo por el
producto de desviaciones t´
ıpicas, lo que lleva al coeficiente de
correlaci´n:
o
covxy
rxy = √ √ .
vx vy
Propiedades:
No depende de las unidades
Siempre toma valores entre -1 y 1.
Su signo se interpreta igual que el de la covarianza
S´lo vale 1 ´ -1 cuando los puntos est´n perfectamente alineados.
o
o
a
Aunque rxy ≈ 0, las variables x e y no son necesariamente
independientes.
10. Desviación
típica
1,7319
Media
Vibraciones
16,633
Estadísticos descriptivos
Temperatura
79,973
N
15
Correlaciones
Vibraciones
Media
16,633
Desviación
Vibraciones
Correlación de Pearson
1
típica
N
Sig. (bilateral)
N
1,7319
15 15
Vibraciones
Temperatura
Temperatura
79,973
Correlación de Pearson
Sig. (bilateral)
6,7170
N
Correlaciones
15
6,7170
Vibraciones
Correlación de Pearson
Temperatura
,836
Sig. (bilateral)
N
1
,000
15
15
Correlación de Pearson
,836
1
,000
15
20,0
19,0
Correlación de Pearson
N
Temperatura
Vibraciones
Sig. (bilateral)
20,0
Vibraciones Temperatura
1
,836
19,0
18,0
,000
15
17,0
Correlación de Pearson
Sig. (bilateral)
N
18,0
,836
16,0
Vibraciones
Vibraciones
,000
15
15,0
15
1
17,0
15
16,0
14,0
65,0
20,0
70,0
75,0
80,0
Temperatura
85,0
15,0
,000
15
N
15
Correlaciones
Temperatura
,836
Sig. (bilateral)
,000
Temperatura
15
,836
15
Vibraciones
1
90,0
95,0
15
11. Problema de regresi´n
o
Observamos dos variables, X e Y , el objetivo es analizar la relaci´n
o
existente entre ambas de forma que podamos predecir o aproximar el valor
de la variable Y a partir del valor de la variable X .
La variable Y se llama variable respuesta
La variable X se llama variable regresora o explicativa
En un problema de regresi´n (a diferencia de cuando calculamos el
o
coeficiente de correlaci´n) el papel de las dos variables no es sim´trico.
o
e
12. Recta de regresi´n
o
Frecuentemente, existe entre las variables una relaci´n aproximadamente
o
lineal:
Yi ≈ β0 + β1 xi .
La recta y = β0 + β1 x es una recta de regresi´n.
o
El par´metro β1 es la pendiente de la recta. Indica la variaci´n
a
o
media de la variable respuesta cuando X aumenta una unidad.
El par´metro β0 es el t´rmino independiente de la recta. Indica el
a
e
valor medio de Y cuando X = 0.
Objetivo: estimar los par´metros β0 y β1 a partir de los datos (xi , Yi ),
a
i = 1, . . . , n.
14. El modelo de regresi´n lineal simple
o
Para poder hacer inferencia (IC y contrastes) sobre los par´metros,
a
suponemos que se verifica el siguiente modelo:
Para todas las observaciones i = 1, . . . , n
Yi = β0 + β1 xi + ui ,
donde:
El valor medio de los errores ui es cero.
Todos los errores ui tienen la misma varianza σ 2 (homocedasticidad).
Las variables ui tienen distribuci´n normal.
o
Las variables ui son independientes.
15. 58
STATISTICAL INFERENCE
Figure 3.4 Joint density functions (shown symbolically) of the bivariate normal distributions of the form
(3.9) with varying m.
where f ðx; mÞ is the normal density function of N ðm; 1Þ. Figure 3.4 shows symboli-
17. La recta de m´
ınimos cuadrados
ˆ
ˆ
Si estimamos β0 y β1 mediante β0 y β1 , la predicci´n de la variable
o
respuesta Yi en funci´n de la regresora xi es:
o
ˆ
ˆ
ˆ
Yi = β0 + β1 xi
Unos buenos estimadores deben ser tales que los errores de predicci´n
o
ˆ
ˆ
ˆ
ei = Yi − Yi = Yi − (β0 + β1 xi )
sean peque˜os.
n
La recta de regresi´n de m´
o
ınimos cuadrados viene dada por los valores
ˆ
ˆ
β0 y β1 para los que se minimiza:
n
[Yi − (β0 + β1 xi )]2
i=1
19. Estimadores de m´
ınimos cuadrados
Pendiente:
√
v
ˆ1 = covxy = r √ y = r Sy .
β
vx
vx
Sx
T´rmino independiente:
e
ˆ
¯
ˆ¯
β0 = Y − β1 x
Al igual que en los modelos de los temas anteriores:
ˆ
ˆ
ˆ
A las predicciones Yi = β0 + β1 xi se les llama valores ajustados o
pronosticados.
ˆ
A los errores ei = Yi − Yi se les llama residuos.
20. Ejemplo: temperatura y vibraci´n de las alas
o
Estimadores de los par´metros:
a
Sy
1.73
ˆ
= 0.84
= 0.2155
β1 = rxy
Sx
6.72
ˆ
¯
ˆ¯
β0 = Y − β1 x = 16.633 − 0.2155 × 79.973 = −0.615
Recta de regresi´n:
o
y = −0.615 + 0.2155x
Predicci´n de Y0 para x0 = 80:
o
ˆ
Y0 = −0.615 + 0.2155 × 80 = 16.625
21. Diagrama de dispersi´n y recta estimada
o
20,0
19,0
Vibraciones
18,0
17,0
16,0
15,0
R2 Lineal = 0,7
14,0
65,0
70,0
75,0
80,0
Temperatura
85,0
90,0
95,0
22. Observaciones
La recta de m´
ınimos cuadrados pasa por el punto cuyas coordenadas
son las medias: (¯, Y ).
x ¯
Si la variable regresora se incrementa en una desviaci´n t´
o ıpica
∆x = Sx , entonces la predicci´n de la variable respuesta se
o
ˆ
incrementa en r desviaciones t´
ıpicas: ∆Y = rSy
Puede demostrarse que la suma de los residuos siempre vale cero.
La recta para predecir Y en funci´n de X no es la misma que la recta
o
para predecir X en funci´n de Y .
o
23. La varianza residual
La varianza residual es un estimador insesgado de σ 2 :
2
SR =
n
2
i=1 ei
n−2
=
n
i=1 (Yi
ˆ
− Yi )2
=
n−2
n
i=1 (Yi
ˆ
ˆ
− β 0 − β 1 x i )2
.
n−2
Se pierden dos grados de libertad puesto que los residuos verifican dos
restricciones:
La media de los residuos es igual a cero.
La covarianza entre los residuos y la variable regresora es tambi´n
e
igual a cero.
24. Una simulaci´n
o
Supongamos que σ = 1, β0 = 0 y β1 = 1.
Entonces el modelo es
Yi = xi + ui ,
donde los errores ui tienen distribuci´n normal est´ndar y son
o
a
independientes.
Fijamos xi = 1, 2, . . . , 10 (n = 10) y generamos las respuestas
correspondientes de acuerdo con este modelo.
Posteriormente calculamos la recta de m´
ınimos cuadrados y la
representamos junto con la verdadera recta y = x.
27. Repetimos 1000 veces el experimento
100
250
Los estimadores son
centrados y tienen
distribuci´n normal.
o
0
Existen f´rmulas del
o
ˆ
error t´
ıpico de β0 y
ˆ1 que miden su
β
variabilidad.
−1
0
β0
1
2
0
50
150
−2
0.6
0.8
1.0
β1
1.2
1.4
Estas f´rmulas son
o
las que se utilizan
para calcular IC y
llevar a cabo
contrastes en lo que
sigue.
28. Error t´
ıpico del estimador de la pendiente
ˆ
error t´
ıpico de β1 =
SR
n
i=1 (xi
− x )2
¯
= SR
1
nvx
Al aumentar nvx , el error t´
ıpico de la pendiente disminuye (es decir, la
estimaci´n de la pendiente es m´s precisa).
o
a
Conviene dise˜ar el experimento de forma que los valores xi tengan la
n
mayor dispersi´n posible.
o
29. Error t´
ıpico del estimador del t´rmino independiente
e
ˆ
error t´
ıpico de β0 = SR
1
x2
¯
+
n nvx
Si x 2 es grande, se estima con menos precisi´n el t´rmino
¯
o
e
independiente.
30. Intervalos de confianza
ˆ
Los intervalos de confianza de nivel 1 − α para los par´metros βi (i = 0, 1)
a
tienen la estructura habitual:
ˆ
IC1−α (βi ) ≡ βi
ˆ
tn−2,α/2 × error t´
ıpico de βi
En comparaci´n con los intervalos de confianza para la media:
o
Los grados de libertad son n − 2 en lugar de n − 1.
La f´rmula del error t´
o
ıpico es m´s complicada.
a
El intervalo de confianza para σ 2 tambi´n tiene la estructura que ya hemos
e
visto en los modelos de los temas anteriores:
IC1−α (σ 2 ) ≡
2
2
(n − 2)SR (n − 2)SR
, 2
χ2
n−2;α/2 χn−2;1−α/2
31. Ejemplo: temperatura y vibraci´n de las alas
o
2
Para los datos del ejemplo se ha calculado SR = 0.97.
Calcula los errores t´
ıpicos de los estimadores de la pendiente y del
t´rmino independiente.
e
Calcula un intervalo de confianza de nivel 95% para β1 .
Calcula un intervalo de confianza de nivel 95% para β0 .
32. Contrastes para los par´metros
a
Contraste bilateral:
Hip´tesis: H0 : βi = 0 frente a H1 : βi = 0
o
Regi´n cr´
o
ıtica:
ˆ
|β i |
R=
> tn−2,α/2
ˆ
error t´
ıpico de βi
.
Contrastes unilaterales:
Hip´tesis: H0 : βi ≤ 0 frente a H1 : βi > 0
o
Regi´n cr´
o
ıtica:
ˆ
βi
R=
> tn−2,α
ˆ
error t´
ıpico de βi
Hip´tesis: H0 : βi ≥ 0 frente a H1 : βi < 0
o
Regi´n cr´
o
ıtica:
ˆ
βi
R=
< −tn−2,α
ˆ
error t´
ıpico de βi
.
.
33. Ejemplo: temperatura y vibraci´n de las alas
o
¿Aportan los datos evidencia para afirmar (α = 0.01) que la
temperatura tiene una influencia significativa sobre la frecuencia de
vibraci´n de las alas?
o
¿Podemos afirmar a nivel α = 0.01 que al aumentar la temperatura
aumenta la frecuencia media de vibraci´n de las alas?
o
Escribe la regi´n cr´
o
ıtica para contrastar H0 : β1 = 1 frente a
H1 : β1 = 1.
34. Con SPSS: temperatura y vibraciones
Resumen del modelo
R
,836 a
Modelo
1
R cuadrado
corregida
,677
R cuadrado
,700
Error típ. de la
estimación
,9849
a. Variables predictoras: (Constante), Temperatura
ANOVAb
Modelo
1
Regresión
Suma de
cuadrados
29,383
1
Media
cuadrática
29,383
,970
gl
Residual
12,611
13
Total
41,993
F
30,290
Sig.
,000 a
14
a. Variables predictoras: (Constante), Temperatura
b. Variable dependiente: Vibraciones
Coeficientesa
Coeficientes no estandarizados
Modelo
1
(Constante)
Temperatura
B
-,615
Error típ.
3,144
,216
,039
a. Variable dependiente: Vibraciones
Coeficientes
tipificados
Beta
t
-,196
,836
Sig.
,848
5,504
,000
35. Con SPSS: renta y fracaso escolar
&[PageTitle]
Resumen del modelob
R cuadrado
corregida
Modelo
R
R cuadrado
a
1
,742
,550
,528
a. Variables predictoras: (Constante), Renta
b. Variable dependiente: Fracaso
Error típ. de la
estimación
4,7566
ANOVAb
Suma de
cuadrados
gl
Regresión
580,516
1
Residual
475,133
21
Total
1055,649
22
a. Variables predictoras: (Constante), Renta
b. Variable dependiente: Fracaso
Modelo
1
Media
cuadrática
580,516
22,625
F
25,658
Sig.
,000a
t
10,562
-5,065
Sig.
,000
,000
Coeficientesa
Coeficientes no
estandarizados
Modelo
B
Error típ.
1
(Constante)
38,494
3,645
Renta
-1,347
,266
a. Variable dependiente: Fracaso
Coeficientes
estandarizad
os
Beta
-,742
36. Cuestiones
Escribe la ecuaci´n de la recta de m´
o
ınimos cuadrados que describe el
nivel de fracaso escolar como funci´n de la renta.
o
Calcula intervalos de confianza de nivel 95% para la pendiente y el
t´rmino independiente de la recta de regresi´n.
e
o
¿Podemos afirmar, a nivel α = 0.05 que niveles m´s altos de renta
a
est´n asociados a niveles m´s bajos de fracaso escolar?
a
a
¿Cu´nto vale el coeficiente de correlaci´n entre el nivel de renta y el
a
o
porcentaje de fracaso escolar?
¿Qu´ porcentaje de fracaso escolar se predice en una poblaci´n cuya
e
o
renta es x0 = 13000 euros?
¿Cu´l es el residuo correspondiente a Colmenar Viejo?
a
37. An´lisis de la varianza en regresi´n simple
a
o
Yi
¯
Yi − Y
ˆ
= Yi + ei
ˆ
¯
= (Yi − Y ) + ei
n
n
¯
(Yi − Y )2 =
i=1
n
ˆ
¯
(Yi − Y )2 +
i=1
ei2
i=1
SCT = SCE + SCR
SCT mide la variabilidad total (tiene n − 1 gl)
SCE mide la variabilidad explicada por el modelo (tiene 1 gl)
SCR mide la variabilidad no explicada o residual (tiene n − 2 gl)
38. Tabla ANOVA y contraste F
Fuente de variaci´n
o
Explicada (SCE)
Residual (SCR)
Total (SCT)
Suma de cuadrados
n
ˆ
¯ 2
i=1 (Yi − Y )
n
2
i=1 ei
n
¯
(Yi − Y )2
i=1
gl
1
n−2
n−1
cuadrados medios
n
ˆ
¯ 2
i=1 (Yi − Y )
2
SR =
estad´
ıstico
F
n
2
i=1 ei
n−2
2
El estad´
ıstico F es igual a SCE/SR .
Si F es suficientemente grande (la variabilidad explicada es muy grande
respecto a la no explicada), se debe rechazar H0 : β1 = 0.
Bajo H0 : β1 = 0, el estad´
ıstico F tiene distribuci´n F1,n−2 . La regi´n
o
o
cr´
ıtica de nivel α del contraste es:
R = {F > F1,n−2;α }
39. Tabla ANOVA y contraste F
Para contrastar H0 : β1 = 0 a nivel α hemos considerado tres
procedimientos:
Calcular un IC de nivel de confianza 1 − α para β1 y rechazar H0 si 0
no pertenece al intervalo.
ˆ
Dividir |β1 | por su error t´
ıpico y rechazar H0 si el valor obtenido es
superior a tn−2;α/2 .
2
Calcular F = SCE/SR y rechazar H0 si el valor obtenido es superior a
F1,n−2;α .
Los tres m´todos son equivalentes en este modelo.
e
40. Evaluaci´n del ajuste
o
Para valorar el grado con el que la recta se ajusta a los datos se emplean
varias medidas:
El coeficiente de correlaci´n r .
o
El coeficiente de determinaci´n:
o
R2 =
Variabilidad explicada
SCE
=
Variabilidad total
SCT
En el modelo de regresi´n simple R 2 = r 2 , el coeficiente de
o
determinaci´n coincide con el coeficiente de correlaci´n al cuadrado.
o
o
El error cuadr´tico medio:
a
ECM =
n
i=1 (Yi
n
ˆ
− Yi )2
=
Puede comprobarse que ECM = Vy (1 − r 2 ).
n
2
i=1 ei
n
.
41. Cuestiones
ˆ
Si SCT = 8100, SCE = 6900 y β1 = −6.7. Calcula el coeficiente de
correlaci´n entre la variable regresora y la variable respuesta.
o
Para un conjunto de 20 datos se sabe que SCT = 7200, SCE = 2900
ˆ
y β1 = 3.1. Calcula el coeficiente de correlaci´n, el coeficiente de
o
determinaci´n y el error cuadr´tico medio.
o
a
42. Inferencia sobre la variable respuesta
Una de las razones para ajustar un modelo de regresi´n simple es obtener
o
informaci´n sobre Y cuando x toma un valor x0 conocido. Hay dos
o
problemas relacionados con este objetivo:
Estimar el valor medio de Y para los individuos de la poblaci´n
o
para los que X = x0 . Si µ0 es este valor medio,
µ0 = β0 + β1 x0 .
Predecir el valor individual que tomar´ la variable Y para una
a
nueva observaci´n para la que se sabe que X = x0 . Si Y0 es este
o
valor,
Y0 = β0 + β1 x0 + u0 .
¿Qu´ problema es m´s dif´ de los dos?
e
a
ıcil
¿Qu´ estimador y qu´ predicci´n resultan razonables para µ0 y Y0 ?
e
e
o
43. Estimaci´n y predicci´n puntual
o
o
En ambos casos, el estimador (o predicci´n) puntual es:
o
ˆ
ˆ
ˆ
¯
ˆ
Y0 = β0 + β1 x0 = Y + β1 (x0 − x ).
¯
Sin embargo, el intervalo de confianza para µ0 es diferente del intervalo de
predicci´n para Y0 .
o
Intervalo de confianza para µ0 de nivel 1 − α:
2
¯
ˆ
Y0 tn−2;α/2 SR 1 + (x0 − x )
n
nVx
Intervalo de predicci´n para Y0 de nivel 1 − α:
o
2
¯
ˆ
Y0 tn−2;α/2 SR 1 + 1 + (x0 − x )
n
nVx
44. Ejemplo: temperatura y vibraci´n de las alas
o
Calcula un intervalo de confianza de nivel 95% para el n´mero medio
u
de vibraciones de las alas de los grillos cuando la temperatura es de
80 grados Farenheit.
Calcula un intervalo de predicci´n de nivel 95% para el n´mero de
o
u
vibraciones de las alas de un grillo cuando la temperatura es de 80
grados Farenheit.
En una poblaci´n de la Comunidad de Madrid se sabe que la renta
o
per c´pita es 1000 euros inferior a la media de los datos disponibles.
a
Calcula un intervalo de predicci´n de nivel 95% del porcentaje de
o
fracaso escolar en esa poblaci´n. Repite el ejercicio para una
o
poblaci´n cuya renta sea 1000 euros superior a la media.
o
% Fracaso
Renta
Medias
20.73
13.19
Cuasidesviaciones t´
ıpicas
6.92
3.81
46. &[PageTitle]
Intervalos de confianza para la media
Intervalos de confianza
40,0
Fracaso
30,0
20,0
10,0
Sq r lineal = 0,55
7,500
10,000
12,500
15,000
Renta
17,500
20,000
22,500
47. Renta
Intervalos de predicci´n para valores individuales
o
Intervalos de predicción
40,0
Fracaso
30,0
20,0
10,0
Sq r lineal = 0,55
7,500
10,000
12,500
15,000
Renta
17,500
20,000
22,500
48. Estimaci´n de algunas relaciones no lineales
o
A veces, aunque la relaci´n entre x e Y no sea lineal, el modelo de
o
regresi´n simple puede aplicarse despu´s de transformar adecuadamente
o
e
las variables.
Modelos:
Modelo de regresi´n exponencial
o
Modelo de regresi´n logar´
o
ıtmica
Modelo de regresi´n potencial
o
49. Modelo de regresi´n exponencial
o
La variable respuesta es aproximadamente una funci´n exponencial de la
o
variable regresora:
Y ≈ ae bx
Se linealiza tomando logaritmos:
log Y ≈ log a + bx
Si ajustamos un modelo lineal a
(x1 , log Y1 ), . . . , (xn , log Yn )
ˆ
obtenemos los estimadores log a y b.
Invirtiendo los cambios obtenemos los estimadores ˆ y b.
a ˆ
50. Modelo de regresi´n logar´
o
ıtmica
La variable respuesta es aproximadamente una funci´n lineal del logaritmo
o
de la variable regresora:
Y ≈ β0 + β1 log x
Si ajustamos un modelo lineal a
(log x1 , Y1 ), . . . , (log xn , Yn )
ˆ
ˆ
obtenemos los estimadores β0 y β1 .
51. Modelo de regresi´n potencial
o
La variable respuesta es proporcional a una potencia de la variable
regresora:
Y ≈ ax b
Se linealiza tomando logaritmos:
log Y ≈ log a + b log x
Si ajustamos un modelo lineal a
(log x1 , log Y1 ), . . . , (log xn , log Yn )
ˆ
obtenemos los estimadores log a y b.
Invirtiendo los cambios obtenemos los estimadores ˆ y b.
a ˆ
53. Ejemplo: renta y fracaso escolar
Resumen del modelo y estimaciones de los parámetros
Ecuación
Resumen del modelo
R cuadrado
F
gl1
Estimaciones de los parámetros
gl2
Sig.
Constante
b1
Lineal
,550
25,658
1
21
,000
38,494
-1,347
Logarítmica
,572
28,032
1
21
,000
70,584
-19,600
Potencia
,610
32,809
1
21
,000
293,923
-1,066
Exponencial
,594
30,691
1
21
,000
51,642
-,074
54. Diagn´stico del modelo: linealidad y homocedasticidad
o
El gr´fico m´s util para el diagn´stico del modelo es el de residuos frente a
a
a ´
o
valores ajustados:
ˆ
ˆ
(Y1 , e1 ), . . . , (Yn , en )
Se suelen utilizar los residuos estandarizados, que bajo las hip´tesis del
o
modelo tienen aproximadamente la distribuci´n normal est´ndar.
o
a
La hip´tesis de normalidad se valora a partir de un gr´fico de probabilidad
o
a
de los residuos.
La homocedasticidad se puede confirmar si
No hay patrones sistem´ticos en el gr´fico.
a
a
La variabilidad es aproximadamente constante a lo largo de todo el
rango de valores ajustados.
Los residuos estandarizados que no est´n comprendidos entre los valores -3
a
y 3 pueden corresponder a datos at´
ıpicos potencialmente influyentes.
58. Precauciones al aplicar el modelo de regresi´n simple
o
Existencia de datos at´
ıpicos
Extrapolaci´n
o
Mezcla de poblaciones diferentes
Datos temporales
63. Ejemplo: Temperatura e intensidad de luz en estrellas
Para 47 estrellas se han registrado el log de la temperatura efectiva en la
superficie (Temp) y el log de la intensidad de su luz (Intens).
6.0
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
5.0
q
q
q q
q
q
q
q
q
q
4.5
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
4.0
log(Intensidad)
5.5
q
q
3.6
3.8
4.0
4.2
log(Temperatura)
4.4
4.6