Regresion lineal simple

Tema 1- Regresión lineal simple.
1.1. Introducción
1.2. Especificación del modelo de regresión lineal simple en la población.
1.2.1. Estructura de los modelos de regresión
1.2.2. Hipótesis básicas
1.3. Estimación de los parámetros del modelo de regresión lineal simple
1.3.1. La recta de regresión de mínimos cuadrados en
puntuaciones directas y principales propiedades
1.3.2. La recta de regresión en puntuaciones diferenciales
1.3.3. La recta de regresión en puntuaciones típicas
1.3.4. Relación entre la pendiente de la recta y el coeficiente de
correlación
1.3.5. Interpretación de los coeficientes de la recta de regresión
1.4. El contraste de la regresión
1.4.1.Componentes de variabilidad y bondad de ajuste
1.4.2. Validación del modelo
1.4.3. Significación de parámetros
1.5. Diagnosis del modelo: Análisis de residuos
1.6. Predicción

Tema 1- Regresión lineal simple.
1.1. Introducción
1.1.1. Ejemplos de investigaciones en las que puede ser
adecuado utilizar el modelo de regresión simple.
1.1.2. El concepto de relación entre variables: naturaleza y
tipos de relación.
1.1.3. Herramientas para evaluar la relación entre dos
variables
1.1.3.1. El diagrama de dispersión
1.1.3.2. La covarianza
1.1.3.3. El coeficiente de correlación de Pearson

1.1. Introducción
1.1.Ejemplos de investigaciones en las que puede ser adecuado utilizar el
modelo de regresión simple.
Se pretende estudiar si la competencia escolar de niños, medida en
una escala entre 1 y 4, depende del tiempo en meses que llevan
viviendo con un progenitor
Variable dependiente o criterio (endógena): competencia escolar
Variable independiente o predictora (exógena): meses de
monoparentalidad
Se pretende estudiar si el ajuste emocional de niños, medido por un
test de ajuste que proporciona puntuaciones en una escala entre 0
y 10, depende del ámbito rural o urbano en el que vive la familia
Variable dependiente o criterio: ajuste emocional
Variable independiente o predictora: ámbito geográfico

1.1. Introducción
1.1.Ejemplos de investigaciones en las que puede ser adecuado utilizar el
modelo de regresión simple.
Se pretende estudiar la relación entre estrés laboral y la variable
trabajo a turno
Variable dependiente o criterio: estrés laboral
Variable independiente o predictora: tipo de turno: fijo o variable
Se pretende estudiar si las notas en Análisis de Datos II dependen
de Análisis de Datos I
Variable dependiente o criterio: Análisis de Datos II
Variable independiente o predictora: Análisis de datos I
Para estudiar empíricamente estas relaciones medimos, en una muestra de sujetos, los valores
de las variables incluidas en la relación. Genéricamente, la información de un sujeto cualquiera de
la muestra Si, vendrá dada por el par (Xi, Yi). El conjunto de pares constituye la matriz de datos
de la investigación y para los ejemplos propuestos tendrá el siguiente formato.

Tabla o matriz de datos
Análisis de datos I Análisis de datos II
1 2
2 1
3 3
4 4
5 2
0 3
7 5
8 6
9 8
10 9
Meses comp escolar
2 4
18 4
108 3.66
24 2.83
132 2
60 3.5
16 2.16
9 2.66
84 2.5
comp escolar ámbito
4 1
4 1
3.66 1
2.83 1
2 1
3.5 0
2.16 0
2.66 0
2.5 0
1.83 0
Turno estrés
0 65
0 76
0 50
0 89
0 57
1 45
1 34
1 56
1 55
1 61
N=10
N=9
N=10 N=10
Observar que las variable
ámbito y turno aunque
no son métricas las hemos
codificado como numéricas.
Hemos elegido el 0 y el 1
para diferenciar entre
las categorías de las variables.
Este tipo de codificación,
muy frecuente en estadística,
se conoce como codificación
“dummy” o ficticia

1.1.2. El concepto de relación entre variables.
Naturaleza y tipos de relación: el gráfico de dispersión
0
5
10
15
20
25
0 2 4 6 8 10 12 -20
-15
-10
-5
0
5
0 2 4 6 8 10 12
0
1
2
3
4
0 2 4 6 8 10 12

tipos de relación.
0
20
40
60
80
100
0 1
-15
-10
-5
0
5
10
0
5
10
15
20
25
30
0
5
10
15
20
25
30
35
40
0 5 10 15 20
0
50
100
150
200
250
300
0 5 10 15 20

tipos de relación.
19
21
23
25
27
29
31
0 2 4 6 8 10 12
0
5
10
15
20
25
30
35
0 2 4 6 8 10 12

1.1.3.2. La covarianza
( )( )
S
X X Y Y
N
S P C
Nx y
i
i
N
i
=
− −
−
=
−
=
∑1
1 1
La covarianza puede tomar valores entre (-∞,+∞) de manera que si:
Sxy= 0 independencia lineal
Sxy> 0 relación lineal directa o positiva
Sxy< 0 relación lineal inversa o negativa
Vamos a ver, utilizando el gráfico de dispersión, porque las relaciones
De orden anteriores están relacionadas con el tipo de relación lineal.

Sxy> 0 relación lineal directa o
positiva
X
Y
X X-
Y Y-
Sxy< 0 relación lineal inversa o negativa
X X-
Y Y-
X
Y
Sxy= 0 independencia lineal
X X-
Y Y-
X
Y

Análisis de datos I Análisis de datos II
1 2 -3.9 -2.3 8.97
2 1 -2.9 -3.3 9.57
3 3 -1.9 -1.3 2.47
4 4 -0.9 -0.3 0.27
5 2 0.1 -2.3 -0.23
0 3 -4.9 -1.3 6.37
7 5 2.1 0.7 1.47
8 6 3.1 1.7 5.27
9 8 4.1 3.7 15.17
10 9 5.1 4.7 23.97
Sumas 49 43 0 0 73.3
Medias 4.9 4.3 8.14444444
X X- Y Y- ( )( )X X Y Y- -
S x y

1.1.3.2. La covarianza: dependencia de escalas

1.1.3.3. El coeficiente de correlación de Pearson
( )( )
( ) ( )
r
S
S S
X X Y Y
X X Y Y
x y
x y
x y
i
i
N
i
i
i
N
i
i
N
= =
− −
− −
=
= =
∑
∑ ∑
1
2
1
2
1
− ≤ ≤ +1 1r x y
0
5
10
15
20
25
0 2 4 6 8 10 12
rxy = 1
-20
-15
-10
-5
0
5
0 2 4 6 8 10 12
rxy = -1
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10
rxy = 0.88
rxy = -0.88
0
2
4
6
8
10
12
0 2 4 6 8 10 12
rxy = 0
rxy = 0

1.2. Especificación del modelo de regresión lineal simple en la
población.
Xi i
Expresión matemática del modelo en la población
( )Y f X X Y
Y X
Y Y
i i i i i i i
i i
i i i
= + = + + = +
= +
= −
ε β β ε ε
β β
ε
0 1
0 1



predictora criterio
independiente dependiente
exógena endógena
explicativa explicada
En el modelo hay dos variables observadas: X e Y y dos parámetros
la ordenada en el origen de la recta de regresión y la pendiente
Interpretación de los parámetros:
0 1
1.2.1. Estructura de los modelos de regresión
Puntuación predicha por la recta de regresión verdadera
Residuo o error de predicción
Yi

Interpretación de los parámetros:
XXY 3,070ˆ
10 +=+= ββ
i
Esperanza
de vida
Ejercicio
físico
i
Esperanza
de vida
Consumo
de tabaco
XXY 04,070ˆ
10 −=+= ββ

1.2.2. Hipótesis básicas
2. Homocedasticidad: la varianza del término de error es constante:
1. El término de Error es una variable aleatoria con media cero:
4. Los errores son independientes entre sí.
3. Los errores se distribuyen normalmente:
3’. La distribución de Y es normal para cada X:
4’. Las observaciones Yi son independientes entre sí.
Las hipótesis anteriores pueden formularse de manera equivalente
en términos de la variable criterio. Así,
2’. La varianza de Y es constante:
2)
/( σ=iXYVar
ii XXYE βα+=)/(
1’. La media de Y depende linealmente de
X:
ii XXYE βα +=)/(
2
)/( σ=iXYVar
ii XXYE βα +=)/(
),(/ 2
σβα ii XNXY +≈
0)( =iE ε
2
)( σε =iVar
),0( 2
σε Ni ≈

Resumen gráfico de las hipótesis básicas
formuladas en términos de la variable criterio
X1, X2, X3, X4
Distribución Normal
2
/
2
/
2
/
2
/ 4321 xyxyxyxy σσσσ ===

Resumen gráfico de las hipótesis básicas
formuladas en términos de los residuos
0
X1, X2, X3, X4


El objetivo del análisis de regresión será estimar los
parámetros del modelo presentado y contrastar las
hipótesis de partida todo ello a partir de una muestra.

1.3. Estimación de los parámetros del modelo de regresión
lineal simple
1.3.2. La recta de regresión en puntuaciones diferenciales
1.3.3. La recta de regresión en puntuaciones típicas
1.3.4. Relación entre la pendiente de la recta y el coeficiente de
correlación
1.3.5. Interpretación de los coeficientes de la recta de regresión

Partimos de una muestra de sujetos extraídos de una población
en la que se han tomado valores de las variables X e Y. La situación
más frecuente es que los puntos estén dispersos en el plano definido
por X e Y. La primera pregunta a plantearnos es de las infinitas rectas
que podemos ajustar a la nube de puntos ¿Cuál estimará mejor los
parámetros?. Existen diferentes criterios.

1.3.1. La recta de regresión de mínimos cuadrados en puntuaciones
directas y principales propiedades
Y a b X e Y e
Y b b X e Y e
Y b b X
e Y Y
i i i i i
i i i i i
i i
i i i
= + + = +
= + + = +
= +
= −




0 1
0 1
1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00
X: Análisis de datos I
1,00
2,00
3,00
4,00
5,00
6,00
7,00
8,00
Y:AnálisisdeDatosII











Criterio de mínimos cuadrados:
( ) ( )( )
( )( )
( )( )
e Y Y Y a b X
a
Y a b X
b
Y a b X
i
i
N
i i i i
i
N
i
N
i i
i
N
i i
i
N
2
1
2 2
11
2
1
2
1
0
0
= − = − + =
− + =
− + =
= ==
=
=
∑ ∑∑
∑
∑
 m i n
∂
∂
∂
∂

Recta de regresión mínimo cuadrática (puntuaciones directas):
( )( )
( )
( )
a Y b X
b
X X Y Y
X X
S
S
r
S
S
Y a b X Y b X X
i
i
N
i
i
i
N
x y
x
x y
y
x
i i i
= −
=
− −
−
= =
= + = + −
=
=
∑
∑
1
1
2 2
º

1.4.1. La recta de regresión de mínimos cuadrados en puntuaciones
directas y principales propiedades

Ejemplo de cálculo de la recta de regresión de
mínimos cuadrados
56,582,5004155
17,5520,253,94,5810
6,6512,251,93,569
7,256,252,92,548
1,352,250,91,557
-0,550,25-1,10,536
1,050,25-2,1-0,525
0,152,25-0,1-1,544
2,756,25-1,1-2,533
10,8512,25-3,1-3,512
9,4520,25-2,1-4,521
yx X X Y Y   X X Y Y ( )X X 2

Recta de regresión mínimo cuadrática:
  
 
a Y bX
b
X X Y Y
X X
Y X
i
i
N
i
i
i
N
i i
     

 

 
 




4 1 0 743 55 0 021
56 50
82 50
0 743
0 021 0 743
1
1
2
, , , ,
,
,
,
 , ,
iXY 742,0021,0ˆ +=
dependencia de escalas.xls

Propiedades de la Recta de regresión mínimo cuadrática:
1) La media de las puntuaciones predichas es igual
a la media de Y
2) Los errores tienen media cero
3) La recta de mínimos cuadrados pasa por el
punto:
4) Los errores no correlacionan ni con la variable predictora
ni con las puntuaciones predichas
 X Y,

puntuaciones diferenciales
a) Modelo y recta en puntuaciones diferenciales
( )
( )
bxy
ebxy
eXXbYY
ebXXbYebXaY
=
+=
+−=−
++−=++=
ˆ

puntuaciones estandarizadas
a) Modelo y recta en puntuaciones estandarizadas
xixyi
eixixyyi
y
i
x
i
xy
y
i
ii
x
y
xyi
ZrZ
ZZrZ
S
e
S
x
r
S
y
ex
S
S
ry
ebxy
=
+=
+=
+





=
+=
ˆ

iXY 742,0021,0ˆ +=
xy 742,0ˆ =
xZZ 86,0ˆ =
Recta de regresión en diferenciales y en tipificadas.
Relación entre b y r. Interpretación de los coeficientes de la
regresión
a) En puntuaciones directas
b) En puntuaciones diferenciales
c) En puntuaciones estandarizadas
y
x
xy
S
S
br =

X
3210-1-2
Y
3
2
1
0
-1
-2
-3
X
210-1-2-3
Y
3
2
1
0
-1
-2
-3
X
1,51,0,50,0-,5-1,0
Y
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
1.4. El contraste de la regresión: introducción

X
1,51,0,50,0-,5-1,0-1,5-2,0
Y
3
2
1
0
-1
-2
-3
X
210-1-2-3
Y
3
2
1
0
-1
-2
X
3210-1-2-3
Y
3
2
1
0
-1
-2
-3

X
3210-1-2-3
Y
3
2
1
0
-1
-2
-3
X
3210-1-2-3
Y
3
2
1
0
-1
-2
-3

X
3210-1-2-3-4
Y
3
2
1
0
-1
-2
-3
-4

Xi
Yi
ii bXaY +=ˆ

Xi
Yi
Y
Desviación Desviación Desviación
total explicada residual
ii bXaY +=ˆ
1.4.1.Componentes de variabilidad y bondad de ajuste
( ) ( ) ( )iiii YYYYYY ˆˆ −+−=−

1.4.1. Componentes de variabilidad y bondad de ajuste
Xi
SC SC SCt res exp
Variación
Total
Variación
Explicada
Variación
Residual
( ) ( ) ( )
2
1
2
1
2
1
ˆˆ ∑∑∑ ===
−+−=−
N
i
ii
N
i
i
N
i
YYYYYY

   SC Y Y y Y
Y
N
N St i
i
N
i
i
N
i
i
i
N
i
N
y    






 
 


 

1
2
2
1
2 1
2
1
2
1
( ) ( ) ( ) 22
1
2
122
1
22
2
1
2
2
1
exp 1ˆ
x
N
i
N
i
i
i
N
i
i
N
i
N
i
SNb
N
X
XbxbXXbYYSC −=




















−==−=−= ∑
∑
∑∑∑ =
=
===
Fórmulas para calcular las sumas de cuadrados en
puntuaciones directas y diferenciales:
( ) exp
1
2
2
1
ˆ SCSCeYYSC t
N
i
i
N
i
iires −==−= ∑∑ ==

Fórmulas para calcular las sumas de cuadrados en
tipificadas:
SC SC SCt res exp
( )
( )( )2
2
1
22
1
2
exp
1
2
11
1ˆ
1
xyres
xy
N
i
xxy
N
i
i
N
i
yt
rNSC
NrZrZSC
NZSC
−−=
−===
−==
∑∑
∑
==
=

1.4.1. Componentes de variabilidad y bondad de
ajuste
Bondad de ajuste o Coeficiente de
determinación
 
SC
SC
SC
SC
SC
SC
R R
t
t t
res
t
 
  
exp
1 12 2
( )
( )
( )
( )
2
2
22
1
2
22
1
2
1
2
exp2
ˆ
xy
y
x
N
i
i
N
i
i
N
i
i
t
r
S
Sb
YY
XXb
YY
YY
SC
SC
R ==
−
−
=
−
−
==
∑∑
∑
==
=

r2
xy= 1
r2
xy= 0
r2
xy
Representación en diagramas de Venn
Y X
Y X
XY

Esquema del Contraste de Hipótesis
Contrastar una Hipótesis Estadísticamente es juzgar si cierta
propiedad supuesta para una población es compatible con lo
observado en una muestra de ella.

Elementos de una Prueba de Hipótesis
1.- Hipótesis Nula (H0), Hipótesis
Alternativa.
2.- Estadístico de Contraste (Discrepancia).
3.- Región de Rechazo (Región Crítica):
nivel de significación.
4.- Regla de Decisión.

1.- Hipótesis Nula (H0), Hipótesis Alternativa.
F
S
S
SC
k
SC
N K
r
K
r
N K
res res
xy
xy
 
 


 
exp
exp
2
2
2
2
1
1
1
( )
( ) iiii
ii
XYXXYEH
YXYEH
εββββ
εµµβ
++=⇒+=
+=⇒==
10101
00
/:
/:

Región de aceptación de H0
Región de rechazo de H0
1-
Fc

Se rechaza la H0 si:
F >Fc
o de manera equivalente si:
p < 
Por el contrario, se acepta la H0 si:
F  ≤Fc
p ≥

1.- Hipótesis Nula (H0), Hipótesis Alternativa.
 
t
b
S
b
S
X X
b
S
X
X
N
r
r
N
b res
i
i
N
res
i
i
i
N
i
N
xy
xy
















 

 

 1
2
2
1
2
2 1
2
1
2
1
2
H H
H H
0 1 1 1
0 1
0 0
0 0
: :
: :
 
 
 
 
Nota: en regresión simple t2
= F

∀
Fc
Región de aceptación de H0
Regiones de rechazo de H0

2

2 1 

Se rechaza la H0 si:
t  >+tc
p < 
Por el contrario, se acepta la H0 si:
 t  ≤  +tc
p≥

http://www.stat.ucla.edu/~dinov/courses_students.dir/Applets.dir/T-table.html

Calculadoras estadísticas en internet
http://faculty.vassar.edu/lowry/VassarStats.htm
http://davidmlane.com/hyperstat/t_table.html
http://davidmlane.com/hyperstat/F_table.html
http://calculators.stat.ucla.edu/cdf/
http://members.aol.com/johnp71/pdfs.html
http://www.psychstat.missouristate.edu/introbook/tdist.htm
http://www.psychstat.missouristate.edu/introbook/fdist.htm

1.6. Predicción
Intervalos de predicción:
( )
( )
( )
Y Y t S
N
X X
X X
o N K r e s
o
i
i
N: 
,
± + +
−
−












− −
=
∑
α 1
2
2
2
1
1
1

Regresion lineal simple

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Regresion lineal simple

Similar a Regresion lineal simple (20)

Más de Julio Oseda

Más de Julio Oseda (7)

Último

Último (20)

Regresion lineal simple

Notas del editor