3. Sesión 12: Regresión Lineal Simple
1. Gráfico de dispersión
2. Modelo de regresión lineal simple
3. Bondad de ajuste del modelo
4. Predicción de valores de la variable dependiente
4. Al finalizar la sesión, el estudiante explica la existencia de
relación entre una variable dependiente con una variable
independiente en una muestra de datos y determina el
mejor modelo de regresión que permita predecir el
efecto de una variable en función de la otra, haciendo
uso de SPSS.
LOGRO DE LA SESIÓN
5. ¿Qué variables pueden explicar el peso de una persona?
• La edad
• La talla de la persona
• El nivel de actividad física
6. REGRESIÓN LINEAL SIMPLE
X Y
Variable independiente Variable dependiente
Analiza la relación de dos variables cuantitativas con el objetivo de determinar
una función Y= f(x), llamado modelo de regresión o ecuación de regresión el
cual se usará para predecir (o estimar) el efecto de la variable X en función de la
variable Y.
Explica a Y Depende X
FUNCION: f(x)
Valor conocido Predecir
7. Estimar el peso de una persona a partir de su estatura.
Estimar el gasto en una familia en función de sus ingresos.
Estimar el precio de una PC en función de la velocidad del
procesador.
Predecir la calificación de una asignatura según el número de
horas de estudio a la semana.
Estimar el precio de una vivienda en función de su superficie
Ejemplos:
8. Es la representación de pares de valores observados en el plano cartesiano,
describe la relación existente entre las variables a partir de datos observados en la
muestra o población:
GRÁFICO DE DISPERSIÓN
Xi Yi
x1 y1
x2 y2
: :
xn yn
Datos: a b
c d
9. EJEMPLO 1
En un Centro de Salud se hizo el seguimiento del peso a un grupo de pacientes
adultos de 30 a 40 años, se quiere determinar un modelo lineal para predecir el
peso en función de la talla con los siguientes datos y se pide responder las
siguientes preguntas:
Talla en
cm
Peso en
Kg
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
160 58
a. Elabore el gráfico de dispersión y explique la
tendencia de los datos.
b. Estime el mejor modelo de regresión e interprete el
coeficiente de regresión.
c. Evalúe el modelo: coeficiente de correlación y
coeficiente de determinación.
d. Estime el peso de las personas que tengan una talla
de 165 cm.
10. a. Gráfico de dispersión
En el gráfico se observa que la tendencia de los datos describen una relación lineal positiva,
significa que ante un aumento en la talla en la misma proporción aumenta el peso.
EJEMPLO 1
En un Centro de Salud se hizo el seguimiento del peso a un grupo de pacientes adultos de 30 a 40 años, se quiere
determinar un modelo lineal para predecir el peso en función de la talla con los siguientes datos y se pide
responder las siguientes preguntas:
Talla en cm Peso en Kg
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
160 58
¿Cuál es la
mejor recta
de regresión
a partir de
los datos?
50
55
60
65
70
75
80
85
90
150 155 160 165 170 175 180 185
Peso
en
Kg
Talla en cm
Variable independiente: Talla
Variable dependiente: Peso
11. MODELO DE REGRESIÓN LINEAL SIMPLE
El modelo de regresión lineal simple se define:
ij
i
1
0
i e
x
Y
Donde:
Yi: valor de la variable dependiente para la i-ésima observación
Xi: valor de la variable independiente para la i-ésima observación
eij: error aleatorio para la i-ésima observación que se asume normal
βo : intercepto con el eje Y
β1 : mide el cambio de Y cuando varía X en 1 unidad, llamado pendiente
Los parámetros βo y β1 deben ser estimados:
12. Para estimar los parámetros del modelo de regresión utilizaremos el método de
mínimos cuadrados:
2
1
0
1
0
x
x
xy
x
n
y
x
ˆ
ˆ
ŷ 1
0
x
y 1
0
Obtenemos los coeficientes Bo y B1
)
(
2 2
1
X
X
n
Y
X
XY
n
MÉTODO DE ESTIMACIÓN
La ecuación de regresión estimada es:
13. Interpretación de los coeficientes de regresión lineal
• El coeficiente 1 indica el cambio promedio en la variable respuesta (y), cuando la
variable predictora (x) aumenta en una unidad adicional.
• El intercepto 0 indica el valor promedio de la variable respuesta (y), cuando la
variable predictora (x) es igual a cero. Sin embargo carece de interpretación
práctica si dicho valor está fuera del rango del conjunto de valores X.
Ŷ= 0 + 1 X o también Ŷ= a + bX
La ecuación estimada:
14. REPRESENTACIÓN GRÁFICA DE LA RECTA DE REGRESIÓN
• Una recta tiene una ecuación muy simple:
β0
β1
Ŷ= β0 + β1 X
Calcularemos los
coeficientes β0, β1.
β0
β1
es el intercepto=donde la recta corta el eje vertical
es la pendiente de la recta
15. ¿Cuál es el mejor modelo de
regresión a partir de los datos?
x
y 1
0
ˆ
ˆ
ˆ
EJEMPLO 1
Ecuación de regresión lineal estimada
Variable independiente (X): Talla
Variable dependiente (Y): Peso
50
55
60
65
70
75
80
85
90
150 155 160 165 170 175 180 185
Peso
en
Kg
Talla en cm
16. b. El mejor modelo de regresión de
los datos es la ecuación:
X
Y 827
.
0
047
.
72
ˆ
βo = -72.047 Es la intersección de la recta con el eje Y cuando X = 0
β1 = 0.827 Por cada cm que aumenta en su talla el peso aumenta en 0.827 kg
EJEMPLO 1
Interpretación de los coeficientes de regresión
y = 0.827x - 72.047
50
55
60
65
70
75
80
85
90
150 155 160 165 170 175 180 185
Peso
en
Kg
Talla en cm
17. Mide el grado de relación entre variables cuantitativas.
El estadístico de correlación es el coeficiente de correlación de Pearson (R)
cuyo valor está en el intervalo [-1,1], dado por la fórmula:
1. Coeficiente de correlación
BONDAD DE AJUSTE DEL MODELO DE REGRESIÓN
Donde:
n = Tamaño muestral
x = Valores de las x’s
y = Valores de las y’s
-1 R 1
2
2
2
2
)
(
)
( Y
Y
n
X
X
n
Y
X
XY
n
R
18. Interpretación del coeficiente de correlación R de Pearson
El Coeficiente de Correlación R de Pearson mide la fuerza y dirección de relación entre dos variables
cuantitativas en una escala que varía entre -1 a +1. Cuanto mas se aleja del 0 el valor del coeficiente
muestra una relación mas fuerte. El signo de R nos indica si la relación es positiva o negativa.
Correlación
negativa
Correlación
negativa
Correlación
negativa
Correlación
negativa
Correlación
negativa
Correlación
positiva
Correlación
positiva
Correlación
positiva
Correlación
positiva
Correlación
positiva
Muy alta Alta Moderada Baja Muy baja Muy baja Baja Moderada Alta Muy alta
-1 -0.8 -0.6 -0.4 -0.2 0 +0.2 +0.4 +0.6 +0.8 +1
NEGATIVA POSITIVA
Hernández, Fernández & Baptista, 2016, 304-305
19. R2 Ajuste del modelo
0.00 < R2 ≤ 0.20 No tiene buen ajuste
0.20 < R2 ≤ 0.40 No tiene buen ajuste
0.40 < R2≤ 0.60 Ajuste moderado
0.60 < R2≤ 0.80 Buen ajuste
0.80 < R2≤ 1.00 Buen ajuste
2. Coeficiente de Determinación
Mide el porcentaje de variabilidad en Y que explica a través del conocimiento de la variable
independiente X para evaluar capacidad de predicción. Se calcula con fórmula:
)
)
(
)(
)
(
(
]
[
2
2
2
2
2
2
Y
Y
n
X
X
n
Y
X
XY
n
R 0 R2 1
20. c) Bondad de ajuste del modelo de regresión
d) Predicción para X=165
El peso estimado de una persona con 165 cm es de 64.36 kg.
36
.
64
)
165
(
827
.
0
047
.
72
ˆ
ˆ
ˆ 1
0
x
y
1. Coeficiente de correlación: r = 0.722
Con un coeficiente de correlación de Pearson r = 0.722 nos indica que existe alta
correlación positiva entre talla y peso
2. Coeficiente de determinación: r2 = (0.722)2 = 0.521
El 52.1% de las variaciones de los pesos es explicado por las tallas de las personas.
Existe además un (100-52.1)% = 47.9% lo explican otras variables
y = 0.827x - 72.047
21. Año
Publicidad
(X)
Ventas
(Y)
XY X2
Y2
2008 3 20
2009 5 40
2010 5 80
2011 6 120
2012 6 90
2013 7 125
2014 4 35
2015 8 135
Total 44 645
∑X ∑Y ∑XY ∑ X2
∑ Y2
El director de una empresa realiza un estudio para determinar una función entre el gasto en publicidad y
las ventas (en millones de soles) de una empresa. Los datos son y se pide:
EJEMPLO 2:
1. Elabore el gráfico de dispersión y explique
la tendencia de los datos.
2. Estime el mejor modelo de regresión e
interprete el coeficiente de regresión.
3. Evalúe el modelo: coeficiente de correlación
de Pearson y coeficiente de determinación.
4. Estimar las ventas de la empresa cuando
se invierte10 millones.
22. N°
Publicidad
(X)
Ventas (Y) XY X2
Y2
2008 3 20 60 9 400
2009 5 40 200 25 1600
2010 5 80 400 25 6400
2011 6 120 720 36 14400
2012 6 90 540 36 8100
2013 7 125 875 49 15625
2014 4 35 140 16 1225
2015 8 135 1080 64 18225
Total 44 645 4015 260 65975
∑X ∑Y ∑XY ∑ X2
∑ Y2
0
20
40
60
80
100
120
140
160
0 2 4 6 8 10
Ventas
en
Millones
Gastos en Publicidad (Millones)
Diagrama de Dispersión
SOLUCIÓN
El mejor ajuste de los datos es la ecuación: Y= - 62.221+ 25.972 X
Interpretación de los coeficientes de regresión:
βo = - 62.221 Es la intersección de la recta con el eje Y cuando X = 0.
β1 = 25.972 Por cada millón que aumenta en sus gastos las ventas aumentan en 25.972 millones.
23. 2.1 Ecuación de regresión
o =
1 =
x
ˆ
ˆ
ŷ 1
0
La ecuación de regresión estimada es:
ŷ
Interpretación de los coeficientes de regresión:
24. 3) Bondad de ajuste del modelo de regresión
4) Predicción para X=10
x
y 1
0
ˆ
ˆ
ˆ
1. Coeficiente de correlación: r =
2. Coeficiente de determinación: r2 =
25. Ejemplo 3
a) ¿Qué tipo de relación presentan los datos? (analizar el diagrama de dispersión)
b) Si es una ecuación lineal hallar la ecuación de regresión, interpreta los coeficientes.
c) ¿El modelo estimado tiene buen ajuste a los datos?
d) Predecir la venta de un empleado con 40 años de experiencia (Estimar Y para un valor X=40)
N° Experiencia (X) Ventas(miles)
1 13 26
2 16 33
3 30 36
4 2 16
5 8 26
6 6 19
7 31 38
Una empresa tiene 7 vendedores, y se quiere analizar las ventas mensuales (en miles de
soles) frente a los años de experiencia. Los datos están en la siguiente tabla.
26. Solución:
En el diagrama de dispersión
se observa una existe una
relación lineal directa.
N° Experiencia (X) Ventas(miles)
1 13 26
2 16 33
3 30 36
4 2 16
5 8 26
6 6 19
7 31 38
a) Diagrama de dispersión
27. b) Hallando los coeficientes de regresión
N°
Experienci
a (X)
Ventas(miles)
(Y)
XY X2 Y2
1 13 26 338 169 676
2 16 33 528 256 1089
3 30 36 1080 900 1296
4 2 16 32 4 256
5 8 26 208 64 676
6 6 19 114 36 361
7 31 38 1178 961 1444
∑X= 106 ∑Y=194 ∑XY=3478 ∑ X2=2390 ∑ Y2=5798
n 7
;
x 106
x 15.14
n 7
;
194
y 27.71
7
0 1
b y b x 27.71 (0.688 )15.14 17.29
2
2 2
1
1
1
2390 7(15.14)
0.688
3478 7(15.14)(27.71)
n
i
i
i
n
i i
x nx
x y nxy
b
𝒏 = 𝟕
𝒙 =
σ 𝒙
𝒏
=
𝟏𝟎𝟔
𝟕
= 𝟏𝟓. 𝟏𝟒
𝒚 =
σ 𝒚
𝒏
=
𝟏𝟗𝟒
𝟕
= 𝟐𝟕. 𝟕𝟏
n 7
;
x 106
x 15.14
n 7
;
194
y 27.71
7
0 1
b y b x 27.71 (0.688 )15.14 17.29
2
2 2
1
1
1
2390 7(15.14)
0.688
3478 7(15.14)(27.71)
n
i
i
i
n
i i
x nx
x y nxy
b
28. b.1 Ecuación de regresión
o = 17.29 Es el promedio de la ventas cuando un vendedor no tiene años de
experiencia (X =0) es de 17290 soles.
1 = 0.668 El promedio de ventas aumenta en 668 soles por cada año de experiencia
que adquiera un vendedor (es el incremento en 0.668 de las ventas cuando x
aumenta en una unidad).
x
ˆ
ˆ
ŷ 1
0
La ecuación de regresión estimada es:
x
y 668
.
0
29
.
17
ˆ
Interpretación de los coeficientes de regresión:
29. c) Bondad de ajuste del modelo de regresión
d) Predicción para X=40
Las ventas estimadas de un empleado con 40 años de experiencia en ventas es de
S/. 44826.
826
.
44
)
40
(
668
.
0
29
.
17
ˆ
ˆ
ˆ 1
0
x
y
1. Coeficiente de correlación: r = 0.939
Con un coeficiente de correlación de Pearson r = 0.939 nos indica que existe alta
correlación directa entre los años de experiencia y las ventas
2. Coeficiente de determinación: r2 = (0.93.9)2 = 0.883
El 88.3% de las variaciones de las ventas son explicadas por los años de experiencia.
Existe además un (100-88.3)% = 11.7% lo explican otras variables
30. Una empresa vende fotocopiadoras a negocios de todo Lima Metropolitana. Selecciona una muestra
aleatoria de 10 representantes de ventas y determina el número de llamadas de venta (X) que hicieron el
mes pasado y el número de fotocopiadoras que vendieron (Y). La información obtenida se muestra en la
tabla siguiente.
X: Nº de llamadas
Y: Nº de fotocopiadoras vendidas
Agente-Ventas X Y
1 20 30
2 40 60
3 20 40
4 30 60
5 10 30
6 10 40
7 20 40
8 20 50
9 20 30
10 30 70
Ejemplo 4: Regresión con SPSS
31. Regresión con SPSS
Análisis de Regresión:
Analizar Regresión Lineales:
Dependientes: Nº de fotocopiadoras
Independientes: Nº de llamadas
Estadísticos:
Estimaciones
Ajuste del modelo
Aceptar
32. En el SPSS se debe seguir la siguiente secuencia:
ANALIZAR --> REGRESIÓN --> LINEALES
DEPENDIENTES: Y = Número de llamadas
INDEPENDIENTE: X = Número de fotocopiadoras
CONTINUAR
ACEPTAR
33.
34. Interpretación de b1 : 1,18 es el cambio promedio
en el número de fotocopiadoras vendidas por
cambio unitario en el número de llamadas.
2
57,6%
R
ˆ 18,947 1,184
y x
Modelo de Regresión Lineal Simple
b1
b0
35. CONCLUSIONES
1. El gráfico de dispersión muestra la tendencia de los
datos.
2. La regresión lineal busca modelar una función lineal
entre la variable independiente con la dependiente.
3. La ecuación de regresión lineal se utiliza para predecir
la variable dependiente en función de la independiente.
36. 1. Webster, A. (2006). Estadística aplicada a los Negocios y la Economía. (3° ed.)
Colombia; McGraw Hill.
2. Véliz Capuñay, Carlos, 2011, México. Estadística para la administración y los
negocios, Primera Edición, 2011, Prentice Hall. Pearson.
3. http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantitativas2.pdf
Correlation en Wikipedia (inglés).
BIBLIOGRAFÍA