1. ESTADÍSTICA
Coeficiente de correlación lineal de Pearson (r)
Coeficiente de Determinación (r2)
Regresión
Regresión lineal simple
Uso de calculadora
Ing. Jhon Aguilar Castillo
2. CORRELACIÓN LINEAL SIMPLE DE PEARSON
r ≈ 0 r ≈ -1 r ≈ 1
Mide la relación lineal entre variables cuantitativas. Su valor varía entre –1 y 1, donde el signo
indica la dirección (+ o -) de la correlación y el valor numérico la magnitud de la correlación.
Sy
Sx
Y
X
Cov
r
)
,
(
𝑟 =
𝑛 𝑋𝑌 − 𝑋 𝑌
𝑛 𝑋2 − 𝑋 2 𝑛 𝑌2 − 𝑌 2
Donde:
Cov (X,Y): Covarianza Sx : Desviación estándar de X Sy : Desviación estándar de Y
-1 ≤ r ≤ 1
Y
X
n
Y
X
Y
X
Cov
i j
j
i
1 1
.
.
)
,
(
donde
Pearson investigó si existía relación entre la altura del hijo/a y la del
padre, investigando más de 1000 casos y estableció una forma de
predecir la altura del hijo/a en base a la del padre (regresión)
3. -1 ≤ r ≤ 1
COEFICIENTE DE DETERMINACIÓN
Se denota por R o por r2 e indica el porcentaje de variabilidad de una variable que es
explicada por la otra. Indica el grado de linealidad entre dos variables.
r2 %
4. REGRESIÓN
El objetivo de estudiar en forma conjunta 2 variables X e Y es encontrar alguna manera de
predecir valores de una de ellas en base a los valores conocidos de la otra variable.
Si en el gráfico se detecta que existe relación entre dos o más variables, el siguiente paso
sería intentar modelizar dicha relación, siendo la más sencilla para expresar la variable
dependiente a través de sus variables predictoras la ecuación lineal.
El primer paso para determinar si puede existir o no dependencia/relación entre variables es
representando gráficamente los pares (X,Y) de valores observados mediante una nube de
puntos o diagrama de dispersión.
X
Y
Las técnicas de regresión tienen por objeto:
Modelar o encontrar una función que aproxime lo máximo posible la relación de
dependencia estadística entre variables.
Predecir los valores de una de ellas, ejemplo: Y(variable dependiente o explicada) a partir
de los valores de otra u otras X que son variable(s) independiente(s) o explicativa(s).
Cuantificar la relación de dependencia.
5. Consiste en determinar la ecuación Y = a + bX que mejor ajuste a los valores de la
muestra.
Donde:
Y : Variable dependiente
X : Variable independiente
a y b: Parámetros o constantes (a: intercepto con la recta y b. pendiente)
REGRESIÓN LINEAL SIMPLE
La ecuación puede utilizarse para estimar valores de una variable en base a los valores
conocidos de otra variable, intuir la relación causa-efecto entre dos variables y predecir
valores futuros de una variable.
2
,
X
S
Y
X
Cov
b
2
2
X
X
n
Y
X
XY
n
b
X
b
Y
a
“b” es el cambio promedio cuando X cambia una unidad.
b > 0 la tendencia lineal es creciente
b < 0 la tendencia lineal es decreciente
b = 0 no hay regresión
n
X
b
n
Y
a
𝒀 = 𝒂 + 𝒃𝑿
La recta estimada será:
6. EJEMPLO 1: En una empresa de transportes trabajan 6 conductores, los años de antigüedad de
sus permisos de conducir y las infracciones cometidas en el último año por cada uno son:
Años 3 4 5 5 2 6
Infracciones 4 3 3 2 5 1
a. Graficar, calcular e interpretar el coeficiente de correlación.
b. Estime la recta de regresión
Solución:
El gráfico muestra una relación inversa, es decir que X (años) aumenta y Y (infracciones) disminuye.
X (años)
Y (infracciones)
EJEMPLOS
7. 𝑌=18
𝑋 = 25 𝑋2
= 115 𝑌2
= 64
𝑋𝑌 = 65
Cálculo de sumatorias
8056
.
1
6
25
6
115
2
2
1
1
2
2
n
i
i
n
i
i
x
n
X
n
X
S
3437
.
1
x
S
1667
.
4
6
25
1
n
i
i
n
x
X 3
6
18
1
n
i
j
n
y
Y
667
.
1
6
18
6
64
2
2
1
1
2
2
n
i
j
n
i
j
y
n
Y
n
Y
S
29
.
1
y
S
8. Coeficiente de correlación
r2 = (- 0.96)2 = 0,9216 y esto indica que el 92.16% de la variación en las infracciones
cometidas en el último año, se debe a la variación en los años de antigüedad.
𝑟 =
𝑛 𝑋𝑌 − 𝑋 𝑌
𝑛 𝑋2 − 𝑋 2 𝑛 𝑌2 − 𝑌 2
𝑟 =
6(65) − 25 (18)
6 115 − (25)2 6 64 − (18)2
=
−60
62.45
= −0.96
Sy
Sx
Y
X
Cov
r
)
,
(
Y
X
n
Y
X
Y
X
Cov
i j
j
i
1 1
.
.
)
,
(
6677
.
1
)
3
)(
167
.
4
(
6
65
)
,
(
Y
X
Cov
96
.
0
)
29
.
1
)(
3437
.
1
(
6677
.
1
r
Interpretación:
Existe una relación inversa muy fuerte entre los años de antigüedad de sus permisos de
conducir y las infracciones cometidas en el último año.
Coeficiente de determinación
Utilizando la fórmula con Cov(X,Y):
9. 923
.
0
8056
.
1
6677
.
1
,
2
X
S
Y
X
Cov
b
846
.
6
)
1667
.
4
)(
923
.
0
(
3
X
b
Y
a
Reemplazando se tiene la recta estimada:
𝑌 = 𝑎 + 𝑏𝑋 𝑌 = 6.846 − 0.923𝑋
Para un conductor que tiene su permiso de 1año de antigüedad se estima el número de infracciones:
𝑌 = 6.846 − 0.923 1 =5.923 ≈ 6 infracciones
Graficar la recta estimada 𝑌 sobre el diagrama de dispersión o puntos.
Recta de regresión
𝒀 = 𝟔. 𝟖𝟒𝟔 − 𝟎. 𝟗𝟐𝟑𝑿
10. SALIDA EN EXCEL
Para el coeficiente de correlación de Pearson se tienen los siguientes procedimientos:
Ingresar los datos, luego insertar la función = Pearson (sombrear datos de X, sombrear
datos de Y), enter
Otra forma es ingresar los datos, luego insertar la función =coef.de.correl(sombrear datos
para X, sombrear datos para y), enter
11. Para la recta de regresión se ingresan los datos, luego ir a datos, análisis de datos, regresión,
seleccionar datos de Y, seleccionar de X, aceptar
El resultado es el siguiente:
a
b
𝒀 = 𝒂 + 𝒃𝑿 = 𝟔. 𝟖𝟒𝟔 − 𝟎. 𝟗𝟐𝟑𝐗
12. USO DE CALCULADORA PARA CORRELACIÓN Y REGRESIÓN LINEAL
Presionar el botón para encendido (ON) y luego presionar MODE
Seleccionar la opción 3 (REG, LR, RG, …) que corresponde a regresión
Elegir: 1 Lin (lineal)
Ingresar los datos de la forma: X1, Y1 luego presionar la tecla M+,
Para obtener sumatorias, presionar SHIFT y luego presionar la tecla 1
Para ingresar otros datos se debe BORRAR los almacenados, teniéndose 2 opciones:
SHIFT, MODE, 1, = (así se borran los datos pero permaneces en el modo elegido)
MODE, luego 1 (así sales del modo y también se borran los datos almacenados)
continuar con los demás datos de forma similar hasta (Xn, Yn) M+
Presionar AC para tener la pantalla limpia
Para obtener promedios, desviación estándar, a, b y r se presiona SHIFT y luego
la tecla 2. Para ubicarlos desplazarse con la tecla I>
Presionar el botón para encendido (ON) y luego presionar MODE
Seleccionar la opción 2 o 3 (STAT, LR, RG, …) de la regresión y elegir la opción 2:
2: A + BX (lineal)
En la columna para X ingresar el primer dato para X, darle = … para pasar a Y
presionar I> al terminar poner AC
Para obtener sumatorias y estadígrafos, presionar SHIFT y luego presionar la
tecla 1 (STAT)
La opción 3: Suma, la opción 4: Var (medias y desviaciones estándar), la opción
5:Reg (para obtener a, b, r, X e Y estimados)
Las orden de las opciones puede variar por el modelo de la calculadora
Para ingresar otros datos se debe BORRAR los almacenados, presionar MODE luego 1
(así sales del modo y también se borran los datos almacenados)
13. EJEMPLO 2: El IPC y el precio del barril de petróleo durante el segundo semestre de 2018
a. ¿Se puede asegurar que la evolución del IPC está directamente relacionada con el precio del petróleo?
b. Estimar el precio del barril de petróleo para un IPC de 5.2
SOLUCIÓN
IPC 2,4 2,2 2,2 2,7 3,6 4,1
Precio ($) 71,54 77,01 70,73 76,87 82,50 90,16
Coeficiente de correlación:
r = 0.929 => Sí existe una correlación
lineal positiva fuerte.
Coeficiente de determinación:
r2 = 0,863 y esto indica que el 86.3% de la
variación en el precio del petróleo está
explicado por la variación en el IPC.
Recta de regresión: 𝑌 = 𝑎 + 𝑏𝑋
𝒀 = 𝟓𝟑. 𝟖𝟗 + 𝟖. 𝟒𝟔𝑿
El precio estimado del barril de petróleo para un IPC de 5.2 es igual a:
𝑌 = 53.89 + 8.46(5.2) = 97.882
𝑌 = 53.89 + 8.46 𝑋
14. Inversión
(X)
9 10 12 14 12 13 14 18 16 23 66 27 24 21 18 15 23 38 37 24 41
Ganancia
(Y)
16 24 30 30 63 65 57 74 65 95 52 78 83 72 78 45 74 62 57 56 98
EJEMPLO 3:
La inversión (miles de S/.) y la ganancia (miles de S/.) de una empresa en los últimos meses son:
Calcular e interpretar r
62
.
22
X 67
.
60
Y
Interpretación: Existe una relación positiva casi media entre la inversión y la ganancia.
SOLUCIÓN
016
.
93
)
67
.
60
)(
62
.
22
(
21
30770
)
,
(
Y
X
Cov
327
.
0
)
592
.
21
)(
175
.
13
(
016
.
93
)
,
(
Sy
Sx
Y
X
Cov
r
El valor de r no es alto, por lo que no se recomienda estimar la recta de regresión.
15. Publicidad(X) 20 30 30 40 50 60 60 60 70 80
Ventas(Y) 50 73 69 87 108 128 135 132 148 170
EJEMPLO 4: La publicidad y las ventas (en miles de S/.) de una empresa en 10 semanas se da a continuación:
a. Calcular e interpretar el coeficiente de correlación y el coeficiente de determinación.
b. Estimar la recta de regresión
0
20
40
60
80
100
120
140
160
180
0 20 40 60 80 100
SOLUCIÓN
Se puede evidenciar que existe relación positiva
casi perfecta porque los puntos forman una recta.
Coeficiente de correlación
998
.
0
)
959
.
36
)(
439
.
18
(
680
)
,
(
Sy
Sx
Y
X
Cov
r
Existe una relación positiva casi perfecta entre
publicidad y ventas.
Coeficiente de determinación
𝑟2
𝑥100% = (0.998)2
𝑥100% = 99.6%
El 99.6% de la variación en las ventas está explicado por la publicidad, y el 0.4% por otras variables.
Recta de regresión estimada
𝑌 = 𝑎 + 𝑏𝑋
𝐘 = 𝟐𝟓 + 𝟏. 𝟕𝐗
𝑌 = 25 + 1.7 𝑋