Estrategia de prompts, primeras ideas para su construcción
Correlación y Regresión lineal simple
1. UNIVERSIDAD NACIONAL HERMILIO VALDIZÁN
ESCUELA PROFESIONAL DE MATEMÁTICA Y FÍSICA
ODONTOLOGÍA
BIOESTADÍSTICA
Correlación y Regresión lineal simple
Melecio Paragua Morales
paraguamorales@gmail.com
meleparaguita@hotmail.com
melecioparagua@unheval.edu.pe
2. Correlación
• Es una relación mutua. El análisis de correlación mide el grado que los valores de una
variable se relacionan con los valores de otra.
• ¿Tienden a tener mayor escolaridad las personas con altos ingresos, en comparación
con las de bajos ingresos?
• ¿Entre mayor preparación se tenga tus habilidades de liderazgo serán mayores?
• Si en una población se estudia simultáneamente los valores de dos variables estadísticas,
el conjunto de pares de valores correspondientes a cada individuo se denomina
distribución bidimensional.
• Nube de puntos o diagrama de dispersión son puntos en el plano cartesiano de los
pares de valores de las variables.
• Recta de regresión, son los puntos que se agrupan cerca de alguna curva. Si los punto se
distribuyen alrededor de una recta, entonces hay correlación lineal y el gráfico se
denomina Recta de regresión.
4. Interpretación
• El valor de r pertenece al intervalo [-1; 1]
• Su signo (+ ó – ), es igual al de la pendiente de una recta que podría “ajustarse” a los
datos si éstos se graficaran en el llamado diagrama de dispersión.
• La magnitud de r indica qué tan cerca están de la “recta” los puntos de la nube en el plano
cartesiano.
• Puede haber: Correlación lineal positiva débil o baja; Correlación nula; Correlación lineal
positiva fuerte o alta; Correlación lineal negativa fuerte o alta, etc.
• Coeficiente de determinación, se obtiene elevando al cuadrado a r, y es la proporción o
porcentaje de variación de la variable dependiente que se explica por la variación en la
variable independiente.
5. Correlación
Estudiantes Primera experiencia Segunda experiencia Tercera experiencia
X Y X Y X Y
María 18 82 18 18 18 18
Olga 15 68 15 32 15 82
Susana 12 60 12 60 12 68
Aldo 9 32 9 68 9 60
Juan 3 18 3 82 3 32
6. Análisis de las 3 experiencias
• X = Prueba de habilidad mental (Escala de medición: [00 - 20])
• Y = Exámen de admisión (Escala de medición: [00 - 100])
• Primera experiencia: Estudiantes hábiles obtienen puntajes altos en admisión, entonces
hay relación lineal positiva.
• Segunda experiencia: Estudiantes hábiles obtienen puntajes bajos en admisión, entonces
hay relación lineal negativa.
• Tercera experiencia: no existe una relación lineal entre las variables en estudio.
8. Regresión lineal simple
•Estudia la asociación entre dos variables, en cada unidad estadística
se observan dos características cuantitativas medibles. Ejemplo:
salarios y gastos mensuales.
•Regresión: consiste en determinar la relación funcional lineal entre las
variables, con el fin de predecir el valor de una variable en base a la
otra.
•Correlación consiste en determinar la variación conjunta de las dos
variables, su grado o nivel (r) [-1, +1], y su sentido (- o +).
•El cuadrado del coeficiente de correlación es el grado de
dependencia, el mismo que se porcentualiza.
9. Datos y diagrama de dispersión
• Los n datos en parejas (x1,y1), (x2,y2), …, (xn,yn) son valores
de la variable bidimensional (X,Y), donde xi son valores de la
variable independiente y los yi son valores de la variable
dependiente Y.
• La gráfica en el plano cartesiano visualiza la tendencia y se
denomina gráfica de dispersión (x, y) lineal (+); lineal (-), no
lineal, sin tendencia.
• En la regresión lineal, se calcula la ecuación lineal de
regresión simple: Y = a + bx que mejor se ajusta a los n datos
en pareja (xi, yi).
10. Ejemplo
• Obtener un modelo de regresión lineal para predecir las ventas semanales de un
producto en función de la publicidad por la radio. Se recopila al azar, los tiempos de
duración en minutos de la publicidad de 10 semanas y el respectivo número de
unidades vendidas del producto.
a) Grafica los datos y describa su tendencia.
b) Obtenga la recta de regresión lineal simple de mínimos cuadrados.
c) Calcula el coeficiente de correlación r.
d) Predecir la venta de una semana con 100 min, y 60 min de publicidad.
Semana 1 2 3 4 5 6 7 8 9 10
Pub X 20 30 30 40 50 60 60 60 70 80
Vta Y 50 73 69 87 108 128 135 132 148 140
12. a) Diagrama de dispersión y tendencia
y = 20,2353 + 1,7353x
0
20
40
60
80
100
120
140
160
180
0 10 20 30 40 50 60 70 80 90
Venta=Y
Publicidad = X
Pub: X Curva de regresión ajustada
13. b) Cálculo de: Y = a + bX
•n = 10; ΣX = 500; ΣY = 1070; ΣXY = 59400; ΣX2 = 28400; ΣY2 =
125360
•Media (x) = ΣX/n = 500/10 = 50
•Media (y) = ΣY/n = 1070/10 = 107
•b = (n ΣXY – ΣX.ΣY)/(nΣX2 – (ΣX)2)
•b = (10x59400-500x1070)/(10x28400 – (500)2); entonces b = 1,7353
•a = y – bx = 107 – 1,7353x50 = 20,2353
•Entonces: Y = a + bX; Luego Y = 20,2353 + 1,7353X
14. c) Coeficiente de correlación rxy
Pub X Vta Y
Pub X 1.0000 -.-
Vta Y 0.9705 1.000
15. d) Predicción de venta con 100 min y 60 min de propaganda
• Si xi = 100 min;
• Además: Y = 20,235 + 1,7353X
• Entonces: Y = 20,235 + 1,7353(100)
• Luego Y = 193,765
• Si xi = 60 min;
• Además: Y = 20,235 + 1,7353X
• Entonces: Y = 20,235 + 1,7353(60)
• Luego Y = 297,883
16. Ejemplo 2: Ventas y Publicidad
VTA Y PUB X ESTADÍSTICAS DE LA REGRESIÓN
200 30 Coeficiente de correlación múltiple (r) 0.8675
400 50 Coeficiente de determinación (r2) 0.7526
800 50 Intercepción (a) -716.6667
1200 60 PUB. X (b) 28.3333
900 60 n 5
17. Y = a + bx
Y = 65,2214 + 28,3333X
0
200
400
600
800
1000
1200
1400
0 10 20 30 40 50 60 70
Venta=fi
Publicidad = Xi
PUB-X Curva de regresión ajustada
18. Ejemplo 3:Edad e Hipertensión Arterial
EDAD Y HTA X ESTADÍSTICAS DE LA REGRESIÓN
38 120 Coeficiente de correlación múltiple (r) 0.9689
42 124 Coeficiente de determinación (r2) 0.9387
43 135 Intercepción 65.2214
46 138 Edad X 1.4869
48 135 n 10
50 140
54 143
60 150 Y = 65,2214 + 1,4869X
65 160
67 170
19. Y = a + bx
Y = 65,2214 + 1,4869X
0
20
40
60
80
100
120
140
160
180
0 10 20 30 40 50 60 70 80
HTA=fi
EDAD = Xi
EDAD = Xi e Hipertensión Arterial (fi): Curva de regresión ajustada
21. ESTADÍSTICAS DE LA REGRESIÓN
Coeficiente de correlación múltiple (r) 0.8909
Coeficiente de determinación (r2) 0.7937
r2 ajustado 0,7894
Intercepción -11,1100
CI (x) 0,2122
n 50
y = a + bx
y = -11,11 + 0,2122x
22. Gráfico de la ecuación: y = -11,11 + 0,2122x
0
5
10
15
20
25
0 20 40 60 80 100 120 140 160
RA(y)
CI (x)
CI Curva de regresión ajustada
23. Datos: N° de días y N° de trabajadores en una obra privada
DIAS Y TRAB X Estadísticas de la regresión
60 2 Coeficiente de correlación múltiple (r) 0,9169
54 3 Coeficiente de determinación (r2) 0,8407
48 4 r2 ajustado 0,8247
44 5 Intercepción 52,6055
40 6 TRAB X -1,9602
38 7 n 12,00
32 8
28 9 y = a + bx
22 10 y = 52,6055 – 1,9602x
18 15
10 20
4 30
24. Gráfico de la ecuación: y = 52,6055 - 1,9202x
-10
0
10
20
30
40
50
60
70
0 5 10 15 20 25 30 35
DIAS(Y)
TRAB (X)
TRAB (X) Curva de regresión ajustada
25. Estudiar la regresión lineal del índice de mortalidad frente al índice de
fumadores, con los siguientes datos
CC (X) IMCP (Y) CC (X) IMCP (Y) CC (X) IMCP (Y)
77 84 88 104 107 86
137 116 102 88 112 96
117 123 91 104 113 144
94 128 104 129 110 139
116 155 66 51 125 113
102 101 87 79 133 146
111 118 91 85 115 128
93 113 100 120 105 115
76 60
26. Consumo de cigarrillos (CC) y el índice de muertes por cáncer de pulmón (IMCP).
Estudiar la regresión lineal del índice de mortalidad frente al índice de fumadores
Estadísticas de la regresión
Coeficiente correlación r 0.7162
Grado dependencia r2 0.5130
r2 ajustado 0,4918
Intercepción -2,8853
CC (Xi) 1,0875
n 25
Y = -2,8853 + 1,0875 X
27. Gráfico de la ecuación: Y = -2,8853 + 1,0875 X
0
20
40
60
80
100
120
140
160
180
0 20 40 60 80 100 120 140 160
IMCP(Yi)
CC (Xi)
CC (Xi) Curva de regresión ajustada
28. A una muestra de eucaliptos se les mide su densidad (x) y su dureza (y).
Estudiar el modelo de regresión lineal de Y respecto de X.
Densidad X Dureza Y Densidad X Dureza Y Densidad X Dureza Y
24.7 484 39.9 989 45.8 1180
24.8 427 40.3 1160 46.9 1400
27.3 413 40.6 1010 48.2 1760
28.4 549 40.7 1100 51.5 1710
29 648 40.7 1130 51.5 2010
30.3 587 42.9 1270 53.4 1880
32.7 704 66.0 3260 56.0 1980
35.6 979 67.4 2700 56.5 1820
38.5 914 68.8 2890 57.3 2020
38.8 1070 69.1 2740 57.6 1980
39.3 1020 69.1 3140 59.2 2310
29. Estadísticas de la regresión
Coeficiente de correlación r 0.9735
Grado dependencia r2 0.9733
r2 ajustado 0.9456
Densidad X 57, 6352
Densidad X 57, 6352
n 35
Y = -1167,7081 + 57,6352X
30. Gráfico de la ecuación: Y = -1167,7081 + 57,6352X
0
500
1000
1500
2000
2500
3000
3500
0 10 20 30 40 50 60 70 80
Dureza(fi)
Densidad (X)
Densidad (X) Curva de regresión ajustada
31. Problemas
• Con el tiempo, la cantidad de leche producida por una vaca decrece luego de
que ésta da su cría. El granjero desea expresar esta relación por medio de una
ecuación, para ello obtiene los siguientes datos:
• Litros por día: 12; 11; 8; 9; 8; 7
• N° de días: 10; 30; 40; 50; 55; 60
• Un fabricante de ropa desea determinar la relación entre el grosor de una fibra
sintética y su resistencia a la tensión. El investigador toma mediciones de
varias fibras de grosor conocido y obtiene los datos:
• GF (X): 40; 31; 34; 44; 49; 36; 41; 50; 39; 45
• RT (Y): 83; 74; 72; 70; 75; 73; 70; 76; 79; 72
• ¿Si el grosor de la fibra fuera 45, cuál sería el valor predecido de la resistencia
a la tensión?