Este documento presenta los conceptos de diagrama de dispersión, coeficiente de correlación de Pearson, y modelo de regresión lineal simple. Explica cómo usar estos métodos para determinar la relación entre dos variables cuantitativas y predecir los valores de una variable en función de la otra. Luego, aplica estos conceptos a varios casos prácticos para ilustrar cómo medir la fuerza y dirección de la relación entre variables y estimar valores usando la regresión lineal.
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
Relación entre variables cuantitativas
1. Sesión 7
Diagrama de dispersión.
Coeficiente de recolección de Pearson.
Modelo de regresión simple.
2. Motivación
Analizamos las siguientes situaciones:
Determinar la correlación
entre la producción y los
costos variables de
productos envasados.
Objetivo
Conocer la relación
existente entre el consumo
de agua potable con la
cantidad de integrantes en
una familia
Conocer la relación existente
entre la cantidad de anchoveta
captura con el cambio de
temperatura del mar por el
fenómeno del niño.
¿existe relación entre las variables en cada situación planteada?
Situación A Situación B Situación C
Participa en el chat de forma ordenada o usa la opción levantar mano de zoom para participar.
3. EVIDENCIAS DE APRENDIZAJE
• Al finalizar la sesión, el estudiante
aprende a elaborar medir la relación
de dos variables cuantitativas, y
describir la influencia de una variable x
sobre la variable y.
5. I. Diagramas de dispersión.
El diagrama, permite detectar la
existencia de correlación entre dos
variables cuantitativas.
Diagrama o gráfica permite
registrar los valores de dos
variables cuantitativas, utilizando
las coordenadas cartesianas (x,y).
6. Patrones de los datos en los diagramas de dispersión
A través de los patrones del diagrama de dispersión se
pueden conocer el comportamiento de los datos:
Comportamiento lineal
Directa: Se da cuando una variable disminuye o aumenta y a la
vez la otra variable también en el mismo sentido.
Inverso: Se da cuando el comportamiento de una variable, es
contrario al comportamiento de la otra variable, es
decir aquellos casos en que una variable aumenta, la
otra variable disminuye.
Nula : Es el caso en que no se consigue establecer un
comportamiento entre los datos de las variables.
7. Casos: diagramas de dispersión
Patrones o comportamiento lineal de los datos:
Directa: La interacción entre la inversión extranjera y
el mercado bursátil en el país.
Inverso: El agotamiento laboral y el estrés
postraumático secundario
8. Caso: altura y peso
Obtenemos las alturas y los pesos de 30 individuos representados en un diagrama
de dispersión.
Observar datos de la tabla
...
163
176
166
169
171
179
197
187
161
Altura
en cm.
...
68
84
54
60
66
65
85
76
50
Peso
en Kg.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
9. Caso: altura y peso
Obtenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersión.
El patrón de los datos es de un
comportamiento lineal directa:
Aumenta la altura, aumenta el
peso.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
10. Coeficiente de Pearson (r)
La correlación de Pearson es un indicador de la
fuerzas con que se vinculan las variables, además de
señalar la dirección lineal entre ellas.
y
x
y
x
Cov
r
)
,
( 𝒏 ∗ 𝑿𝒀 − 𝑿 ∗ 𝒀
𝒏 ∗ 𝑿𝟐 − 𝑿 𝟐 ∗ 𝒏 ∗ 𝒀𝟐 − 𝒀 𝟐
Fórmula
11. Coeficiente de Pearson (r)
0 0.2 0.4 0.6 0.8 1
-0.8 -0.6 -0.4 -0.2
-1
Nula
Muy baja
+
Baja
+
Moderada
+
Alta
+
Muy Alta
+
Muy Alta
--
Alta
--
Moderada
--
Baja
--
Muy baja
--
Perfecta +
Perfecta --
Interpretación de la magnitud del coeficiente de correlación de Pearson
12. Coeficiente de Pearson (r)
Tener en cuenta:
Nivel de medición de las variables: las dos variables deben ser de intervalo o de razón, aunque no
es necesario que ambas tengan el mismo nivel de medición.
Ejemplos de estas características en psicología, el nivel de ansiedad de un sujeto (en puntos) y la
frecuencia cardíaca (en ppm); en medicina,
la presión arterial media (en mm de Hg) y la concentración de glicemia en la sangre (en mg/dL); en
economía, el índice de precios al consumidor (en porcentaje) y el producto interno bruto (en dólares
americanos); entre otras.
Datos pareados: se requiere que exista la misma cantidad de datos en cada variable. De existir
valores perdidos, estos registros se descartarán por completo del análisis.
Normalidad bivariada: el uso apropiado del coeficiente de correlación de Pearson exige que se
satisfaga el supuesto de normalidad bivariada; esto es, que la distribución de probabilidad conjunta
de X y Y sea normal.
13. Caso: edad y días de ausencia
El jefe de personal de una empresa cree que existe una relación entre la ausencia al trabajo
y la edad del empleado.
Tomó en cuenta la edad de 10 trabajadores y contabilizó los días de ausencia durante el
ultimo año. Observar datos de la tabla
Edad
N° días de
ausencia
25 20
50 5
35 10
20 20
45 8
50 2
30 15
40 12
62 1
40 8
- Trace el diagrama de dispersión.
- Determine el grado de relación lineal entre estas 2
variables.
14. Caso: edad y días de ausencia
Edad
N° días de
ausencia
25 20
50 5
35 10
20 20
45 8
50 2
30 15
40 12
62 1
40 8
Diagrama de dispersión
N°
días
de
ausencia
Edad
15. Caso: edad y días de ausencia
Correlación de Pearson
Edad
N° días de
ausencia
XY X2
Y2
25 20 500 625 400
50 5 250 2500 25
35 10 350 1225 100
20 20 400 400 400
45 8 360 2025 64
50 2 100 2500 4
30 15 450 900 225
40 12 480 1600 144
62 1 62 3844 1
40 8 320 1600 64
397 101 3272 17219 1427
𝑹 =
𝟏𝟎 ∗ 𝟑𝟐𝟕𝟐 − 𝟑𝟗𝟕 ∗ (𝟏𝟎𝟏)
𝟏𝟎 ∗ 𝟏𝟕𝟐𝟏𝟗 − 𝟑𝟗𝟕 𝟐 ∗ [𝟏𝟎 ∗ 𝟏𝟒𝟐𝟕 − 𝟏𝟎𝟏 𝟐]
𝑋 = 397 𝑌 = 101 𝑋𝑌 = 3272
𝑋2
= 17219 𝑌2
= 1427 𝑛 = 10
𝑹 = −𝟎, 𝟗𝟓𝟖
Existe una relación inversa muy alta entre
edad del trabajador (X) y N° de días de
ausencia al trabajo (Y) al obtener un valor de -
0.958, es decir al aumentar la edad disminuye
los días de ausencia al trabajo.
17. Regresión lineal
Es un modelo que permite describir la influencia de una variable X sobre la
otra variable Y.
X: Variable independiente
Y: Variable dependiente
Casos:
- Estudiar la influencia de la estatura del padre sobre la estatura del hijo.
- Estimar el precio de una vivienda en función de la superficie
18. Regresión lineal
modelo regresión lineal
𝑌 = 𝑏0 + 𝑏1 𝑋
Es un modelo que conociendo el valor de X, el valor de Y queda perfectamente
establecido
Donde:
Coeficientes de regresión (parámetros a estimar)
Bo : intercepto de la recta con el eje Y
B1 : pendiente de la recta
Variables
X: variable independiente
Y: variable dependiente
19. Regresión lineal
modelo regresión lineal
𝑌 = 𝑏0 + 𝑏1 𝑋
Si B1 > 0 hay relación lineal positiva
Si B1 < 0 hay relación lineal negativa
Ejemplo: Supongamos que la recta de regresión es:
Gastos familiares = 1565 + 229 x integrantes
Se estima que una familia de 5 integrantes tendrá gastos:
Gastos familiares = 1565 + 229 × 5 = 2690
20. Regresión lineal
Estimación de los coeficientes mediante los mínimos cuadrados
Mediante el método de mínimos cuadrados puede obtenerse los valores de 𝑏0 ,
𝑏1
que mejor se ajustan a los datos
𝑩𝒐 = 𝒀 − 𝑩𝟏 𝑿
𝛃𝟏 =
𝐧 ∗ 𝐗𝐘 − 𝐗 ∗ 𝐘
𝐧 ∗ 𝐗𝟐 − 𝐗 𝟐
21. Caso: extensión de los brazos y estatura
¿Se podrá determinar la estatura de una persona si se conoce la medida de la
extensión de su brazo?.
Se tomó en cuenta los datos de 10
personas.
Observar datos de la tabla
persona
Extensión
brazos
(cm).
Estatura
(cm).
1 72 172
2 69 161
3 70 180
4 71 175
5 70 169
6 75 172
7 70 162
8 68 163
9 65 150
10 68 166
• Existe una relación entre las dos variables?
• Como se puede caracterizar esa relación
22. Caso: extensión de los brazos y estatura
¿Se podrá determinar la estatura de una persona si se conoce la medida de la
extensión de su brazo?.
persona
Extensión
brazos (cm)
Estatura
(cm)
X2 Y2 XY
1 72 172 5184 29584 12384
2 69 161 4761 25921 11109
3 70 180 4900 32400 12600
4 71 175 5041 30625 12425
5 70 169 4900 28561 11830
6 75 172 5625 29584 12900
7 70 162 4900 26244 11340
8 68 163 4624 26569 11084
9 65 150 4225 22500 9750
10 68 166 4624 27556 11288
SUMA 698 1670 48784 279544 116710
PROMEDIO 69.8 167
Coeficientes:
𝛃𝟏 =
𝐧 ∗ 𝐗𝐘 − 𝐗 ∗ 𝐘
𝐧 ∗ 𝐗𝟐 − 𝐗 𝟐
𝛃𝟏 =
𝟏𝟎∗𝟏𝟏𝟔𝟕𝟏𝟎 −𝟔𝟗𝟖∗𝟏𝟔𝟕𝟎
𝟏𝟎∗𝟒𝟖𝟕𝟖𝟒− 𝟔𝟗𝟖 𝟐 = 2.264
𝑩𝒐 = 𝒀 − 𝑩𝟏 𝑿
𝑩𝒐 = 𝟏𝟔𝟕 − 𝟐. 𝟐𝟔𝟒 𝐱 𝟔𝟗. 𝟖 = 8.962
Modelo: 𝒆𝒔𝒕𝒂𝒕𝒖𝒓𝒂 = 𝟖. 𝟗𝟔𝟐 + 𝟐. 𝟐𝟔𝟒 𝒆𝒙𝒕𝒆𝒏𝒔𝒊ó𝒏
Por cada cm adicional en la extensión
de los brazos (X), la estura incrementa
en 2.264 cm
23. Coeficiente de determinación R2
Proporción de la variación total en la variable y, que es explicada por la variación en
la variable independiente x.
0 ≤ 𝑹𝟐 ≤ 𝟏
Valores:
El coeficiente de determinación, también llamado R cuadrado, refleja la bondad del
ajuste de un modelo lineal estimado a un conjunto de datos.
Cuanto más cerca de 1 se sitúe su valor, mayor es el ajuste del modelo a la variable
que estamos intentando explicar, mas fiable es. De forma inversa, cuanto más cerca
de cero, menos ajustado estará el modelo y, por tanto, menos fiable será.
25. Coeficiente de determinación R2
Y Y’ (Y- )2 (Y’- )2 (Y-Y’)2
9 9.0 9 0 0.0 0.0
5 4.8 9 16 0.2 0.04
7 6.9 9 4 0.1 0.01
14 13.2 9 25 0.8 0.64
10 11.1 9 1 -1.1 1.21
∑= 46 ∑= 44.10 ∑= 1.90
𝑌 𝑌
V. total V. Explicada V. No explicada
96
.
0
)
(
)
'
(
.
.
2
2
2
Y
Y
Y
Y
Total
Var
Explicada
Var
r
Podemos afirmar que el ajuste del modelo es bueno, el valor 0,96
es cercano a 1. en concreto, el 96% de la variación de la altura (Y)
esta explicada por la variación de la edad de las plantas (X), según
el modelo de regresión.
27. Caso: publicidad y ventas
En un estudio de la relación entre la publicidad por radio y las ventas de un producto, durante
10 semanas se han recopilado, los tiempos de duración en minutos de la publicidad por semana
(X), y el número de artículos vendidos (Y).
- Trace el diagrama de dispersión.
- Determine el grado de relación lineal entre estas 2 variables.
- Determine el modelo de regresión para estas variables
- Si la publicidad es de 85 min. Cúantos artículos se venderá?
Semana 1 2 3 4 5 6 7 8 9 10
Publicidad en
minutos X
20 30 30 40 50 60 60 60 70 80
Ventas Y 50 73 69 87 108 128 135 132 148 170
28. Caso: humedad en local y materia primas
La materia prima que se usa en la elaboración de una fibra sintética se
almacena en un local que no tiene control de humedad.
Las mediciones de la humedad relativa en el local y del contenido de
humedad de una muestra de la materia prima (ambos en porcentajes)
durante 12 días, dieron los siguientes resultados.
a) Realice un diagrama de dispersión e indique ¿Sugiere la gráfica una
asociación lineal?
b) Realice la ecuación de regresión
c) Interprete la pendiente, realice un pronóstico
d) Calcule e interprete el coeficiente de correlación
e) Calcule e interprete el coeficiente de determinación
Humedad
(X)
Contenido de
humedad (Y)
42 12
35 8
50 14
43 9
48 11
62 16
31 7
36 9
44 12
39 10
55 13
48 11
29. Caso: ventas y gastos
Una cadena de restaurantes de comida rápida decide llevar a cabo un experimento para medir
la influencia sobre las ventas del gasto en publicidad. En 8 regiones del país, se realizaron
diferentes variaciones relativas en el gasto en publicidad, comparado con el año anterior, y se
observaron las variaciones en los niveles de ventas resultantes. La tabla adjunta muestra los
resultados.
a) Realice un diagrama de dispersión e interprete los resultados
b) Realice la ecuación de regresión e interprete la pendiente.
c) Calcule e interprete el coeficiente de determinación
d) Realice un pronóstico si el gasto de publicidad incrementa en un 5% y en 15%
30. Caso: ventas y gastos
Una compañía de seguros considera que el número de vehículos (y) que circulan por una
determinada autopista considerada congestionada si va más de 120 km/h , puede ponerse en
función del número de accidentes automovilísticos (x) que ocurren en ella.
Durante 7 días obtuvo los siguientes resultados:
Accidentes xi 5 7 5 3 2 1 9
Vehículos yi 15 18 13 11 10 8 20
a) Realice un diagrama de dispersión e interprete los resultados
b) Realice la ecuación de regresión e interprete la pendiente.
c) Calcule e interprete el coeficiente de determinación
d) Realice un pronóstico si la cantidad de accidentes es de 4 y 6
31. Caso: edad y conducta agresiva
En la tabla siguiente se indica la edad y la conducta agresiva (medida en una escala de cero a 10) de
10 niños.
a) Obtener la recta de regresión de la conducta agresiva en función de la edad.
b) Graficar la nube de puntos y la recta de regresión.
c) A partir de dicha recta, obtener el valor de la conducta agresiva que correspondería a
un niño de 7.2 años.
d) Calcular e interpretar el coeficiente de determinación.
Edad 6 6 6.7 7 7.4 7.9 8 8.2 8.5 8.9
Conducta
agresiva 9 6 7 8 7 4 2 3 3 1