Modelos de correlación y regresión lineal en educación
1. La educación tiene la misión de permitir, a todos sin excepción, hacer fructificar todos sus talentos y todas sus capacidades de creación. Lo que implica que cada uno pueda responsabilizarse de sí mismo y realizar su proyecto personal. Jaques Delors.
Modelos empíricos
Gráfico de dispersión
Error estándar. Correlación no es causalidad
G. Edgar Mata Ortiz http://licmata-math.blogspot.mx/
http://www.slideshare.net/licmata/
licmata@hotmail.com
Fórmulas correlación y
regresión lineal simple.
Referencias bibliográficas
Ejemplos de correlación.
Modelos determinísticos: La variable o variables independientes
predicen exactamente el valor de la variable independiente.
Modelos no determinísticos: La variable independiente (x) no
predice exactamente la variable dependiente (y).
The nature of mathematics. Karl J. Smith. Thomson Learning.
2007.
Introduction to Statistics and Data Analysis. Roxy Peck,Chris
Olsen,Jay L. Devore. CENGAGE Learning. 2012.
Applied Statistics and Probability for Engineers. Douglas C.
Montgomery,George C. Runger. 2011.
Es un gráfico que utiliza las coordenadas cartesianas para
mostrar los valores de dos variables x, y.
Un aspecto que debe cuidarse es la interpretación de la
correlación. A pesar de que el coeficiente de correlación
sea muy cercano a uno, no podemos afirmar que “x” es
causa de “y”.
En realidad no sabemos que causa la correlación. Es
posible que sea otra variable la que está causando que
tanto “x” como “y” aumenten o disminuyan conforme a
la recta de regresión.
d f
v a PV nRT
t m
1
y Consumodecombustibledeunvehículo
Ejemplo
x pesodel vehículo
2
y Consumodeaguaenunacasa
Ejemplo
x númerode personas quevivenenella
Consumodeagua en una casa (metroscúbicos)
2
x = númerodepersonasque viven en ella
y
Ejemplo
x y
1 2.4
1 3.5
1 5.1
2 6.8
2 8.5
3 8.1
3 7.2
3 7.6
4 8.1
4 7.5
4 6.8
4 8.8
5 8.2
5 8.8
5 9
5 8.9
6 8.1
6 8.8
7 9.2
7 9.5
El modelo de regresión lineal es no determinístico, de
modo que los resultados pronosticados tienen error.
Una ventaja de este modelo es que podemos conocer la
magnitud de dicho error.
Su nombre completo es error estándar al calcular “y”
dado “x”.
Se calcula mediante la fórmula siguiente:
2
2
y
x
y x
x y
xy
n
SC
SC
S
n
Aunque es sencillo simplificarlo observando que el nu-merador
es SCxy.
2
2
xy
y
x
y x
SC
SC
SC
S
n
El error estándar nos da una medida de la desviación
promedio de las predicciones hechas por medio de la
ecuación de regresión respecto a los valores observados.
En este sentido, la recta de regresión puede ser conside-rada
una estimación de la media de los valores de “y”
para cada valor de “x”.
El error estándar es una cuantificación del error al prede-cir
“y” para cada valor de “x”. Cuanto más grande es este
error menos podremos confiar en las predicciones del
modelo.
2. r de Pearson
La educación tiene la misión de permitir, a todos sin excepción, hacer fructificar todos sus talentos y todas sus capacidades de creación. Lo que implica que cada uno pueda responsabilizarse de sí mismo y realizar su proyecto personal. Jaques Delors.
r de Pearson Coeficiente de determinación r2
Interpretación del valor de r
Las sumas de cuadrados se sustituyen para obte-ner
r.
El coeficiente de determinación r2 nos indica
la proporción de la variación total en y que
conocemos como función de x.
En ocasiones se le considera la proporción de
la varianza en “y” explicada por la regresión.
En correlación lineal múltiple se usa como
indicador de bondad del ajuste del modelo.
El coeficiente de correlación lineal r de Pear-son
mide la fuerza de la correlación entre las
variables x, y.
EL valor de r siempre está entre –1 y +1. Si es
exactamente igual a +1 ó –1 se dice que existe
correlación perfecta, y nos encontramos ante
un modelo determinístico.
Para calcular r comenzamos con la siguiente
tabla:
x y x2 y2 xy
1 1 2.4 1 5.76 2.4
2 1 3.5 1 12.25 3.5
3 1 5.1 1 26.01 5.1
18 6 8.8 36 77.44 52.8
19 7 9.2 49 84.64 64.4
20 7 9.5 49 90.25 66.5
S 78 150.9 372 1206.09 641.9
Sx Sy Sx2 Sy2 Sxy
. . .
. . .
. . .
. . .
. . .
. . .
Las sumatorias que se obtienen al final de ca-da
columna son las que se utilizan en las fór-mulas
siguientes:
2
2
2
2
x
y
xy
x
SC x
n
y
SC y
n
x y
SC xy
n
xy
x y
SC
r
SC SC
El valor de r indica que tan fuerte es la correla-ción
lineal entre las variables independiente
(x) y dependiente (y). Cuanto más cerca de
uno, más fuerte es la correlación y cuanto más
cerca de cero, más débil.
No existen reglas para decidir si 0.6 es una co-rrelación
suficientemente fuerte. Depende de
los objetivos del experimentador.
Se recomienda hacer el análisis de correlación
y regresión completo. Para encontrar la regla
de regresión se emplean las siguientes fórmu-las.
Coeficientes de la recta de regresión lineal.
2
0 2 2
x y x xy
a
n x x
0 1 y a a x
1 2 2
n xy x y
a
n x x
La recta de regresión lineal
La ecuación de esta recta es un modelo no
determinístico del efecto que la variabilidad
de la variable explicativa (x) tiene sobre la va-riable
dependiente (y).
Esta ecuación responde a la pregunta “¿Qué
pasa si x es igual a…?”
La forma de responder a estas preguntas con-siste
en sustituir los valores de “x” en la ecua-ción
y obtener los valores de “y”.
Con dos parejas (x, y) obtenemos dos puntos
y, al unirlos, podemos trazar la recta de regre-sión
lineal.
x y
1 5.261
2 6.049
3 6.836
4 7.624
5 8.411
6 9.199
7 9.986
y 0.7875x 4.4739
La tabulación indica que:
Si en una casa vive sólo una
persona, el consumo de
agua será de 5.261 m3; si
viven dos personas serpa de
6.049 y así sucesivamente
hasta llegar a 7 personas
cuando el consumo espera-do
es de 9.986 m3.