Este documento describe regresión y correlación. La regresión expresa la relación entre dos variables, con una variable como función de la otra. La correlación mide el grado en que dos variables varían juntas. La regresión lineal simple asume una relación lineal entre una variable independiente (X) y una dependiente (Y). El coeficiente de correlación mide la asociación lineal entre -1 y 1. El método de mínimos cuadrados estima los parámetros a y b para el modelo Y = a + bX.
2. Regresión y Correlación
Cuando se mide 2 ó más variables (X, Y) de cada individuo deseamos
expresar la naturaleza de ambas variables.
Regresión
relación de una variable con otra expresando una como función de la
otra (u otra función más compleja).
Correlación
grado en el que dos variables varían conjuntamente
3. Regresión Lineal Simple
* Se dispone de una muestra con observaciones de 2 variables:
(X1, Y1), (X2, Y2), …, (Xn, Yn)
¿Se entiende de qué estamos hablando?
4. ¿Cuál es el grado de asociación entre ambas variables?
* Covarianza = medida de variación conjunta entre variables X e Y
Si COV es (+), entonces X e Y tienden a variar de la misma forma
(-), entonces una ↑ y la otra ↓, o vice versa
~ 0 , entonces no hay asociación entre X e Y
5. EJEMPLO. Datos de 20 empleados de una empresa:
X = pulsaciones por minuto en reposo (nº)
Y = tiempo en correr una milla (segundos) COVARIA ZA
(valores centrados y productos)
Cov = 239,41
6. ¿Usos de la regresión?
* Estudio de causalidad (variación de una variable causada por la otra,
lo que debemos probar experimentalmente)
* Descripción de leyes científicas y predicción (descripción
matemática de relaciones entre variables en la naturaleza y uso de
un modelo de regresión, el que puede ser útil para predicciones,
preferiblemente simples, aunque pueden ser complejas)
* Comparación de valores dependientes (¿en qué grado la
diferencia en la supervivencia observada de 2 grupos de coleópteros
es función de la densidad a la que han crecido?)
* Sustitución de variables (¿se relaciona la presión sanguínea de
ratones experimentales con la edad? En caso (+), entonces se podría
registrar la edad de los ratones, simplemente, y predecir la presión
sanguínea si los equipos son muy escasos y caros, por ejemplo)
7. Cov tiene el problema que su valor no es acotado, por lo que ese valor
calculado puede ser pequeño o grande. o sabemos. Por lo tanto, se define
…
Coeficiente de Correlación (r) = medida de asociación lineal entre dos
variables X e Y, independiente de sus unidades de medida. Se mide como la
Cov dividida por las desviaciones estándar (S) de X e Y, esto es:
r = [ -1, +1 ],
pero, alto valor de r no significa que exista relación causa-efecto
entre ambas variables.
8. Cálculo del Coeficiente de Correlación
- Calcular las desviaciones estándar de X e Y
d.s.(X) = 7,36 d.s.(Y) = 69,97
Corr (X, Y) = Cov(X,Y) / [ d.s.(X) * d.s.(Y) ]
Corr (X, Y) = 239,41 / [ 7,36 * 69,97 ] = 0,46Corr (X, Y) = 239,41 / [ 7,36 * 69,97 ] = 0,46
9.
10. Regresión Lineal Simple
Asumiremos que ahora existe una relación de causalidad desde la
variable X (causa) hacia la variable Y (efecto), y que la relación es
de tipo lineal en el rango de los datos observados. El modelo es
Yi = a + b Xi + εi para i = 1, 2, …, n
donde:
a, b son parámetros del modelo (fijas)
εi son errores aleatorios y corresponden a la diferencia entre lo
que postula el modelo “a + b X” y lo que se observa (Y).
Ejemplo: Ventas de automóviles
11. Ejemplo: Ventas de automóviles
Se piensa que si aumenta el porcentaje de comisión pagada mensual al
vendedor (variable X, en %), entonces aumenta la ganancia neta por
venta mensual (variable Y, en millones de $); n=15 concesionarios.
12. El problema es estimar los parámetros a, b y d.s. para identificar el
modelo. ¿Cómo?
Método de Mínimos Cuadrados:
consiste en encontrar los valores de a y b que minimicen la suma de
cuadrados de las desviaciones de las observaciones respecto de la recta
que representa al modelo (en la figura los segmentos representan los
errores εi del modelo).
13. (continuación)
X = comisión pagada mensual al vendedor (%) X̅ = 5,4
Y = ganancia neta por venta mensual (millones $) ̅Y = 16,1
b = 3,18
a = - 0,96
14. Por lo tanto, el modelo lineal es el siguiente:
¿cómo se interpreta?
17. Regresión Lineal Múltiple
En el análisis de regresión múltiple la ecuación de regresión ya no define
una recta (en el plano), sino un hiperplano en un espacio multidimensional.
Imaginemos al salario como variable dependiente (Y) del salario inicial (X1)
y de la experiencia previa (X2).
La ecuación es:
Y = a + b1 X1 + b2 X2 + ε
18. Coeficiente de Determinación (R2)
Es una medida de la bondad de ajuste del modelo de regresión
lineal a los datos. (Es deseable que los valores de Y ajustados al
modelo sean lo más parecidos posible a los valores observados.
Una medida de lo parecido que son (los valores de Y observados y
los valores de Y ajustados), es el coeficiente de correlación.
R2: [ 0, 1]
0 significa no ajuste; 1 significa ajuste perfecto (todos los valores
sobre la recta)
22. TABLA 4: Cantidad de subsidios gubernamentales en inglaterra (1969) vs. Población
ciudad Población (x 10.000) Subsidio (millones de libras) Subsidio por habitante (millones libras)
1 29 8.03 0.28
2 58 16.81 0.29
3 108 33.9 0.31
4 34 9.97 0.29
5 115 34.02 0.30
6 19 6.72 0.35
7 136 40.75 0.30
8 33 10.15 0.31
9 25 8.77 0.35
10 47 12.5 0.27
11 49 17.27 0.35
12 33 12.6 0.38
PROMEDIO 57.2 17.6 0.3
DE 0.0445 DE 0.04
CV 0.11y = 0.2949x + 0.7634
R² = 0.9873
0
5
10
15
20
25
30
35
40
45
0 50 100 150
Subsidio(millonesdelibras)
Población (x 10.000)
23. Regresión y Correlación
Cuando se mide 2 ó más variables (X, Y) de cada individuo deseamos
expresar la naturaleza de ambas variables.
Regresión
relación de una variable con otra expresando una como función de la
otra (u otra función más compleja).
CorrelaciónCorrelación
grado en el que dos variables varían conjuntamente