Este documento describe conceptos estadísticos como la correlación, la covarianza, la regresión lineal y la correlación por rangos. Explica que la correlación mide la relación entre dos variables, la covarianza es una medida de dispersión conjunta, y la regresión lineal modeliza la relación entre una variable dependiente y una o más independientes. También cubre cómo calcular el coeficiente de correlación de Pearson y Spearman.
2. CORRELACION
la correlación indica la fuerza y la dirección de una
relación lineal entre dos variables aleatorias. Se considera
que dos variables cuantitativas están correlacionadas
cuando los valores de una de ellas varían
sistemáticamente con respecto a los valores homónimos
de la otra: si tenemos dos variables (A y B) existe
correlación si al aumentar los valores de A lo hacen
también los de B y viceversa. La correlación entre dos
variables no implica, por sí misma, ninguna relación de
causalidad
Existen diversos coeficientes que miden el grado de
correlación, adaptados a la naturaleza de los datos. El
más conocido es el coeficiente de correlación de
Pearson (introducido en realidad por Francis Galton), que
3. CORRELACION
En el caso de que se esté estudiando dos variables
aleatorias x e y sobre una población estadística; el
coeficiente de correlación de Pearson se simboliza con la
letra ρx,y, siendo la expresión que nos permite calcularlo:
Donde:
σXY es la covarianza de (X,Y)
σX es la desviación típica de la
variable X
σY es la desviación típica de la
variable Y
4. Matriz de Correlación
Una matriz de correlación es una tabla de doble
entrada para A B y C, que muestra una lista multivariable
horizontalmente y la misma lista verticalmente y con el
correspondiente coeficiente de correlación llamado r'.
El análisis factorial se puede utilizar para estudiar series
numéricas o de valores cuantitativos para un determinado
número de variables cuantitativas y mayor de dos. Por
ejemplo, tres características o más para series numéricas
con igual número de datos.
5. Matriz de Correlación
Estas variables independientes o explicativas están
dispuestas ya en una matriz de correlación, que es
una tabla de doble entrada para A B y C, que muestra una
lista multivariable horizontalmente y la misma lista
verticalmente y con el correspondiente coeficiente de
correlación llamado r o la relación entre cada pareja en
cada celda, expresada con un número que va desde 0 a 1.
El modelo mide y muestra la interdependencia en
relaciones asociadas o entre cada pareja de variables y
todas al mismo tiempo.
6. COVARIANZA
Es una medida de dispersión conjunta de dos variables
estadísticas.
La covarianza SXY (a veces también
denotada Cov(X,Y) ) de dos variables
aleatorias X e Y es:
donde es el operador esperanza. Para
distribuciones discretas la fórmula anterior se
concreta en
Cuando las variables aleatorias X e Y son n-
dimensionales, es decir, e
, su matriz de covarianzas ΣXY es:
7. COVARIANZA
Si Sxy > 0 hay dependencia directa (positiva), es decir, a
grandes valores de x corresponden grandes valores de y.
Si Sxy = 0 Una covarianza 0 se interpreta como la no
existencia de una relación lineal entre las dos variables
estudiadas.
Si Sxy < 0 hay dependencia inversa o negativa, es decir, a
grandes W, y V son xvariables aleatorias y a, b,valores de
Si X, Y, valores de corresponden pequeños c, d son
y.
constantes ("constante" en este contexto significa no
,
aleatorio), se cumple que:
la varianza de
X
fórmula que suele emplearse en la
práctica para calcular la covarianza.
8. Coeficiente de Correlación Lineal
El coeficiente de correlación lineal es el
cociente entre la covarianza y el producto de
las desviaciones típicas de ambas variables.
El coeficiente de correlación lineal se expresa
mediante la letra r.
9. Coeficiente de Correlación Lineal
Propiedades
1. El coeficiente de correlación no varía al hacerlo la escala
de medición.
Es decir, si expresamos la altura en metros o en
centímetros el coeficiente de correlación no varía.
2. El signo del coeficiente de correlación es el mismo que el
de la covarianza.
Si la covarianza es positiva, la correlación es directa.
Si la covarianza es negativa, la correlación es inversa.
Si la covarianza es nula, no existe correlación.
3. El coeficiente de correlación lineal es un número real
comprendido entre −1 y 1.
−1 ≤ r ≤ 1
10. Coeficiente de Correlación Lineal
4. Si el coeficiente de correlación lineal toma valores
cercanos a −1 la correlación es fuerte e inversa, y será
tanto más fuerte cuanto más se aproxime r a −1.
5. Si el coeficiente de correlación lineal toma valores
cercanos a 1 la correlación es fuerte y directa, y será tanto
más fuerte cuanto más se aproxime r a 1.
6. Si el coeficiente de correlación lineal toma valores
cercanos a 0, la correlación es débil.
7. Si r = 1 ó −1, los puntos de la nube están sobre la recta
creciente o decreciente. Entre ambas variables
hay dependencia funcional.
11. Coeficiente de Correlación Lineal
Ejemplo
Las notas de 12 alumnos de una clase en Matemáticas y Física son
las siguientes:
Hallar el coeficiente de correlación de la distribución e interpretarlo.
1º Hallamos las medias aritméticas. NOTA
•Al ser el coeficiente de
correlación positivo, la
correlación es directa.
2º Calculamos la covarianza.
•Como coeficiente de
correlación está muy
próximo a 1 la correlación
3º Calculamos las desviaciones típicas.muy fuerte.
es
4º Aplicamos la fórmula del coeficiente de
correlación lineal.
12. REGRESIÓN
En estadística la regresión lineal o ajuste lineal es
un método matemático que modeliza la relación entre
una variable dependiente Y, las variables
independientes Xi y un término aleatorio ε. Este modelo
puede ser expresado como:
donde β0 es la intersección o término "constante", las
son los parámetros respectivos a cada
variable independiente, y p es el número de parámetros
independientes a tener en cuenta en la regresión. La
regresión lineal puede ser contrastada con la regresión no
lineal.
13. Regresión Lineal
Para poder crear un modelo de regresión lineal, es
necesario que se cumpla con los siguientes supuestos:
La relación entre las variables es lineal.
Los errores en la medición de las variables explicativas
son independientes entre sí.
Los errores tienen varianza constante.
(Homocedasticidad)
Los errores tienen una esperanza matemática igual a cero
(los errores de una misma magnitud y distinto signo son
equiprobables).
El error total es la suma de todos los errores.
14. Regresión Lineal
El modelo lineal relaciona la variable
dependiente Y con K variables explicativas Xk (k = 1,...K), o
cualquier transformación de éstas, que generan
un hiperplano de parámetros βk desconocidos:
donde es la perturbación aleatoria que recoge todos
aquellos factores de la realidad no controlables u
observables y que por tanto se asocian con el azar, y es la
que confiere al modelo su carácter estocástico. En el caso
más sencillo, con una sola variable explicativa, el
hiperplano es una recta:
Y = β1 + β2X2 +
ε
15. Regresión Lineal
El problema de la regresión consiste en elegir
unos valores determinados para los parámetros
desconocidos βk, de modo que la ecuación quede
completamente especificada. Para ello se necesita un
conjunto de observaciones. En una observación
cualquiera i-ésima (i= 1,... I) se registra el comportamiento
simultáneo de la variable dependiente y las variables
explicativas (las perturbaciones aleatorias se suponen no
observables).
16. Regresión Lineal
Los valores escogidos como estimadores de los
parámetros, , son los coeficientes de regresión, sin que se
pueda garantizar que coinciden con parámetros reales del
proceso generador. Por tanto, en
Los valores son por su parte estimaciones de la
perturbación aleatoria o errores.
17. Regresión Lineal Simple
Sólo se maneja una variable independiente, por lo que
sólo cuenta con dos parámetros. Son de la forma:
Yi = β0 + β1Xi + εi
donde εi es el error asociado a la medición del valor Xi y
siguen los supuestos de modo que εi∼N(0,σ2) (media
cero, varianza constante e igual a un σ y
con ).
18. Regresión Lineal Simple
Dado el modelo de regresión simple, si se calcula
la esperanza (valor esperado) del valor Y, se obtiene:
Derivando respecto a y e igualando a cero, se obtiene:
Obteniendo dos ecuaciones denominadas ecuaciones
normales que generan la siguiente solución para ambos
parámetros:
La interpretación del parámetro β1 es que un incremento en Xi
de una unidad, Yi incrementará en β1
19. Correlación por Rangos
Este coeficiente es una medida de asociación lineal que
utiliza los rangos, números de orden, de cada grupo de
sujetos y compara dichos rangos. Existen dos métodos
para calcular el coeficiente de correlación de los rangos
uno señalado por Spearman y otro por Kendall. El r de
Spearman llamado también rho de Spearman es más fácil
de calcular que el de Kendall.
20. Correlación por Rangos
Coeficiente de Correlación de Spearman
ρ (ro) es una medida de la correlación (la asociación o
interdependencia) entre dos variables
aleatorias continuas. Para calcular ρ, los datos son
ordenados y reemplazados por su respectivo orden.
El estadístico ρ viene dado por la expresión:
donde D es la diferencia entre los correspondientes
estadísticos de orden de x - y. N es el número de parejas.
21. Correlación por Rangos
Se tiene que considerar la existencia de datos idénticos a
la hora de ordenarlos, aunque si éstos son pocos, se
puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones, podemos
utilizar la siguiente aproximación a la distribución t de
Student.
La interpretación de coeficiente de Spearman es igual que
la del coeficiente de correlación de Pearson. Oscila entre -
1 y +1, indicándonos asociaciones negativas o positivas
respectivamente, 0 cero, significa no correlación pero no
independencia. La tau de Kendall es un coeficiente de
correlación por rangos, inversiones entre dos
ordenaciones de una distribución normal bivariante.
22. Correlación por Rangos
Los datos La columna "d" que muestra las diferencias entre
brutos usados las dos columnas de orden. Finalmente, se crea
en este otra columna "d2". Esta última es sólo la columna
ejemplo se "d" al cuadrado
ven debajo. Nótese como el
número de orden
de los valores
que son idénticos
es la media de
los números de
orden que les
corresponderían
si no lo fueran.
Los valores de la columna d2 pueden
ser sumados para averiguar .
De lo que resulta
El valor de n es 10. Así que esos valores
ρ=−
pueden ser sustituidos en la fórmula. 0.187878787879