El documento explica los coeficientes de correlación de Pearson y Spearman. El coeficiente de Pearson mide la relación lineal entre dos variables y varía de -1 a 1, donde 1 es correlación positiva perfecta, -1 es negativa perfecta y 0 no hay correlación. El coeficiente de Spearman mide la correlación de rangos entre variables y su interpretación es la misma que la de Pearson.
1. Profesor: Pedro Beltrán
Alumno: Pedro Araguache
C.I.: 15.249.193
Barcelona; 07/07/2015
República Bolivariana de Venezuela
Ministerio del Poder Popular para la Educación
Instituto Universitario Politécnico “Santiago Mariño”
Barcelona-Edo. Anzoátegui.
2. Los Coeficientes de correlación son medidas que indican la situación relativa de
los mismos sucesos respecto a las dos variables, es decir, son la expresión
numérica que nos indica el grado de relación existente entre las 2 variables y en
qué medida se relacionan. Son números que varían entre los límites +1 y -1. Su
magnitud indica el grado de asociación entre las variables; el valor r = 0 indica
que no existe relación entre las variables; los valores ( 1 son indicadores de una
correlación perfecta positiva (al crecer o decrecer X, crece o decrece Y) o
negativa (Al crecer o decrecer X, decrece o crece Y).
Correlación de Pearson:
3. Interpretación
• El valor del índice de correlación varía en el intervalo [-1,1]:
Correlación positiva perfecta. El índice indica una dependencia total entre
las dos variables denominada relación directa: cuando una de ellas
aumenta, la otra también lo hace en proporción constante.
•
Si 0 < r < 1, existe una correlación positiva.
•
Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que
las variables son independientes: pueden existir todavía relaciones no
lineales entre las dos variables.
•
Si -1 < r < 0, existe una correlación negativa.
•
Si r = -1, existe una correlación negativa perfecta. El índice indica una
dependencia total entre las dos variables llamada relación inversa: cuando
una de ellas aumenta, la otra disminuye en proporción constante.
4. • Con los datos sobre las temperaturas en dos días diferentes en una ciudad,
determinar el tipo de correlación que existe entre ellas mediante el
coeficiente de PEARSON.
X 18 17 15 16 14 12 9 15 16 14 16 18 SX=180
Y 13 15 14 13 9 10 8 13 12 13 10 8 SY=138
6. Se aplica la fórmula
Existe una correlación moderada
7. Coeficiente de correlación de Spearman
En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una
medida de la correlación (la asociación o interdependencia) entre dos variables
aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su
respectivo orden.
El estadístico ρ viene dado por la expresión:
Donde D es la diferencia entre los correspondientes estadísticos de orden de x -
y. N es el número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos,
aunque si éstos son pocos, se puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente
aproximación a la distribución t de Student
La interpretación de coeficiente de Spearman es igual que la del coeficiente de
correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o
positivas respectivamente, 0 cero, significa no correlación pero no independencia.
La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos
ordenaciones de una distribución normal bivariante.
8. Ejemplo
C.I. Horas de TV a la semana
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17
El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas
'orden(i)' y 'orden(t)'
Para el orden i, se corresponderán con el numero de fila del cuadro, para 99, orden(i) =3 ya
que ocupa el 3.er lugar, ordenado de menor a mayor
9. para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la
semana', para no hacer otro cuadro, la secuencia ordenada quedaría
T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 }
Para este caso, el orden sería para cada elemento, respectivamente:
orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }
sin embargo, el valor de orden esta dado por el valor promedio de sus posiciones, así
para:
7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5
28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8
50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10
Después, se crean dos columnas más, una columna "d" que muestra las diferencias
entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la columna
"d" al cuadrado.
10. Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como
lo siguiente:
CI (i) Horas de TV a la semana (t) orden(i) orden(t) d d2
86 0 1 1 0 0
97 20 2 6 4 16
99 28 3 8 5 25
100 50 4.5 10 5.5 30.25
100 28 4.5 8 3.5 12.25
103 28 6 8 2 4
106 7 7 2.5 4.5 20.25
110 17 8 5 3 9
113 7 9.5 2.5 7 49
113 12 9.5 4 5.5 30.25
Nótese como el número de orden de los valores que son idénticos es la media de los
números de orden que les corresponderían si no lo fueran.
Los valores de la columna d2 pueden ser sumados para averiguar . El valor de
n es 10. Así que esos valores pueden ser sustituidos en la fórmula.
De lo que resulta