Este documento explica los coeficientes de correlación de Pearson y Spearman. El coeficiente de Pearson mide la relación lineal entre dos variables continuas, mientras que el coeficiente de Spearman evalúa la asociación monótona entre dos variables, ya sean continuas o de rango. Ambos coeficientes varían de -1 a 1, donde valores cercanos a 1 o -1 indican una fuerte correlación positiva o negativa, respectivamente, y un valor de 0 significa ausencia de correlación lineal.
uso de los coeficientes de correlación de Pearson y de Sperman
1. República Bolivariana de Venezuela.
Ministerio del Poder Popular para la
Educación.
I.U.P. Santiago Mariño.
SECCION: OV
Profesor: Alumno:
Beltrán Pedro Argimiro Domínguez
C.I:25245074
Barcelona 07-07-2015
Uso de los coeficientes de correlación de Pearson y
Spearman
2. Dado dos variables, la correlación permite hacer estimaciones del
valor de una de ellas conociendo el valor de la otra variable.
Los coeficientes de correlación son medidas que indican la situación
relativa de los mismos sucesos respecto a las dos variables, es decir,
son la expresión numérica que nos indica el grado de relación existente
entre las 2 variables y en qué medida se relacionan. Son números que
varían entre los límites +1 y -1. Su magnitud indica el grado de
asociación entre las variables; el valor r = 0 indica que no existe
relación entre las variables; los valores ( 1 son indicadores de una
correlación perfecta positiva (al crecer o decrecer X, crece o decrece Y)
o negativa (Al crecer o decrecer X, decrece o crece Y).
3. En el caso de que se esté estudiando dos variables aleatorias x e y sobre una población; el
coeficiente de correlación de Pearson se simboliza con la letra, siendo la expresión que nos
permite calcularlo:
Donde:
• OXY es la covarianza de (X, Y)
• OX es la desviación típica de la variable (X)
• OY es la desviación típica de la variable (Y)
De manera análoga podemos calcular este coeficiente sobre un estadístico muestral, denotado
como r xy a:
4. El valor del índice de correlación varía en el intervalo [-1,1]:
Si r = 1, existe una correlación positiva perfecta. El índice indica una
dependencia total entre las dos variables denominada relación directa: cuando
una de ellas aumenta, la otra también lo hace en proporción constante.
Si 0 < r < 1, existe una correlación positiva.
Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las
variables son independientes: pueden existir todavía relaciones no lineales
entre las dos variables.
Si -1 < r < 0, existe una correlación negativa.
Si r = -1, existe una correlación negativa perfecta. El índice indica una
dependencia total entre las dos variables llamada relación inversa: cuando una
de ellas aumenta, la otra disminuye en proporción constante.
5. Ventajas y desventajas
Ventajas Desventajas
Una ventaja de este coeficiente consiste
en la posibilidad de calcular
su distribución muestral y así poder
determinar su error típico deestimación
El valor máximo que puede alcanzar
el coeficiente de contingencia depende
del número de categorías de
las variables estudiadas. En el caso de
una tabla 2(2 el máximo valor de C es
0.7071, en cambio para una tabla 3(3
es 0.8165. Esto origina otra
desventaja, dos coeficientes de
contingencias no son comparables, a
menos que ellos sean calculados de
tablas de contingencias del mismo
tamaño
7. Uso de los coeficientes de correlación de
Spearman
SPEARMAN (Rho de Spearman). Este coeficiente es una medida de asociación
lineal que utiliza los rangos, números de orden, de cada grupo de sujetos y compara
dichos rangos. Existen dos métodos para calcular el coeficiente de correlación de
los rangos: uno, señalado por Spearman y otro, por Kendall. El r de Spearman
llamado también rho de Spearman es más fácil de calcular que el de Kendall.5
8. donde D es la diferencia entre los correspondientes estadísticos de orden
de x - y. N es el número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de
ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente
aproximación a la distribución t de Student
9. El coeficiente de correlación de Spearman se rige por las reglas de la correlación
simple de Pearson, y las mediciones de este índice corresponden de + 1 a - 1,
pasando por el cero, donde este último significa no correlación entre las variables
estudiadas, mientras que los dos primeros denotan la correlación máxima.
La ecuación utilizada en este procedimiento, cuando en el ordenamiento de los
rangos de las observaciones no hay datos empatados o ligados, es la siguiente:
Donde:
rs = coeficiente de correlación de Spearman.
d2 = diferencias existentes entre los rangos
de las dos variables, elevadas al cuadrado.
N = tamaño de la muestra expresada en
parejas de rangos de las variables.
S = sumatoria.
10. Pasos.
•Clasificar en rangos cada medición de
las observaciones.
•Obtener las diferencias de las parejas
de rangos de las variables estudiadas y
elevadas al cuadrado.
•Efectuar la sumatoria de todas las
diferencias al cuadrado.
•Aplicar la ecuación.
•Calcular los grados de libertad (gl). gl
= número de parejas - 1. Solo se utilizará
cuando la muestra sea mayor a 10.
•Comparar el valor r calculado con
respecto a los valores críticos de la tabla
de valores críticos de t de Kendall en
función de probabilidad.
•Decidir si se acepta o rechaza la
hipótesis.
11. Ventajas y desventajas
Ventajas Desventajas
El coeficiente de correlación de
Spearman es menos sensible a los
valores extremos que el coeficiente de
Pearson
Una alternativa al coeficiente de
correlación de Pearson es el
coeficiente de correlación de
Spearman basado en rangos
Los valores se repiten asignado el
promedio de los rangos que les
corresponderían a cada uno de ellos
Es asociada entre dos variables
aleatorias continuas
Se tiene que considerar la existencia
de datos idénticos a la hora de
ordenarlos
0 cero, significa no correlación pero
no independencia