El documento explica los coeficientes de correlación de Pearson y Spearman. El coeficiente de Pearson mide la relación lineal entre dos variables cuantitativas, mientras que el coeficiente de Spearman mide la asociación monótona entre dos variables al menos ordinales mediante el uso de rangos. Ambos coeficientes toman valores entre -1 y 1, donde valores cercanos a 1 indican una fuerte correlación positiva y valores cercanos a -1 una fuerte correlación negativa.
Correlación de Spearman: definición, interpretación y ejemplo
1. República Bolivariana de Venezuela
Ministerio del Poder Popular para la Educación
I.U.P “Santiago Mariño”
Catedra: Estadística
Profesor: Alumna:
Pedro Beltrán Paola Santos C.I 26.520.174
Sección: CV
2. La covariación es el grado de
concordancia de las posiciones
relativas de los datos de dos
variables. En consecuencia el
coeficiente de correlación de
Pearson opera con puntuaciones
tipificadas (que miden posiciones
relativas) y se define:
3. El fundamento del coeficiente de Pearson es el siguiente: Cuanto más
intensa sea la concordancia (en sentido directo o inverso) de las
posiciones relativas de los datos en las dos variables, el producto del
numerador toma mayor valor (en sentido absoluto). Si la concordancia es
exacta, el numerador es igual a N (o a -N), y el índice toma un valor igual
a 1 (o -1).
Ejemplo 1 (Máxima covariación positiva)
Observa que los datos tipificados (expresados como puntuaciones z) en las dos columnas de la
derecha tienen los mismos valores en ambas variables, dado que las posiciones relativas son las
mismas en las variables X e Y.
Si obtenemos los productos de los valores tipificados para cada caso, el resultado es:
El cociente de dividir la suma de productos (5) por N (hay que
tener en cuenta que N es el número de casos, NO el número de
datos) es igual a 1:
4. Ejemplo 2 (Covariación positiva de alta intensidad)
y por tanto,
Ejemplo 3 (Ausencia de covariación)
Ejemplo 4 (Covariación negativa de alta intensidad)
5. Ejemplo 5 (Máxima covariación negativa)
El valor de la correlación es igual a 1 o -1 si la covariación es de
intensidad máxima, y se va acercando hacia el 0 cuanto más
pequeña sea la intensidad de la covariación. Además, el índice
tiene signo positivo cuando la covariación es directa y negativo
cuando es inversa.
Características:
a) El coeficiente de correlación de Pearson
puede tomar valores entre -1 y 1.
b) La correlación de una variable con ella
misma siempre es igual a 1.
c) El valor 0 indica ausencia de covariación
lineal, pero NO si la covariación es de tipo
no lineal. (Ver ejemplo en el apartado de
relaciones no lineales).
Índice de Correlación de
Pearson:
6. Definición de Coeficiente de Pearson:
En estadística, el coeficiente de correlación de Pearson es
una medida de la relación lineal entre dos variables
aleatorias cuantitativas. A diferencia de la covarianza, la
correlación de Pearson es independiente de la escala de
medida de las variables.
De manera menos formal, podemos definir el coeficiente
de correlación de Pearson como un índice que puede
utilizarse para medir el grado de relación de dos variables
siempre y cuando ambas sean cuantitativas.
Interpretación:
El valor del índice de correlación varía en el intervalo [-1,1]:
Si r = 1, existe una correlación positiva perfecta. El índice indica una
dependencia total entre las dos variables denominada relación directa: cuando
una de ellas aumenta, la otra también lo hace en proporción constante.
Si 0 < r < 1, existe una correlación positiva.
Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las
variables son independientes: pueden existir todavía relaciones no lineales
entre las dos variables.
Si -1 < r < 0, existe una correlación negativa.
Si r = -1, existe una correlación negativa perfecta. El índice indica una
dependencia total entre las dos variables llamada relación inversa: cuando una
de ellas aumenta, la otra disminuye en proporción constante.
7. Ventajas:
Su ventaja es que consiste en la posibilidad de calcular su distribución
muestral y así poder determinar su error típico de estimación.
Desventajas:
El valor máximo que puede alcanzar el coeficiente de
contingencia depende del numero de categorías de las
variables estudiadas. En el caso de una tabla 2 (2 el máximo
valor de C es 0.7071) , en cambio para una tabla 3 (3 es
0.8165). Esto origina otra desventaja , dos coeficientes de
contingencia no son comparables, a menos que ellos sean
calculados de tablas de contingencia del mismo tamaño.
8. En estadística, el coeficiente de correlación de Spearman, ρ (rho) es
una medida de la correlación (la asociación o interdependencia) entre
dos variables aleatorias continuas. Para calcular ρ, los datos son
ordenados y reemplazados por su respectivo orden.
La interpretación de coeficiente de Spearman es igual que la
del coeficiente de correlación de Pearson. Oscila entre -1 y +1,
indicándonos asociaciones negativas o positivas respectivamente, 0
cero, significa no correlación pero no independencia. La tau de
Kendall es un coeficiente de correlación por rangos, inversiones entre
dos ordenaciones de una distribución normal bivariante.
¿Cómo calcularlo?
El coeficiente de correlación de Spearman permite
identificar si dos variables se relacionan en una
función monótona (es decir, cuando un número
aumenta, el otro también o viceversa). Sigue las
instrucciones de nuestro sencillo tutorial para hacer
el cálculo a mano o para calcular el coeficiente de
correlación en Excel o R
Spearman: es una medida de asociación lineal que utiliza los rangos, números de
orden , de cada grupo de sujetos y compara dichos rangos. Existe dos métodos para
calcular el coeficiente de correlación de los rangos , uno señalado por spearman y
otro por Kendall. El r de Spearman también llamado rho de Spearman es mas fácil de
calcular que el de Kendall.
9. ¿Cuándo utilizar la prueba de correlación de rangos de Spearman?
El coeficiente de correlación no debe utilizarse para comparar dos métodos que intentan medir el
mismo evento, como por ejemplo dos instrumentos que miden la saturación de oxígeno en
sangre. El coeficiente de correlación mide el grado de asociación entre dos cantidades, pero no
mira el nivel de acuerdo o concordancia. Si los instrumentos de medida miden sistemáticamente
cantidades diferentes uno del otro, la correlación puede ser 1 y su concordancia ser nula . El
coeficiente de correlación de Spearman es recomendable utilizarlo cuando los datos presentan
valores extremos, ya que dichos valores afectan mucho el coeficiente de correlación de Pearson,
o ante distribuciones no normales. No está afectada por los cambios en las unidades de medida.
¿Quién fue Charles Spearman?
(Londres, 1863-1945) Psicólogo británico. Siguió estudios de psicología en Alemania y se
doctoró en Leipzig. Fue profesor de mente y lógica en el University College de Londres. En
un artículo, publicado en 1904, expuso su teoría bifactorial de la inteligencia, según la cual
la ejecución de cualquier actividad mental depende de dos factores distintos, un factor
general "g", que es la base común de la inteligencia y que, aunque varía libremente de un
individuo a otro, se mantiene igual para cualquiera de ellos respecto de todas las
capacidades correlacionadas, y un factor específico "s", que son las aptitudes específicas,
que no sólo varían de un individuo a otro, sino también de una capacidad a otra. La noción
de un factor general despertó gran interés y mucha controversia. Spearman desarrolló la
técnica estadística conocida como análisis factorial, como complemento indispensable de
su teoría. También aportó el coeficiente de correlación ordinal que lleva su nombre, que
permite correlacionar dos variables por rangos en lugar de medir el rendimiento separado
en cada una de ellas. Sus obras más importantes son The nature of intelligence and the
principles of cognition (1923) y The abilities of man (1927).
10. Ejemplo de la rho de Spearman y la r de Pearson:
Por ejemplo, usted analiza la satisfacción de los clientes de un concesionario
de vehículos que ofrece tres niveles de servicio para los automóviles nuevos:
sin servicio, servicio estándar y servicio premium. Toma una muestra aleatoria
de clientes y les pregunta si se sienten insatisfechos, indiferentes o satisfechos
con el servicio al cliente. Los datos incluyen dos variables ordinales: paquete
de servicio y satisfacción del cliente. Usted desea determinar si existe una
asociación entre el nivel de servicio que reciben los clientes y su satisfacción
general. Ingresa los datos en la siguiente tabla de dos factores:
Sin
servicio
Servicio
estándar
Servicio
premiu
m
Insatisfe
cho
162 104 36
Indifere
nte
99 91 93
Satisfec
ho
39 105 171
La rho de Spearman y la r de Pearson para esta
tabla son ambas 0.424. Usted concluye que existe
una asociación positiva entre el nivel de servicio y
la satisfacción del cliente: los clientes que eligen
un plan de servicio más alto tienden a expresar
más satisfacción con esta empresa.
11. Consideraciones importantes sobre la rho de Spearman y la r de Pearson:
Recuerde que la correlación no implica causalidad. Por ejemplo, si las ventas de helados
están correlacionadas positivamente con los ataques de los tiburones a los nadadores,
eso no significa que el consumo de helados de alguna manera hace que los tiburones
ataquen. Otra variable, como el clima cálido, puede provocar un aumento tanto en las
ventas de helados como en las visitas a las playas.
El estadístico de Pearson calculado con Tabulación cruzada y Chi-cuadrada es solo para
datos ordinales. Por ejemplo, los valores continuos de 53, 22 y 37 se analizan como los
valores ordinales 3, 1 y 2. Para calcular el coeficiente de correlación de Pearson para dos
o más columnas de datos continuos, utilice más bien Estadísticas > Estadísticas
básicas > Correlación.
Nota:
Para valores de texto, debe cambiar el orden predeterminado de los valores si es
necesario, para mostrar el orden natural de las categorías. Por ejemplo, a menos que
usted cambie el orden de los valores de una columna por los valores de texto "estrecho",
"intermedio" y "ancho", estos valores se ordenarán alfabéticamente y se analizarán como
los valores ordinales 2, 1 y 3.
12. Ejemplo de Spearman
Esta prueba es útil para medir el grado de asociación entre dos
variables que sean al menos del tipo ordinal. Consiste en medir
dos variables en cada uno de los individuos de una muestra y
posteriormente determinar el rango de cada individuo en cada
variable, en donde al menor valor le corresponde el 1, al
siguiente el 2, etc. Al coeficiente de correlación de la muestra se
le conoce como rs, el cual se calcula de la siguiente manera:
rs = 1- (6Sdi
2) / (N3 -N)
En el caso de que en alguna variable haya rangos empatados, a cada
uno de ellos se les asigna el promedio de los que les tocarían si no
estuvieran empatados. Si estos empates son numerosos, la fórmula
requiere de un ajuste, mismo que se puede consultar en el libro de
Siedney Siegel (18). De igual manera, si la muestra es de más de 30
individuos, se puede hacer un ajuste a la distribución t (véase la
misma obra para estos casos).
Supóngase que se desea conocer si la antigüedad en una empresa y
la edad están estadísticamente relacionados. Para esto, se toman al
azar 10 empleados a los que se les piden estos dos datos: