El documento explica el coeficiente de correlación de Spearman, el cual mide la asociación monótona entre dos variables continuas mediante el cálculo de los rangos de los datos. Se calcula como el coeficiente de Pearson aplicado a los rangos de las observaciones. Los valores van de -1 a 1, donde -1 indica una asociación negativa perfecta y 1 una asociación positiva perfecta. El coeficiente de Spearman es útil cuando las variables no siguen una distribución normal.
2. Coeficiente de correlación de
Spearman
En estadística, el coeficiente de correlación de
Spearman, ρ (rho) es una medida de la correlación
(la asociación o interdependencia) entre dos
variables aleatorias continuas. Para calcular ρ, los
datos son ordenados y reemplazados por su
respectivo orden.
El estadístico ρ viene dado por la expresión:
donde D es la diferencia entre los correspondientes
estadísticos de orden de x - y. N es el número de
parejas.
Se tiene que considerar la existencia de datos
idénticos a la hora de ordenarlos, aunque si éstos
son pocos, se puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones,
podemos utilizar la siguiente aproximación a la
distribución t de Student
La interpretación de coeficiente de
Spearman es igual que la del
coeficiente de correlación de Pearson.
Oscila entre -1 y +1, indicándonos
asociaciones negativas o positivas
respectivamente, 0 cero, significa no
correlación pero no independencia. La
tau de Kendall es un coeficiente de
correlación por rangos, inversiones
entre dos ordenaciones de una
distribución normal bivariante.
3. Uso del coeficiente de
correlación de Spearman
La aproximación moderna al problema de averiguar si un valor
observado de ρ es significativamente diferente de cero (siempre
tendremos -1 ≤ ρ ≤ 1) es calcular la probabilidad de que sea mayor o
igual que el ρ esperado, dada la hipótesis nula, utilizando un test de
permutación. Esta aproximación es casi siempre superior a los
métodos tradicionales, a no ser que el conjunto de datos sea tan
grande que la potencia informática no sea suficiente para generar
permutaciones (poco probable con la informática moderna), o a no ser
que sea difícil crear un algoritmo para crear permutaciones que sean
lógicas bajo la hipótesis nula en el caso particular de que se trate
(aunque normalmente estos algoritmos no ofrecen dificultad).
Una generalización del coeficiente de Spearman es útil en la situación en la
cual hay tres o más condiciones, varios individuos son observados en cada
una de ellas, y predecimos que las observaciones tendrán un orden en
particular. Por ejemplo, un conjunto de individuos pueden tener tres
oportunidades para intentar cierta tarea, y predecimos que su habilidad
mejorará de intento en intento. Un test de la significación de la tendencia entre
las condiciones en esta situación fue desarrollado por E. B. Page y
normalmente suele conocerse como Page's trend test para alternativas
ordenadas.
4. Ventajas
• El coeficiente rs es un caso particular de rxy, puesto que se calcula a partir de
éste, por aplicación del coeficiente de Pearson a valores ordinales considerados
como puntuaciones.
• El coeficiente de correlación de Spearman es exactamente el mismo que el
coeficiente de correlación de Pearson, calculado sobre el rango de
observaciones.
• La correlación estimada entre X e Y se halla calculando el coeficiente de
correlación de Pearson para el conjunto de rangos apareados. La
correlación de Spearman puede ser calculada con la fórmula de
Pearson, si antes hemos transformado las puntuaciones en rangos.
• El coeficiente de correlación de Spearman se encuentra siempre
comprendido entre los valores -1 y 1. Es decir, -1 < rs < 1. Cuando
todos los sujetos se sitúan en el mismo puesto para la variable X y para
la variable Y, el valor de rs es 1. Si ocupan valores opuestos, es decir, al
primer sujeto en X le corresponde el último lugar en Y, al segundo en X
le corresponde el penúltimo en Y, etc., entonces el valor de rs es -1.
5. Desventajas
• Para aplicar el coeficiente de correlación de Spearman se requiere que las variables estén medidas al menos en escala ordinal,
es decir, de forma que las puntuaciones que las representan puedan ser colocadas en dos series ordenadas.
• Al ser Spearman una técnica no paramétrica es libre de distribución probabilística (2, 5, 9). –
• Los supuestos son menos estrictos.
• Es robusto a la presencia de outliers (es decir permite ciertos desvíos del patrón normal).
• La manifestación de una relación causa-efecto es posible sólo a través de la comprensión de la relación natural que existe
entre las variable y no debe manifestarse sólo por la existencia de una fuerte correlación (1, 5)
• Para aplicar el coeficiente de correlación de Spearman se requiere que las variables estén medidas al menos en escala ordinal,
es decir, de forma que las puntuaciones que las representan puedan ser colocadas en dos series ordenadas.
6. Coeficiente de correlación de
Pearson
Ejemplos de diagramas de dispersión con diferentes valores del coeficiente de
correlación (ρ)
7. Uso del coeficiente de
correlación de Pearson
El fundamento del coeficiente de Pearson es el siguiente: Cuanto más intensa sea
la concordancia (en sentido directo o inverso) de las posiciones relativas de los
datos en las dos variables, el producto del numerador toma mayor valor (en
sentido absoluto). Si la concordancia es exacta, el numerador es igual a N (o a -
N), y el índice toma un valor igual a 1 (o -1).
Ejemplo 1 (Máxima covariación positiva)
Observa que los datos tipificados (expresados como puntuaciones z) en las
dos columnas de la derecha tienen los mismos valores en ambas variables,
dado que las posiciones relativas son las mismas en las variables X e Y.
Si obtenemos los productos de los valores tipificados para cada caso, el
resultado es:
El cociente de dividir la suma de productos (5) por N (hay que tener en cuenta
que N es el número de casos, NO el número de datos) es igual a 1:
8. Ventajas
• Identifica el dependiente variable que se probará entre dos observaciones derivadas independientemente. Uno de los
requisitos es que las dos variables que se comparan deben observarse o medirse de manera independiente para eliminar
cualquier resultado sesgado.
• Reporta un valor de correlación cercano a 0 como un indicador de que no hay relación linear entre las dos variables.
• Reporta un valor de correlación cercano al 1 como indicador de que existe una relación linear positiva entre las dos
variables.
• Un valor mayor a cero que se acerque a 1 da como resultado una mayor correlación positiva entre la información.
• Reporta un valor de correlación cercano a -1 como indicador de que hay una relación linear negativa entre las dos
variables.
• Interpreta el coeficiente de correlación de acuerdo con el contexto de los datos particulares. El valor de correlación es
esencialmente un valor arbitrario que debe aplicarse de acuerdo con las variables que se comparan.
• Determina la importancia de los resultados. Esto se logra con el uso del coeficiente de correlación, grados de libertad y una
tabla de valores críticos del coeficiente de correlación. Los grados de libertad se calculan como el número de las dos
observaciones menos 2.
9. Desventajas
• El coeficiente de correlación debe ser seleccionado en base a las escalas de medidas usadas en cada una de las variables.
• La determinación del tamaño de muestra en las de tablas de contingencias varia según sea el objetivo:
• a) Determinar probabilidades de incidencias.
b) Decimar independencias entres dos variables.
c) Analizar la asociación entre las variables.
• 3. El tamaño de muestra para construir intervalo de confianza para el coeficiente de correlación poblacional de Pearson es
función de la longitud del intervalo, de la probabilidad de confianza y del coeficiente de correlación muestral. Por esta razón se
sugiere un procedimiento secuencial para este propósito.
• El tamaño de muestra para decimar la significación del coeficiente de correlación poblacional de Pearson es función de las
probabilidades de cometer errores del tipo I y del tipo II y del valor del coeficiente de correlación muestral. Por esta razón se
sugiere un procedimiento secuencial para esta dócima.
• Para cantidades grandes de información, el calculo puede ser tedioso.
10. Enfoque de Karl Pearson
Aplicación de la prueba estadística
Las observaciones de cada variable se deben ordenar en rangos, así como obtener las diferencias entre los rangos, efectuar la sumatoria y elevar ésta al
cuadrado. Educación de algunas madres y calificación de desarrollo mental de los hijos.
Calculo de los grados de libertad (gl). gl = numero de parejas - 1 = 8 - 1 = 7
El valor rs calculado se compara con los valores críticos de rs del coeficiente de correlación por rangos de Spearman. El valor crítico de rs con 7 grados
de libertad, para una probabilidad de 0.05 del nivel de significancia es 0.714, o sea, mayor que el calculado.
Por lo tanto, éste tiene una probabilidad mayor que 0.05. Decisión Como el valor de probabilidad de rs de 0.69 es mayor que 0.05, se acepta Ho y se
rechaza Ha.
Interpretación El coeficiente de correlación de Spearman de 0.69 es menor que los valores críticos de la tabla, pues a éstos corresponde la probabilidad
de obtener esa magnitud, al nivel de confianza de 0.05 y 0.01, para 0.714 y 0.893. Esto significa que para aceptar Ha, se requiere tener un valor igual o
más lato que 0.714. Por lo tanto se acepta Ho y se rechaza Ha, aun cuando, como se observa en la siguiente figura, existe una asociación relativa entre
la educación formal de la madre y el desarrollo mental de sus hijos; sin embargo, ésta no es significativa.
11. Enfoque de Charles Spearman
Los datos brutos usados en este ejemplo se ven debajo.
CI Horas de TV a la semana
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17
El primer paso es ordenar los datos de la primera columna. Se
agregan dos columnas 'orden(i)' y 'orden(t)‘
Para el orden i, se corresponderán con el numero de fila del cuadro,
para 99, orden(i) =3 ya que ocupa el 3.er lugar, ordenado de menor
a mayor
para el orden t, se debe hacer lo mismo pero ordenando por 'Horas
de TV a la semana', para no hacer otro cuadro, la secuencia
ordenada quedaría
T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 }
para este caso, el orden sería para cada elemento,
respectivamente:
orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }
sin embargo, el valor de orden esta dado por el valor promedio de
sus posiciones, así para:
7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5
28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8
50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10
12. Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de orden y, otra
columna "d2". Esta última es sólo la columna "d" al cuadrado.
Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:
CI (i)
Horas de TV a la
semana (t)
orden(i) orden(t) d d2
86 0 1 1 0 0
97 20 2 6 4 16
99 28 3 8 5 25
100 50 4.5 10 5.5 30.25
100 28 4.5 8 3.5 12.25
103 28 6 8 2 4
106 7 7 2.5 4.5 20.25
110 17 8 5 3 9
113 7 9.5 2.5 7 49
113 12 9.5 4 5.5 30.25
13. Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran.
Los valores de la columna d2 pueden ser sumados para averiguar
El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula.
De lo que resulta .