Coeficientes de correlación de pearson y de sperman
1. República Bolivariana de Venezuela
Ministerio del Poder Popular para la Educación.
I.U.P. Santiago Mariño.
Sede-Barcelona.
Profesor:
Beltrán Pedro
Bachiller:
López Annie
24.947.873
Coeficientes de correlación de Pearson y de
Spearman
2. Coeficientes de correlación de Pearson
Es un índice estadístico que mide la relación lineal entre dos variables cuantitativas. A
diferencia de la covarianza, la correlación de Pearson es independiente de la escala
de medida de las variables. El cálculo del coeficiente de correlación lineal se realiza
dividiendo la covarianza por el producto de las desviaciones estándar de ambas
variables.
El coeficiente de correlación de Pearson opera con puntuaciones tipificadas (que
miden posiciones relativas) y se define:
3. Coeficiente de correlación de pearson.
Los coeficientes de correlación son medidas que indican la situación relativa de los
mismos sucesos respecto a las dos variables, es decir, son la expresión numérica que
nos indica el grado de relación existente entre las 2 variables y en qué medida se
relacionan. Son números que varían entre los límites +1 y -1. Su magnitud indica el
grado de asociación entre las variables; el valor r = 0 indica que no existe relación
entre las variables; los valores( 1 son indicadores de una correlación perfecta
positiva (al crecer o decrecer X, crece o decrece Y) o negativa (Al crecer o decrecer X,
decrece o crece Y).
4.
5. Para interpretar el coeficiente de correlación utilizamos la siguiente
escala:
Valor Significado
-1 Correlación negativa grande y perfecta
-0,9 a -0,99 Correlación negativa mu alta
-0,7 a -0,89 Correlación negativa alta.
-0,4 a -0,69 Correlación negativa moderada.
-0,2 a -0,39 Correlación negativa baja.
-0,01 a -0,19 Correlación negativa muy baja.
0 Correlación nula
0,01 a 0,19 Correlación positiva muy baja
0,2 a 0,39 Correlación positiva baja
0,4 a 0,69 Correlación positiva moderada
0,7 a 0,89 Correlación positiva alta
0,9 a0,99 correlación positiva muy alta
1 Correlación positiva grande y perfecta
6. Para datos no agrupados se calcula aplicando la siguiente ecuación
Leer más:
Ejemplo ilustrativo:
Con los datos sobre las temperaturas en dos días diferentes en una ciudad, determinar
el tipo de correlación que existe entre ellas mediante el coeficiente de PEARSON.
X 18 17 15 16 14 12 9 15 16 14 16 18 SX= 180
Y 13 15 14 13 9 10 8 13 12 13 10 8 SY=380
7. Se calcula la media aritmética
Se llena la tabla.
Se aplica la fórmula
8. Ventajas:
•Cuando en el fenómeno estudiado las dos variables son cuantitativas se usa
el coeficiente de correlaciones de Pearson.
•Es llamado así en homenaje a Karl Pearson. Las dos variables son designadas
por X e Y.
Desventajas:
• El valor 0 representa falta de correlación.
•Cuando las variables X e Y son independientes, el numerador se anula y el
coeficiente de correlación poblacional tiene el valor cero.
•En cambio una correlación nula no implica la independencia de variables.
9. Usos de enfoques Pearson a problemas estadísticos:
Métodos Estadísticos para Investigadores”. Desde entonces, el contraste de Hipótesis
es considerado uno de los métodos de inferencia estadística de utilización obligada en
casi todas las disciplinas. Si bien hoy en día los estudiantes de Estadística aprenden a
testear hipótesis aplicando una secuencia de pasos más o menos estandarizada, es
importante recordar que no estamos ante una teoría unificada, sino ante la amalgama
de los estudios sistemáticos realizados separadamente por Fisher por un lado y
Neyman y Pearson por el otro. Fisher desarrolló su teoría que denominó Pruebas de
Significación y Neyman y Pearson las llamadas Pruebas de Hipótesis. Desde 1930,
fecha en que aparecieron los trabajos de NP., la teoría de los test de hipótesis fue
dominada por el paradigma de la decisión. Esto ha llevado al estado actual de cosas
en el cual predomina la teoría de Neyman-Pearson como modelo ó esquema de
razonamiento para la toma decisiones, pero la práctica estadística en la investigación,
aplicando los mismos procedimientos, interpreta los datos como evidencia para
validar teorías.
10. Coeficiente de correlación de Spearman
En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de la
correlación (la asociación o interdependencia) entre dos variables aleatorias
continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo
orden.
El estadístico ρ viene dado por la expresión
Donde D es la diferencia entre los correspondientes estadísticos de orden de x - y. N
es el número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos,
aunque si éstos son pocos, se puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente
aproximación a la distribución t de Studen
La interpretación de coeficiente de Spearman es igual que la del coeficiente de
correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o
positivas respectivamente, 0 cero, significa no correlación pero no independencia. La
tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos
ordenaciones de una distribución normal
11. Ejemplo.
Los datos brutos usados son:
C.I Horas de TV a la semana
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17
12. El primer paso es ordenar los datos de la primera columna. Se agregan dos
columnas 'orden(i)' y 'orden(t)'
Para el orden i, se corresponderán con el numero de fila del cuadro, para 99,
orden(i) =3 ya que ocupa el 3.er lugar, ordenado de menor a mayor
para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la
semana', para no hacer otro cuadro, la secuencia ordenada quedaría
T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 }
para este caso, el orden sería para cada elemento, respectivamente:
orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }
sin embargo, el valor de orden esta dado por el valor promedio de sus posiciones,
así para:
7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5
28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8
50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10
Después, se crean dos columnas más, una columna "d" que muestra las diferencias
entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la
columna "d" al cuadrado.
Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo
como lo siguiente:
13. CI (i) Horas de TV a la semana (t) Orden (i) Orden(t) d d2
86 0 1 1 0 0
97 20 2 6 4 16
99 28 3 8 5 25
100 50 4.5 10 5.5 30.25
100 28 4.5 8 3.5 12.25
103 28 6 8 2 4
106 7 7 2.5 4.5 20.25
110 17 8 5 3 9
113 7 9.5 2.5 7 49
113 12 9.5 4 5.5 30.25
Nótese como el número de orden de los valores que son idénticos es la media de
los números de orden que les corresponderían si no lo fueran. Los valores de la
columna d2 pueden ser sumados para averiguar que esos valores pueden
ser sustituidos en la fórmula. De lo que resulta
14. Ventajas:
•Al ser Spearman una técnica no paramétrica es libre de distribución
probabilística (2, 5, 9).
•Los supuestos son menos estrictos. Es robusto a la presencia de outliers (es decir
permite ciertos desvíos del patrón normal).
•La manifestación de una relación causa-efecto es posible sólo a través de la
comprensión de la relación natural que existe entre las variable y no debe
manifestarse sólo por la existencia de una fuerte correlación (1, 5)
Desventajas:
•Indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no
correlación pero no independencia.
•La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos
ordenaciones de una distribución normal bivariante
15. Uso de enfoques Spearman
• El enfoque psicométrico utiliza técnicas de análisis factorial con la idea de descubrir
las diferencias individuales de la inteligencia entre las personas. Para ello se recurre al
uso de los tests de inteligencia.
• Spearman distingue dos factores: el factor “G” y el factor “S”. El “G” es la
inteligencia general (común a la mayoría de las personas). El “S” son las habilidades
específicas de la inteligencia (verbal, numérica, espacial, etc.)