Este documento explica los coeficientes de correlación de Pearson y Spearman. El coeficiente de Pearson mide la relación lineal entre dos variables cuantitativas, mientras que el coeficiente de Spearman evalúa la relación entre variables ordinales o de rango sin suponer una relación lineal. El documento provee fórmulas, ejemplos y ventajas y desventajas de cada coeficiente.
1. República Bolivariana de Venezuela
Ministerio del Poder Popular para la Educación
I.U.P ¨Santiago Mariño¨
Profesor. Bachiller:
Beltrán Pedro Díaz Deivis
CI-24827126
2. Coeficiente de correlación de
Pearson
El coeficiente de correlación de
Pearson o r es una prueba estadística que
permite analizar la relación entre dos variables
medidas en un nivel por intervalos o de razón,
donde r mide el grado de asociación lineal entre dos
variables X e Y. No se trata de una prueba que
evalúa causalidad. El coeficiente r de Pearson se
estima de acuerdo a la siguiente fórmula:
3. El coeficiente r de puede variar de -1
a 1, donde el signo indica la dirección de la
correlación y el valor numérico, la magnitud
de la correlación. En este contexto se
resumen algunos criterios de interpretación:
-1,00 = Correlación negativa perfecta
-0,90 = Correlación negativa muy fuerte
-0,75 = Correlación negativa considerable
-0,50 = Correlación negativa media
-0,10 = Correlación negativa débil
0,00 = No existe correlación lineal alguna entre las
variables
0,10 = Correlación positiva débil
0,50 = Correlación positiva media
0,75 = Correlación positiva considerable
0,90 = Correlación positiva muy fuerte
1,00 = Correlación positiva perfecta
4. A continuación se presentan algunos ejemplos
de diagramas de dispersión con diferentes valores
del coeficiente de correlación de Pearson
(poblacional):
5. Ejemplo: Una empresa comercial tiene
establecimientos en varias ciudades de
Chile. El gerente comercial planea lanzar
al aire un anuncio comercial por radio en
las estaciones locales, al menos dos
veces antes de una promoción
(liquidación) que empezará el Sábado y
terminará el Domingo. Planea tener las
cifras de las ventas de grabadoras de
vídeos (Blu-Ray) del Sábado y Domingo
en sus diferentes locales y compararlas
con el número de veces que apareció el
comercial en la radio. El objetivo
fundamental de la investigación es
determinar si existe relación entre el
número de veces que se transmitió el
anuncio y las ventas de sus productos.
Los datos son:
6. Se desea responder las siguientes interrogantes:
1. ¿Cuál es la variable dependiente?. La variable
dependiente son las Ventas.
2. Trace el diagrama o gráfico de dispersión.
3. ¿Parece haber alguna relación entre X e Y?. Si existe una
fuerte correlación positiva.
4. Determine el coeficiente de correlación. Para ello
utilizaremos la herramienta de Análisis de Datos la cual se
encuentra disponible en el menú de Datos de Excel. Luego
seleccionamos Regresión según se observa a continuación:
7.
8. En las opciones de regresión seleccionamos los
datos de Ventas de Sábado y Domingo como Rango Y de
entrada (variable dependiente) y los datos del N° de
Anuncios corresponderá al Rango X de entrada(variable
independiente). Al seleccionar Aceptar se obtienen las
estadísticas de la regresión donde el coeficiente de
correlación de Pearson o r es de 0,93 (aproximado) y en
consecuencia el coeficiente de determinación r² es
de r²=(0,929516)²=0,864.
9. Notar que un procedimiento alternativo para obtener
el coeficiente de determinación r² es mediante la
incorporación de una línea de tendencia lineal en el
diagrama de dispersión tal cual abordamos en el artículo.
5. Evalúe la intensidad de la relación entre X e Y. 0,93
indica una correlación positiva fuerte entre el número de veces
que sale publicado el anuncio, y las ventas.
10. Ventajas
*Es apropiada para examinar la
relación entre datos cuantificables
significativos.
*Brinda piezas vitales de
información y determina si la
relación es positiva o negativa
Desventajas
*'R' no debe ser utilizado para
decir algo sobre la relación entre
causa y efecto.
*Los coeficientes de correlación
más utilizados sólo miden
una relación lineal.
Ventajas
Y
desventajas
11. Coeficiente de correlación de
Spearman
Es un número entre -1 y 1 que representa la fuerza
de la relación entre dos variables en un conjunto de datos.
Un coeficiente de -1 indica que hay una relación
perfectamente inversa entre los datos. Un coeficiente de 1
indica que hay una relación positiva perfecta entre los
datos. Para calcular el coeficiente, se necesita un conjunto
de datos con dos variables cuya relación deseas probar.
12. Ejemplo:
Los datos brutos usados en este ejemplo se
ven debajo:
CI Horas de TV a la semana
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17
13. El primer paso es ordenar los datos de la primera
columna. Se agregan dos columnas 'orden(i)' y 'orden(t). Para
el orden i, se corresponderán con el numero de fila del cuadro,
para 99, orden(i) =3 ya que ocupa el 3er lugar, ordenado de
menor a mayor para el orden t, se debe hacer lo mismo pero
ordenando por 'Horas de TV a la semana', para no hacer otro
cuadro, la secuencia ordenada quedaría: T = { 0, 7, 7, 12, 17,
20, 28, 28, 28, 50 } para este caso, el orden sería para cada
elemento, respectivamente:
orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 } sin embargo, el valor de
orden esta dado por el valor promedio de sus posiciones, así
para: 7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) /
2 = 2.5, 28 aparece 3 veces, sumando sus posiciones = ( 7 + 8
+ 9 ) / 3 = 8, 50 aparece 1 vez, sumando sus posiciones = 10 /
1 = 10. Después, se crean dos columnas más, una columna
"d" que muestra las diferencias entre las dos columnas de
orden y, otra columna "d2". Esta última es sólo la columna "d"
al cuadrado.
14. CI (i)
Horas de
TV a la
semana (t)
orden(i) orden(t) d d2
86 0 1 1 0 0
97 20 2 6 4 16
99 28 3 8 5 25
100 50 4.5 10 5.5 30.25
100 28 4.5 8 3.5 12.25
103 28 6 8 2 4
106 7 7 2.5 4.5 20.25
110 17 8 5 3 9
113 7 9.5 2.5 7 49
113 12 9.5 4 5.5 30.25
Después, se crean dos columnas más, una columna
"d" que muestra las diferencias entre las dos columnas de
orden y, otra columna "d2". Esta última es sólo la columna "d"
al cuadrado. Después de realizar todo esto con los datos del
ejemplo, se debería acabar con algo como lo siguiente:
15. Nótese como el número de orden de los valores que
son idénticos es la media de los números de orden que les
corresponderían si no lo fueran. Los valores de la columna
d2 pueden ser sumados para averiguar:
El valor de n es 10. Así que esos valores pueden ser
sustituidos en la fórmula:
De lo que resulta :
16. Ventajas
*No se asume relación lineal
entre las variables.
*No se asume una
distribución normal bivariada.
*Es mas robusto.
Desventajas
*Perdida de información.
*La eficiencia es de un 91%.
Ventajas
Y
desventajas
17. Enfoque de Pearson y Spearman
Estos coeficientes también son apropiados para
evaluar la relación entre variables ordinales representadas
en tablas de contingencia. Los métodos de correlación de
Pearson y la información derivadas de análisis matriciales
Spearman son técnicas bivariadas que se emplean con
propiedades del álgebra lineal, que permiten en el campo
multivariado, en situaciones donde el establecer
similaridades o disimilaridades entre las variables e
individuos representados en dimensiones de menor valor,
generalmente en planos o cubos (segunda y tercera
dimensión) para esclarecer la variabilidad conjunta
expresada en factores ortogonales que permiten tipificar lo
que sucede con los datos.