Coeficientes de correlacion de pearson y de sperman.
1. Instituto Politécnico Santiago Mariño
M.P.P. Para La Educación
Escuela 42 Ing. civil
Materia: Estadística
Integrante:
Leomaris Blanco CI: 26.122.517 Sección: F
Coeficientes de
correlación de Pearson
y de Sperman
Carcas,abril,2016.
2. Coeficiente de correlación de Pearson
Es una medida de la relación lineal entre dos
variables aleatorias cuantitativas. A diferencia de
la covarianza, la correlación de Pearson es
independiente de la escala de medida de las
variables.
De manera menos formal, podemos definir el
coeficiente de correlación de Pearson como un
índice que puede utilizarse para medir el grado de
relación de dos variables siempre y cuando ambas
sean cuantitativas.
Definición:
En el caso de que se esté estudiando dos variables
aleatorias X y Y sobre una población; el coeficiente de
correlación de Pearson se simboliza con la letra , siendo
la expresión que nos permite calcularlo:
3. El fundamento del coeficiente de Pearson es el siguiente: Cuanto más
intensa sea la concordancia (en sentido directo o inverso) de las
posiciones relativas de los datos en las dos variables, el producto del
numerador toma mayor valor (en sentido absoluto). Si la concordancia es
exacta, el numerador es igual a N (o a -N), y el índice toma un valor igual
a 1 (o -1).
Ejemplos : (Máxima covariación positiva)
4. Observa que los datos tipificados (expresados como
puntuaciones z) en las dos columnas de la derecha tienen los
mismos valores en ambas variables, dado que las posiciones
relativas son las mismas en las variables X e Y.
Si obtenemos los productos de los valores tipificados para cada caso,
el resultado es:
El cociente de dividir la suma de productos (5) por N (hay que
tener en cuenta que N es el número de casos, NO el número de
datos) es igual a 1:
5. Ejemplo 2 (Covariación positiva de alta intensidad)
y por tanto :
Ejemplo 3 (Ausencia de covariación)
6. Ejemplo 4 (Covariación negativa de alta intensidad)
Ejemplo 5 (Máxima covariación negativa)
El valor de la correlación es igual a 1 o -1
si la covariación es de intensidad
máxima, y se va acercando hacia el 0
cuanto más pequeña sea la intensidad de
la covariación. Además, el índice tiene
signo positivo cuando la covariación es
directa y negativo cuando es inversa.
7. Características
• El coeficiente de correlación de Pearson puede tomar valores entre -1 y 1.
• La correlación de una variable con ella misma siempre es igual a 1.
•El valor 0 indica ausencia de covariación lineal, pero NO si la covariación es de
tipo no lineal. (Ver ejemplo en el apartado de relaciones no lineales).
8. Ventajas
•El coeficiente consiste en la
posibilidad de calcular su
distribución muestral y así
poder determinar su erro
típico de estimación.
Desventajas
•El valor máximo que puede
alcanzar el coeficiente de
contingencia depende del
número de categorías de las
variables estudiadas .
•Dos coeficientes de contingencias no
son comparables, a menos que ellos
sean calculados de tablas de
contingencias del mismo tamaño
9. Correlación De
Spearman
El coeficiente de correlación de Spearman
permite identificar si dos variables se relacionan
en una función monótona (es decir, cuando un
número aumenta, el otro también o viceversa).
Sigue las instrucciones de nuestro sencillo
tutorial para hacer el cálculo a mano o para
calcular el coeficiente de correlación en Excel o
R.
Método 1 de 3: A mano
1 Dibuja tu tabla: Esta organizará la información que necesitas
para calcular el coeficiente de correlación de Spearman.
Necesitarás seis columnas con encabezados como se muestra a
continuación.
•Las filas necesarias para poner los pares de datos que tengas.
10. 2 Llena las primeras dos columnas con los pares de datos.
3 En tu tercer columna clasifica tus datos de la primera columna del 1 hasta n
(el número de datos que tienes). Comienza con el más bajo, el cual debe tener
el 1, el siguiente número más bajo el 2 y así sucesivamente.
11. 4 En tu cuarta columna haz lo mismo que en el paso 3,
pero clasifica la segunda columna en lugar de la primera.
•Si dos (o más) valores de datos son iguales, halla la media del rango
que hubieran tenido normalmente y clasifícalos con este promedio.
•En el ejemplo que se muestra existen 2 número 5
que deberían tener el rango 2 y 3. Pero como son
datos iguales, calcula el promedio del rango que les
correspondería. El promedio de 2 y 3 es 2,5, por lo
que se asigna a ambos números el lugar 2,5 de la
clasificación.
12. 5 En la columna "d" calcula la diferencia del número de
clasificación para cada par de datos. Esto quiere decir que si un
dato es tiene el 1 y el otro el número 3, la diferencia sería de 2 (no
importa el signo porque el siguiente paso es elevarlo al cuadrado).
6 Eleva al cuadrado cada número de la columna "d" y escribe estos
valores en la columna "d2".
13. 7 Suma todos los valores que hay en la columna "d2". Este resultado es
Σd2.
8 Escoge alguna de las siguientes fórmulas:
•Si no hay ninguna relación en los pasos anteriores, introduce este valor
en la fórmula simplificada del coeficiente de correlación de Spearman.
• y reemplaza "n" por el número de
pares de datos que tienes para calcular
la respuesta.
• Si hay alguna relación en cualquiera de los
pasos anteriores, usa más bien la fórmula
estándar de coeficiente de correlación de
Spearman:
14. 9Interpreta el resultado. Puede variar entre -1 y 1.
• Cercano a -1: correlación negativa
• Cercano a 0: sin correlación linear
• Cercano a 1: correlación positiva
• Recuerda dividir entre el total exacto
de resultados, luego redúcelo a la
mitad. A continuación, divídelo entre
Σd2.
15. Ventajas
• No esta afectada por los cambios
en las unidades de media .
•Al ser una técnica no
parámetra, es libre de
distribución probabilística.
Desventajas
•Es recomendable usarlo
cuando los datos presenta
valores extremos , ya que
dichos valores afecta mucho al
coeficiente .
• R no debe de ser utilizado para
decidir algo sobre la relación entre
causa y efecto.
16. Características
•Para aplicar el coeficiente de spearman se
requiere, que las variables estén medidas al
menos en escala ordinal , es decir, que las
puntuaciones que la representan puedan ser
colocadas en dos series ordenadas.
• Se encuentra comprendido entre los valores 1 -1
• La formula de calculo para R puede derivarse,
en el caso de r(x y) bastaría para aplicar el
coeficiente de Pearson a dos series de
puntuaciones ordinales.