Buscadores, SEM SEO: el desafío de ser visto en la web
Correlación de Pearson y Spearman
1. Instituto Politécnico Santiago Mariño
M.P.P. Para La Educación
Escuela 42 Ing. civil
Materia: Estadística
Integrante:
•Edelmira Pernett Ci: 24862498
Caracas, Abril 2016.
los coeficientes de correlación
de Pearson y de Spearman
2. Son coeficientes de correlaciones para variables medidas en escalas
por intervalos o de razón. Es el coeficiente de correlación de
Pearson. Se define el coeficiente para una población y se hacen
cálculos para obtener tamaños de muestras necesarios para hacer
estimaciones por intervalos de confianza de este coeficiente a nivel
poblacional, con un bajo nivel de errores y una alta precisión. De
igual forma se determina el tamaño de muestra necesario para hacer
dócimas de hipótesis sobre la significación del coeficiente. Con el
propósito de ilustrar estos aspectos, se presentan aplicaciones
usando el coeficiente de correlaciones muestral de Pearson.
Coeficiente de
correlación de
Pearson
3. Coeficiente de correlación de Pearson para una
población.
Cuando en el fenómeno estudiado las dos variables son
cuantitativas se usa el coeficiente de correlaciones de
Pearson. Es llamado así en homenaje a Karl Pearson.
Las dos variables son designadas por X e Y.
El coeficiente de correlación poblacional de
Pearson para las variables X e Y se define así:
Este coeficiente es una medida de la relación lineal entre las dos variables.
El valor de ( está dentro del intervalo [-1, +1]. El valor -1 representa una
perfecta correlación negativa mientras que el valor +1 representa una
perfecta correlación positiva. El valor 0 representa falta de correlación.
Cuando las variables X e Y son independientes, el numerador se anula y el
coeficiente de correlación poblacional tiene el valor cero. En cambio una
correlación nula no implica la independencia de variables.
4. Estimación puntual del coeficiente de correlación poblacional de Pearson por
medio de una muestra aleatoria simple:
En este fenómeno estudiado
se realizan observaciones con
el propósito de tener una
muestra M. Sea n el número de
elementos muestrales.
Distribuciones muestrales
asociadas al coeficiente de
correlaciones de Pearson :
Para el caso de variables aleatorias con
distribución normal bivariada, Fisher encontró
para una muestra de tamaño n, la distribución
muestral de r. Este estimador tiene función
de densidad:
5. Las dócimas asociadas al coeficiente de correlación de
Pearson.
Se desea estudiar las correlaciones entre las
tensiones arteriales "máximas y mínimas", y la edad.
Usando la base de datos Mercury de la UFMT. Se
seleccionan 224 personas cuya distribución por
edades aparece en el siguiente gráfico:
6. Los coeficientes de correlaciones entre las
variables estudiadas aparecen en la tabla:
Tensión arterial máxima Tensión arterial mínima Frecuencia cardiaca Edad
Tensión arterial
máxima
Correlación
de Pearson
1 ,794(**) -,082 ,579(**)
Significació
n bilateral
,000 ,221 ,000
n 224 224 224 224
Tensión arterial
mínima
Correlación
de Pearson
,794(**) 1 -,114 ,605(**)
Significació
n bilateral
,000 ,088 ,000
n 224 224 224 224
Frecuencia
cardiaca
Correlación
de Pearson
-,082 -,114 1 -,074
Significació
n bilateral
,221 ,088 ,272
n 224 224 224 224
Edad
Correlación
de Pearson
,579(**) ,605(**) -,074 1
Significació
n bilateral
,000 ,000 ,272 0
N 224 224 224 224
7. •El coeficiente de correlación debe ser seleccionado
en base a las escalas de medidas usadas en cada
una de las variables.
• La determinación del tamaño de muestra en las de
tablas de contingencias varia según sea el objetivo:
•a) Determinar probabilidades de incidencias.
•b) Docimar independencias entres dos variables.
•c) Analizar la asociación entre las variables.
Características.
Ventajas
•Requiere datos de cantidad solo del periodo base.
Desventajas
• No refleja cambios en los patrones de compra conforme pasa
el tiempo.
8. Coeficiente de correlación de
Spearman
Lo que tenemos ahora son 2 sucesiones de valores
ordinales.
El coeficiente de Spearman es un caso especial del
coeficiente de correlación de Pearson aplicada a dos
series de los n primeros números naturales (cuando no
hay empates; si hay –muchos- empates hay otra fórmula.
2
1
2
6
1
1
n
i
i
s
d
r
n n
Es la diferencia entre el valor ordinal en
X y el valor ordinal en Y del sujeto iid
9. Coeficiente de correlación de Spearman
(propiedades)
Primera.
•Se encuentra acotado, como el
coeficiente de Pearson entre -1 y +1.
•Un coeficiente de Spearman de +1
quiere decir que el que es primero en X
es primero en Y, el que es segundo en X
es segundo en I, etc.
•Un coeficiente de Spearman de -1
quiere decir que el que es primero en X
es último en Y, el segundo en X es el
penúltimo en Y, etc.
Segunda.
• Su cálculo es muy sencillo (más que el del coeficiente de
correlación de Pearson). No obstante, con los ordenadores
y un programa estadístico, esto es irrelevante estos días.
10. Esta prueba es útil para medir el grado de asociación entre dos variables
que sean al menos del tipo ordinal. Consiste en medir dos variables en
cada uno de los individuos de una muestra y posteriormente determinar
el rango de cada individuo en cada variable, en donde al menor valor le
corresponde el 1, al siguiente el 2, etc. Al coeficiente de correlación de la
muestra se le conoce como rs, el cual se calcula de la siguiente manera:
rs = 1- (6Sdi
2) / (N3 -N)
En el caso de que en alguna variable haya rangos empatados,
a cada uno de ellos se les asigna el promedio de los que les
tocarían si no estuvieran empatados. Si estos empates son
numerosos, la fórmula requiere de un ajuste, mismo que se
puede consultar en el libro de Siedney Siegel (18). De igual
manera, si la muestra es de más de 30 individuos, se puede
hacer un ajuste a la distribución t (véase la misma obra para
estos casos).
11. Ejemplo:
Supóngase que se desea conocer si la antigüedad en una empresa y la
edad están estadísticamente relacionados. Para esto, se toman al azar 10
empleados a los que se les piden estos dos datos:
Antiguidade Edad Rangos di di
2
Ho: r = 0
7 31 2.5 3 -
0.5 0.25 H1: r > 0
22 40 7 8 -1 1
31 55 10 10 0 0
a =0.05
15 34 6 5 1 1
3 22 1 1 0 0 rs =
1- 6(8.5) / (1000 -10)
12 32 5 4 1 1 =
0.949
25 39 8 7 1 1
30 46 9 9 0 0
7 28 2.5 2 0.5 0.25
10 35 4 6 -2 4
___
8.5
En la tabla xi puede
verse que el valor
crítico para N = 10 y
0.95 de confianza
(una cola) vale .564,
menor que el
calculado, por lo
que la hipótesis nula
se debe rechazar y
aceptar que si hay
correlación
significativa entre
antigüedad y edad.
12. •La aproximación moderna al problema de averiguar si
un valor observado de ρ es significativamente diferente
de cero (siempre tendremos -1 ≤ ρ ≤ 1).
• Es calcular la probabilidad de que sea mayor o igual
que el ρ esperado, dada la hipótesis nula, utilizando
un test de permutación.
•Esta aproximación es casi siempre superior a los
métodos tradicionales, a no ser que el conjunto de
datos sea tan grande que la potencia informática no sea
suficiente para generar permutaciones (poco probable
con la informática moderna), o a no ser que sea difícil
crear un algoritmo para crear permutaciones que sean
lógicas bajo la hipótesis nula en el caso particular de
que se trate (aunque normalmente estos algoritmos no
ofrecen dificultad).
Características
13. ¿Cuando utilizar la correlación de
Pearson o Spearman?
+ La de Pearson se usa cuando los datos se miden en
escalas de razón o proporción, por ejemplo: estaturas,
edades, dinero.
+ La de Spearman se usa cuando los datos son rangos
que miden el orden en que los datos quedan, por
ejemplo> calificación de un servicio de 1 a 10.