Uso de los coeficientes de correlacion de Pearson y sperman, ventajas y desventajas, enfoques en pproblemas estadisticos de cada uno de ellos.
Estefania Hinarejos
C.I. 25.736.728
ING. CIVIL (42)
ESTADISTICA
Uso de los coeficientes de correlacion de Pearson y sperman
1. CORRELACIÓN DE PEARSON
En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal
entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de
Pearson es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un
índice que puede utilizarse para medir el grado de relación de dos variables siempre y
cuando ambas sean cuantitativas.
El valor del índice de correlación varía en el intervalo [-1,1]:
• Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total
entre las dos variables denominada relación directa: cuando una de ellas aumenta, la
otra también lo hace en proporción constante.
Si 0 < r < 1, existe una correlación positiva.
Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables
son independientes: pueden existir todavía relaciones no lineales entre las dos
variables.
Si -1 < r < 0, existe una correlación negativa.
Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia
total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la
otra disminuye en proporción constante.
2. DETERMINAR EL COEFICIENTE DE CORRELACIÓN DE PEARSON
Las notas de 12 alumnos de una clase en Matemáticas y
Física son las siguientes:
Matemáticas Física
2 1
3 3
4 2
4 4
5 4
6 4
6 6
7 4
7 6
8 7
10 9
10 10
3. Hallar el coeficiente de correlación de la distribución e
interpretarlo
xi yi xi ·yi xi2 yi2
2 1 2 4 1
3 3 9 9 9
4 2 8 16 4
4 4 16 16 16
5 4 20 25 16
6 4 24 36 16
6 6 36 36 36
7 4 28 49 16
7 6 42 49 36
8 7 56 64 49
10 9 90 100 81
10 10 100 100 100
72 60 431 504 380
Hallamos las medias aritméticas
5. Al ser el coeficiente de correlación positivo, la correlación es directa.
Como coeficiente de correlación está muy próximo a 1 la correlación es muy
fuerte.
Los valores de dos variables X e Y se distribuyen según la tabla siguiente
Y/X 0 2 4
1 2 1 3
2 1 4 2
3 2 5 0
6. xi yi fi xi · fi xi
2 · fi yi · fi yi
2 · fi
xi · yi ·
fi
0 1 2 0 0 2 2 0
0 2 1 0 0 2 4 0
0 3 2 0 0 6 18 0
2 1 1 2 4 1 1 2
2 2 4 8 16 8 16 16
2 3 5 10 20 15 45 30
4 1 3 12 48 3 3 12
4 2 2 8 32 4 8 16
20 40 120 41 97 76
Convertimos la tabla de doble entrada
en tabla simple.
7. Al ser el coeficiente de correlación negativo, la correlación es inversa.
Como coeficiente de correlación está muy próximo a 0 la correlación es muy
débil.
8. ventajas y desventajas de los coeficientes de
correlación de Pearson
VENTAJAS
Consiste en la posibilidad de calcular su distribución muestral y
así poder determinar su error típico de estimación.
Requiere datos de cantidad solo del periodo base
DESVENTAJA
S
no refleja cambios en los patrones de compra conforme
pasa el tiempo.
Los coeficientes de correlación más utilizados sólo
miden una relación lineal. Por lo tanto, es perfectamente
posible que, si bien existe una fuerte relación no lineal
entre las variables, r está cerca de 0 o igual a 0. En tal
caso, un diagrama de dispersión puede indicar
aproximadamente la existencia o no de una relación no
lineal.
9. CORRELACION DE SPERMAN
Este coeficiente se emplea cuando una o ambas escalas de medidas de las
variables son ordinales, es decir, cuando una o ambas escalas de medida
son posiciones.
Ejemplo: Orden de llegada en una carrera y peso de los atletas.
Se calcula aplicando la siguiente ecuación:
10. DETERMINAR COEFICIENTE DE CORRELACIÓN DE SPEARMAN
CI Horas de TV a la semana
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17
El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas 'orden(i)' y
'orden(t)'
Para el orden i, se corresponderán con el número de fila del cuadro, para 99, orden(i) =3 ya que ocupa el
3.er lugar, ordenado de menor a mayor
para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro
cuadro, la secuencia ordenada quedaría
T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 }
11. Para este caso, el orden sería para cada elemento, respectivamente:
orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }
sin embargo, el valor de orden está dado por el valor promedio de sus posiciones, así para:
7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5
28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8
50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10
Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas
de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.
Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:
CI (i)
Horas de TV
a la semana
(t)
orden(i) orden(t) d d2
86 0 1 1 0 0
97 20 2 6 4 16
99 28 3 8 5 25
100 50 4.5 10 5.5 30.25
100 28 4.5 8 3.5 12.25
103 28 6 8 2 4
106 7 7 2.5 4.5 20.25
110 17 8 5 3 9
113 7 9.5 2.5 7 49
113 12 9.5 4 5.5 30.25
12. Nótese como el número de orden de los valores que son idénticos es la media de
los números de orden que les corresponderían si no lo fueran.
Los valores de la columna d2 pueden ser sumados para averiguar
El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula.
De lo que resulta
13. ventajas y desventajas de los coeficientes de correlación de
Sperman
VENTAJAS
No esta afectada por los cambios en las unidades de medidas.
Al ser una técnica no paramétra, es libre de distribución probabilística.
DESVENTAJAS
Es recomendable usarlo como los datos presentan valores extremos, ya que dicho valores
afectan mucho el coeficiente de correlación de Pearson, o ante distribuciones no normales
«r» no debe ser utilizado para decir algo sobre relación de causa y efecto.
14. Aplicar usos de enfoques Pearson y enfoque Sperman a problemas
estadísticos
USOS DE ENFOQUE
PEARSON
Métodos Estadísticos para Investigadores. Desde entonces, el contraste de
Hipótesis es considerado uno de los métodos de inferencia estadística de
utilización obligada en casi todas las disciplinas. Si bien hoy en día los
estudiantes de Estadística aprenden a testear hipótesis aplicando una
secuencia de pasos más o menos estandarizada, es importante recordar que
no estamos ante una teoría unificada, sino ante la amalgama de los estudios
sistemáticos realizados separadamente por Fisher por un lado y Neyman y
Pearson por el otro. Fisher desarrolló su teoría que denominó Pruebas de
Significación y Neyman y Pearson las llamadas Pruebas de Hipótesis. Desde
1930, fecha en que aparecieron los trabajos de NP., la teoría de los tests de
hipótesis fue dominada por el paradigma de la decisión. Esto ha llevado al
estado actual de cosas en el cual predomina la teoría de Neyman-Pearson
como modelo ó esquema de razonamiento para la toma decisiones, pero la
práctica estadística en la investigación, aplicando los mismos procedimientos,
interpreta los datos como evidencia para validar teorías.
15. USOS DE ENFOQUE DE
SPERMAN
Enfoque psicométrico de los factores de la inteligencia (Spearman, Catell,
Thurstone)
El enfoque psicométrico utiliza técnicas de análisis factorial con la idea
de descubrir las diferencias individuales de la inteligencia entre las
personas. Para ello se recurre al uso de los tests de inteligencia.
Spearman distingue dos factores: el factor “G” y el factor “S”. El “G” es
la inteligencia general (común a la mayoría de las personas). El “S” son
las habilidades específicas de la inteligencia (verbal, numérica,
espacial, etc.)