2. El índice numérico más común usado para medir una correlación es el
“coeficiente de Pearson”. El coeficiente de Pearson (también llamado
coeficiente de correlación del producto-momento), se representa con el
símbolo ‘r’ y proporciona una medida numérica de la correlación entre dos
variables.
Es útil reconocer la fórmula usada para calcular el coeficiente de Pearson (es
posible que vea documentos en que se haga referencia a ella). Le entregamos
la fórmula en una nota al pie de esta página. No deje que la fórmula lo
intimide. No necesita comprender la fórmula para comprender el concepto de
correlación. Aunque si hace un esfuerzo va a comprender la fórmula en poco
tiempo y con claridad.
En las ciencias sociales en general y en educación en particular, donde la
mayoría de las variables son simultáneamente afectadas por una gran multitud
factores, una correlación positiva de 0,7 o una correlación negativa de –0,7 se
considera muy fuerte. (Por último, tenga en mente el coeficiente de Pearson
mide sólo relaciones lineales entre variables, y no es útil para medir relaciones
que no son lineales.)
3.
4. El coeficiente de correlación lineal es el cociente entre la covarianza y el producto de las desviaciones típicas de ambas variables.
El coeficiente de correlación lineal se expresa mediante la letra r.
El coeficiente de correlación no varía al hacerlo la escala de medición.
Es decir, si expresamos la altura en metros o en centímetros el coeficiente de correlación no varía.
2. El signo del coeficiente de correlación es el mismo que el de la covarianza.
Si la covarianza es positiva, la correlación es directa.
Si la covarianza es negativa, la correlación es inversa.
Si la covarianza es nula, no existe correlación.
3. El coeficiente de correlación lineal es un número real comprendido entre −1 y 1.
−1 ≤ r ≤ 1
4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime r a −1.
5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.
6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil.
7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional.
5. Las notas de 12
alumnos de una
clase en
Matemáticas y
Física son las
siguientes:
Matemáticas Física
2 1
3 3
4 2
4 4
5 4
6 4
6 6
7 4
7 6
8 7
10 9
10 10
7. 1º Hallamos las medias aritméticas.
2º Calculamos la covarianza.
3º Calculamos las desviaciones típicas.
4º Aplicamos la fórmula del coeficiente de correlación lineal.
Al ser el coeficiente de correlación positivo, la correlación es directa.
Como coeficiente de correlación está muy próximo a 1 la correlación
es muy fuerte.
8. Los valores de
dos variables X
e Y se
distribuyen
según la tabla
siguiente:
Determinar el coeficiente de correlación.
Convertimos la tabla de doble entrada en tabla simple.
9. Al ser el coeficiente de correlación negativo, la correlación es inversa.
Como coeficiente de correlación está muy próximo a 0 la correlación es
muy débil.
10. Ventajas
Los resultados del
coeficiente de
correlación están
entre -1 y +1. Esta
característca nos
permite comparar
diversas correlaciones
de una manera más
estandarizada.
Requiere datos de
cantidad sólo del
príodo base.
Es un índice de fácil
ejecución e
igualmente fácil
interpretación
Desventajas
No refleja cambios en
los patrones de
compra conforme
pasa el tiempo y para
las cantidades
grandes de
información este
método puede ser
tedioso.
Se limita
significativamente si
no se afirma con una
cierta probabilidad
que es diferente de
cero.
11. Esta prueba estadística permite medir la correlación o asociación de dos
variables y es aplicable cuando las mediciones se realizan en una escala
ordinal, aprovechando la clasificación por rangos.
El coeficiente de correlación de Spearman se rige por las reglas de la
correlación simple de Pearson, y las mediciones de este índice corresponden
de + 1 a - 1, pasando por el cero, donde este último significa no correlación
entre las variables estudiadas, mientras que los dos primeros denotan la
correlación máxima.
La ecuación utilizada en este procedimiento, cuando en el ordenamiento de
los rangos de las observaciones no hay datos empatados o ligados, es la
siguiente:
12. 1. Clasificar en rangos cada medición de las observaciones.
2. Obtener las diferencias de las parejas de rangos de las
variables estudiadas y elevadas al cuadrado.
3. Efectuar la sumatoria de todas las diferencias al cuadrado.
4. Aplicar la ecuación.
5. Calcular los grados de libertad (gl). gl = número de parejas - 1.
Solo se utilizará cuando la muestra sea mayor a 10.
6. Comparar el valor r calculado con respecto a los valores
críticos de la tabla de valores críticos de t de Kendall en
función de probabilidad.
7. Decidir si se acepta o rechaza la hipótesis.
13. Los datos brutos
usados en este
ejemplo se ven
debajo.
14. El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas 'orden(i)' y 'orden(t)‘
Para el orden i, se corresponderán con el número de fila del cuadro, para 99, orden(i) =3 ya que ocupa el 3.er
lugar, ordenado de menor a mayor
Para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro
cuadro, la secuencia ordenada quedaría
Para este caso, el orden sería para cada elemento, respectivamente:
sin embargo, el valor de orden está dado por el valor promedio de sus posiciones, así para:
7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5
28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8
50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10
Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de
orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.
15. Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:
Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les
corresponderían si no lo fueran.
Los valores de la columna d2 pueden ser sumados para averiguar . El valor de n es 10. Así
que esos valores pueden ser sustituidos en la fórmula.
16. Ventajas.
No requieren poblaciones
normalmente distribuidas.
Pueden frecuentemente ser
aplicados a datos no
numéricos, tal como el
género de los que
contestan una encuesta.
Pueden ser aplicados a
una amplia variedad por
que ellos no tienen los
requisitos rígidos de los
métodos paramétricos
correspondientes.
Al ser Spearman una
técnica no paramétrica es
libre de distribución
probabilística.
Desventajas.
Tienden a perder
información porque datos
numéricos exactos son
frecuentemente reducidos a
auna forma cualitativa.
Las pruebas no
paramétricas no son tan
eficientes como las
pruebas paramétricas, de
manera que con una
prueba no paramétrica
generalmente se necesita
una evidencia más fuerte
(así como una muestra más
grande o mayores
diferencias) antes de
rechazar una hipótesis
nula.