El documento explica el coeficiente de correlación de Pearson, que mide la relación lineal entre dos variables. Se define como la covarianza de las variables dividida por el producto de sus desviaciones típicas. Los valores van de -1 a 1, donde 1 es correlación positiva perfecta, -1 es negativa perfecta y 0 no hay correlación lineal.
2. El coeficiente de correlación de
Pearson, normalmente denotado
como "r", es un valor estadístico que
mide la relación lineal entre dos
variables e indica una perfecta
relación lineal positiva o negativa
entre ambas variables.
El cálculo del coeficiente de
correlación normalmente se realiza
con programas de estadística, como
SPSS y SAS, para dar los valores
posibles más precisos en estudios
científicos. Su interpretación y uso
varía de acuerdo con el contexto y
propósito del respectivo estudio en
donde se calcula.
El coeficiente de correlación de
Pearson viene definido por la
siguiente expresión:
Donde:
• σ xy es la covarianza de (X,Y)
• σx es la desviación típica de la variable X
• σy es la desviación típica de la variable Y
En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal
entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas
cuando los valores de una de ellas varían sistemáticamente con respecto a los valores
homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los
valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica,
por sí misma, ninguna relación de causalidad
3. Si r = 1
Existe una correlación positiva perfecta. El índice indica
una dependencia total entre las dos variables
denominada relación directa: cuando una de ellas aumenta,
la otra también lo hace en proporción constante.
Si 0 < r < 1 Existe una correlación positiva.
Si r = 0
No existe relación lineal. Pero esto no necesariamente
implica que las variables son independientes: pueden
existir todavía relaciones no lineales entre las dos
variables.
Si -1 < r < 0 Existe una correlación negativa.
Si r = -1
Existe una correlación negativa perfecta. El índice indica
una dependencia total entre las dos variables llamada
relación inversa: cuando una de ellas aumenta, la otra
disminuye en proporción constante.
El valor del índice de correlación varía en el intervalo [-1,1] y sus diferentes valores se
interpretan de la siguiente manera:
4. Ejemplos de diagramas de dispersión con diferentes valores del coeficiente de correlación
5. Las notas de 12 alumnos de una
clase en Matemáticas y Física son
las siguientes:
Matemáticas Física
2 1
3 3
4 2
4 4
5 4
6 4
6 6
7 4
7 6
8 7
10 9
10 10
Hallar el coeficiente de
correlación de la distribución
e interpretarlo.
xi yi xi ·yi xi
2 yi
2
2 1 2 4 1
3 3 9 9 9
4 2 8 16 4
4 4 16 16 16
5 4 20 25 16
6 4 24 36 16
6 6 36 36 36
7 4 28 49 16
7 6 42 49 36
8 7 56 64 49
10 9 90 100 81
10 10 100 100 100
72 60 431 504 380
1º Hallamos las medias aritméticas.
2º Calculamos la covarianza.
3º Calculamos las desviaciones
típicas.
4º Aplicamos la fórmula
del coeficiente de correl. lineal.
Al ser el coeficiente de
correlación positivo, la
correlación es directa.
Como coeficiente de
correlación está muy próximo a 1
la correlación es muy fuerte.
6. El coeficiente de correlación es un estadístico que
proporciona información sobre la relación lineal
existente entre dos variables cualesquiera. Básicamente,
esta información se refiere a dos características de la
relación lineal: la dirección o sentido y la cercanía o
fuerza.
Es importante notar que el uso del coeficiente de
correlación sólo tiene sentido si la relación bivariada a
analizar es del tipo lineal. Si ésta no fuera no lineal, el
coeficiente de correlación sólo indicaría la ausencia de
una relación lineal más no la ausencia de relación alguna.
Debido a esto, muchas veces el coeficiente de correlación
se define - de manera más general - como un instrumento
estadístico que mide el grado de asociación lineal entre
dos variables.
7. Este coeficiente se emplea cuando una o ambas escalas de medidas de las
variables son ordinales, es decir, cuando una o ambas escalas de medida son
posiciones. Ejemplo: Orden de llegada en una carrera y peso de los atletas.
El coeficiente de correlación de Spearman permite identificar si dos variables se
relacionan en una función monótona (es decir, cuando un número aumenta, el
otro también o viceversa).
Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.
El estadístico ρ viene dado por la expresión:
donde D es la diferencia entre los
correspondientes estadísticos de orden
de x - y. N es el número de parejas.
Se tiene que considerar la existencia de
datos idénticos a la hora de ordenarlos,
aunque si éstos son pocos, se puede
ignorar tal circunstancia
La interpretación de
coeficiente de Spearman es
igual que la del coeficiente
de correlación de Pearson.
Oscila entre -1 y +1,
indicándonos asociaciones
negativas o positivas
respectivamente, 0 cero,
significa no correlación
pero no independencia
8. CI
Horas de TV a
la semana
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17
El primer paso es ordenar los datos de la primera columna.
Se agregan dos columnas 'orden(i)' y 'orden(t)'
Para el orden i, se corresponderán con el numero de fila del
cuadro, para 99, orden(i) =3 ya que ocupa el 3.er lugar,
ordenado de menor a mayor
para el orden t, se debe hacer lo mismo pero ordenando
por 'Horas de TV a la semana', para no hacer otro cuadro,
la secuencia ordenada quedaría
T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 }
para este caso, el orden sería para cada elemento,
respectivamente:
orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }
sin embargo, el valor de orden esta dado por
el valor promedio de sus posiciones, así
para:
7 aparece 2 veces, sumando sus posiciones
= ( 2 + 3 ) / 2 = 2.5
28 aparece 3 veces, sumando sus posiciones
= ( 7 + 8 + 9 ) / 3 = 8
50 aparece 1 vez, sumando sus posiciones
= 10 / 1 = 10
Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos
columnas de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.
9. Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como
lo siguiente:
CI (i)
Horas de
TV a la
semana (t)
orden(i) orden(t) d d2
86 0 1 1 0 0
97 20 2 6 4 16
99 28 3 8 5 25
100 50 4.5 10 5.5 30.25
100 28 4.5 8 3.5 12.25
103 28 6 8 2 4
106 7 7 2.5 4.5 20.25
110 17 8 5 3 9
113 7 9.5 2.5 7 49
113 12 9.5 4 5.5 30.25
Σ 196
Así que esos valores
pueden ser sustituidos
en la fórmula.
10. • No se asume una relación lineal entre las
variables.
• No se asume una distribución normal bivariada.
• Es válido para muestras en las que no se pueden
hacer medidas pero sí asignar rangos. Es más
robusto
Pérdida de información La eficiencia es del 91% (para
distribuciones normales, en el test de Fisher basta con
un tamaño muestral un 91% menor para rechazar la
hipótesis nula con el mismo nivel de significación.