1. República Bolivariana de Venezuela
Ministerio del Poder Popular para la Educación Superior
Instituto Universitario Politécnico Santiago Mariño
Ingeniería Civil 42
uso de los coeficientes de
correlación de Pearson y de
Sperman
Participante: Héctor Hernández
CI: 24,897,726
2. En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables
aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de
medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede
utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.
En el caso de que se esté estudiando dos variables aleatorias X y Y sobre una población; el coeficiente de
correlación de Pearson se simboliza con la letra ρx,y, siendo la expresión que nos permite calcularlo:
Coeficientes de Correlación de Pearson
3. Coeficientes de Correlación de Pearson
Varios grupos de puntos (x, y), con el coeficiente de correlación para cada grupo. Nótese que la correlación refleja la no
linealidad y la dirección de la relación lineal. En la figura del centro, la varianza de yes nula, por lo que la correlación es
indeterminada.
El valor del índice de correlación varía en el intervalo [-1,1]:
Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables
denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante.
Si 0 < r < 1, existe una correlación positiva.
Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son independientes: pueden
existir todavía relaciones no lineales entre las dos variables.
Si -1 < r < 0, existe una correlación negativa.
Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables
llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante.
4. El Uso de los Coeficientes de
Correlación de Pearson
Identifica el dependiente variable que se probará entre dos observaciones derivadas independientemente. Uno
de los requisitos es que las dos variables que se comparan deben observarse o medirse de manera
independiente para eliminar cualquier resultado sesgado.
Para cantidades grandes de información, el cálculo puede ser tedioso.
Reporta un valor de correlación cercano a 0 como un indicador de que no hay relación linear entre las dos
variables. Reporta un valor de correlación cercano al 1 como indicador de que existe una relación linear
positiva entre las dos variables. Un valor mayor a cero que se acerque a 1 da como resultado una mayor
correlación positiva entre la información.
Reporta un valor de correlación cercano a -1 como indicador de que hay una relación linear negativa entre las
dos variables.
Interpreta el coeficiente de correlación de acuerdo con el contexto de los datos particulares. El valor de
correlación es esencialmente un valor arbitrario que debe aplicarse de acuerdo con las variables que se
comparan.
Determina la importancia de los resultados. Esto se logra con el uso del coeficiente de correlación, grados de
libertad y una tabla de valores críticos del coeficiente de correlación. Los grados de libertad se calculan como
el número de las dos observaciones menos 2.
5. El Uso de los Coeficientes de
Correlación de Pearson
Ventajas:
El valor del coeficiente de correlación es independiente de cualquier unidad usada para medir variables.
Mientras más grande sea la muestra más exacta será la estimación
Cuando en el fenómeno estudiado las dos variables son cuantitativas se usa el coeficiente de correlaciones de
Pearson.
Desventajas:
Requiere supuestos acerca de la naturaleza o formas de las poblaciones afectadas.
Requiere que las dos variables hayan ido medidas hasta un nivel cuantitativo continuo y que la distribución de
ambas sea semejante a la de la curva normal.
El valor 0 representa falta de correlación.
Cuando las variables X e Y son independientes, el numerador se anula y el coeficiente de correlación
poblacional tiene el valor cero.
6. Aplicar Usos de Enfoques Pearson a
Problemas Estadísticos
En la perspectiva de Pearson, para establecer el nivel de significación estadística habría que atender al
impacto de cada tipo de error en el objetivo del investigador, y a partir de ahí se decidiría cuál de ellos es
preferible minimizar.
Pearson llamaron alfa al error tipo I y beta al error tipo II; a partir de este último tipo de error, introdujeron el
concepto de “poder de una prueba estadística”, el cual se refiere a su capacidad para evitar el error tipo II, y
está definido por 1-beta, y en estrecha relación con éste se ha desarrollado el concepto de “tamaño del efecto”
que algunos han propuesto como sustituto de los valores p en los informes de investigación científica.
Las pruebas paramétricas más conocidas y usadas son la prueba T de Student, la prueba F, llamada así en
honor a Fisher, y el coeficiente de correlación de Pearson, simbolizado por r. Usos de Enfoques de Pearson a
Problemas Estadísticos
7.
8. El Uso de los Coeficientes de
Correlación de Esperman
Para aplicar el coeficiente de correlación de Spearman se requiere que las variables estén medidas al menos en
escala ordinal, es decir, de forma que las puntuaciones que las representan puedan ser colocadas en dos series
ordenadas.
A veces, este coeficiente es denominado por la letra griega ρs (rho), aunque cuando nos situamos en el
contexto de la Estadística Descriptiva se emplea la notación rs
La fórmula de cálculo para rs puede derivarse de la utilizada en el caso de rxy; bastaría aplicar el coeficiente
de correlación de Pearson a dos series de puntuaciones ordinales, compuestas cada una de ellas por la n
primeros números naturales
A partir de un conjunto de n puntuaciones, la fórmula que permite el cálculo de la correlación entre dos
variables X e Y, medidas al menos en escala ordinal, es la siguiente:
Donde d es la distancia existente entre los puestos que ocupan las puntuaciones correspondientes a un sujeto
i cuando estas puntuaciones han sido ordenadas para X y para Y.
El coeficiente de correlación de Spearman se encuentra siempre comprendido entre los valores -1 y 1. Es
decir, -1 < rs < 1.
Cuando todos los sujetos se sitúan en el mismo puesto para la variable X y para la variable Y, el valor de rs es
1. Si ocupan valores opuestos, es decir, al primer sujeto en X le corresponde el último lugar en Y, al segundo
en X le corresponde el penúltimo en Y, etc., entonces el valor de rs es -1.
9. Ventajas:
No está afectada por los cambios en las unidades de medida.
Al ser una técnica no parámetra, es libre de distribución probabilística.
Al ser Spearman una técnica no paramétrica es libre de distribución probabilística (2, 5, 9).
Los supuestos son menos estrictos. Es robusto a la presencia de outliers (es decir permite ciertos desvíos del
patrón normal).
La manifestación de una relación causa-efecto es posible sólo a través de la comprensión de la relación
natural que existe entre las variable y no debe manifestarse sólo por la existencia de una fuerte correlación (1,
5)
Desventajas:
Es recomendable usarlo cuando los datos presentan valores extremos, ya que dichos valores afectan mucho
el coeficiente de correlación de Pearson, o ante distribuciones no normales.
r no debe ser utilizado para decir algo sobre la relación entre causa y efecto.
Indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no
independencia.
La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una
distribución normal bivariante
El Uso de los Coeficientes de
Correlación de Esperman
10. Aplicar Usos de Enfoques Esperman a
Problemas Estadísticos
El coeficiente de correlación de rangos de Spearman debe utilizarse para series de datos en los que existan
valores extremos, pues si calculamos la correlación de Pearson, los resultados se verán afectados.
La interpretación del resultado del coeficiente de correlación de Spearman se encuentra entre los valores de
-1 y 1.
Una generalización del coeficiente de Spearman es útil en la situación en la cual hay tres o más condiciones,
varios individuos son observados en cada una de ellas, y predecimos que las observaciones tendrán un orden
en particular. Por ejemplo, un conjunto de individuos pueden tener tres oportunidades para intentar cierta
tarea, y predecimos que su habilidad mejorará de intento en intento.
La significación estadística de un coeficiente debe tenerse en cuenta conjuntamente con la relevancia clínica
del fenómeno que se estudia. Usos de Enfoques de Spearman a Problemas Estadísticos