Como determinar el uso de los coeficientes de correlacion de Pearson y de Sperman Ventajas y Desventajas
Enfoque pearson y spearman a problemas estadisticos
Parámetros de Perforación y Voladura. para Plataformas
Coeficiente de correlación de Pearson y Spearman
1. REPUBLICA BOLIVARIANA DE VENEZUELA
MINISTERIO DEL PODER POPULAR PARA LA
EDUCACIÓN SUPERIOR
INSTITUTO UNIVERSITARIO POLITÉCNICO
SANTIAGO MARIÑO
ESTADISTICA
Profesor: Bachiller:
Pedro Beltrán Elena Vargas 2675652
Sección CV
Barcelona, Julio de 2016
2. Coeficiente de Correlación de Pearson
En estadística, el coeficiente de correlación de Pearson es una medida de la
relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la
covarianza, la correlación de Pearson es independiente de la escala de medida de
las variables.
De manera menos formal, podemos definir el coeficiente de correlación de
Pearson como un índice que puede utilizarse para medir el grado de relación de
dos variables siempre y cuando ambas sean cuantitativas.
El fundamento del coeficiente de Pearson es el siguiente: Cuanto más intensa sea
la concordancia (en sentido directo o inverso) de las posiciones relativas de los
datos en las dos variables, el producto del numerador toma mayor valor (en
sentido absoluto). Si la concordancia es exacta, el numerador es igual a N (o a -N),
y el índice toma un valor igual a 1 (o -1). El coeficiente de correlación entre dos
variables aleatorias X e Y es el cociente:
3. Ventajas y Desventajas
Ventajas: requiere datos de cantidad solo del periodo base. El coeficiente de
correlación de Pearson tiene diferentes ventajas, las cuales lo han hecho una
medida de dependencia de amplia aceptación en muchos contextos incluido el
financiero, principalmente porque es fácil de calcular, ya que solo se necesita
estimar los dos primeros momentos de los datos observados. Además es
invariante ante transformaciones afines positivas (propiedad iv)). Finalmente, una
de las grandes ventajas que tiene el coeficiente de correlación de Pearson es su
relación con la función de distribución normal multivariada, en donde resume toda
la relación de dependencia existente entre las variables aleatorias
Desventajas: no refleja cambios en los patrones de compra conforme pasa el
tiempo
4. Aplicar usos de enfoques pearson a
problemas estadísticos
Para la aplicación de pearson se necesita Identifica el dependiente variable que se
probará entre dos observaciones derivadas independientemente. Uno de los
requisitos es que las dos variables que se comparan deben observarse o medirse
de manera independiente para eliminar cualquier resultado sesgado. Para
cantidades grandes de información, el calculo puede ser tedioso. Reporta un valor
de correlación cercano a 0 como un indicador de que no hay relación linear entre
las dos variables.
Reporta un valor de correlación cercano al 1 como indicador de que existe una
relación linear positiva entre las dos variables. Un valor mayor a cero que se
acerque a 1 da como resultado una mayor correlación positiva entre la información.
Reporta un valor de correlación cercano a -1 como indicador de que hay una
relación linear negativa entre las dos variables. Interpreta el coeficiente de
correlación de acuerdo con el contexto de los datos particulares. El valor de
correlación es esencialmente un valor arbitrario que debe aplicarse de acuerdo con
las variables que se comparan. Determina la importancia de los resultados.
5. Ejercicios
Matemática
s
Física
2 1
3 3
4 2
4 4
5 4
6 4
6 6
7 4
7 6
8 7
10 9
10 10
1) Las notas de 12 alumnos de
una clase en Matemáticas y
Física son las siguientes:
xi yi xi ·yi xi
2 yi
2
2 1 2 4 1
3 3 9 9 9
4 2 8 16 4
4 4 16 16 16
5 4 20 25 16
6 4 24 36 16
6 6 36 36 36
7 4 28 49 16
7 6 42 49 36
8 7 56 64 49
10 9 90 100 81
10 10 100 100 100
72 60 431 504 380
Hallar el coeficiente de correlación de la
distribución e interpretarlo.
6. Hallamos las medias aritméticas.
Calculamos la covarianza.
Calculamos las desviaciones típicas.
Aplicamos la fórmula del coeficiente de
correlación lineal
Al ser el coeficiente de correlación positivo, la correlación es directa.
Como coeficiente de correlación está muy próximo a 1 la correlación es muy fuerte.
7. Coeficiente de correlación de Spearman
En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de
la correlación (la asociación o interdependencia) entre dos variables
aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por
su respectivo orden.
El estadístico ρ viene dado por la expresión:
donde D es la diferencia entre los correspondientes estadísticos de orden de x -
y. N es el número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos,
aunque si éstos son pocos, se puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente
aproximación a la distribución t de Student
La interpretación de coeficiente de Spearman es igual que la del coeficiente de
correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas
o positivas respectivamente, 0 cero, significa no correlación pero no independencia.
La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos
ordenaciones de una distribución normal bivariante.
8. La fórmula de este coeficiente es:
Siendo:
n= la cantidad de sujetos que se clasifican
xi= el rango de sujetos i con respecto a una variable
yi= el rango de sujetos i con respecto a una segunda variable
di= xi - yi
Es decir que di, es la diferencia entre los rangos de X e Y
El coeficiente de correlación de rangos de Spearman puede puntuar desde -1.0
hasta +1.0, y se interpreta así: los valores cercanos a +1.0, indican que existe
una fuerte asociación entre las clasificaciones, o sea que a medida que aumenta
un rango el otro también aumenta; los valores cercanos a -1.0 señalan que hay
una fuer-te asociación negativa entre las clasificaciones, es decir que, al
aumentar un rango, el otro decrece. Cuando el valor es 0.0, no hay correlación.
9. Ventajas y Desventajas
Ventajas: Las variables se correlacionan de acuerdo al rango de valores generados
en cada distribución. Esto significa que todas las distribuciones correlacionadas
preservan su forma original. Como no depende de supuestos acerca de la relación
matemática de las variables a correlacionar, puede ser aplicable a cualquier tipo de
relación entre distribuciones (lineal, no lineal).
Desventajas: Es difícil estimar el coeficiente de correlación entre dos distribuciones
de formas diferentes. El mismo coeficiente de correlación puede resultar en
diferentes gráficos de puntos para diferentes distribuciones correlacionadas. Esto
puede ser aún más marcado si las distribuciones a correlacionar son diferentes.
10. Aplicar usos de enfoques spearman a
problemas estadísticos
Para aplicar el coeficiente de correlación de Spearman se requiere que las
variables estén medidas al menos en escala ordinal, es decir, de forma que las
puntuaciones que las representan puedan ser colocadas en dos series ordenadas.
A veces, este coeficiente es denominado por la letra griega ρs (rho), aunque
cuando nos situamos en el contexto de la Estadística Descriptiva se emplea la
notación rs. La fórmula de cálculo para rs puede derivarse de la utilizada en el
caso de rxy; bastaría aplicar el coeficiente de correlación de Pearson a dos series
de puntuaciones ordinales, compuestas cada una de ellas por los n primeros
números naturales
El coeficiente de correlación de Spearman se encuentra siempre comprendido
entre los valores -1 y 1. Es decir, -1 < rs < 1. Cuando todos los sujetos se sitúan en
el mismo puesto para la variable X y para la variable Y, el valor de rs es 1. Si
ocupan valores opuestos, es decir, al primer sujeto en X le corresponde el último
lugar en Y, al segundo en X le corresponde el penúltimo en Y, etc., entonces el
valor de rs es -1.
11. Pearson y Spearman
Los métodos de correlación de Pearson y Spearman son técnicas bivariadas que
se emplean en situaciones donde el investigador quiere observar representaciones
de la información, que permitan establecer similaridades o disimilaridades entre las
variables e individuos, para hacer evidente la variabilidad conjunta y por tanto
tipificar lo que sucede con los datos.
Ejemplos clásicos de correlación podrían ser la relación entre peso y talla, la
relación entre horas dedicadas al deporte y percepción de calidad de vida, la
relación entre la cantidad suministrada de un fármaco y su correlación con los
valores de signos vitales, entre otras. La correlación de Pearson, mide la fuerza o
grado de asociación entre dos variables aleatorias cuantitativas que poseen una
distribución normal bivariada conjunta.