Republica bolivariana de Venezuela
Ministerio del Poder Popular para la Educación
I.U.P “Santiago Mariño “
Escuela: Ingeniería en Sistema
Profesora: Integrantes:
Pedro Beltrán Aguilera Miguel.CI:24.875.246
Sección “OV3”
Barcelona, julio de 2015
En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal entre
dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es
independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que
puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean
cuantitativas.
En el caso de que se esté estudiando dos variables aleatorias x e y sobre una población; el coeficiente de
correlación de Pearson se simboliza con la letra p, siendo la expresión que nos permite calcularlo:
Interpretación
El valor del índice de correlación varía en el intervalo [-1,1]:
Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos
variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción
constante.
Si 0 < r < 1, existe una correlación positiva.
Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son independientes:
pueden existir todavía relaciones no lineales entre las dos variables.
Si -1 < r < 0, existe una correlación negativa.
Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos
variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante.
Coeficiente de correlación de
Pearson
Para interpretar el coeficiente de correlación utilizamos la siguiente escala:
Valor Significado
-1 Correlación negativa grande y perfecta
-0,9 a -0,99 Correlación negativa muy alta
-0,7 a -0,89 Correlación negativa alta
-0,4 a -0,69 Correlación negativa moderada
-0,2 a -0,39 Correlación negativa baja
-0,01 a -0,19 Correlación negativa muy baja
0 Correlación nula
0,01 a 0,19 Correlación positiva muy baja
0,2 a 0,39 Correlación positiva baja
0,4 a 0,69 Correlación positiva moderada
0,7 a 0,89 Correlación positiva alta
0,9 a 0,99 Correlación positiva muy alta
1 Correlación positiva grande y perfecta
Con los datos sobre las temperaturas en dos días diferentes en una ciudad, determinar el tipo de correlación
que existe entre ellas mediante el coeficiente de PEARSON.
• Solución: Se llena la siguiente tabla:
Se calcula la media aritmética
Ejemplo ilustrativo:
X
1
8
1
7
1
5
1
6
1
4
1
2
9
1
5
1
6
1
4
1
6
1
8
SX =180
Y
1
3
1
5
1
4
1
3
9
1
0
8
1
3
1
2
1
3
1
0
8 SY= 138
El valor del índice de correlación varía en el intervalo [-1,1]:
* Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos
variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en
proporción constante.
* Si 0 < r < 1, existe una correlación positiva.
* Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables
son independientes: pueden existir todavía relaciones no lineales entre las dos variables.
* Si -1 < r < 0, existe una correlación negativa.
* Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos
variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción
constante.
. En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de la correlación (la
asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son
ordenados y reemplazados por su respectivo orden.
El estadístico ρ viene dado por la expresión:
donde D es la diferencia entre los correspondientes estadísticos de orden de x - y. N es el número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se
puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de
Student
La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila
entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no
correlación pero no independencia. Latau de Kendall es un coeficiente de correlación por rangos,
inversiones entre dos ordenaciones de una distribución normal bivariante.
Coeficiente de correlación
de Spearman
• Ejemplo
CI Horas de TV a la semana
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17
El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas 'orden(i)' y 'orden(t)'
• Para el orden i, se corresponderán con el numero de fila del cuadro, para 99, orden(i) =3 ya que ocupa el
3.er lugar, ordenado de menor a mayor
• para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro
cuadro, la secuencia ordenada quedaría
• T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 } para este caso, el orden sería para cada elemento, respectivamente:
• orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 } sin embargo, el valor de orden esta dado por el valor promedio de
sus posiciones, así para:
• 7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5
• 28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8
• 50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10
• Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas
de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.
• Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:
CI (i)
Horas de TV
a la semana
(t)
orden(i) orden(t) d d2
86 0 1 1 0 0
97 20 2 6 4 16
99 28 3 8 5 25
100 50 4.5 10 5.5 30.25
100 28 4.5 8 3.5 12.25
103 28 6 8 2 4
106 7 7 2.5 4.5 20.25
110 17 8 5 3 9
113 7 9.5 2.5 7 49
113 12 9.5 4 5.5 30.25
• Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les
corresponderían si no lo fueran.
• Los valores de la columna d2 pueden ser sumados para averiguar . El valor de n es 10. Así que esos
valores pueden ser sustituidos en la fórmula.
De lo que resulta:
www.wikipedia.com
www.google.com.ve
www.monografia.com
www.vitutor.com
correlación

correlación

  • 1.
    Republica bolivariana deVenezuela Ministerio del Poder Popular para la Educación I.U.P “Santiago Mariño “ Escuela: Ingeniería en Sistema Profesora: Integrantes: Pedro Beltrán Aguilera Miguel.CI:24.875.246 Sección “OV3” Barcelona, julio de 2015
  • 2.
    En estadística, elcoeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables. De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas. En el caso de que se esté estudiando dos variables aleatorias x e y sobre una población; el coeficiente de correlación de Pearson se simboliza con la letra p, siendo la expresión que nos permite calcularlo: Interpretación El valor del índice de correlación varía en el intervalo [-1,1]: Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante. Si 0 < r < 1, existe una correlación positiva. Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son independientes: pueden existir todavía relaciones no lineales entre las dos variables. Si -1 < r < 0, existe una correlación negativa. Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante. Coeficiente de correlación de Pearson
  • 3.
    Para interpretar elcoeficiente de correlación utilizamos la siguiente escala: Valor Significado -1 Correlación negativa grande y perfecta -0,9 a -0,99 Correlación negativa muy alta -0,7 a -0,89 Correlación negativa alta -0,4 a -0,69 Correlación negativa moderada -0,2 a -0,39 Correlación negativa baja -0,01 a -0,19 Correlación negativa muy baja 0 Correlación nula 0,01 a 0,19 Correlación positiva muy baja 0,2 a 0,39 Correlación positiva baja 0,4 a 0,69 Correlación positiva moderada 0,7 a 0,89 Correlación positiva alta 0,9 a 0,99 Correlación positiva muy alta 1 Correlación positiva grande y perfecta
  • 4.
    Con los datossobre las temperaturas en dos días diferentes en una ciudad, determinar el tipo de correlación que existe entre ellas mediante el coeficiente de PEARSON. • Solución: Se llena la siguiente tabla: Se calcula la media aritmética Ejemplo ilustrativo: X 1 8 1 7 1 5 1 6 1 4 1 2 9 1 5 1 6 1 4 1 6 1 8 SX =180 Y 1 3 1 5 1 4 1 3 9 1 0 8 1 3 1 2 1 3 1 0 8 SY= 138
  • 5.
    El valor delíndice de correlación varía en el intervalo [-1,1]: * Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante. * Si 0 < r < 1, existe una correlación positiva. * Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son independientes: pueden existir todavía relaciones no lineales entre las dos variables. * Si -1 < r < 0, existe una correlación negativa. * Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante.
  • 6.
    . En estadística,el coeficiente de correlación de Spearman, ρ (rho) es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden. El estadístico ρ viene dado por la expresión: donde D es la diferencia entre los correspondientes estadísticos de orden de x - y. N es el número de parejas. Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. Latau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante. Coeficiente de correlación de Spearman
  • 7.
    • Ejemplo CI Horasde TV a la semana 106 7 86 0 100 28 100 50 99 28 103 28 97 20 113 12 113 7 110 17
  • 8.
    El primer pasoes ordenar los datos de la primera columna. Se agregan dos columnas 'orden(i)' y 'orden(t)' • Para el orden i, se corresponderán con el numero de fila del cuadro, para 99, orden(i) =3 ya que ocupa el 3.er lugar, ordenado de menor a mayor • para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro cuadro, la secuencia ordenada quedaría • T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 } para este caso, el orden sería para cada elemento, respectivamente: • orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 } sin embargo, el valor de orden esta dado por el valor promedio de sus posiciones, así para: • 7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5 • 28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8 • 50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10 • Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado. • Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:
  • 9.
    CI (i) Horas deTV a la semana (t) orden(i) orden(t) d d2 86 0 1 1 0 0 97 20 2 6 4 16 99 28 3 8 5 25 100 50 4.5 10 5.5 30.25 100 28 4.5 8 3.5 12.25 103 28 6 8 2 4 106 7 7 2.5 4.5 20.25 110 17 8 5 3 9 113 7 9.5 2.5 7 49 113 12 9.5 4 5.5 30.25
  • 10.
    • Nótese comoel número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran. • Los valores de la columna d2 pueden ser sumados para averiguar . El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula. De lo que resulta:
  • 11.