Tema 9
Correlación y regresión
1. Introducción
En situaciones de estudio, de una población, de dos características,
decimos que estamos analizando una variable estadística
bidimensional.
Una de las cuestiones que ofrece mayor interés en el estudio de las
variables bidimensionales es la de conocer el grado de relación que
existe entre ambas variables unidimensionales.
En el estudio de esta relación se plantean dos problemas diferentes,
aunque relacionados entre sí:
●
Estudiar el grado de causas comunes entre ambas, problema
denominado correlación.
●
Analizar una de las variables, condicionándola a los
comportamientos de la otra. Este problema recibe el nombre de
regresión.
2. Variables estadísticas
bidimensionales
Variable estadística bidimensional es el conjunto de pares de
valores de dos caracteres o variables estadísticas
unidimensionales X e Y sobre una misma población.
La variable estadística bidimensional se representa por el
símbolo (X, Y) y cada uno de los individuos de la población viene
caracterizado por la pareja (xi
, yj
), en el cual xi
representa los
datos, valores o marcas de clase de la variable X ; e yj
representa los datos, valores o marcas de clase de la variable Y.
Se denominan distribuciones bidimensionales a las tablas
estadísticas bidimensionales formadas por todas las
frecuencias absolutas de todos los posibles valores de la
variable estadística bidimensional (X, Y ).
Las tablas pueden ser:
●
Tablas bidimensionales simples
●
Tablas dimensionales de doble entrada
Definición
2.1.Tablas bidimensionales
Denotamos por fij
la frecuencia
absoluta correspondiente al
valor (xi
, yj
) y por N el número
total de individuos. La última
fila y la última columna
presentan las llamadas
distribuciones marginales.
Tablas simple
Tabla de doble entrada
3. Diagramas de dispersión
o nube de puntos
Podemos representar gráficamente la distribución bidimensional
en un diagrama cartesiano. En el eje de abscisas representamos
la variable estadística X y en el eje de ordenadas la variable
estadística Y.
Diagrama de dispersión es la gráfica que
se obtiene al representar en unos ejes
coordenados una distribución bidimensional.
Se le llama también nube de puntos.
Definición
4. Dependencia o correlación
Definición
Según la disposición de la nube de puntos se puede apreciar, de forma
cualitativa, el tipo y grado de relación o dependencia entre ambas
variables. A esa dependencia la llamamos correlación.
Esta dependencia o correlación puede ser:
●
Dependencia funcional, si la nube de puntos se sitúa en la gráfica
de una función, excepto que esta sea constante.
●
Dependencia lineal, si la nube de puntos se sitúa sobre una recta.
●
Correlación o dependencia aleatoria, si la nube de puntos se sitúa
próxima a la gráfica de una función.
●
Independencia o ausencia de correlación.
4.2.Dependencia o correlación
Definición
El grado de correlación, a su vez, puede ser:
●
Correlación fuerte, si la nube de puntos se aproxima mucho a
una recta o una curva.
●
Correlación débil, si la nube de puntos se aproxima poco a una
recta o a una curva.
●
Correlación positiva, si, a medida que crece una variable, crece
la otra.
●
Correlación negativa, si, a medida que crece una variable, la otra
decrece.
5.Correlación lineal.
Coeficiente dePearson
La correlación de tipo lineal se mide mediante un coeficiente
universalmente aceptado, llamado coeficiente de correlación
lineal de Pearson, cuyo valor puede calcularse mediante la
expresión:
Los elementos que aparecen en la expresión anterior pueden
calcularse mediante las fórmulas siguientes:
Γ=
σxy
σx⋅σ y
σxy =
∑ xi⋅yj⋅f ij
N
−x⋅y
σ y=
√∑ yi⋅f i
N
− y
2 σx =
√∑ xi⋅f i
N
−x
2
5.2 Coeficiente de Pearson
El coeficiente de correlación lineal de Pearson, r, siempre toma
valores comprendidos entre –1 y 1.
El coeficiente de correlación lineal de Pearson permite analizar el
grado de aproximación de la nube de puntos a una línea recta.
Tenemos que:
●
Si –1 < r < 0, existe correlación lineal negativa, y será más fuerte
cuanto más se aproxime r a –1.
●
Si 0 < r < 1, existe correlación lineal positiva, y será más fuerte
cuanto más se aproxime r a 1.
●
Si r = 1 ó r = –1, la correlación es una dependencia lineal.
●
Si r = 0, no existe correlación lineal o las variables no están
correlacionadas linealmente. Esto no excluye que las variables
estadísticas puedan estar relacionadas por una correlación
curvilínea.
6. Regresión.
Rectas de regresión
En numerosas situaciones el diagrama de dispersión sugiere la
línea curva o recta que mejor se aproxima a los valores de dicha
variable. Esta curva recibe el nombre de línea de regresión.
Si las lineas son rectas, resulta interesante
el cálculo de la ecuación de dichas rectas,
llamadas rectas de regresión.
Las ecuaciones de las rectas de regresión
●
Recta de Y sobre X:
●
Recta de X sobre Y:
y= y+
σ xy
σ x
2
⋅(x−x)
x=x+
σxy
σ y
2
⋅( y− y)
6.1. Regresión.
Rectas de regresión
En la búsqueda de las ecuaciones de las rectas de regresión debe
tenerse en cuenta que:
●
Ambas rectas pasan por el punto , llamado centro de
gravedad de la distribución.
●
Los valores de las pendientes de las rectas son:
●
Se cumple
●
Los parámetros m y m' reciben el nombre de coeficientes de
regresión. No deben confundirse con el coeficiente de
correlación, ya que lo único que poseen en común es el signo.
m=
σxy
σx
2
y m'=
σxy
σ y
2
m⋅m'=Γ
2
(x , y)
6.2. Estimación de las
rectas de regresión
Las rectas de regresión nos permiten, conocidos los valores de una
de las variables, hacer previsiones o estimar de manera aproximada
los valores esperados de la otra variable. Debe tenerse en cuenta
que:
●
Las estimaciones realizadas a través de las rectas de regresión
serán fiables siempre que el valor del coeficiente de correlación
lineal, Γ, tome valores próximos a 1 ó –1.
●
En los casos en los que dicho coeficiente esté próximo a cero, las
estimaciones carecerán de sentido.
●
Además, las estimaciones tienen sentido para los valores de las
variables próximos a los datos.

Tema 9

  • 1.
  • 2.
    1. Introducción En situacionesde estudio, de una población, de dos características, decimos que estamos analizando una variable estadística bidimensional. Una de las cuestiones que ofrece mayor interés en el estudio de las variables bidimensionales es la de conocer el grado de relación que existe entre ambas variables unidimensionales. En el estudio de esta relación se plantean dos problemas diferentes, aunque relacionados entre sí: ● Estudiar el grado de causas comunes entre ambas, problema denominado correlación. ● Analizar una de las variables, condicionándola a los comportamientos de la otra. Este problema recibe el nombre de regresión.
  • 3.
    2. Variables estadísticas bidimensionales Variableestadística bidimensional es el conjunto de pares de valores de dos caracteres o variables estadísticas unidimensionales X e Y sobre una misma población. La variable estadística bidimensional se representa por el símbolo (X, Y) y cada uno de los individuos de la población viene caracterizado por la pareja (xi , yj ), en el cual xi representa los datos, valores o marcas de clase de la variable X ; e yj representa los datos, valores o marcas de clase de la variable Y. Se denominan distribuciones bidimensionales a las tablas estadísticas bidimensionales formadas por todas las frecuencias absolutas de todos los posibles valores de la variable estadística bidimensional (X, Y ). Las tablas pueden ser: ● Tablas bidimensionales simples ● Tablas dimensionales de doble entrada Definición
  • 4.
    2.1.Tablas bidimensionales Denotamos porfij la frecuencia absoluta correspondiente al valor (xi , yj ) y por N el número total de individuos. La última fila y la última columna presentan las llamadas distribuciones marginales. Tablas simple Tabla de doble entrada
  • 5.
    3. Diagramas dedispersión o nube de puntos Podemos representar gráficamente la distribución bidimensional en un diagrama cartesiano. En el eje de abscisas representamos la variable estadística X y en el eje de ordenadas la variable estadística Y. Diagrama de dispersión es la gráfica que se obtiene al representar en unos ejes coordenados una distribución bidimensional. Se le llama también nube de puntos. Definición
  • 6.
    4. Dependencia ocorrelación Definición Según la disposición de la nube de puntos se puede apreciar, de forma cualitativa, el tipo y grado de relación o dependencia entre ambas variables. A esa dependencia la llamamos correlación. Esta dependencia o correlación puede ser: ● Dependencia funcional, si la nube de puntos se sitúa en la gráfica de una función, excepto que esta sea constante. ● Dependencia lineal, si la nube de puntos se sitúa sobre una recta. ● Correlación o dependencia aleatoria, si la nube de puntos se sitúa próxima a la gráfica de una función. ● Independencia o ausencia de correlación.
  • 7.
    4.2.Dependencia o correlación Definición Elgrado de correlación, a su vez, puede ser: ● Correlación fuerte, si la nube de puntos se aproxima mucho a una recta o una curva. ● Correlación débil, si la nube de puntos se aproxima poco a una recta o a una curva. ● Correlación positiva, si, a medida que crece una variable, crece la otra. ● Correlación negativa, si, a medida que crece una variable, la otra decrece.
  • 8.
    5.Correlación lineal. Coeficiente dePearson Lacorrelación de tipo lineal se mide mediante un coeficiente universalmente aceptado, llamado coeficiente de correlación lineal de Pearson, cuyo valor puede calcularse mediante la expresión: Los elementos que aparecen en la expresión anterior pueden calcularse mediante las fórmulas siguientes: Γ= σxy σx⋅σ y σxy = ∑ xi⋅yj⋅f ij N −x⋅y σ y= √∑ yi⋅f i N − y 2 σx = √∑ xi⋅f i N −x 2
  • 9.
    5.2 Coeficiente dePearson El coeficiente de correlación lineal de Pearson, r, siempre toma valores comprendidos entre –1 y 1. El coeficiente de correlación lineal de Pearson permite analizar el grado de aproximación de la nube de puntos a una línea recta. Tenemos que: ● Si –1 < r < 0, existe correlación lineal negativa, y será más fuerte cuanto más se aproxime r a –1. ● Si 0 < r < 1, existe correlación lineal positiva, y será más fuerte cuanto más se aproxime r a 1. ● Si r = 1 ó r = –1, la correlación es una dependencia lineal. ● Si r = 0, no existe correlación lineal o las variables no están correlacionadas linealmente. Esto no excluye que las variables estadísticas puedan estar relacionadas por una correlación curvilínea.
  • 10.
    6. Regresión. Rectas deregresión En numerosas situaciones el diagrama de dispersión sugiere la línea curva o recta que mejor se aproxima a los valores de dicha variable. Esta curva recibe el nombre de línea de regresión. Si las lineas son rectas, resulta interesante el cálculo de la ecuación de dichas rectas, llamadas rectas de regresión. Las ecuaciones de las rectas de regresión ● Recta de Y sobre X: ● Recta de X sobre Y: y= y+ σ xy σ x 2 ⋅(x−x) x=x+ σxy σ y 2 ⋅( y− y)
  • 11.
    6.1. Regresión. Rectas deregresión En la búsqueda de las ecuaciones de las rectas de regresión debe tenerse en cuenta que: ● Ambas rectas pasan por el punto , llamado centro de gravedad de la distribución. ● Los valores de las pendientes de las rectas son: ● Se cumple ● Los parámetros m y m' reciben el nombre de coeficientes de regresión. No deben confundirse con el coeficiente de correlación, ya que lo único que poseen en común es el signo. m= σxy σx 2 y m'= σxy σ y 2 m⋅m'=Γ 2 (x , y)
  • 12.
    6.2. Estimación delas rectas de regresión Las rectas de regresión nos permiten, conocidos los valores de una de las variables, hacer previsiones o estimar de manera aproximada los valores esperados de la otra variable. Debe tenerse en cuenta que: ● Las estimaciones realizadas a través de las rectas de regresión serán fiables siempre que el valor del coeficiente de correlación lineal, Γ, tome valores próximos a 1 ó –1. ● En los casos en los que dicho coeficiente esté próximo a cero, las estimaciones carecerán de sentido. ● Además, las estimaciones tienen sentido para los valores de las variables próximos a los datos.