Correlación
Frecuentemente denominado correlación. Una medida estadística
ampliamente utilizada que mide el grado de relación lineal entre
dos variables aleatorias. El coeficiente de correlación debe situarse en
la banda de -1 a +1. El coeficiente de correlación se calcula dividiendo
la covarianza de las dos variables aleatorias por el producto de las
desviaciones típicas individuales de las dos variables aleatorias. Las
correlaciones desempeñan un papel vital en la creación de carteras y
la gestión de riesgos
En realidad, la eficacia de una cobertura puede valorarse a partir del
grado de correlación entre el precio al contado de
una posición en efectivo que se va a cubrir y el precio del instrumento
de cobertura. Cuanto mayor sea la correlación, más eficaz será
la cobertura.
La relación entre dos variables cuantitativas queda
representada mediante la línea de mejor ajuste, trazada a partir
de la nube de puntos. Los principales componentes
elementales de una línea de ajuste y, por lo tanto, de una
correlación, son la fuerza, el sentido y la forma:
Fuerza , Sentido y Forma de la
correlación.
Fuerza
• Se presenta por una línea
recta, lo que indica que
su relación es fuerte. Si
la nube de puntos tiene
una tendencia elíptica o
circular la relación es
débil.
Sentido
• Mide la variación de los
valores de B con respecto
a A: Si al crecer de A lo
hacen los de B, la
relación es directa (
pendiente Positiva); Si
los valores de A
disminuyen los de B, la
relación es inversa
(pendiente negativa).
Forma
• Este es el tipo de línea
que define el mejor
ajuste: la línea recta, la
curva monotónica o la
curva no monotónica.
La regresión es una técnica utilizada para inferir datos a partir de otros y hallar
una respuesta de lo que puede suceder Se pueden encontrar varios tipos de
regresión, por ejemplo:
Regresión lineal simple.
Regresión múltiple ( varias variables).
Regresión logística
•En estadística la regresión lineal o ajuste lineal es un modelo
matemático usado para aproximar la relación de dependencia entre
una variable dependiente Y, las variables independientes Xi y un
término aleatorio.
Regresión
Lineal Simple
•La regresión lineal permite trabajar con una variable a nivel de intervalo o
razón. De la misma manera, es posible analizar la relación entre dos o más
variables a través de ecuaciones, lo que se denomina regresión
múltiple o regresión lineal múltiple.
Regresión
Multiples.
•Es útil para modelar la probabilidad de un evento ocurriendo como función de
otros factores. La regresión logística es usada extensamente en las ciencias
médicas y sociales. Otros nombres para regresión logística usados en varias
áreas de aplicación incluyen modelo logístico, modelo logit, y clasificador de
máxima entropía.
Regresion
Logistica
Coeficiente de Correlación de
Pearson
En estadística, el coeficiente de correlación de Pearson es una
medida de la relación lineal entre dos variables aleatorias
cuantitativas. A diferencia de la covarianza, la correlación
de Pearson es independiente de la escala de medida de las
variables.
De manera menos formal, podemos definir el coeficiente de
correlación de Pearson como un índice que puede utilizarse para
medir el grado de relación de dos variables siempre y cuando ambas
sean cuantitativas.
Coeficiente de Correlación de
Spearson
Es una medida de la correlación (la asociación o interdependencia) entre
dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y
reemplazados por su respectivo orden.
El estadístico ρ viene dado por la expresión:
donde D es la diferencia entre los correspondientes estadísticos de orden de x -
y. N es el número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos,
aunque si éstos son pocos, se puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente
aproximación a la distribución t de Student
La interpretación de coeficiente de Spearman es igual que la del coeficiente de
correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas
o positivas respectivamente, 0 cero, significa no correlación pero no independencia.
La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre
dos ordenaciones de una distribución normal bivariante.
Análisis De La Correlación
Canoníca
El análisis de correlación canónica es un método de análisis
multivariante desarrollado por Harold Hotelling. Su objetivo es buscar las
relaciones que pueda haber entre dos grupos de variables y la validez de
las mismas. Se diferencia del análisis de correlación múltiple en que éste
solo predice una variable dependiente a partir de múltiples independientes,
mientras que la correlación canónica predice múltiples variables
dependientes a partir de múltiples independientes. La correlación
hipercanónica es una correlación lineal y, por tanto, solo busca relaciones
lineales entre las variables. En este análisis, entonces, se crean
combinaciones lineales de las variables originales, sobre la base de su
estructura de correlación. Al diseñar el experimento hay que considerar el
tamaño de la muestra ya que son necesarias un mínimo de observaciones
por variable, para que el análisis pueda representar las correlaciones
adecuadamente.
Finalmente, hay que interpretar las cargas canónicas para determinar la
importancia de cada variable en la función canónica. Las cargas canónicas
reflejan la varianza que la variable observada comparte con el valor teórico
canónico. El autovalor de cada eje indica la correlación multivariada entre
las nuevas variables lineales creadas a partir del análisis.
La matriz de correlación (tabla 1) muestra las correlaciones y el nivel de significación de cada una
de las variables del estudio. En su mayoría las medidas de salud mental mostraron entre ellas
relaciones significativas con valores absolutos de al menos ,346, solamente las relaciones entre
sobrecarga y autoestima y entre sobrecarga y ansiedad no fueron significativas (p > ,10). La
satisfacción con la vida correlacionó positivamente con autoestima (,373), y negativamente con el
resto de medidas. La depresión correlacionó positivamente con la sobrecarga (,346) y la ansiedad
(,508) y negativamente con el resto de medidas. Por último, la autoestima y ansiedad mostraron
una correlación negativa (-,549). Por su parte, la percepción de todos los grupos de síntomas
correlacionaron positivamente entre ellos, con una magnitud de la relación de entre ,455 hasta
,731.
Por último, las magnitudes absolutas de las relaciones significativas entre las variables
de salud mental y la percepción de los síntomas variaron de ,331a ,526. La depresión
estuvo correlacionada positivamente con todos los grupos de síntomas (rangos de r =
,414 a ,526). El autoestima correlacionó negativamente con la mayoría de los grupos de
síntomas (rangos de r = -,331 a -,440), excepto con los síntomas cognitivos. De igual
forma, la sobrecarga correlacionó positivamente con los síntomas cognitivos (,349),
sociales (,414) y neurocomportamentales (,375). La ansiedad sólo correlacionó
positivamente con los síntomas neurocomportamentales (,526) y la satisfacción con la
vida, negativamente con los síntomas sociales (,-352).
Correlaciones canónicas
La primera correlación canónica fue de ,71 (varianza compartida 50,7%), λ =
,40; χ2= 39,76; p<0,01 (figura 1). De acuerdo con lo planteado por Cohen40, se muestra
un tamaño del efecto grande. Fueron calculados los coeficientes canónicos
estandarizados para establecer la contribución de las variables para cada una de las
correlaciones canónicas (Tabla 2). En la primera correlación canónica, los coeficientes
canónicos estandarizados de salud mental mostraron que la depresión es el factor con
mayor carga (-,662), seguido de la autoestima (,564) y la sobrecarga (-,508). El resto de
variables obtuvieron coeficientes menores a ,40, punto de corte convencional para la
interpretación del mismo. Por otra parte, los coeficientes canónicos estandarizados la
percepción de síntomas mostraron una mayor carga de los síntomas neuroconductuales
(-,497). Los coeficientes del resto de síntomas estuvieron por debajo de ,40. Este patrón
de varianza compartida sugiere que los cuidadores de pacientes con TCE que percibieron
mayor número de síntomas neuroconductuales en los pacientes, mostraron mayor
depresión, mayor sobrecarga y menor autoestima.
Distribuciones Bidimensionales
Cuando sobre una población estudiamos simultáneamente los valores de dos
variables estadísticas, el conjunto de los pares de valores correspondientes a
cada individuo se denomina distribución bidimensional.
Ejemplo 1:
Las notas de 10 alumnos en Matemáticas y en Lengua vienen
dadas en la siguiente tabla:
Los pares de valores {(2,2),(4,2),(5,5),...;(8,7),(9,10)}, forman la
distribución bidimensional.
IDEA DE CORRELACIÓN
Es frecuente que estudiemos sobre una misma población los
valores de dos variables estadísticas distintas, con el fin de ver si
existe alguna relación entre ellas, es decir, si los cambios en una de
ellas influyen en los valores de la otra. Si ocurre esto decimos
que las variables están correlacionadas o bien que hay
correlación entre ellas.
En el ejemplo anterior parece que hay cierta tendencia a que
cuanto mejor es la nota en Matemáticas, mejor es la de lengua.
NUBE DE PUNTOS O DIAGRAMA DE DISPERSIÓN
La primera forma de describir una distribución bidimensional es
representar los pares de valores en el plano cartesiano. El gráfico obtenido
recibe el nombre de nube de puntos o diagrama de dispersión.
CORRELACIÓN LINEAL Y RECTA DE REGRESIÓN.
Cuando observamos una nube de puntos podemos apreciar si los puntos
se agrupan cerca de alguna curva. Aquí nos limitaremos a ver si los puntos
se distribuyen alrededor de una recta. Si así ocurre diremos que
hay correlación lineal. La recta se denomina recta de regresión.
Hablaremos de correlación lineal fuerte cuando la nube se parezca mucho a una
recta y será cada vez más débil (o menos fuerte) cuando la nube vaya
desparramándose con respecto a la recta.
En el gráfico observamos que en nuestro ejemplo la correlación es bastante fuerte,
ya que la recta que hemos dibujado está próxima a los puntos de la nube.
Cuando la recta es creciente la correlación es positiva o directa: al aumentar una
variable, la otra tiene también tendencia a aumentar, como en el ejemplo anterior.
Cuando la recta es decreciente la correlación es negativa o inversa: al aumentar
una variable, la otra tiene tendencia a disminuir.
Usos de coeficiente de Correlación
de Spearman
Para aplicar el coeficiente de correlación de Spearmen se requiere
que las variables esten medidas al menos en escala ordinal, es
decir, de forma que las puntuaciones que le representan pueden
ser colocadas en dos series ordenas
A veces este coeficiente es denominado por la letra griega ps
(RHO), aunque cuando nos situamos en el contexto de la
estadística descriptiva se emplea la notación rs.
Cuando todos los sujetos se sitúan en el mismo puesto para la
variable X y para la variable Y, el valor de rs es 1 si se ocupan
valores opuestos, es decir , al primer sujeto en el X le corresponde
el ultimo lugar en Y, al segundo en X le corresponde el penúltimo
en Y,etc. Entonces el valor es de rs es -1.
Ventajas
No esta afectada por los cambios en las unidades
de medida.
Al ser una técnica no parametra es libre de
distribución probabilística.
Desventajas
Es recomendable usarlo cuando los datos
presentan valores extremos , ya que dichos valores
afectan mucho el coeficiente de correlación de
Pearson, o antes distribuciones no normales.
No debe ser utilizado para decir algo sobre la
relacion entre causa y efecto.
Ventajas y Desventajas de Spearman
Ventajas y desventajas de
Pearson
Ventajas
Cuando en el fenómeno estudiando las dos
variables son cuantitativas se usa el coeficiente de
correlaciones de Pearson.
Es llamado así en homenaje a Karl Pearson , las
dos variables son destinadas por X e Y.
Desventajas
El valor 0 representa falta de correlación.
Cuando las variables X e Y son independientes, el
numerador se anula y el coeficiente de correlación
poblacional es de valor cero.
En cambio una correlación nula no implica la
independencia de variables.
Usos de correlación de Pearson
Permite predecir el valor de una variable dado un valor
determinado de la otra variable .
Se trata de valorar la asociación entre variables cuantitativas
estudiando el método conocido como correlación
Reportan dicho valor de la correlación cercano a 1 como un
indicador de que existe una relación lineal positiva entre dos
variables . Teniendo un valor mayor a cero que se acerque a 1
como resultado una mayor correlación positiva entre la
información.