Este documento analiza la relación entre la altura y el peso de individuos en un conjunto de datos de salud. Primero, se comprueba si las variables siguen una distribución normal mediante gráficos Q-Q, histogramas y un test de Shapiro. Los resultados muestran que ninguna variable sigue una distribución normal. Luego, se utiliza el coeficiente de correlación de Spearman para medir la correlación entre altura y peso, encontrando una correlación fuerte y positiva entre las variables.
Análisis de correlación entre altura y peso con datos no normales
1. Seminario 8
Análisis bivariado con variables
cuantitativas. Normalidad y linealidad.
Diagrama de dispersión. Coeficientes de
correlación de Pearson y Rho de Spearman.
2. EJERCICIO
Determina si existe relación entre las variables
altura y peso del fichero de datos “activos en
salud” y si existe determina cómo de fuerte
es.
3. Abrimos R Commander y cargamos el conjunto
de datos “Activos en salud” , vamos a
representar como se relacionan dos variables
cuantitativas, peso y altura.
Para ello, en primer lugar tenemos que
comprobar si siguen o no una distribución
normal, ya que dependiendo de ello
utilizaremos distintos coeficientes de
correlación, el de Pearson, si la distribución
sigue la normalidad o Rho de Spearman que se
emplea cuando la distribución no sigue la
normalidad.
4. En primer lugar, representamos la relación que se da entre estas dos
variables a través de un diagrama de dispersión de R Commander
Mirando el gráfico a simple vista , aunque la muestra es lo suficientemente
grande, no podemos apreciar si existe o no relación entre las dos variables.
Para ello, lo comprobamos gráficamente y a través del test de Shapiro.
5. Comprobamos la normalidad de los datos a través de representaciones
gráficas, con un gráfico Q-Q, histograma, y además con el test de Shapiro
• Gráfico Q-Q (Gráfica de comparación de cuantiles)
6. Altura Peso
En ambas gráficas existen muchos puntos que se salen de
la línea, por lo tanto, ninguna de las dos variables
siguen una distribución normal
7. A continuación lo comprobamos con la representación en
histogramas:
Altura
Peso
Para que las variables siguiesen una distribución normal, la gráfica tendría que
ser simétrica a un lado y otro de la mediana, que en ambos casos se encuentra
desplazada a la izquierda, y que confirman, por tanto, que ninguna de las
variables siguen una distribución normal.
8. Con el gráfico box-plot:
Si las variables siguiesen una distribución normal, media, mediana y moda deberían
coincidir y colocarse en el lugar central de la caja, a la misma distancia del rango
superior e inferior, en la gráfica del peso, esto claramente no ocurre así,
sin embargo, con la gráfica de la altura podríamos tener algunas dudas, puesto que la
mediana parece situarse más o menos a la misma distancia de los rangos, para
confirmarlo, hacemos un test de contraste de hipótesis, utilizando el test de Shapiro.
9. Test de Shapiro
En primer lugar nos planteamos las hipótesis:
H0: La variable altura sigue una distribución normal
H1: La variable altura no sigue una distribución
normal
10. Como podemos ver, p-valor es 4,686e-0,6 , y nos indica el error que cometeríamos si
escogiésemos la hipótesis nula, como este valor es menor que el margen de error que
nosotros habíamos aceptado (0,05) aceptamos la hipótesis nula, de manera que la
variable altura no sigue una distribución normal.
Hacemos lo mismo con la variable peso:
Ocurre lo mismo que con
La variable altura, el error que
cometeríamos si aceptamos la hipótesis nula(p-
valor) es menor
que el que habíamos asumido y, por lo tanto,
La aceptamos. La variable peso tampoco
Sigue una distribución normal.
11. Como las variables no siguen una distribución normal,
utilizaremos el test de Spearman.
Establecemos las hipótesis:
H0: No existe correlación entre peso y altura (rho ≠0)
H1: Existe correlación entre peso y altura. (rho=0)
12.
13. Como rho es distinto de 0, podemos afirmar que existe
correlación entre las variables peso y altura, es decir,
aceptamos la hipótesis alternativa. Además esta correlación
es fuerte puesto que se aproxima más al valor 1, que al 0.