Estrategia de prompts, primeras ideas para su construcción
Trabajo tic seminario 7
1. Comprobar, en un conjunto
de datos filtrado por la
variable dicotómica «sexo», si
las variables «altura» y
«peso» están
correlacionadas.
2. 1.Filtramos la base de datos «activossalud» en R
commander para obtener solo los datos de los
varones.
3. 2.Para filtrar, introducimos una expresión de selección
correcta que nos permita dejar en la base de datos solo
los datos de los varones de la variable «sexo».
4. 3.Con la base de datos ya filtrada, comenzamos
comprobando la normalidad de las dos variables que
estudiamos. Para ello, entramos en «gráficas»-
«histograma».
5. 4.Como podemos apreciar, la gráfica que describe la
variable «altura» no parece seguir una distribución
normal, aunque no estamos seguros.
7. 6. En esta gráfica, sin embargo, sí que
parece que la gráfica sigue una distribución
normal.
8. 7.Por eso, para asegurarnos de su normalidad, realizaremos
el test de normalidad de Kolmogorov-Smirnov
(«estadísticos»-«resúmenes»- «test de normalidad»), que
se usa para muestras mayores de 50 datos.
9.
10. 8.Como podemos ver, el p-valor nos da un número
inferior a nuestro error (0,05), por lo que debemos
aceptar la hipótesis alterna, que en este caso es «la
variable altura no sigue una distribución normal».
11. 9.Para comprobar que la variable
«peso» no sigue una distribución
normal, hacemos el mismo proceso.
Sin embargo, realmente ya sabemos
que debemos de utilizar el coeficiente
de Rho de Spearman, ya que una de
las variables ya no sigue una
distribución normal (no se puede
aplicar una prueba paramétrica).
13. 11.Realizamos ahora la gráfica de comparación de
cuantiles y vemos como ya hay más dudas para afirmar
si sigue una distribución normal o no.
14. 12.Realizamos el test de normalidad de Kolmogorov-
Smirnov y vemos que, finalmente, sí que sigue una
distribución normal (aceptamos la hipótesis nula del test de
normalidad) porque el p-valor es superior a 0,05.
15. 13.Para ver la correlación de las 2 variables, primero
dibujamos un diagrama de dispersión con la recta de
los mínimos cuadrados. Para ello entramos en
«gráficas»- «diagrama de dispersión».
18. 16.En el diagrama de dispersión
parece que hay una alta correlación
entre las 2 variables.
19. 17.Realizamos ahora la matriz de correlaciones para
comprobar la fuerza de correlación de ambas variables
(entramos en «estadísticos»- «resúmenes»- «matriz de
correlaciones»).
20. 18.Vemos que el coeficiente de Rho de Spearman es de
0,423, por lo que la fuerza de correlación es moderada
y, además, es una relación de correlación lineal directa.
21. 19.Comprobamos ahora si la correlación se da en la
población. Para ello realizamos la prueba de correlación
de Spearman (para ello entramos en «estadísticos»-
«resúmenes» «test de correlación»).
23. 21.Como vemos que el p-valor nos da un número
inferior a 0,05 (0,0096), aceptamos la hipótesis alterna:
«en la población existe correlación entre la variable
altura y peso en los varones».
24. 22. Volvemos a filtrar la base de datos
inicial: «activossalud»
25. 23. Para filtrar esta vez, introducimos una expresión de
selección que nos permita quedarnos solo con los
datos de las mujeres de la variable «sexo».
26. 24.Comenzamos a comprobar la normalidad de
la variable «altura» y vemos en el histograma
que parece seguir una distribución normal.
27. 25. Si dibujamos la gráfica de comparación
de cuantiles, vemos que casi seguro sigue
una distribución normal.
28. 26.Para asegurarnos de que la variable altura
sigue una distribución normal, realizamos el test
de normalidad de Kolmogorov-Smirnov.
29. 27. Finalmente, por el valor del p-valor, tenemos
que rechazar la hipótesis nula, por lo que la
variable no sigue una distribución normal.
30. 28.Realizamos el mismo proceso
con la otra variable, aunque ya
sabemos que tendremos que
utilizar la prueba rho de Spearman
(porque una variable no sigue la
distribución normal).
Comprobamos entonces el
histograma y la gráfica de
comparación de cuantiles que se
dibujaría con esta variable.
31. 29. Vemos que el histograma no parece que siga una
distribución normal y que el gráfico de comparación de
cuantiles ligeramente puede parecer que sí.
32. 30.Realizando la prueba de Kolmogorov-Smirnov,
vemos que el p-valor da 0,0003 y, por tanto, tenemos
que rechazar la hipótesis nula y decir que esta variable
no es normal.
33. 31.Ahora procedemos a comprobar si las 2
variables presentan correlación. Para eso
realizamos primero un diagrama de dispersión.
35. 33. En el diagrama de dispersión parece que
encontramos una correlación directa moderada
o alta.
36. 34.Ahora realizamos la matriz de
correlaciones para comprobar la fuerza de
correlación de ambas variables.
37. 35. Como vemos en la matriz, la fuerza de
correlación de las variables es moderada
(rho= 0,479) y la correlación es directa.
38. 36.Finalmente, realizamos la prueba
de correlación de rho de Spearman.
Vemos que sale un p-valor muy
inferior al error, por lo tanto hay que
rechazar la hipótesis nula y aceptar la
hipótesis alterna, que defiende que las
2 variables están correlacionadas en la
población en mujeres.