2. Tarea seminario 6:
En este seminario vamos a trabajar el análisis
exploratorio de datos en R Commander, a partir de la
base de datos Activos en salud.
Posteriormente, trabajaremos las tablas de
frecuencias, resúmenes numéricos y gráficos.
3. 1.- Seleccionar dos variables
cualitativas-factor del fichero
“activossalud.RData”, describirlas en
tablas de frecuencias e interpretar al
menos 3 aspectos en relación a la
distribución de las mismas.
4. En primer lugar tenemos que exportar la BBDD activos
en salud desde Excel, se hará cliqueando en datos,
importar datos y archivos desde Excel.
A partir de ahí, podemos empezar a crear las tablas de
frecuencias, en mi caso he realizado dos, una para el
consumo de frutas y otra para el consumo de verduras.
5. Para crear la primera tabla de frecuencias, tengo que cliquear en:
estadísticos, resúmenes en su desglose y en distribución de frecuencias…
6. La primera distribución de frecuencias que voy a crear será con la variable
fruta, por tanto la tengo que seleccionar y aceptar.
7. Tras aceptar, me ha aparecido la distribución de frecuencias para el
consumo de fruta:
8. Para la creación de la segunda distribución de frecuencias, voy a seguir el
mismo procedimiento, cliqueo en estadísticos, en su desglose elijo
resúmenes y a continuación, distribución de frecuencias…
9. En este caso, la distribución he decidido hacerla para el consumo de
verduras, por tanto lo selecciono y aceptar.
10. Aquí ha aparecido la distribución de frecuencias para el consumo de
verduras:
11. En la distribución de frecuencias del consumo de frutas se ve claramente que
muchas de las personas a las que se les ha realizado el estudio consumen fruta
diariamente, casi el triple de las personas que no la consumen nunca, lo que
supone un dato positivo porque la fruta es muy beneficiosa para la salud;
además, podemos apreciar que un alto porcentaje de personas aunque no la
comen a diario la comen al menos tres veces en semana, superando claramente al
porcentaje de personas que la consumen menos de una vez en semana, es
también un dato positivo.
En cuanto a la distribución de frecuencias del consumo de verduras, también se
aprecia una clara diferencia entre las personas que consumen verduras a diario y
las personas que no la consumen nunca o casi nunca, también es un aspecto
positivo; además, el 50% de nuestra muestra es alcanzado en personas que las
comen tres o más veces aunque no a diario.
En una comparación de ambas se puede apreciar que diariamente la
población consume más frutas (93) que verduras (54), pero que el
porcentaje de personas que no consumen verduras nunca (5,54),
es menor que el porcentaje de personas que no comen fruta
nunca (11,03).
12. 2.- Seleccionar dos variables
numéricas del fichero
“activossalud.RData”, y mediante
resúmenes numéricos describir e
interpretar la distribución de las
mismas.
13. En primer lugar, tenemos que cliquear en: estadísticos, en su desglose elegiremos
resúmenes y a continuación, resúmenes numéricos…
14. El primer resumen estadístico lo he decidido hacer para la variable altura,
tras haber realizado el procedimiento anterior se me ha abierto este cuadro
en el cual tengo que seleccionar altura y posteriormente cliquear en
estadísticos.
15. Me aparece la siguiente ventana en la que voy a seleccionar: Moda,
desviación típica, rango intercuartílico y los cuartiles, dentro de los cuales
quiero el 0, 25, 5, 75, 1 (el cuartil 5 se corresponde con la mediana de la
distribución).
16. Aquí aparece el primer resumen estadístico para la variable altura, donde la
media (mean) es igual a 1.667 que es aproximadamente igual al cuartil 5 y que me
indica que la altura media de la población a la que se le ha realizado el estudio es
de 1.667 cm.
17. El siguiente resumen estadístico lo he realizado para la variable horas de
prácticas deportivas, y he seguido el mismo procedimiento que para la
variable anterior: cliqueo en estadísticos, en su desglose en resúmenes y a
continuación en resúmenes estadísticos…
18. En esta ocasión selecciono horas de prácticas deportivas y aceptar y
paso a cliquear en estadísticos para poder seleccionar lo que quiero
que incluya mi resumen.
19. En este caso he vuelto a seleccionar: moda, desviación típica, rango
intercuartílico y los cuartiles 0,25, 5, 75, 1.
20. Aquí aparece mi resumen estadístico de horas de prácticas deportivas, donde moda
(mean) es igual a 2.48, lo que indica que la media de horas dedicadas a la práctica
deportiva en mi muestra es de 2.48 horas, se corresponde (aproximadamente) con el
cuartil 5 donde se encuentra el 50% de mis datos. En amos casos nos aparece un NA
que significa ausencia de datos en esa variable.
21. 3.- Debes realizar al menos un
gráfico de cada tipo con variables
adecuadamente seleccionadas del
fichero “activossalud.RData”,
describe e interpreta la distribución
los mismos.
22. En primer lugar mostraré como realizar el gráfico de sectores en R
Commander, tenemos que cliquear en: gráficas, y en su desglose gráfica de
sectores…
23. Me aparece la siguiente ventana, donde tendré que seleccionar la variable
sobre la que quiero realizar la gráfica, que en este caso es madres sanitarias, y
cliquear en aceptar.
24. Y me aparece la gráfica de sectores correspondiente a madre sanitaria, donde se
puede apreciar como aproximadamente el 80% han contestado que no tienen
una madre sanitaria, y el 20% que si tienen madre sanitaria.
25. La segunda gráfica que voy a realizar, será la gráfica de barras, para ello tengo
que cliquear en: gráficos y se me abrirá su desglose para que pueda
seleccionar gráfica de barras…
26. En esta ocasión, he seleccionado la variable consumo de refrescos, y
cliqueado en aceptar para poder crear la gráfica de barras.
27. Esta sería la gráfica de barras correspondiente al consumo de refrescos,
donde se puede apreciar que aproximadamente el 35 personas han
seleccionado que toman refrescos a diario, 65 personas que 1 ó 2 veces en
semana y sobre 75 personas que nunca.
28. En último lugar, crearé la gráfica llamada histograma, para ello tengo que
cliquear en: gráficos, y tras abrirse su desglose cliqueo en histograma…
30. Aquí aparece el histograma para la variable altura, en el que podemos
apreciar una continuidad en los datos, 1.5m será la altura de
aproximadamente 2-3 personas, 1.7 m será la altura de aproximadamente
68 personas y tan sólo 2-3 personas llegan a medir 2m.