Este documento presenta un análisis exploratorio de datos realizado sobre un conjunto de datos de salud. Se resumen los resultados de analizar variables como el consumo de alcohol y asistencia a botellones, horas de ejercicio físico y peso, distribución por sexo, uso de marcha atrás y horas dedicadas al mantenimiento del hogar. Se incluyen tablas, gráficos y diagramas que resumen la información sobre estas variables.
3. Cargamos el conjunto de datos de activos en salud que
hemos descargado anteriormente de la enseñanza virtual:
4. En estadísticos le damos a resúmenes y después a distribución
de frecuencia y ahí elegimos dos variables:
Yo he elegido la de botellón y la de combinados.
5. Las tablas de frecuencia que obtenemos de cada variable son las
siguientes:
BOTELLÓN
COMBINADOS
6. o En primer lugar podemos observar que los resultados
obtenidos en cuanto a las personas que NUNCA han
consumido combinados y que nunca han ido a algún botellón
se asemejan mucho, solo tienen algo más de un 2% de
diferencia.
o También nos fijamos en que sólo un 0,35% consume
combinados y un 2,11% acuden a botellones 2 o 3 VECES
POR SEMANA.
o Finalmente nos fijamos en el porcentaje de aquellos
encuestados que consumen combinados y aquellos que
asisten a los botellones SÓLO LOS FINES DE SEMANA y
observamos que hay una diferencia de un 8%
aproximadamente.
Interpretación de los
resultados:
8. Para este ejercicio vamos a seleccionar al igual que en el otro dos
variables, pero esta vez se van a tratar de dos variables
cuantitativas, para ello le damos a estadísticos->resúmenes-
>resúmenes numericos:
Seleccionamos
horas de practicas
deportivas y peso
Antes de darle a aceptar
nos aseguramos de que
tenemos seleccionados
dichos estadísticos:
9. El resultado que hemos obtenido es el siguiente:
INTERPRETACIÓN DE LOS RESULTADOS:
o Nos fijamos en la hora practica deportiva: podemos decir que se
trata de una distribución simétrica puesto que la media es
aproximadamente 2 y media (2,48). También observamos que la
desviación media es mayor que la media, esto nos lleva a sospechar
que hay puntuaciones extremas que subieron la media, lo que quiere
decir que no sería del todo representativa de la muestra.
10. o Fijándonos en los cuartiles podemos decir que se trata
de una distribución homogénea puesto que la diferencia
entre 25% y 50% es igual que la que existe entre el 50%
y 75%.
o A continuación nos fijamos en la variable peso: sigue
una distribución más o menos simétrica puesto que hay
poca diferencia entre la media (62,75) y la mediana (60).
o Debemos decir que la desviación típica es muy grande
por lo que la media no es muy representativa.
o Al fijarnos en los cuartiles podemos decir que también
sigue una distribución homogénea puesto que las
diferencias entre 25%-50% y 50%-75% son muy
parecidas.
13. Se trata de un gráfico
de sectores en el que
vemos representado la
variable cualitativa
sexo.
Se puede observar
como claramente que la
mayor parte de la
muestra son mujeres.
15. Se trata de un gráfico de
barras en el cual hemos
utilizado una variable
cualitativa como es la de la
marcha atrás.
Observamos que la mayor
parte de los individuos no
han utilizado nunca la
marcha atrás.
16. HISTOGRAMA DE FRECUENCIA:
Para que nos sea más
fácil la interpretación de
la gráfica seleccionamos
la opción de
porcentajes.
17. Se trata de un histograma
en el que se utilizan
variables cuantitativas, en
este caso el
mantenimiento del hogar.
Observamos que los
valores más concentrados
se encuentran entre las
10 y 20 h que son las que
se dedican al
mantenimiento del hogar.
18. DIAGRAMA DE CAJAS (BOXPLOT)
Seleccionamos una variable cuantitativa como es la de hora de
practica deportiva.
19. Se trata de un
diagrama de caja
utilizado en variables
cuantitativas, en este
caso las horas de
práctica deportiva.
De este obtenemos:
-Valor máximo: 10
-El 50% de los
individuos dedican
entre 0 y 4,5 h a la
práctica deportiva.
-Además observamos
que existen 5 valores
atípicos que son: 155,
230, 115, 276, 273.