Este documento presenta tres ejercicios relacionados con el análisis de datos usando R. El primer ejercicio describe las distribuciones de frecuencias de dos variables cualitativas del conjunto de datos "activossalud2" usando tablas. El segundo ejercicio describe e interpreta la distribución de dos variables numéricas mediante resúmenes numéricos. El tercer ejercicio crea gráficos de barras, sectores, histograma y cajas para variables del conjunto de datos y los describe e interpreta.
2. Ejercicio 1:
Selecciona dos variables cualitativas-factor del fichero
“activossalud.RData”, descríbelas en tablas de frecuencias e
interpreta al menos 3 aspectos en relación a la distribución de
las mismas.
3. En primer lugar carguemos los datos a R, en este caso están en formato R
y por tanto le daremos a “Datos”, “Cargar conjunto de datos” y
seleccionamos “activossalud2”.
4. Para buscar las distribuciones de varias frecuencias de los datos
cualitativos nos dirigimos a “Estadísticas”, “Resúmenes” y “Distribución de
frecuencias”. En nuestro caso vamos a elegir la variable “botellón” y
“cerveza”.
5. Botellón.
• Podemos observar como un 82,1% (234 individuos)
han realizado botellón alguna vez en su vida, frente a
un 17,9% (51 individuos) que no lo han hecho nunca.
• Lo más frecuente (moda) sería hacerlo durante los
fines de semana con un 31,58% de los individuos.
Cerveza.
• En este caso el porcentaje disminuye y es un 62,98$
(182 individuos) han bebido cerveza alguna vez,
frente a un 37,02% (107 individuos) que no lo han
hecho nunca.
• También en este caso lo más frecuente (moda)
cambia y esel porcentaje de individuos que no ha
bebido cerveza nunca lo que predomina 37,02%.
6. Ejercicio 2
Selecciona dos variables numéricas del fichero
“activossalud.RData”, y mediante resúmenes numéricos
describe e interpreta la distribución de las mismas.
7. Para este ejercicio nos dirigimos a “Estadísticos”, “Resúmenes”,
“Resúmenes numéricos” y ahí elegimos las variables que deseemos, en
nuestro caso “altura” y “horapracticadeportiva”
8. Altura
• La media es 1.667 y la desviación típica es de 0.08. Esto
quiere decir que los valores de altura están entre 1.58 y
1.75.
• La mediana coincide con el segundo cuartil que en este
caso sería 1.665.
• Esta variable es simétrica puesto que la media y la
mediana tiene valores semejantes.
Hora practica deportiva
• Tiene una media de 2.482759 cuya desviación típica es
de 3.138616.
• La mediana coincide con el segundo cuartil, en este
caso la mediana sería 2.
• Esta variable es simétrica puesto que la media y la
mediana tienen valores semejantes.
9. Ejercicio 3
Debes realizar al menos un gráfico de cada tipo con variables
adecuadamente seleccionadas del fichero, describe e
interpreta la distribución los mismos.
10. Para las variables cualitativas-factor tenemos el gráfico de barras y el
gráfico de sectores. Vamos a realizar un gráfico de barras. Para ello vamos
a “Gráficas”, “Gráfica de barras” y seleccionamos la variable que queremos,
en nuestro caso “hachis”.
11. Podemos interpretar que la mayoría nunca ha fumado hachis y que el valor
menos significativo lo hace los fines de semana.
12. En siguiente lugar vamos a realizar un gráfico de sectores, para ello le
damos a “Gráficos”, ·”Gráficos de sectores” y en la ventana emergente
podemos ponerle título al gráfico en nuestro caso
13. En esta gráfica predominan el
consumir dulces 1 o 2 veces en
semana y el consumirlos menos de
una vez en semana. Frente al dato
menos representado que sería el de
consumir dulces todos los días
14. Para variables numéricas utilizamos el histograma y el diagrama de cajas.
Comenzaremos con el histograma. Para ello le damos a “Gráficas” e
“Histograma” y una vez ahí elegimos la variable que queramos, en mi caso
“edad”.
15. Tiene una distribución asimétrica centrada a la izquierda.
El porcentaje más elevado de individuos se encuentran con un peso entre 50-
60kg
Muy pocos individuos tienen menos de 40kg o superan los 100kg
16. Para el diagrama de cajas vamos a “Gráficos”, “Diagrama de cajas” y
seleccionamos la variable deseada que será “medicalización”.
17. Podemos decir que esta variable es simétrica puesto que la media y la
mediana coinciden y los datos se distribuyen de igual forma a ambos
lados.