2. Ejercicio 1:
Selecciona dos variables cualitativas-
factor del fichero
“activossalud.RData”, descríbelas en
tablas de frecuencias e interpreta al
menos 3 aspectos en relación a la
distribución de las mismas.
3. 1. Antes que nada, debemos cargar el conjunto
de datos “activossalud” a R commander.
4.
5. 2. Nos piden la distribución de frecuencias de dos
variables, por tanto, le damos a “estadísticos”-
>”resúmenes”->”distribución de frecuencias” y
seleccionamos las variables que queremos.
6. Seleccionamos las variables para ver las frecuencias.
Por ejemplo, queremos ver si el sexo ifluye en el nivel
de estudios. Comparamos las frecuencias de
estudiospadres y estudiosmadres.
7. Con respecto al nivel de estudios de las madres, podemos ver que
aproximadamente el 50% de las mismas son analfabetas o solo
poseen estudios primarios. Por otro lado, los porcentajes de
estudios de bachillerato y universitarios están prácticamente
igualados siendo del 29% y 24% respectivamente.
Sin embargo, si comparamos los resultados con los de los padres,
vemos que el porcentaje de hombres que poseen estudios de
bachillerato o universitario es ligeramente superior al de las madres
(33% y 29% respectivamente) y que por el contrario, el porcentaje
de hombres que no poseen o solo poseen estudios primarios, es
mucho más inferior que el de las mujeres (38% aprox.)
En definitiva, podría decirse que el nivel de estudios de los padres
de los estudiantes es ligeramente más alto que el de las madres.
¡OJO!: Hemos comparado fijándonos en los porcentajes, ya que no
podemos con la frecuencia absoluta porque el tamaño de la muestra
es diferente para hombres y mujeres.
8. Ejercicio 2:
Selecciona dos variables numéricas
del fichero “activossalud.RData”, y
mediante resúmenes numéricos
describe e interpreta la distribución de
las mismas.
Ahora tenemos que comparar dos variables cuantitativas, por lo
que no nos servirán las tablas de frecuencias porque nos saldrían
valores que apenas se repiten y no nos podrá resumir la
información. Para ello usaremos medidas de tendencia central,
dispersión y posición. En este caso, compararemos las variables
“altura” y peso.
9. 1
2
En datos, seleccionamos
la variable “altura”. A
continuación, nos vamos
a estadísticos y
seleccionamos los que
queremos saber; en este
caso utilizaremos: media,
desviación típica y los
cuartiles.
10. Nos saldrá en la pantalla los datos de la siguiente
forma:
Los datos nos dicen que la altura de los estudiantes del primer año de
enfermería es de un valor medio de 1,67 metros. La desviación típica es de
0,080, lo cual nos indica que los valores no están muy dispersos (no están
muy alejados de la media), por tanto, podría decirse que la población
estudiada es prácticamente homogénea. Respecto a los cuartiles: Vemos que el
valor mínimo es de 1,46m y que por debajo de este no hay ningún otro (0%).
El 25% o menos de los estudiantes, miden 1,6m (Primer cuartil) y el 50% de
los mismos, o menos, mide 1,655m (Segundo cuartil). El 75% o menos de los
alumnos mide 1,72m (Tercer cuartil). Finalmente, el valor máximo es de 2m
lo que nos indica que por encima de este valor no hay ningún otro, es decir,
menos del 100% de los estudiantes mide 2 metros. (100% o cuarto cuartil). En
definitiva, vemos que es un grupo más menos homogéneo porque los valores
no están muy alejados de la media. Además, hay un alumno que no ha
contestado a la pregunta (NA=no ausente)
11. A continuación, haremos lo mismo que con la
altura pero con el peso:
Los datos nos dicen que el peso de los estudiantes del primer curso de
enfermería es de un valor medio de 62,76kg. La desviación típica es de
12,66 lo que nos indica que los valores de la muestra están muy dispersos
y que hay variabilidad entre ellos. Están por tanto, muy alejados de la
media. Con respecto a los cuartiles, vemos que el valor mínimo es de 38
kg (0%). Es decir, no hay ningún alumno que pese menos de 38 kg. Por el
contrario, vemos que el valor máximo es de 130 kg (100%) por lo que no
habrá ningún estudiante que pese más de esto. El 25% o menos de los
estudiantes pesa 54 kg (primer cuartil); el 50% o menos de los estudiantes
pesa 60 kg (segundo cuartil); y el 75% o menos pesa 68 kg (tercer
cuartil); Por último, menos del 100% pesa 130kg. (Cuarto cuartil).
Además, hay 16 personas que no han respondido a la pregunta (NA).
12. Ejercicio 3:
Debes realizar al menos un gráfico de
cada tipo con variables
adecuadamente seleccionadas del
fichero “activossalud.RData”, describe
e interpreta la distribución los mismos.
13. Gráfico de sectores
Es muy útil para representar
variables cualitativas,
especialmente si son dos o
tres categorías ya que con
muchas puede resultar
confuso.
•El 75% de los estudiantes del primer
curso de enfermería de la Universidad de
Sevilla, no trabaja. El 25% restante de los
estudiantes, sí trabaja.
14. Gráfico de barras
Los gráficos de barras se utilizan para variables cualitativas. Son muy útiles
cuando hay más de dos o tres categorías. En este caso analizaremos la
frecuencia con la que toman cerveza los estudiantes del primer curso de
enfermería de la Universidad de Sevilla. Un 5% aprox ha contestado que bebe
cerveza a diario. Un 60% de los estudiantes solo bebe los fines de semana.Por
otro lado, un 25% aprox ha respondido que la toman 2 o 3 veces a la semana, y
un 40% lo hace 2 o 3 veces al mes. Poco menos del 60% lo hace solo alguna
vez y más del 100% nunca toma cerveza.
15. Histograma de frecuencias
Se utiliza en variables cuantitativas, en las que los valores se hallan
muy próximos entre sí.
En este caso, vemos que el número de personas (frecuencia) con
una altura inferior a 1,5m es muy baja aprox. 1% e igualmente
ocurre con 1,9m. Los valores están más concentrados entre 1,55 y
1,75 m, es decir, son los que más se repiten.
16. Diagrama de caja
El 25% de los alumnos tienen
una puntuación inferior o igual
a 4. El 50% de los alumnos
tienen una puntuación entre 4
y 5, siendo 5 el valor medio de
comunicación en pares. El
75% de los valores se
encuentran entre 5 y 6. Por
último, el 100% de los valores
se encuentra entre 9 o menos.
Hay dos valores atípicos de
103 y 97. Por tanto, los valores
están muy concentrados entre
4 y 6.