1. SEMINARIO 6: Análisis
exploratorio de datos.
Tablas de frecuencias, resúmenes
numéricos y gráficos.
Andrea Aparicio Martín
Grupo 1. Subgrupo 1
2. ACTIVIDAD 1
Selecciona dos variables cualitativas-
factor del fichero “activossalud.RData”,
descríbelas en tablas de frecuencias e
interpreta al menos 3 aspectos en
relación a la distribución de las
mismas.
10. INTERPRETACIÓN
O ¿Qué porcentaje consumen cerveza a diario?
1,38%
O ¿Qué es más frecuente consumir dulces o cerveza?
Dulces, ya que el porcentaje de personas que no
consumen nunca dulces (14,48%) es menor que el de
cerveza (37,02%).
O ¿Cuántas personas consumen dulces 3 o mas veces
a la semana?
49
O ¿Cuántas personas consumen cerveza los fines de
semana?
60
11. ACTIVIDAD 2
Selecciona dos variables numéricas del
fichero “activossalud.RData”, y
mediante resúmenes numéricos
describe e interpreta la distribución de
las mismas.
18. INTERPRETACIÓN
O La media de la altura es de 1,66 y la media del
peso es de 62,75
O La desviación típica de la altura es de 0,08 por lo
que los datos se acercan mucho; y la desviación
típica del peso es de 12,65, por lo que los datos
están muy dispersos.
O En cuando a los encuestados, en relación a la
altura respondieron 290 y 1 no respondió; y en
relación al peso respondieron 275 y 16 no
respondieron.
19. ACTIVIDAD 3
Debes realizar al menos un gráfico de
cada tipo con variables
adecuadamente seleccionadas del
fichero “activossalud.RData”, describe
e interpreta la distribución los
mismos.
22. PASO 3: obtenemos el diagrama de sectores
Seleccionamos la variable
«madresanitaria» porque es
cualitativa, y además es una
variable que no tiene múltiples
categorías.
INTERPRETACIÓN
En color azul se representan los
encuestados que sí tienen madre
sanitaria, y en color rosa los que
no tienen madre sanitaria.
25. PASO 6: obtenemos la gráfica de barras
INTERPRETACIÓN
Representa variables cuantitativas.
En el eje de las abscisas (x/horizontal)
se le asignan los valores de las
variables.
En el eje de las ordenadas (Y/vertical)
informa de las frecuencias.
Como podemos observar en el
gráfico, el que tiene mayor frecuencia
es el que nunca ha consumido
cerveza, seguido de 2 o 3 veces
semana y por último, con muy poca
frecuencia los que la consumen a
diario.
28. PASO 9: obtenemos el histograma
INTERPRETACIÓN
Representan variables
numéricas.
En el eje de ordenadas aparece
la frecuencia y en el eje de las
abscisas aparece la variable
«comunicacionfamiliar»
30. PASO 11: elegimos la variable
«horapracticadeportiva» y obtenemos el diagrama
de cajas
INTERPRETACIÓN
Representa variables
numéricas.
El rango intercuartílico es mas
o menos simétrico, hay 5
personas que sobrepasan el
percentil 75; lo cuál significa
que estas cinco personas
invierten más tiempo en
realizar deporte.