1. Seminario 6:
Análisis exploratorio de datos
Tablas de frecuencias, resúmenes numéricos y
gráficos.
María Jesús Rodríguez
Macarena grupo 1 (Subgrupo 3)
2. Ejercicio 1:
• Selecciona dos variables cualitativas -factor
del fichero “activossalud.RData”, descríbelas
en tablas de frecuencias e interpreta al menos
3 aspectos en relación a la distribución de las
mismas.
5. • En la muestra seleccionada existe un gran porcentaje de
personas que realizan botellón los fin de semana (31.58%).
Mientras que en la variable edad un 56.4% tiene edad de 18-
20 años. Podemos concluir que la mayoría de la población
joven realiza botellón los fin de semanas.
• También es significativo el porcentaje de la muestra que
realiza botellón en algún momento del año un 82.11%.
• Muy poco porcentaje de la muestra realiza botellón a diario
(1%), lo que no quita importancia a la gran cantidad de
botellones que se realizan y la peligrosidad que conlleva para
la población.
6. Ejercicio 3:
Selecciona dos variables numéricas del fichero
“activossalud.RData”, y mediante resúmenes
numéricos describe e interpreta la distribución
de las mismas.
7. • Podemos observar que la media de horas de deporte es 2.48 y la media del peso es de 62.75.
• El máximo de peso es de 130 y el mínimo es de 38
• El máximo de horas de deporte son 16h y el mínimo de 0h
• Existe 1 persona que no contesta la variable práctica deportiva, mientras que 16 personas no
contestan la variable peso.
Este es el
resultado
8. Ejercicio 3:
Debes realizar al menos un gráfico de cada tipo
con variables adecuadamente seleccionadas del
fichero “activossalud.RData”, describe e
interpreta la distribución los mismos.
1. Histograma
2. Boxplot
3. Diagrama de barras
4. Diagrama de sectores
9.
10. Histograma
• Representación gráfica de una
variable en forma de barras, cuya
superficie de es proporcional a la
frecuencia de los valores
representados, ya sea en forma
diferencial o acumulada.
• Se usan variables cuantitativas,
como la altura
• Podemos observar que esta variable
sigue una distribución normal, al
centrarse en los valores centrales.
• Los valores que mas se repiten son 1.6
y 1.7
11. Boxplot
Presentación visual que describe varias
características importantes, al mismo tiempo,
tales como la dispersión y simetría.
Para su realización se representan los tres
cuartiles y los valores mínimo y máximo de los
datos, sobre un rectángulo, alineado horizontal
o verticalmente.
Interpretación del
Boxplot
12. Boxplot
• Podemos observar desde el valor 1 (aprox)
a 4 se encuentra un 25% de la muestra.
• De 4 a 6 se encuentra el 50% de la muestra
y la mediana en el 5.
• Del 6 a 9 existe otro 25%
• El rango llega de 1 a 9
• No sigue una distribución normal porque la
caja se encuentra desplazada
13. Diagrama de barras
• Representar gráficamente un conjunto de datos o
valores
• Conformado por barras rectangulares de longitudes
proporcionales a los valores representados.
• Los gráficos de barras son usados para comparar dos
o más valores. Pueden orientarse verticalmente u
horizontalmente
14. Diagrama de barras
• Podemos observar qu ecerca de 100
personas de la muestra nunca ha
tomado cerveza. En cambio 5
personas de la muestra
aproximadamente toman cerveza a
diario.
• La gran mayoría de la muestra toma
cerveza de 2 o 3 veces semanas a
alguna vez.
15. Diagrama de sectores
• Se utiliza para todo tipo de variables, pero se
usa frecuentemente para las variables
cualitativas.
• Los datos se representan en un círculo, de
modo que el ángulo de cada sector es
proporcional a la frecuencia absoluta
correspondiente.
16. Diagrama de sectores
• Según el diagrama la mayoría de
la muestra posee padres con
estudios ninguno o primarios.
• Mientras que aparentemente
existe una misma frecuencia de
padres con estudios de bachiller y
universitarios.