Este documento presenta los ejercicios realizados en un seminario sobre análisis de datos. Se importan datos y se seleccionan variables cualitativas y numéricas para describir mediante tablas de frecuencia e resúmenes numéricos. Luego, se realizan gráficos como barras, sectores, diagramas de cajas e histograma para interpretar la distribución de las variables. Finalmente, se analizan los resultados obtenidos de cada ejercicio.
4. EJERCICIO 1
Seleccionar dos variables cualitativas-factor del
fichero, describirlas en tablas de frecuencia e
interpretar al menos tres aspectos en relación
a la distribución de las mismas.
Las variables que hemos elegido son tabaco y
fruta. Ahora describiremos cada variables en
una tabla de frecuencia
6. De la tabla de frecuencia podemos obtener información :
- La mitad de la muestra nunca ha consumido el tabaco.
- Los que suelen consumir tabaco lo hacen a diario (17,30%) , pero sobre todo
alguna vez (19,03%)
- El dato variable que menos valores tiene es el 5,88% que suelen hacerlo 2 o 3
veces al mes.
8. Gracias a la tabla de frecuencia obtenemos los siguientes aspectos:
- Todos los datos están disponibles
- El 89% come algo de fruta a lo largo de la semana y el 32 % come fruta a diario.
- El 22% no come fruta o come menos de una vez por semana
- Un 55% del total comen frutas 3 o más veces a la semana
9. EJERCICIO 2
Seleccionar dos variables del fichero y
mediante resúmenes numéricos describir
e interpretar la distribución de las mismas.
Las variables elegidas son peso y altura
11. Gracias al resumen numérico podemos obtener la siguiente
información:
- La media de la variable es de 62,75571 y su desviación típica es de
12,65981
- La mediana es de 60, ya que el número que se corresponde con el
Q2 , dejando el 50% de los valores por encima y el otro 50% por
debajo,
- Es una variable simétrica porque la media y la mediana tienen
valores muy parecidos
- No se encuentran todos los datos disponibles, 16 de ellos no lo
están,
13. Gracias a los resumen numérico de la variable altura podemos
obtener los siguientes aspectos:
- La media de la variable es de 1,667
- La desviación típica es de 0,08078101
- Solo encontramos un dato no disponible
- La mediana es de 1,655 al ser la cifra que coincide con el segundo
cuartil , dejando a un lado el 50% de los datos y al otro el otro
50%,
- La variable es simétrica porque la media y la mediana son muy
similares,
14. EJERCICIO 3
Consiste en realizar al menos un gráfico de
cada tipo con variables adecuadamente
seleccionadas
Describir e interpretar la distribución de esos
datos
Para la variable cualitativas contamos con el
gráfico de barra y de sectores
15.
16. Con estos datos podemos
observar que no es nada
común realizar el botellón
a diario, siendo lo más
normalizado hacerlo 2 o 3
veces por semana ,
aunque también
encontremos a personas
que no realizan esta
actividad nunca,
17.
18. Gracias a esta gráfica,
podemos interpretar que la
mayoría de la muestra realiza
el botellón solo los fines de
semana , o de 2 a 3 veces al
mes, siendo también elevado
el número de personas que lo
hacen algunas veces al año ,
y las personas que nunca lo
realizan , y en una pequeña
proporción se encuentran los
que realizan botellón a diario
o 2 o 3 veces a la semana
19. Para variables numéricas utilizamos el
diagrama de cajas y el histograma
Variable:
COMUNICACIÓN
FAMILIAR