1. Seminario 6 Estadística
Análisis exploratorio de datos. Tablas de frecuencias,
resúmenes numéricos y gráficos.
IRIS Mª MUÑOZ DEL PINO
2. Comenzamos el ejercicio…
A) Selecciona dos variables cualitativas-factor del
fichero “activossalud.RData”, descríbelas en
tablas de frecuencias e interpreta al menos 3
aspectos en relación a la distribución de las
mismas.
1º cargamos el conjunto de datos…
4. Describimos dos variables en tabla de
frecuencias..
Relacionamos la práctica de
botellón con el consumo de
vino.
5. Comparando porcentajes observamos que, el doble de
individuos no ha probado nunca el vino, y además existe el
mismo porcentaje de individuos que beben botellón/vino
a diario. Este resultado sorprende ya que el vino, siendo un
tipo de alcohol con menor graduación y recomendado
incluso para beber una copa al día, tenga resultados
similares al consumo de botellón, que son bebidas
destiladas y con una graduación mayor, además de ser más
dañinas para la salud.
Analizamos los datos…
6. Recalcando lo anterior comentado, en los fines de
semana se observa que el consumo de botellón es el
doble que el de vino, siendo los jóvenes de nuevo
más propensos a consumir bebidas destiladas.
Analizamos los datos…
7. B) Selecciona dos variables numéricas del fichero
“activossalud.RData”, y mediante resúmenes
numéricos describe e interpreta la distribución de las
mismas.
Segundo ejercicio
8. Seleccionamos las variables: Altura y
peso
• Se observa que respecto a la altura solo una persona no ha contestado, pero hay 16
personas que no han contestado acerca de su peso.
• La media del peso es de 1,67 aprox. Y la media del peso es de 62,76 aprox.
• La desviación en el peso es de 12,66 y en la altura de 0,08, lo que nos indica que los
valores en el peso se encuentran mucho más dispersos respecto a la altura.
• El máximo del peso se sitúa en 130 kg, en la altura 2m.
• El mínimo del peso se sitúa en 38 kg, en la altura de 1,46m.
• Lo que nos dice que la muestra es más homogénea respecto a la altura, sin embargo
se ve más heterogénea en el peso.
9. Debes realizar al menos un gráfico de cada tipo con
variables adecuadamente seleccionadas del fichero
“activossalud.RData”, describe e interpreta la
distribución los mismos.
Tercer ejercicio
10. Vamos a realizar las siguientes
gráficas
Vamos a dividir nuestro análisis en
gráficas para variables cuantitativas:
-HISTOGRAMA Y BOX-PLOT
Gráficas para variables cualitativas:
- Gráfica de barras y gráfica de
sectores
11. Histograma
Un histograma es una representación gráfica de una
variable en forma de barras, donde la superficie de cada
barra es proporcional a la frecuencia de los valores
representados.
En el eje vertical se representan las frecuencias, y en el eje
horizontal los valores de las variables, normalmente
señalando las marcas de clase, es decir, la mitad del
intervalo en el que están agrupados los datos.
Se utiliza cuando se estudia una variable continua.
En los casos en los que los datos son cualitativos (no-
numéricos), es preferible un diagrama de sectores.
12. Realizamos nuestro histograma
Podemos observar que en las horas de práctica
deportiva, no se sigue una distribución normal.
Por lo que concluimos que los individuos realizan
poco deporte o ni siquiera lo realizan.
13. “Caja-bigotes” o Box-plot
El 50% de los casos en el interior de la caja
La línea que corta es la mediana
Valor que divide a los datos ordenados en dos partes iguales
Los bigotes son los valores máximos y mínimos
Entre los límites de la caja y los bigotes: 25%
Diagramas en caja
14. Realizamos nuestro box-plot
En este caso hemos analizado la altura.
Hay 3 individuos que sacamos de nuestra
gráfica y representamos con
puntos:116,103,259; ya que alterarían
nuestra representación.
El valor máx. 1,46m aprox y el mín. 2m
aprox.
El 25% de los individuos tiene una altura de
1,6m , la mediana tiene una altura de
1,65m.
El 75% de los individuos tiene una altura de
1,75.
Por lo que observamos que los valores
están distribuidos proporcionalmente y
no muy dispersos entre 1,6 y 1,7.
15. Diagrama de sectores
Los datos se representan en
un círculo, de modo que el ángulo de
cada sector es proporcional a
la frecuencia
absoluta correspondiente.
En el caso de que la variable
cualitativa posea muchas categorías
no es muy útil.
17. Alturas proporcionales a las frecuencias (absolutas,
porcentajes)
–Al eje de las abscisas (X/ horizontal) se le asignan los
valores de las variables.
El eje de las ordenadas (Y, vertical) informa de las
frecuencias.
Diagrama de barras
18. Seleccionamos la variable: MARCHA
ATRÁS
Observamos que la gran mayoría no la ha
realizado nunca.
La minoría corresponde a aquellos que no han
tenido relaciones.
Aún así se observa también que el número de
individuos que la práctica siempre es muy
bajo, sobre 10.
Estos buenos resultados pueden deberse a
que son estudiantes de una rama sanitaria
como es Enfermería.