1. SEMINARIO 6: ESTADÍSTICA DESCRIPTIVA
1. INTRODUCCION
La estadística descriptiva es el análisis exploratorio de datos (AED). Es el primer paso en el
análisis de datos estadísticos que resulta fundamental para hacernos una idea de los resultados
obtenido y/o de la existencia de datos perdidos o extraños (construcción, manipulación o
importación).
Por tanto, es el primer paso para evaluar nuestras distribuciones de datos. Va a depender del
tipo de variable.
2. OBJETIVOS
- Generales: utilizar la estadística descriptiva para exponer ordenadamente e interpretar
la información recogida sobre un conjunto de datos.
- Específicos:
o Describir en tablas de frecuencia los datos de dos variables cualitativas-factor
del fichero “activossalud.RData” e interpretar al menos 3 aspectos en relación
a la distribución de las mismas.
o Describir mediante resúmenes numéricos dos variables numéricas del fichero
“activossalud.RData” e interpretar la distribución de las mismas.
o Realizar al menos un gráfico de cada tipo con variables adecuadamente
seleccionadas del fichero “activossalud.RData”, describir e interpretar la
distribución de los mismos.
3. METODOLOGIA
- Población de estudio: en este caso hemos realizado el estudio sobre 290 estudiantes
de primero de enfermería de la Universidad de Sevilla, centros propios y adscritos
para conocer sus estilos de vida y activos en salud.
- Variables que se van a analizar:
o Variables incluidas en los análisis y de qué tipo son:
Estudios madre: es de tipo cualitativa. Tres categorías: 1- Ninguno o
primarios, 2- Bachiller, 3- Universitarios
2. Fruta: de tipo cualitativa. 1- “Nunca o casi nunca”, 2- “Menos de una
vez por semana”, 3-“Una o dos veces a la semana”, 4- “Tres o más
veces a la semana”, 5 “A diario”
Horas práctica deportiva: de tipo cuantitativa. Horas de dedicación a
practicar deporte a la semana
Peso: de tipo cuantitativa. Vector numérico, unidades kg
Protección preservativo: de tipo cualitativa. : 0- “Nunca”, 1- “Alguna
vez”, 2- “Siempre”, 3- “No he tenido relación”
Altura: de tipo cuantitativa. Vector numérico, unidades metros
Refrescos:1- “A diario”, 2-“Tres o más veces a la semana”, 3-“Una o
dos veces a la semana”, 4- “Menos de una vez por semana”, 5- “Nunca
o casi nunca”
- Análisis de datos:
o Software estadístico utilizado: RStudio y Rcommander
o Análisis estadísticos que se van a realizar:
He realizado una distribución de frecuencias para obtener una tabla de
frecuencia en la que poder comparar los datos.
He realizado resúmenes numéricos para poder analizar la moda, los
cuartiles… de dos variables.
He realizado cuatro tipos de gráficas: sectores, barras, histograma de
frecuencia y gráfica de cajas.
4. RESULTADOS
En primer lugar tenemos que abrir RStudio. Dentro de RStudio pulsamos en la pestaña
“Packages” y seleccionamos el paquete de Rcommander para que nos lo abra. Una vez abierto
Rcommander pulsamos en “Datos”, “Cargar conjunto de datos” y subimos el archivo de
activosensalud que habremos descargado previamente de la enseñanza virtual.
TAREA 1: SELECCIONE DOS VARIABLES CUALITATIVAS-FACTOR DEL FICHERO
“ACTIVOSSALUD.RDATA”, DESCRÍBALAS EN TABLAS DE FRECUENCIAS E
INTÉRPRETE AL MENOS 3 ASPECTOS EN RELACIÓN A LA DISTRIBUCIÓN DE
LAS MISMAS
3. Primero tenemos que seleccionar 2 variables cualitativas del fichero. Para ello clicamos en
“Estadísticos”, después en “Resúmenes” y finalmente en “Distribución de frecuencias”. Con
esto conseguimos la tabla de frecuencias de las variables seleccionadas. Yo en primer lugar he
elegido la variable estudiosmadre
Según estos datos, de un total de 290 entrevistados solo 286 mujeres contestaron esta
pregunta. De ese total de 286, casi la mitad de las madres, es decir, 135 o no han realizado
ningún estudio o solo han logrado terminar los estudios primarios lo que supone un 47.20%
de la muestra frente a un 28.67% que ha terminado bachiller y un 24.13% que terminó los
estudios universitarios. De las 286 madres que contestaron, 82 de estas fueron capaces de
terminar los estudios de bachillerato (28.67%), mientras que solo 69 madres terminaron con
éxito los estudios universitarios (24.13%).
La segunda variable que seleccioné fue “fruta” que se refería al consumo de frutas de la
muestra
Esta tabla se refiere a la
frecuencia absoluta.
4. Esta tabla se refiere al
porcentaje.
Según estos datos todas las personas encuestadas contestaron esta pregunta. De las 290
personas encuestadas, 32 personas contestaron que nunca o casi nunca tomaban fruta y otras
32 contestaron que tomaban fruta menos de una vez por semana suponiendo esto un 11.03%
(22.06% en total) en cada parte con respecto a un 32.07% de personas que come fruta a diario.
67 de las personas que respondieron comen fruta una o dos veces a la semana (23.10%) y solo
una personas menos, es decir, 66 personas comen fruta tres o más veces a la semana pero no a
diario (22.76%). Pero sorprendentemente 93 personas contestaron que comían fruta a diario
siendo este el porcentaje más alto de la encuesta (32.07%) dando como resultado que hay un
mayor número de personas que comen fruta a diario.
TAREA 2: SELECCIONE DOS VARIABLES NUMÉRICAS DEL FICHERO
“ACTIVOSSALUD.RDATA”, Y MEDIANTE RESÚMENES NUMÉRICOS DESCRIBA E
INTERPRETE LA DISTRIBUCIÓN DE LAS MISMAS.
Primero habrá que seleccionar dos variables numéricas. Para ello primero tenemos que clicar
en “Estadísticos”, luego pinchamos en “Resúmenes” y a continuación en “Resúmenes
numéricos”. Ya dentro de “Resúmenes numéricos” habrá que seleccionar las variables. Yo en
primer lugar he seleccionada la variable “horaprácticadeportiva” y en segundo lugar la
variable “peso”.
5. Una vez obtenidos los resúmenes numéricos, los interpretamos. Se observa de izquierda a
derecha la media, la desviación típica, los cuartiles, la muestra (n) y el término NA que
representa las personas que no han respondido a dicha pregunta.
- Hora práctica deportiva: según los datos, las horas de prácticas deportivas media es
2.48 horas. Solo 1 de las 290 personas no contesto a la pregunta. El tercer cuartil nos
indica que solo el 75% de la muestra realiza 2 horas de prácticas deportivas y un 25%
de las personas que realiza 4 horas de práctica deportiva.
- Peso: según los datos, el peso medio es de unos 62.75 kg aproximadamente. De las
275 personas a las que se le hizo la pregunta, 16 personas no la respondieron.
Menos del 25% de las personas pesa 38 kg o menos. Un 50% de las personas pesa
menos de 60 kg y un 75% de las personas pesa entre 38 y 68 kg. Un 25% de las
personas pesa entre 68 y 130 kg.
TAREA 3: REALIZAR, AL MENOS, UN GRÁFICO DE CADA TIPO (SECTORES,
BARRAS, HISTOGRAMA Y CAJAS) CON VARIABLES ADECUADAMENTE
SELECCIONADAS DEL FICHERO “ACTIVOSSALUD.RDATA”. DESCRIBA E
INTERPRETE LA DISTRIBUCIÓN LOS MISMOS.
Tenemos que realizar varios gráficos. Para ello pinchamos en “Gráficas” y seleccionamos la
que más nos convenga.
El primer gráfico que voy a realizar es un diagrama de sectores sobre la variable
proteccionpreservativo.
6. Con el gráfico, observamos que un poco más de la mitad de la muestra (azul) utiliza el
preservativo siempre como protección. También que un cuarto de la muestra (verde) lo utiliza
alguna vez y que muy poca gente de la población o nunca lo utiliza o no ha tenido una
relación sexual aún. Esto nos hace reflexionar sobre que la mayoría de las personas a las que
se les ha realizado la encuesta utiliza el preservativo lo cual es bueno.
La siguiente gráfica que voy a realizar es una grafica de barras utilizando como variable el
consumo de refrescos. Este tipo de variables se pueden expresar con la frecuencia absoluta o
con el porcentaje. Yo voy a mostrar los dos tipos de gráficas pero voy a analizar la del
porcentaje.
7. En la gráfica podemos observar que un 50% de la muestra nunca toma refresco o que lo toma
menos de una vez por semana ya que cada barra muestra el 25% de la población.
Tambien observamos que menos de un 25% toma refresco 1 o 2 veces por semana, que un
15% lo toma 3 o más veces a la semana y que un 12% aproximadamente lo toma a diario
La tercera grafica que voy a representar es un histograma de frecuencia donde he representado
la altura como variable.
8. En esta gráfica se observa que la mayoría de las personas miden entre 1.55 y 1.70 más o
menos y que pocas personas miden menos de 1.55 o más de 1.70.
Por último realizaré un diagrama de cajas utilizando como variable el peso
Con este gráfico podemos observar que la mediana en este caso sería 60kg.
Observamos tambien que el 50% de las personas tienen un peso que corresponde con los
valores que oscilan entre los 50kg y los 70kg.
También observamos que un 25% de la muestra pesa menos de unos 57 kg. y que el peso más
bajo es 40kg
También que un 25% de la muestra pesa más de unos 70 kg y que el peso más superior es de
unos 90 kg.
También se pueden encontrar unos números que se encuentran por encima de lo que sería el
gráfico de cajas y que no se encuentran por orden. Eso es porque esos números correspondes
con los números de los sujetos cuyo peso tiene un valor que se encuentran muy alejados de
los valores del conjunto de datos que abarca en si la gráfica de cajas
9. 5. CONCLUSION
A través de todos análisis que hemos realizado hemos ido pudiendo comparar los distintos
datos obtenidos de la muestra y realizar un análisis valorativo de la población como por
ejemplo en el caso de la variable fruta que hemos podido comprobar que la mayoría de la
muestra a la que se la ha realizado la encuesta tomaba fruta todos los días.