El documento solicita realizar varios análisis estadísticos sobre una muestra de datos de mujeres y hombres que incluye variables como glucemia, edad, sexo y color de cabello. Se pide calcular estadísticos descriptivos, crear gráficos y tablas, e interpretar los resultados. Para completar la tarea, se utiliza el software R para importar los datos, calcular estadísticos y crear representaciones gráficas que permitan analizar la relación entre las variables.
2. Problema a resolver: se desea realizar un estudio sobre una muestra de mujeres
y hombres, de la que se obtienen los datos de la siguiente tabla (glucemia
medida en g/litros y edad en años).
Se solicita:
1. Mediante software estadístico, calcular los valores máximo y mínimo,
media, mediana, desviación típica, rango, cuartiles y medidas de forma de la/s
variable/s numérica/s.
2. Comentar e interpretar los resultados obtenidos en la desviación típica,
cuartiles y medidas de forma.
3. Presentar una tabla con todas las frecuencias posibles de la/s variable/s
cualitativa/s.
4. Mediante software estadístico, representar gráficamente la distribución de
cada una de las variables.
5. Crear un gráfico que relacione “Glucemia” y “Sexo”. Interpretar y comentar
el gráfico.
6. Mediante software estadístico, crear una tabla de contingencia que
relacione “Cabello” y “Sexo”.
3. Antes de comenzar con la tarea pedida, hemos de introducir los datos de la tabla
dada en el programa estadístico R. Para ello convertimos el PDF en archivo Excel para
poder abrirlo con el sofware. Siguiendo el comando: Datos, importar datos desde un
archivo de Excel, conseguimos archivo deseado en el programa.
Si seleccionamos
visualizar conjunto
de datos
observamos que
tenemos la tabla
pedida insertada.
4. 1. Mediante software estadístico, calcular los valores máximo y mínimo,
media, mediana, desviación típica, rango, cuartiles y medidas de forma
de la/s variable/s numérica/s.
1
En primer lugar, tenemos que emplear el comando: estadísticos, resúmenes,
conjunto de datos activos. Una vez cliqueado, obtenemos la siguiente
información.
Valores mínimos
1º cuartil
Mediana
Media
3º cuartil
Valores máximos
5. 2 Seguidamente, mediante el comando: estadísticos, resúmenes y resúmenes
numéricos, obtenemos la información restante solicitada. Para ello, una vez
cliqueado es este último, en la opción Estadísticos, seleccionamos aquellos que nos
interesen.
Mean: media
Sd: desviación típica
25: 1º cuartil
50: mediana o 2º cuartil
75: 3º cuartil
IQR: rango intercuartílico
Skewness: asimetría
Así obtenemos, en la variable edad:
6. En la variable glucemia:
2. Comentar e interpretar los resultados obtenidos en la desviación típica,
cuartiles y medidas de forma.
Desviación típica: en relación a la edad, el valor obtenido es 18`03 aproximadamente.
Es un resultado lejano a 0, lo que significa que los datos se encuentran dispersos entre
sí. En la variable glucemia, por el contrario, el resultado es cercano a 0, por lo que los
datos se encuentran muy próximos entre sí.
Cuartiles: en la edad, el primer cuartil es 35`5, lo que significa que el 25% de los datos
menores tienen como máxima edad este valor. El segundo cuartil (que corresponde
con la mediana, valor que deja atrás el 50% de los datos), es de 47, lo que quiere decir
que el 50% de los datos más bajos tiene como edad máxima 47. El tercer cuartil (que
deja el 75% de los datos inferiores atrás) es de 59´5,y hace referencia a que la edad
máxima del 75% de los valores mínimos corresponden a este valor.
7. Medidas de forma: en la edad, la asimetría es aproximadamente – 0`0787. Al ser
menor que 0, encontramos una asimetría o curva sesgada a la izquierda. La curtosis
(- 0`9079 aproximadamente), al tratarse de un valor inferior a 0, la curva es
platicúrtica, existiendo una concentración baja de valores en la zona central de la
distribución de las frecuencias.
En la variable glucemia, la asimetría es aproximadamente de 1`1861. Al ser superior
a 0, nos encontramos ante una curva sosegada a la derecha. La curtosis, por su
parte, es de 0`0315. Al tratarse de un valor por encima de 0, la curva será estilizada
(curva leptocúrtica), por lo que la concentración de valores en la región central de la
distribución de frecuencias es elevada.
En relación a la variable glucemia, el valor del primer cuartil es 0´95, lo que implica
que el 25% de los datos menores tienen como nivel de glucemia máximo este valor.
El segundo cuartil (50% de los datos inferiores presentan como máximo estos
valores) es de 1`55 y corresponde con la mediana. Finalmente, el tercer cuartil (el
75% menor de las muestra presenta como máximo este valor de glucemia) tiene
como valor 1`99.
8. 3. Presentar una tabla con todas las frecuencias posibles de la/s variable/s
cualitativa/s.
Para ello empleamos la tabla inicial propuesta de los datos para
realizar la tarea y el programa Excel. Introducimos los datos con las
frecuencias necesarias.
Tabla de frecuencia
para el color de
pelo
Tabla de
frecuencia para
el sexo
9. 4. Mediante software estadístico, representar gráficamente la distribución
de cada una de las variables.
Cliqueando el gráficas, encontramos
los diferentes gráficos que podemos
insertar en el programa. En función
del número de variables
seleccionamos un tipo u otro. En la
variable edad, utilizaremos un
diagrama de barras.
En el caso de la variable
sexo, al tratarse únicamente
de dos posibilidades,
elegiremos una gráfica de
sectores.
10. Para representar los
niveles de glucemia,
emplearemos el
diagrama de caja.
Finalmente, para la
representación de la variable
cabello, utilizaremos
nuevamente una gráfica de
sectores, pues tan solo hay tres
opciones posibles.
11. 5. Crear un gráfico que relacione “Glucemia” y “Sexo”. Interpretar y
comentar el gráfico.
Con el seguimiento del comando que anteriormente hemos empleado para
representar las diferentes variables que estamos estudiando (gráficas, diagrama de
caja), el computador abre la ventana ilustrada a continuación:
Seleccionamos la variable
deseada, en este caso, la
glucemia.
En este caso, se solicita la
representación de un gráfico en función
del sexo. Para ello, seleccionamos el
grupo según la variable sexo.
12. La imagen a la derecha es el resultado
que hemos obtenido tras la operación
anterior (gráfico que relaciona sexo y
nivel de glucemia).
Interpretación y comentario del
diagrama de caja:
En primer lugar, hemos de destacar
que en la muestra tomada hay un
número mayor de mujeres que de
hombres. Asimismo, el grupo de
mujeres presenta una mayor
cantidad de glucosa en sangre.
Por consiguiente, los valores de los
hombres están más próximos entre
sí en relación a los del sexo opuesto.
No obstante, la mediana en las mujeres tiene un valor superior a los hombres.
Los bigotes inferiores de ambos sexos se encuentran en el mismo nivel de glucemia,
mientras que el bigote superior de las mujeres está mucho más alejado respecto al
tercer cuartil que en el sexo opuesto.
13. 6. Mediante software estadístico, crear una tabla de contingencia que
relacione “Cabello” y “Sexo”.
Para lograr el problema planteado, empleamos el siguiente comando en el programa sofware
estadístico R que estamos utilizando: estadísticos, tabla de contingencia, tabla de doble
entrada. Una vez cliqueamos en este último paso, se abre la ventana ilustrada a continuación:
En la tabla de contingencia
que vamos a crear, elegimos
una variable para cada
entrada. Cliqueamos en
aceptar y obtenemos lo
deseado.
Resultado final