Este documento presenta un ejercicio estadístico sobre los datos de glucemia y edad de una muestra de hombres y mujeres. Se pide calcular estadísticos descriptivos como máximos, mínimos, media, mediana, desviación estándar, cuartiles y medidas de forma para las variables numéricas. También se solicita elaborar tablas de frecuencias para las variables cualitativas, y representar gráficamente la distribución de todas las variables mediante histogramas, diagramas de sectores y de cajas. Finalmente, se pide crear un
propiedades y clasificacion de los materiales metalicos
R y R commander para análisis estadístico
1. Programa Estadístico R y R commander
1
Lucia Zabala Sánchez-Noriega
Grupo 2. Subgrupo 9
Grado en Enfermería
ETICs
2. EJERCICIO 5.-
Se desea realizar un estudio sobre la en una muestra de mujeres y hombres, de
la que se obtienen los datos de la siguiente tabla (glucemia medida en g/litros y
edad en años).
1. Mediante software estadístico, calcula los valores máximo y mínimo, media,
mediana, desviación típica, rango, cuartiles y medidas de forma de la/s
variable/s numérica/s. Cuelga su desarrollo en el blog.
2. Comenta e interpreta los resultados obtenidos en la desviación típica,
cuartiles y medidas de forma.
3. Presenta una tabla con todas las frecuencias posibles de la/s variable/s
cualitativa/s.
4. Mediante software estadístico, representa gráficamente la distribución de
cada una de las variables.
5. Crea un gráfico que relacione “Glucemia” y “Sexo”. Interpreta y comenta el
gráfico.
6. Mediante software estadístico, crea una tabla de contingencia que relacione
“Cabello” y “Sexo”.
2
3. Para empezar, debemos pasar los datos a formato Excel para seguidamente importar en el
programa estadístico R.
3
4. 1. Mediante software estadístico, calcula los valores máximo y mínimo,
media, mediana, desviación típica, rango, cuartiles y medidas de forma
de la/s variable/s numérica/s. Cuelga su desarrollo en el blog.
Las variables numéricas de nuestro ejercicio son: Glucemia y Edad.
Para calcular estos valores pedidos, cliqueamos en “Estadísticos”→
“Resúmenes” → “Conjunto de datos activo” y obtenemos :
Nos piden además calcular rango, cuartiles y desviación típica; por lo que
cliqueamos en “Estadísticos” → “Resúmenes” → “Resúmenes numéricos”.
Seleccionamos las variables edad y glucemia y aceptamos
4
5. GLUCEMIA EDAD
Valor máx. 3,920 80,00
Valor min. 0,800 18,00
Media 1,593 47,35
Mediana- Q2 1,155 47,00
Desviación típica (sd) 0.8823993 18.0363593
Rango (IQR) 1,04 24,00
Q1 0,95 35,50
Q3 1,99 59,50
5
6. Para calcular la medidas de forma: asimetría y curtosis cliqueamos en
“Estadísticos” → “resúmenes” → “Resúmenes numéricos” . Seleccionamos
las variables que queremos calcular y cliqueamos en “Estadísticos” seleccionando
“asimetría” y “apuntamiento” y aceptamos.
6
7. 2. Comenta e interpreta los resultados obtenidos en la
desviación típica, cuartiles y medidas de forma.
Sabemos que a menor variación de los datos obtenidos, menor es la
Desviación típica o estándar (DE). Cuanto menor o más próxima
a cero es la desviación típica, más próximos a la media estarán los valores
de la variable ( mayor homogeneidad de la muestra ). Cuanto mayor es la
desviación típica, más se apartan los valores de la media aritmética. Si la
DE es igual a cero significa que no hay variación entre los datos.
En la muestra estudiada, la desviación típica para la glucemia es de
0.8823993, valor muy pequeño y cercano a cero; lo que significa que los
valores de la variable están cercanos a la media, la muestra es homogénea.
Por otro lado, la desviación típica obtenida para la variable edad es de
18.0363593, valor muy alejado del cero; por lo que indica que la muestra
no es homogénea.
7
8. Los cuartiles son valores de la variable que dividen una muestra ordenada en
cuatro partes iguales en cuanto al numero de individuos que la componen (igual
frecuencia).
El Q1 representa el 25% de los datos; el Q2 representa el 50% de los datos y
coincide con la mediana; y el Q3 corresponde con el 75% de los datos.
Glucemia:
El 25% inferior (Q1) de los individuos de la muestra tiene una glucemia ≤ 0,95
g/l.
El 50% de los individuos de la muestra tiene una glucemia ≤ 1,155 g/l.
El 25% superior (Q3) de los individuos tienen una glucemia ≥ 1,99 g/l.
Edad:
El 25% inferior (Q1) de los individuos de la muestra tiene una edad ≤ 35,5
años.
El 50% de los individuos de la muestra tiene una edad ≤ 47 años.
El 25% superior (Q3) de los individuos de la muestra tienen una edad ≥ 59,50
8
9. Para interpretar la Asimetría, el programa estadístico nos calcula el
coeficiente de sesgo. Según los valores obtenidos podremos considerar si
los datos se aproximan a una distribución normal o no.
Glucemia:
Al ser el coeficiente de sesgo para la variable glucemia 1.18617530, podemos
decir que es un asimetría positiva o con sesgo a la derecha (v > 0), lo que
significa que en la distribución de frecuencias el extremo derecho es más
alargado con respecto al eje normal.
Edad:
El coeficiente de sesgo para la variable edad es -0.07872191, por lo que
podemos decir que es una asimetría negativa o con sesgo a la izquierda (v < 0),
lo que significa que en la distribución de frecuencias el extremo izquierdo es mas
alargado con respecto al eje normal.
9
10. Curtosis es una medida de distribución que informa del grado de
apuntamiento de la curva , tomando como referencia a la distribución
normal. Determina el grado de concentración que presentan los valores en
la región central de la distribución de frecuencias.
Para ello el programa estadístico R calcula el coeficiente de curtosis.
Glucemia:
Para la glucemia el coeficiente de curtosis es 0.3105253, es una curva
estilizada (t > 0) , lo que significa que existe una gran concentración de
valores en la región central de la distribución de frecuencias. Curva
leptocúrtica.
Edad:
El coeficiente de curtosis para la edad es -0.9078610, es una curva aplanada
(t < 0), lo que significa que existe una baja concentración de valores en la
región central de la distribución de frecuencias. Curva platicúrtica.
10
11. 3. Presenta una tabla con todas las frecuencias posibles de la/s
variable/s cualitativa/s.
Las variables cualitativas que estudiamos en la muestra son : Sexo y Cabello.
Para elaborar la tabla de frecuencias en R commander, cliqueamos en
“Estadísticos” → “Resúmenes” → “Distribución de frecuencias” y
seleccionar las variables.
11
12. Sexo fa fr pi
Hombre 16 0,4 40
Mujer 24 0,6 60
n = 40 1 100
Cabello fa fr pi
Negro 28 0,7 70
Castaño 7 0,175 15,5
Rubio 5 0,125 12,5
n =40 1 100
12
13. 4. Mediante software estadístico, representa gráficamente
la distribución de cada una de las variables.
Cliqueamos en “Grafica” y
seleccionamos el tipo de grafico
según la variable que queramos
representar.
Sexo : diagrama de sectores
Cabello : diagrama de sectores y
diagrama de barras
Edad : Histograma y box-plot
Glucemia : Histograma y box-plot
13
18. 5. Crea un gráfico que relacione “Glucemia” y “Sexo”.
Interpreta y comenta el gráfico.
Cliqueamos en “Graficas” → “Histograma” y seleccionamos la
variable glucemia. Cliqueamos en “Gráfica por grupo” y
seleccionar la variable sexo.
18
19. Podemos observar que ambas
graficas no siguen una
distribución normal, pues la
mayoría de los datos se
encuentran en los extremos.
De primera impresión se
observa que hay relación en
cuanto a glucemia y sexo, en
los hombres los valores son
cercanos y cabe destacar que el
valor máximo encontrado en
hombres es 3,00. Por el contrario
si que hay mujeres con cifras de
glucemia de 3,00 a 4,00.
En las mujeres además no hay
frecuencia para valores de
glucemia de 2,00 a 2,5.
19
Interpretación
20. 6. Mediante software estadístico, crea una tabla de contingencia
que relacione “Cabello” y “Sexo”.
Para realizar una tabla de contingencias que relacione las variables “cabello”
y “sexo”, cliqueamos en “Estadístico” → “Tabla de contingencia” →
“Tabla de doble entrada”
20