Actividad Seminario 6
Análisis exploratorio de datos
R Commander
Verónica Morales López
Grupo 4
Subgrupo 15
➲ Señale el objetivo deseado
➲ Precise aún más el objetivo
Seleccionamos desde “Fichero” “Cambiar directorio de
trabajo”
➲ Resuma la situación actual
Desarrollo hasta hoy
Desde “Datos”cliquear en “Cargar
conjunto de datos”
Añadimos en archivo
➲ Recomiende una o varias estrategias
➲ Resuma los resultados previstos
➲ Mencione los próximos pasos
➲ Distribuya las tareas
Actividad : Seminario 6.
1º Ejercicio
Selecciona dos variables cualitativas-factor
del fichero “activossalud.RData”, descríbelas
en tablas de frecuencias e interpreta al menos
3 aspectos en relación a la distribución de las
mismas.
Vamos a adquirir dos variables. Seleccionar en
“Estadísticos” “Resúmenes” “Distribución de
frecuencias”.
La primera variable es “embutidos” la
seleccionamos ...
Las concluciones de la tabla obtenidos de la variable
“embutidos” son:
El 89.24% de nuestra muestra cual consta de 288 individuos
consumen embutidos.
El % mas alto corresponde al 26,74% representan a los
individuos que mas consumen entre los cuales en 3 o mas veces
por semana.
El 10.76% de los individuos nunca consumen.
Realizamos los mismos pasos para obtener la
segunda variable . En este caso “edad”
Los datos obtenidos con la variable
“edad”
➲
➲ Nuestra muestra consta de 289 individuos de los
cuales los individuos de 18 años corresponden a al
mayor porcentaje de los datos obtenidos de los
cuales son el 38.41%.
El menor porcentaje corresponde a las personas
mayores de 25 años que se encuentran en un
10.03%.
2ºEjercicio
Selecciona dos variables numéricas del
fichero “activossalud.RData”, y mediante
resúmenes numéricos describe e
interpreta la distribución de las mismas.
Las variables elegidas son:
●
Altura.
●
Medicalización
Seleccionamos las variables
Esquema
➲ Resuma los planes fundamentales
➲ Exponga el desarrollo a largo plazo
Los datos obtenidos de la variable
“altura”.
Consta de una media de 1.667 una desviación típica
de 0.08078101.
Solo tenemos un dato no disponible.
La mediana es de 1.655.
Se trata de una distribución simétrica debido a las
cantidades de la media y la mediana que se
encuentran que unos valores muy cercanos.
Los datos obtenidos con la variable
“medicalización”
La media de la muestra es de .9.91235.
La desviación típica es 1.283856.
Falta los datos de 40 individuos.
La mediana la cual coincide con la Q2 es 10.
Se trata de una distribución asimétrica donde los datos se
encuentran muy dispersos.
3ª Ejercicio
Realizar al menos un gráfico de cada tipo con
variables adecuadamente seleccionadas del fichero
“activossalud.RData”, describe e interpreta la
distribución los mismos. En los cuales nos
encontraremos con:
➲ Gráfico de barras
➲ Gráfico de cajas
➲ Histogramas
➲ Gráfico de sectores
Seleccionar “Gráficas” y
desde ahí podemos
cliquear el gráfico que
queremos obtener.
Diagrama de sectores
Variable cualitativa.
“Dulces”
La mayor parte de la muestra
toman dulces1 o 2 veces a la semana
y en menor proporción comen dulces a
diario
Diagrama de barras
Variables cualitativas
“cerveza”
Contamos con una distribución asimétrica
en los que se puede observar que los
individuos que toman cerveza a diario
encuentran con muy poco porcentaje al contrario
de los que nunca beben se encuentran con una
gran diferencia lo que estos dos valores dan lugar
mucha dispersión está en mayor proporción
Diagrama de caja
Variable cualititava
“altura”
Como se puede observar la mediana
no se encuentra en el centro donde
los valores máximos se encuentran
muy dispersos en la distribución y
además en el Q1 es mucho menor
que el Q3 donde da lugar a ser asimétrica.
Diagrama de barras
Variable cuantitativa
“peso”
Se puede apreciar como la mayor
parte de la muestra se encuentra en
un peso de intervalo entre 50-60kg y
un mismo porcentaje en valores de
40-50 y de 70-80kg.

Análisis exploratorio de datos R Commander

  • 1.
    Actividad Seminario 6 Análisisexploratorio de datos R Commander Verónica Morales López Grupo 4 Subgrupo 15
  • 2.
    ➲ Señale elobjetivo deseado ➲ Precise aún más el objetivo Seleccionamos desde “Fichero” “Cambiar directorio de trabajo”
  • 3.
    ➲ Resuma lasituación actual
  • 4.
  • 5.
    Desde “Datos”cliquear en“Cargar conjunto de datos”
  • 6.
    Añadimos en archivo ➲Recomiende una o varias estrategias ➲ Resuma los resultados previstos ➲ Mencione los próximos pasos ➲ Distribuya las tareas
  • 8.
    Actividad : Seminario6. 1º Ejercicio Selecciona dos variables cualitativas-factor del fichero “activossalud.RData”, descríbelas en tablas de frecuencias e interpreta al menos 3 aspectos en relación a la distribución de las mismas.
  • 9.
    Vamos a adquirirdos variables. Seleccionar en “Estadísticos” “Resúmenes” “Distribución de frecuencias”.
  • 10.
    La primera variablees “embutidos” la seleccionamos ...
  • 11.
    Las concluciones dela tabla obtenidos de la variable “embutidos” son: El 89.24% de nuestra muestra cual consta de 288 individuos consumen embutidos. El % mas alto corresponde al 26,74% representan a los individuos que mas consumen entre los cuales en 3 o mas veces por semana. El 10.76% de los individuos nunca consumen.
  • 12.
    Realizamos los mismospasos para obtener la segunda variable . En este caso “edad”
  • 13.
    Los datos obtenidoscon la variable “edad” ➲ ➲ Nuestra muestra consta de 289 individuos de los cuales los individuos de 18 años corresponden a al mayor porcentaje de los datos obtenidos de los cuales son el 38.41%. El menor porcentaje corresponde a las personas mayores de 25 años que se encuentran en un 10.03%.
  • 14.
    2ºEjercicio Selecciona dos variablesnuméricas del fichero “activossalud.RData”, y mediante resúmenes numéricos describe e interpreta la distribución de las mismas. Las variables elegidas son: ● Altura. ● Medicalización
  • 15.
  • 16.
    Esquema ➲ Resuma losplanes fundamentales ➲ Exponga el desarrollo a largo plazo
  • 17.
    Los datos obtenidosde la variable “altura”. Consta de una media de 1.667 una desviación típica de 0.08078101. Solo tenemos un dato no disponible. La mediana es de 1.655. Se trata de una distribución simétrica debido a las cantidades de la media y la mediana que se encuentran que unos valores muy cercanos.
  • 19.
    Los datos obtenidoscon la variable “medicalización” La media de la muestra es de .9.91235. La desviación típica es 1.283856. Falta los datos de 40 individuos. La mediana la cual coincide con la Q2 es 10. Se trata de una distribución asimétrica donde los datos se encuentran muy dispersos.
  • 20.
    3ª Ejercicio Realizar almenos un gráfico de cada tipo con variables adecuadamente seleccionadas del fichero “activossalud.RData”, describe e interpreta la distribución los mismos. En los cuales nos encontraremos con: ➲ Gráfico de barras ➲ Gráfico de cajas ➲ Histogramas ➲ Gráfico de sectores Seleccionar “Gráficas” y desde ahí podemos cliquear el gráfico que queremos obtener.
  • 21.
    Diagrama de sectores Variablecualitativa. “Dulces” La mayor parte de la muestra toman dulces1 o 2 veces a la semana y en menor proporción comen dulces a diario
  • 22.
    Diagrama de barras Variablescualitativas “cerveza” Contamos con una distribución asimétrica en los que se puede observar que los individuos que toman cerveza a diario encuentran con muy poco porcentaje al contrario de los que nunca beben se encuentran con una gran diferencia lo que estos dos valores dan lugar mucha dispersión está en mayor proporción
  • 23.
    Diagrama de caja Variablecualititava “altura” Como se puede observar la mediana no se encuentra en el centro donde los valores máximos se encuentran muy dispersos en la distribución y además en el Q1 es mucho menor que el Q3 donde da lugar a ser asimétrica.
  • 24.
    Diagrama de barras Variablecuantitativa “peso” Se puede apreciar como la mayor parte de la muestra se encuentra en un peso de intervalo entre 50-60kg y un mismo porcentaje en valores de 40-50 y de 70-80kg.