SEMINARIO 6: Análisis
exploratorio de datos.
Tablas de frecuencias, resúmenes
numéricos y gráficos.
Andrea Aparicio Martín
Grupo 1. Subgrupo 1
ACTIVIDAD 1
Selecciona dos variables cualitativas-
factor del fichero “activossalud.RData”,
descríbelas en tablas de frecuencias e
interpreta al menos 3 aspectos en
relación a la distribución de las
mismas.
PASO 1: cargamos el conjunto de datos
PASO 2:
PASO 3: elegimos la variable «cerveza»
PASO 4: obtenemos la tabla de frecuencia
de la variable «cerveza»
PASO 5:
PASO 6: elegimos la variable «dulces»
PASO 7: obtenemos la tabla de frecuencia
de la variable «dulces»
INTERPRETACIÓN
O ¿Qué porcentaje consumen cerveza a diario?
1,38%
O ¿Qué es más frecuente consumir dulces o cerveza?
Dulces, ya que el porcentaje de personas que no
consumen nunca dulces (14,48%) es menor que el de
cerveza (37,02%).
O ¿Cuántas personas consumen dulces 3 o mas veces
a la semana?
49
O ¿Cuántas personas consumen cerveza los fines de
semana?
60
ACTIVIDAD 2
Selecciona dos variables numéricas del
fichero “activossalud.RData”, y
mediante resúmenes numéricos
describe e interpreta la distribución de
las mismas.
PASO 1: elegimos la opción resúmenes
numéricos
PASO 2: escogemos la variable «altura»
PASO 3: nos aseguramos de las opciones de
estadístico que queremos buscar
PASO 4: obtenemos los resúmenes
numéricos de la variable «altura»
PASO 5: elegimos la variable «peso»
PASO 6: obtenemos los resúmenes
numéricos de la variable «peso»
INTERPRETACIÓN
O La media de la altura es de 1,66 y la media del
peso es de 62,75
O La desviación típica de la altura es de 0,08 por lo
que los datos se acercan mucho; y la desviación
típica del peso es de 12,65, por lo que los datos
están muy dispersos.
O En cuando a los encuestados, en relación a la
altura respondieron 290 y 1 no respondió; y en
relación al peso respondieron 275 y 16 no
respondieron.
ACTIVIDAD 3
Debes realizar al menos un gráfico de
cada tipo con variables
adecuadamente seleccionadas del
fichero “activossalud.RData”, describe
e interpreta la distribución los
mismos.
PASO 1: elegimos la opción gráfico de
sectores
PASO 2: elegimos la variable
«madresanitaria»
PASO 3: obtenemos el diagrama de sectores
Seleccionamos la variable
«madresanitaria» porque es
cualitativa, y además es una
variable que no tiene múltiples
categorías.
INTERPRETACIÓN
En color azul se representan los
encuestados que sí tienen madre
sanitaria, y en color rosa los que
no tienen madre sanitaria.
PASO 4: realizamos la gráfica de barras
PASO 5: escogemos la variable «cerveza»
PASO 6: obtenemos la gráfica de barras
INTERPRETACIÓN
Representa variables cuantitativas.
En el eje de las abscisas (x/horizontal)
se le asignan los valores de las
variables.
En el eje de las ordenadas (Y/vertical)
informa de las frecuencias.
Como podemos observar en el
gráfico, el que tiene mayor frecuencia
es el que nunca ha consumido
cerveza, seguido de 2 o 3 veces
semana y por último, con muy poca
frecuencia los que la consumen a
diario.
PASO 7: histograma
PASO 8: elegimos la variable «comunicacionfamiliar»
PASO 9: obtenemos el histograma
INTERPRETACIÓN
Representan variables
numéricas.
En el eje de ordenadas aparece
la frecuencia y en el eje de las
abscisas aparece la variable
«comunicacionfamiliar»
PASO 10: diagrama de caja
PASO 11: elegimos la variable
«horapracticadeportiva» y obtenemos el diagrama
de cajas
INTERPRETACIÓN
Representa variables
numéricas.
El rango intercuartílico es mas
o menos simétrico, hay 5
personas que sobrepasan el
percentil 75; lo cuál significa
que estas cinco personas
invierten más tiempo en
realizar deporte.

Seminario 6

  • 1.
    SEMINARIO 6: Análisis exploratoriode datos. Tablas de frecuencias, resúmenes numéricos y gráficos. Andrea Aparicio Martín Grupo 1. Subgrupo 1
  • 2.
    ACTIVIDAD 1 Selecciona dosvariables cualitativas- factor del fichero “activossalud.RData”, descríbelas en tablas de frecuencias e interpreta al menos 3 aspectos en relación a la distribución de las mismas.
  • 3.
    PASO 1: cargamosel conjunto de datos
  • 4.
  • 5.
    PASO 3: elegimosla variable «cerveza»
  • 6.
    PASO 4: obtenemosla tabla de frecuencia de la variable «cerveza»
  • 7.
  • 8.
    PASO 6: elegimosla variable «dulces»
  • 9.
    PASO 7: obtenemosla tabla de frecuencia de la variable «dulces»
  • 10.
    INTERPRETACIÓN O ¿Qué porcentajeconsumen cerveza a diario? 1,38% O ¿Qué es más frecuente consumir dulces o cerveza? Dulces, ya que el porcentaje de personas que no consumen nunca dulces (14,48%) es menor que el de cerveza (37,02%). O ¿Cuántas personas consumen dulces 3 o mas veces a la semana? 49 O ¿Cuántas personas consumen cerveza los fines de semana? 60
  • 11.
    ACTIVIDAD 2 Selecciona dosvariables numéricas del fichero “activossalud.RData”, y mediante resúmenes numéricos describe e interpreta la distribución de las mismas.
  • 12.
    PASO 1: elegimosla opción resúmenes numéricos
  • 13.
    PASO 2: escogemosla variable «altura»
  • 14.
    PASO 3: nosaseguramos de las opciones de estadístico que queremos buscar
  • 15.
    PASO 4: obtenemoslos resúmenes numéricos de la variable «altura»
  • 16.
    PASO 5: elegimosla variable «peso»
  • 17.
    PASO 6: obtenemoslos resúmenes numéricos de la variable «peso»
  • 18.
    INTERPRETACIÓN O La mediade la altura es de 1,66 y la media del peso es de 62,75 O La desviación típica de la altura es de 0,08 por lo que los datos se acercan mucho; y la desviación típica del peso es de 12,65, por lo que los datos están muy dispersos. O En cuando a los encuestados, en relación a la altura respondieron 290 y 1 no respondió; y en relación al peso respondieron 275 y 16 no respondieron.
  • 19.
    ACTIVIDAD 3 Debes realizaral menos un gráfico de cada tipo con variables adecuadamente seleccionadas del fichero “activossalud.RData”, describe e interpreta la distribución los mismos.
  • 20.
    PASO 1: elegimosla opción gráfico de sectores
  • 21.
    PASO 2: elegimosla variable «madresanitaria»
  • 22.
    PASO 3: obtenemosel diagrama de sectores Seleccionamos la variable «madresanitaria» porque es cualitativa, y además es una variable que no tiene múltiples categorías. INTERPRETACIÓN En color azul se representan los encuestados que sí tienen madre sanitaria, y en color rosa los que no tienen madre sanitaria.
  • 23.
    PASO 4: realizamosla gráfica de barras
  • 24.
    PASO 5: escogemosla variable «cerveza»
  • 25.
    PASO 6: obtenemosla gráfica de barras INTERPRETACIÓN Representa variables cuantitativas. En el eje de las abscisas (x/horizontal) se le asignan los valores de las variables. En el eje de las ordenadas (Y/vertical) informa de las frecuencias. Como podemos observar en el gráfico, el que tiene mayor frecuencia es el que nunca ha consumido cerveza, seguido de 2 o 3 veces semana y por último, con muy poca frecuencia los que la consumen a diario.
  • 26.
  • 27.
    PASO 8: elegimosla variable «comunicacionfamiliar»
  • 28.
    PASO 9: obtenemosel histograma INTERPRETACIÓN Representan variables numéricas. En el eje de ordenadas aparece la frecuencia y en el eje de las abscisas aparece la variable «comunicacionfamiliar»
  • 29.
  • 30.
    PASO 11: elegimosla variable «horapracticadeportiva» y obtenemos el diagrama de cajas INTERPRETACIÓN Representa variables numéricas. El rango intercuartílico es mas o menos simétrico, hay 5 personas que sobrepasan el percentil 75; lo cuál significa que estas cinco personas invierten más tiempo en realizar deporte.