Este documento presenta los resultados de varios ejercicios de análisis exploratorio de datos realizados sobre el conjunto de datos "activossalud.RData". En el primer ejercicio, se analizan dos variables cualitativas mediante tablas de frecuencias y se concluye que la mayoría de la población joven realiza botellón los fines de semana. En el segundo ejercicio, se describen dos variables numéricas mediante resúmenes estadísticos. Finalmente, en el tercer ejercicio se generan diferentes gráficos como histogramas,
Comprender conceptos fundamentales de estadística
Elaborar, analizar e interpretar distribuciones de frecuencia y gráficos estadísticos
Calcular e interpretar las medidas de posición
Qué es la estadística?
Qué es la teoría de probabilidades?
Qué es la estadística descriptiva?
Qué es la estadística inferencial
------------------------------------------------------------
Definiciones básicas
Medidas de tendencia no central
Medidas de tendencia central
Medidas de dispersión
Momentos
Representación gráfica de la información
Histogramas
Comprender conceptos fundamentales de estadística
Elaborar, analizar e interpretar distribuciones de frecuencia y gráficos estadísticos
Calcular e interpretar las medidas de posición
Qué es la estadística?
Qué es la teoría de probabilidades?
Qué es la estadística descriptiva?
Qué es la estadística inferencial
------------------------------------------------------------
Definiciones básicas
Medidas de tendencia no central
Medidas de tendencia central
Medidas de dispersión
Momentos
Representación gráfica de la información
Histogramas
Data Governance is vital for all business to gain the full value from their people and from their data.
YQUP will help you gain the benefit and boost your ROI.
Data is the lifeblood of a modern organisation.
Ensuring you have the right data in the right place at the time is a business imperative.
When this happens, you can say you are acing the last data mile.
Esto es un informe de estadística como ejemplo a utilizar la estadística descriptiva para exponer ordenadamente e interpretar la información recogida sobre un conjunto de datos
1. Seminario 6:
Análisis exploratorio de datos
Tablas de frecuencias, resúmenes numéricos y
gráficos.
María Jesús Rodríguez
Macarena grupo 1 (Subgrupo 3)
2. Ejercicio 1:
• Selecciona dos variables cualitativas -factor
del fichero “activossalud.RData”, descríbelas
en tablas de frecuencias e interpreta al menos
3 aspectos en relación a la distribución de las
mismas.
5. • En la muestra seleccionada existe un gran porcentaje de
personas que realizan botellón los fin de semana (31.58%).
Mientras que en la variable edad un 56.4% tiene edad de 18-
20 años. Podemos concluir que la mayoría de la población
joven realiza botellón los fin de semanas.
• También es significativo el porcentaje de la muestra que
realiza botellón en algún momento del año un 82.11%.
• Muy poco porcentaje de la muestra realiza botellón a diario
(1%), lo que no quita importancia a la gran cantidad de
botellones que se realizan y la peligrosidad que conlleva para
la población.
6. Ejercicio 3:
Selecciona dos variables numéricas del fichero
“activossalud.RData”, y mediante resúmenes
numéricos describe e interpreta la distribución
de las mismas.
7. • Podemos observar que la media de horas de deporte es 2.48 y la media del peso es de 62.75.
• El máximo de peso es de 130 y el mínimo es de 38
• El máximo de horas de deporte son 16h y el mínimo de 0h
• Existe 1 persona que no contesta la variable práctica deportiva, mientras que 16 personas no
contestan la variable peso.
Este es el
resultado
8. Ejercicio 3:
Debes realizar al menos un gráfico de cada tipo
con variables adecuadamente seleccionadas del
fichero “activossalud.RData”, describe e
interpreta la distribución los mismos.
1. Histograma
2. Boxplot
3. Diagrama de barras
4. Diagrama de sectores
9.
10. Histograma
• Representación gráfica de una
variable en forma de barras, cuya
superficie de es proporcional a la
frecuencia de los valores
representados, ya sea en forma
diferencial o acumulada.
• Se usan variables cuantitativas,
como la altura
• Podemos observar que esta variable
sigue una distribución normal, al
centrarse en los valores centrales.
• Los valores que mas se repiten son 1.6
y 1.7
11. Boxplot
Presentación visual que describe varias
características importantes, al mismo tiempo,
tales como la dispersión y simetría.
Para su realización se representan los tres
cuartiles y los valores mínimo y máximo de los
datos, sobre un rectángulo, alineado horizontal
o verticalmente.
Interpretación del
Boxplot
12. Boxplot
• Podemos observar desde el valor 1 (aprox)
a 4 se encuentra un 25% de la muestra.
• De 4 a 6 se encuentra el 50% de la muestra
y la mediana en el 5.
• Del 6 a 9 existe otro 25%
• El rango llega de 1 a 9
• No sigue una distribución normal porque la
caja se encuentra desplazada
13. Diagrama de barras
• Representar gráficamente un conjunto de datos o
valores
• Conformado por barras rectangulares de longitudes
proporcionales a los valores representados.
• Los gráficos de barras son usados para comparar dos
o más valores. Pueden orientarse verticalmente u
horizontalmente
14. Diagrama de barras
• Podemos observar qu ecerca de 100
personas de la muestra nunca ha
tomado cerveza. En cambio 5
personas de la muestra
aproximadamente toman cerveza a
diario.
• La gran mayoría de la muestra toma
cerveza de 2 o 3 veces semanas a
alguna vez.
15. Diagrama de sectores
• Se utiliza para todo tipo de variables, pero se
usa frecuentemente para las variables
cualitativas.
• Los datos se representan en un círculo, de
modo que el ángulo de cada sector es
proporcional a la frecuencia absoluta
correspondiente.
16. Diagrama de sectores
• Según el diagrama la mayoría de
la muestra posee padres con
estudios ninguno o primarios.
• Mientras que aparentemente
existe una misma frecuencia de
padres con estudios de bachiller y
universitarios.