2. FÁTIMA PONCE 2
PUNTOS A TRATAR
Sesión 3:
Estadística Descriptiva: Estadísticos Resúmenes.
Medidas de tendencia central (media, mediana,
moda).
Medidas de variabilidad o dispersión (varianza,
desviación estándar, coeficiente de variabilidad).
Medidas de posición no central (percentiles, cuartiles,
diagrama de caja)
3. FÁTIMA PONCE 3
ESTADÍSTICA DESCRIPTIVA
Permite construir y analizar cuadros estadísticos y
gráficos resúmenes, con el objetivo de resumir los datos,
de manera que sean entendibles e interpretables con
facilidad, a fin de que la información nos sirva para la toma
de decisiones.
Aplicar e interpretar medidas numéricas que resumen los
datos, como:
Medidas de localización central: Media, mediana,
moda.
Medidas de variabilidad: varianza, desviación estándar,
coeficiente de variabilidad.
4. FÁTIMA PONCE 4
Son medidas estadísticas numéricas que "resumen" la
información de la "muestra" para poder tener así un mejor
conocimiento de la población.
Estadística Descriptiva Sumaria
Tendencia Central
(Posición)
Dispersión
(Variación)
Sesgo
5. FÁTIMA PONCE 5
Estadística Descriptiva Sumaria
I. Medidas de:
Tendencia o Localización Central
Media Mediana Moda
o Se refieren al punto medio de una distribución,
o Informan de cómo están agrupados los datos.
o ¿Alrededor de qué valor se agrupan los datos?.
6. FÁTIMA PONCE 6
Estadística Descriptiva Sumaria
II. Medidas de:
Dispersión ó Variabilidad
Varianza Desviación
Estándar
Coefic. de
Variabilidad
Rango
oInforman de cuánto se alejan los datos del valor central.
III. Medidas de Forma de la distribución:
o La asimetría (sesgo) y la curtosis.
IV. Medidas de Posición no central:
o Más usadas son los Percentiles y Cuartiles.
7. FÁTIMA PONCE 7
LA MEDIA O VALOR PROMEDIO DE UNA
VARIABLE
Media Muestral: Se tiene n observaciones en la muestra:
N
X1 + X2 + X3 + … + XN Xii=1
= ------------------------------- = ------
N N
n
x1 + x2 + x3 + … + xn xi_ i=1
X = ------------------------------- = --------
n n
Media Poblacional: Se tiene N observaciones en la población:
8. FÁTIMA PONCE 8
Suponga que se tiene una muestra de ingresos por ventas
mensuales en miles de soles para 7 meses:
56, 67, 54, 45, 50, 48 y 65
LA MEDIA (O MEDIA ARITMÉTICA): EJEMPLO
La media muestral es:
_ 56 + 67 + 54 + 45 + 50 + 48 + 65
X = ----------------------------------------------
7
385
= ------- = 55 m.S/.
7
9. FÁTIMA PONCE 9
Ventajas:
Es un concepto familiar para la mayoría de personas.
Cada conjunto de datos tiene una media que es única.
Sirve para comparar entre varios conjuntos de datos
(comparación de medias).
Desventajas:
Puede verse afectada por valores extremos que no son
representativos. En este caso mejor emplear la mediana.
Si el conjunto de datos tiene un extremo abierto no se
puede calcular la media.
VENTAJAS Y DESVENTAJAS DE LA MEDIA
10. FÁTIMA PONCE 10
Suponga que en un curso tiene las siguientes notas:
MEDIA PONDERADA: EJEMPLO
Nota (X) Peso (W) XW
11 0.1 1.1
12 0.1 1.2
11 0.1 1.1
13 0.3 3.9
15 0.4 6.0
------- -------
1.0 13.3
Prácticas: 11, 12, 11 , c/práctica pesa 10%
Examen parcial: 13 , pesa 30%
Examen final: 15 , pesa 40%.
_ XW
XW = ----------
W
_ 13.3
XW = -------- = 13.3
1
¿Cuál es su nota final? (= promedio ponderado).
11. FÁTIMA PONCE 11
LA MEDIANA ó Media Posicional
Luego de ordenar los datos de menor a mayor: Es la
observación equidistante de los extremos: un 50% de
valores está debajo de ella y el otro 50% encima de ella en
la ordenación de los datos.
No es afectada por valores extremos.
Se puede hallar incluso cuando los datos son descripciones
cualitativas ordinales.
12. FÁTIMA PONCE 12
LA MEDIANA
Si el conjunto de datos tiene un número impar de
observaciones la posición de la mediana es: (n+1)/2
Por ej: 30, 52, 40, 60, 100,
la mediana es: 52.
Si es un número par de observaciones, la posición
de la mediana saldrá partido (3.5 por ej.) por lo que
se debe promediar los valores de la posición 3 y 4.
Por ej: 35, 45, 52, 56, 67, 67,
la mediana es 54.
13. FÁTIMA PONCE 13
Es el valor de la variable o la observación que ocurre
con mayor frecuencia.
Si los datos son: 35, 45, 52, 56, 67, 67, la moda es 67.
No es afectada por valores extremos.
Puede no existir una moda.
Pueden haber varias modas: Si hay dos valores que se
repiten más y con igual frecuencia será bimodal.
LA MODA
14. FÁTIMA PONCE 14
Moda:
Categoría o
valor que tiene
la mayor
frecuencia
Mediana: Categoría
o valor que divide
al conjunto de
datos en dos partes
iguales.
Media : Es la suma
de todos sus
valores dividida
entre el número de
sumandos
Medidas de Tendencia Central:
Informan cómo están concentrados los datos
Distribución Normal:
media=mediana= moda
x
50%50%
f(x)
15. FÁTIMA PONCE 15
La media, mediana o moda sólo revelan una parte de la
información acerca de las características de los datos.
Para aumentar nuestro entendimiento del patrón de los
datos, se debe medir también su dispersión o
variabilidad, porque:
1. Permite juzgar la confiabilidad de nuestra medida de
tendencia central.
2. Medida de riesgo (variables financieras, calidad).
MEDIDAS DE VARIABILIDAD O DISPERSIÓN
16. FÁTIMA PONCE 16
rango = XMás grande Xmás pequeño
No toma en cuenta la forma en que están distribuidos
los datos.
EL RANGO
Es la diferencia entre el más alto y el más pequeño
delos valores observados:
17. FÁTIMA PONCE 17
VARIANZA Y DESVIACIÓN
(en torno a su valor central)
DESVIACIÓN ESTÁNDAR
Poblacional: Muestral:
En la práctica no se emplea porque sus unidades están
elevadas al cuadrado.
2
Poblacional: Muestral:
18. FÁTIMA PONCE 18
Si se tiene una muestra de ingresos por ventas mensuales
en miles de soles para 7 meses: 56, 67, 54, 45, 50, 48 y 65
Se halló la media: 55.
LA VARIANZA Y DESVIACIÓN ESTANDAR:
EJEMPLO
La varianza muestral es:
s2 =[(56-55)2+(67-55)2+(54-55)2+(45-55)2+(50-55)2+(48-55)2+
(65-55)2] / (7-1)
s2 = 420 / (7-1) = 70 miles de S/ al cuadrado
s = 70 = 8.37 miles de S/.
La desviación estándar muestral es:
19. FÁTIMA PONCE 19
COEFICIENTE DE VARIACIÓN
Desviación estándar es una medida absoluta de la
dispersión que expresa la variación en las mismas
unidades que los datos originales No puede ser la
única base para la comparación de 2 distribuciones.
Se requiere de una medida relativa que proporcione
una estimación de la magnitud de la desviación
respecto a la magnitud de la media Coeficiente de
Variación ó Coeficiente de Variabilidad (CV).
20. FÁTIMA PONCE 20
COEFICIENTE DE VARIACIÓN
Mide la dispersión relativa de los datos y se calcula
dividiendo la desviación estándar muestral (s) por la
media y multiplicando el cociente por 100:
s
CV = -------- * 100 %
_
X
Compara la dispersión de dos o más grupos: A > valor de
CV > heterogeneidad de los valores de la variable.
Permite comparar dispersiones a escalas distintas. Pero varia
ante cambios de origen, por ello todos los valores deben ser
positivos.
21. FÁTIMA PONCE 21
EJEMPLO
Se dice que "Los economistas suelen tener mejores salarios
iniciales que los abogados".
a) ¿Qué indican los datos muestrales acerca de la afirmación?:
b) ¿En cuál de las muestras existe mayor variabilidad en los
sueldos?:
Rspta: CVAbogados=13.93% y CVEconomistas=16.79%
Mayor variabilidad hay en los salarios de los economistas.
Abogado
34.2 45 39.5 28.4 37.7 35.8 30.6 35.2 34.2 42.4
Economista
33.5 57.1 49.7 40.2 44.2 45.2 47.8 49.9 53.9 61.2
22. FÁTIMA PONCE 22
¿CÓMO INTERPRETAR?
Si tuviéramos información de las regiones del Perú con los
siguientes resultados para la variable: tasa de pobreza (se
mide de 0 a 100%).
• Media = 41.5 Mediana = 39.2
• Máximo= 77.2 Mínimo = 12.7
• Desviación estándar= 19.8
Poco menos de la mitad de la población es considerada
pobre. El 50% de la población se encuentra por debajo de
39.2% de tasa de pobreza.
La tasa de pobreza media es 41.5% con una fluctuación de
los datos respecto a su media de 19.8%, o con una tendencia
a variar por debajo o por encima de la media en 19.8%.
Al analizar Max y Min se observa polos muy diferenciados:
Existe desigualdad.
24. FÁTIMA PONCE 24
Si se tiene el número de vehículos vendidos por rango
de precios:
MEDIA DE DATOS AGRUPADOS
Precio de venta
(miles de $) Frecuencia
10 a 13 8
14 a 17 23
18 a 21 17
22 a 25 18
26 a 29 8
30 a 33 4
34 a 37 1
38 a 41 1
Total 80
Estime la media del precio
de venta de los vehículos a
partir de la información de
distribución de frecuencias
dada (datos agrupados).
25. FÁTIMA PONCE 25
¿Cómo estimar la media aritmética de los datos
agrupados? :
1. Calcular el punto medio de cada clase en la
muestra (Mi).
2. Multiplicar cada punto medio (Mi) por la frecuencia
de las observaciones de dicha clase (fi).
3. Sumar todos los resultados de estos productos.
4. Dividir la suma entre el número total de
observaciones de la muestra (n).
MEDIA DE DATOS AGRUPADOS
_ (fi*Mi)
x = -------------
n
26. FÁTIMA PONCE 26
LA MEDIA DE DATOS AGRUPADOS:
_
Media muestral de datos agrupados = X = (fi *Mi) / n
Precio de venta
(miles de $)
Frecuencia
(fi) fiMi
10 a 13 =(10+13)/2= 11.5 8 92
14 a 17 =(14+17)/2= 15.5 23 356.5
18 a 21 =(18+21)/2= 19.5 17 331.5
22 a 25 =(22+25)/2= 23.5 18 423
26 a 29 =(26+29)/2= 27.5 8 220
30 a 33 =(30+33)/2= 31.5 4 126
34 a 37 =(34+37)/2= 35.5 1 35.5
38 a 41 =(38+41)/2= 39.5 1 39.5
Total 80 1624
Punto medio de clase (Mi)
Media muestral de Datos Agrup= 1624/80= 20.3 miles de $
27. FÁTIMA PONCE 27
LA VARIANZA DE DATOS AGRUPADOS
¿Cómo calcular la varianza de los datos agrupados si se
tiene una distribución de frecuencias y no se conoce el
valor individual de cada observación?.
A nivel de la Población: fi(Mi-)2
2 = -----------------
N
fi es la frecuencia de cada una de las clases.
Mi es el punto medio de cada clase
A nivel de la muestra:
_
[fi(Mi-X)2]
s2 = ----------------
(n-1)
28. FÁTIMA PONCE 28
Estime la varianza y desv estandar del precio de venta de los
vehículos a partir de la información de distribución de
frecuencias siguiente. Recuerde que su media estimada fue
20.3 miles de $:
LA VARIANZA DE DATOS AGRUPADOS:
EJERCICIO 3
Precio de venta
(miles de $) Frecuencia
10 a 13 8
14 a 17 23
18 a 21 17
22 a 25 18
26 a 29 8
30 a 33 4
34 a 37 1
38 a 41 1
Total 80
29. FÁTIMA PONCE 29
LA VARIANZA DE DATOS AGRUPADOS:
EJERCICIO 3
s2=[fi(Mi - 20.3)2]/(n-1)
s = 36.21 = 6.02 miles de $
=2860.8/79=36.21 miles $ al cuadrado
Precio de venta
(miles de $)
Punto medio
de clase (Mi)
Frecuencia
(fi)
Desviación
(Mi - Xbarra)
Cuadrado de
la Desviación
(Mi -
Xbarra)2
fi(Mi-Xbarra)2
10 a 13 11.5 8 -8.80 77.44 619.52
14 a 17 15.5 23 -4.80 23.04 529.92
18 a 21 19.5 17 -0.80 0.64 10.88
22 a 25 23.5 18 3.20 10.24 184.32
26 a 29 27.5 8 7.20 51.84 414.72
30 a 33 31.5 4 11.20 125.44 501.76
34 a 37 35.5 1 15.20 231.04 231.04
38 a 41 39.5 1 19.20 368.64 368.64
Total 80 2860.80
31. FÁTIMA PONCE 31
El skewness mide la simetría/asimetría de la distribución
de los datos. skewness= 0: distribución es simétrica
La curtosis: determina el grado de concentración que
presentan los valores en la región central de la
distribución. Mide qué tan puntiaguda es la distribución.
MEDIDAS DE LA FORMA DE LA DISTRIBUCIÓN
32. FÁTIMA PONCE 32
CURVAS DE DISTRIBUCIÓN ASIMÉTRICAS
Asimétrica Positiva
Distribución asimétrica con
cola a la derecha.
Asimétrica Negativa
Distribución asimétrica con
cola a la izquierda.
En estos casos emplear la mediana como medida de
localización central.
33. FÁTIMA PONCE 33
MEDIDAS DE FORMA DE LA DISTRIBUCIÓN
(Apuntamiento o Curtosis)
El apuntamiento expresa el grado en que una distribución
acumula casos en sus colas en comparación con los casos
acumulados en las colas de una distribución normal cuya
dispersión sea equivalente.
Concentración en colas = probabilidad de valores extremos.
Cuarto momento: E(X - )4
CURTOSIS mide la empinadez de la
distribución.
Si Curtosis = 3: distribución normal.
Si Curtosis > 3: Colas con alta concentración de datos
(leptocúrtica) .
34. FÁTIMA PONCE 34
Cuando hay mucha asimetría en los datos (valores
extremos desbalanceados), como las distribuciones de
ingresos o cuando deseamos ubicar el lugar que ocupa un
valor en particular se emplean Estadísticos de posición
(cuantiles).
Son valores de la variable que dividen la muestra de datos
en partes de igual porcentaje. Permiten conocer otros puntos
característicos de la distribución de la variable que no son los
valores centrales.
La manera más sencilla de ubicar el lugar de alguien en
relación a una distribución es indicar el % de los datos
que está debajo de ese valor.
MEDIDAS DE POSICIÓN NO CENTRAL
35. FÁTIMA PONCE 35
Los cuantiles se usan por grupos que dividen la
distribución en partes iguales, es decir, intervalos que
comprenden la misma proporción de valores.
Los cuantiles más usados son:
Los Cuartiles: agrupan 25% cada uno (son 3).
Los Quintiles: agrupan 20% cada uno (son 4).
Los Deciles: agrupan 10% cada uno (son 9).
Los Percentiles (son 99).
MEDIDAS DE POSICIÓN NO CENTRAL
36. FÁTIMA PONCE 36
Dividen a la distribución en cien partes iguales.
El percentil p es un valor tal que por lo menos p% de las
observaciones son ≤ que este valor y por lo menos (100 – p)%
de las observaciones son ≥ que ese valor.
Ejemplo: Las notas en los exámenes de admisión se
suelen dar en términos de percentiles. Decir: “Un
estudiante obtiene 54 puntos en la parte verbal del
examen” es vago, no compara con los demás, pero decir:
“Esta nota corresponde al percentil 70 70% de los
estudiantes obtuvieron una nota menor a la de dicho
estudiante.
PERCENTIL
37. FÁTIMA PONCE 37
Si se divide los datos en cuatro partes c/u contiene el
25% de las observaciones. Los puntos de división son
cuartiles: Q1, Q2, Q3 .
CUARTIL
38. FÁTIMA PONCE 38
MEDIDAS DE POSICIÓN NO CENTRAL
1er Cuartil 2do Cuartil 3er Cuartil
P25 P50 P75
39. FÁTIMA PONCE 39
RANGO INTERCUARTIL
Es la medida de dispersión que acompaña a la
mediana cuando se la emplea como medida resumen
de los datos debido a que la media no seria
representativa.
Es el rango en que se encuentra el 50% central de los
datos.
No es afectado por los valores extremos.
RIC = Q3 – Q1
50%
min Q1 Q3 máx
40. FÁTIMA PONCE 40
BOX-PLOT ó DIAGRAMA DE CAJA
Vincula los conceptos de mediana, cuartiles, valor
máximo y valor mínimo.
Es muy útil para resumir variables continuas.
Resultan más apropiados para representar
variables que presenten una gran desviación de la
distribución normal, resultan además de gran ayuda
cuando se dispone de datos en distintos grupos de
sujetos.
42. FÁTIMA PONCE 42
Medida de
Localización
Central
Medida de
Dispersión
Uso en
Distribuciones
Ventaja Desventaja
Media
µ si población
_
x si muestra
Desviación
Estándar
si población
s si muestra
Simétricas
(media=mediana=
moda)
Buenas
propiedades.
Medida familiar
empleada por
todos.
Se ve afectada
por valores
extremos.
Mediana
Rango Sesgadas sin
valores extremos
Mediana no se
ve afectada por
valores
extremos.
El rango se ve
afectado por
valores
extremos.
Rango
intercuartil
(RI)
RI= Q3 – Q1
Sesgadas con
valores extremos
Mediana y RI no
son afectados
por valores
extremos.
RI no es muy
conocido.
MEDIDAS USADAS PARA RESUMIR LOS DATOS
43. FÁTIMA PONCE 43
BIBLIOGRAFIA
Anderson, D., Sweeney, D. y Williams T. (2008). Estadística
para Administración y Economía. Cap 3.
Levin y Rubin (2010). Estadística para Administración y
Economía. Cap. 3.