Datos agrupados. medidas descriptivas

Medidas descriptivas para datos agrupados por clases
en una distribución de frecuencia cuando hay pérdida de información
Es muy común encontrar publicaciones de tablas de distribución de frecuencia sin
los datos originales, sobre todo cuando son un gran número de medidas. Cuando no
se calculan las medidas de tendencia central con los datos originales o no se publican
y las necesitamos para analizar los datos, podemos tomar el punto medio del
intervalo como el valor aproximado de todos los datos que pertenecen a un intervalo
dado; para calcular las medidas de tendencia central y de dispersión de forma
aproximada.
Ejemplo: La siguiente tabla muestra una distribución de frecuencia de la edad de
los pacientes con diabetes de cierto hospital, (las frecuencias relativas no se muestran
en la tabla). Los datos originales no fueron publicados. Calcular: la media, mediana,
moda, varianza, desviación típica y el percentil 25 (P25).
Clases
edad (años)
mi fi Fa
[0 - 5) 2,5 3 3
[5-10) 7,5 5 8
[10-15) 12,5 6 14
[15 -20) 17,5 6 20
[20 - 25) 22,5 4 24
[25 - 30) 27,5 7 31
[30 - 35) 32,5 2 33
Total 33
Para este ejemplo se considera entonces que en la primera clase hay 3 pacientes
diabéticos con una edad estimada de 2 años y medio, en la segunda clase hay 5
pacientes, todos con una edad estimada de 7 años y medio: en la última clase hay 2
pacientes, ambos con una edad estimada de 32 años y medio.
Este es un caso donde existe pérdida de información y por lo tanto para el cálculo
de las medidas descriptivas se utiliza el punto medio del intervalo como el valor de
todos los datos que pertenecen a él. Las fórmulas a usar se muestran a continuación:

Media 𝑋̅ =
∑ 𝑚𝑖×𝑓𝑖
𝑛
Mediana: la mediana está en el primer intervalo que acumule una frecuencia (Fa)
mayor o igual a:
n/2 si n es par
(n+1)/2 si n es impar
donde n es la cantidad total de datos.
Una vez ubicada esta clase medianal ”j” el valor de la mediana se calcula con las
siguientes fórmulas:
para n par para n impar
Moda: la moda está en la clase que tenga el mayor valor de frecuencia absoluta fi.
Una vez que se ubica la clase modal (i), la moda se calcula usando la siguiente
fórmula:
Mo =
𝐿𝐼 𝑖+𝐿𝑆 𝑖
2
mi: punto medio del intervalo de clase
fi: frecuencia absoluta de la clase
n: número de datos
LIj: límite inferior de la clase medianal (j)
Faj-1: Frecuencia acumulada de la clase anterior a la clase medianal (j-1)
fj: frecuencia absoluta de la clase medianal (j)
n: cantidad de datos
Md = 𝐿𝐼𝑗 + (
𝑛 + 1
2
− 𝐹𝑎𝑗−1
𝑓𝑗
) ∗ 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒Md = 𝐿𝐼𝑗 + (
𝑛
2
𝑓𝑗
) ∗ 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒
LIi: límite inferior de la clase modal i
LSi: límite superior de la clase modal i

Varianza
Percentil: para hallar un percentil en particular Ph, primero hallamos la posición i
que ocupa para un grupo de datos de tamaño n usando una regla de tres, así
decimos:
100% n
h% i
luego ubicamos la clase k que contiene por primera vez esta frecuencia acumulada
“i” (en la columna Fa) y aplicamos la siguiente ecuación:
donde,
Ph: percentil h
h: porcentaje de datos por debajo del Ph
k: clase a la que pertenece el Ph
LIh: límite inferior de la clase del Ph
Fak-1: frecuencia acumulada de la clase anterior del Ph
Aplicando las fórmulas para el ejemplo anterior:
Media
𝑋̅ =
∑ 𝑚𝑖×𝑓𝑖
𝑛
=
(2,5 ∗ 3) + (7,5 ∗ 5) + (12,5 ∗ 6) + (17,5 ∗ 6) + (22,5 ∗ 4) + (27,5 ∗ 7) + (32,5 ∗ 2)
33
=
572,5
33
= 17,3
𝑖 =
ℎ ∗ 𝑛
100
𝑃ℎ = 𝐿𝐼 𝑘 + (
ℎ ∗ 𝑛
100 − 𝐹𝑎 𝑘−1
𝑓𝑘
𝑆2
=
∑(𝑚𝑖 − 𝑋̅)2
∗ 𝑓𝑖
𝑛

Mediana
Hay 33 datos, por lo tanto, n es impar, la mediana está en el primer intervalo de clase
que acumule una frecuencia (Fa) mayor o igual a:
(n+1)/2 = (33+1)/2 = 34/2 = 17
La clase que primero acumula 17 datos es la cuarta clase, que tiene una Fa de 20, allí
está el dato número 17. Esta clase en la fórmula será la clase j donde j=4.
En este caso, la mediana coincide con el punto medio del intervalo m4.
Moda: la clase con mayor frecuencia absoluta es la clase 6 con una frecuencia de 7
datos. En la fórmula i=6
Varianza
𝑆2
=
∑(𝑚𝑖 − 𝑋̅)2
∗ 𝑓𝑖
𝑛
=
(2,5 − 17,3)2
+ (7,5 − 17,3)2
+ (12,5 − 17,3)2
+ (17,5 − 17,3)2
+ (22,5 − 17,3)2
+ (27,5 − 17,3)2
+ (32,5 − 17,3)2
33
=
225 + 100 + 25 + 0 + 25 + 100 + 225
33
=
700
33
= 21,2 𝑎ñ𝑜𝑠2
Md = 𝐿𝐼𝑗 + (
𝑛 + 1
2
𝑓𝑗
Md = 15 + (
33 + 1
2
− 14
6
) ∗ 5 = 15 + 2,5 = 17,5
Mo =
𝐿𝐼𝑖 + 𝐿𝑆𝑖
2
Mo =
25 + 30
2
= 27,5

Desviación típica: 𝑺 = √𝑺 𝟐 = √ 𝟐𝟏, 𝟐𝟏 = 𝟒, 𝟔 años
Percentil 25 (P25): es un valor de edad por debajo del cual está el 25% de los
pacientes, para calcularlo primero ubicamos la posición “i” del percentil 25 (h)
dentro del grupo de datos ordenados:
i = (h*n)/100 i = (25*33)/100 = 8,25 ≈ 9
luego ubicamos luego ubicamos la clase k que contiene por primera vez esta
frecuencia acumulada “i” (en la columna Fa). Vemos que la clase 3 tiene una
Fa=14, allí se encuentra el dato número 9 (i=9), entonces k=3
finalmente, para estimar el P25 aplicamos la siguiente ecuación:
𝑃25 = 𝐿𝐼3 + (
25 ∗ 33
100 − 𝐹𝑎2
𝑓3
) ∗ 5 = 10 +
8,25 − 8
6
= 10 + 0,042 = 10,042 ≈ 10
El 25% de los pacientes tiene una edad menor a 10 años.
𝑃ℎ = 𝐿𝐼 𝑘 + (
ℎ ∗ 𝑛
100
− 𝐹𝑎 𝑘−1
𝑓𝑘

Datos agrupados. medidas descriptivas

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Datos agrupados. medidas descriptivas

Similar a Datos agrupados. medidas descriptivas (20)

Más de nchacinp

Más de nchacinp (20)

Último

Último (20)

Datos agrupados. medidas descriptivas