1. MEDIDAS DE DISPERCION Y CUANTILES
NOMBRES: Teddy Santiago García S.
Andrés Felipe Chamarro.
2. Medidas de dispersión y cuantiles
El grado de dispersión de los datos numéricos respecto a un valor promedio se llama dispersión o variación de los datos.
Existen varias medidas de dispersión (o variación); las más usadas son el rango, la desviación media, el rango semi intercuartil,
el rango percentil 10-90 y la desviación estándar .
RANGO
El rango de un conjunto de números es la diferencia entre el número mayor y el número menor del conjunto.
EJEMPLO 1 El rango del conjunto 2, 3, 3, 5, 5, 5, 8, 10, 12 es 12 − 2 = 10. Algunas veces el rango se da mediante el número
menor y el número mayor; así, por ejemplo, en el caso del conjunto anterior, simplemente se indica de 2 a 12 o 2-12.
DESVIACIÓN MEDIA
La desviación media, o desviación promedio, de un conjunto de N números X1, X2, . . . , XN se abrevia DM y está definida así:
donde X es la media aritmética de los números y jXj
Xj es el valor absoluto de la desviación de Xj respecto de X.
(El valor absoluto de un número es el número sin signo; el valor absoluto de un número se indica por medio de dos
barras verticales colocadas a los lados del número, así j 4j ¼ 4, j þ 3j ¼ 3, j6j ¼ 6 y j 0:84j ¼ 0:84|.)
3. RANGO SEMIINTERCUARTIL
El rango semiintercuartil, o desviación cuartil, de un conjunto de datos se denota Q y está definido por
donde Q1 y Q3 son el primero y tercer cuartiles en los datos (ver problemas 4.6 y 4.7). Algunas veces se usa el rango
intercuartil Q3, Q1; sin embargo, el rango semiintercuartil es más usado como medida de dispersión.
RANGO PERCENTIL 10-90
El rango percentil 10-90 de un conjunto de datos está definido por
Rango percentil 10-90 = P90 − P10 (4) donde P10 y P90 son los percentiles 10o. y 90o. en los datos. El rango semipercentil 10-90,
1/2 (P90− P10), también puede usarse, pero no es muy común.
DESVIACIÓN ESTÁNDAR
La desviación estándar de un conjunto de N números X1, X2, . . . , XN se denota como s y está definida por
donde x representa la desviación de cada uno de los números Xj respecto a la media X. Por lo tanto, s es la raíz cuadrada de la media
(RCM) de las desviaciones respecto de la media, o, como suele llamársele algunas veces, la desviación raíz-media-cuadrado.
4. Si X1, X2, . . . , XN se presentan con frecuencias f1, f2, ,,, , fK, respectivamente, la desviación estándar se puede expresar
como
Donde Esta fórmula es Algunas veces la desviación estándar de una muestra de datos se define usando
como el denominador, en las ecuaciones. (5) y (6), (N − 1) en lugar de N. Esto se debe a que el valor que así se obtiene es una
mejor aproximación a la desviación estándar de la población de la que se ha tomado la muestra. Con valores grandes de N (N
> 30), prácticamente no hay diferencia entre las dos definiciones. Y cuando se necesita una estimación mejor, ésta siempre
se puede obtener multiplicando por la desviación estándar obtenida de acuerdo con la primera definición.
Por lo tanto, en este libro se emplearán las fórmulas (5) y (6).
• VARIANZA
La varianza de un conjunto de datos se define como el cuadrado de la desviación estándar y, por lo tanto, corresponde al
valor s2 en las ecuaciones (5) y (6).Cuando es necesario distinguir la desviación estándar de una población de la desviación
estándar de una muestra obtenida de esa población, se suele emplear s para la última y σ (letra griega sigma minúscula)
para la primera. De manera que s2 y σ2 representan la varianza muestra y la varianza poblacional, respectivamente.