2. MEDIDAS DE DISPERSION
A pesar de la gran importancia de las medidas de tendencia central y de la cantidad
de información que aportan individualmente, no hay que dejar de señalar que en
muchas ocasiones esa información, no sólo no es completa, sino que puede inducir a
errores en su interpretación.
Medidas de dispersión : mide que tanto se dispersan las observaciones alrededor de
su media.
Ejemplo: se toman por ejemplo los tres conjuntos de datos que se observan a
continuación.
Conjunto de datos 1: 0,5,10
Conjunto de datos 2: 4,5,6
Conjunto de datos 3: 5,5,5
· Los tres (3) tienen una media de cinco (5)
¿ Se debe por tanto concluir que los conjuntos de datos son similares ?
Hay 2 tipos de medidas de dispersión , que son:
1. Medidas dispersión absolutas
2. Medidas dispersión relativa
3. TIPOS DE MEDIDAS DE DISPERSION
1. Medidas dispersión absoluta:
· Rango o Recorrido
· Rango o recorrido intercuartilico
· Desviación media
· Desviación estándar o típica
· Varianza
· Desigualdad de tchebycheff
· Estandarización
Medidas de dispersión absoluta ( viene expresada en el mismo valor de la variable)
2. Medidas de dispersión relativa:
· Coeficiente de variación
Medidas de dispersión relativa ( viene expresada en porcentaje)
Ø Rango : valor máximo- valor mínimo
Ø Rango intercuartílico: Q3-Q1
Donde:
Q3 = tercer cuartil
Fórmula de Q3, para series de Datos agrupados:
Donde:
L1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase.
Otra manera de verlo es partir de que todas las medidas no son sino casos
particulares del percentil, ya que el primer cuartil es el 25% percentil y el tercer
cuartil 75% percentil.
Fórmula de Q1, para series de Datos agrupados:
Q1= primer cuartil:
Donde:
L1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase
· El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de
los datos, es decir aquel valor de la variable que supera al 75% y es superado por el
25% de las observaciones.
El cuartíl es un indicador de posición.
El indicador de posición: son indicadores para señalar que porcentaje de datos
dentro, de una distribución de frecuencia superan esta expresión.
= posición del q1, la cual se localiza en la primera frecuencia acumulada que la
4 contenga , siendo la clase q1, la correspondiente a tal frecuencia acumulada.
Ø Rango semi-intercuartiliico: Q3 - Q1
Ø Desviación media
Formula general para datos simples
donde xi= datos de la serie
N = numero de datos
a= , Md o moda
Ejemplo
Calcular la desviación media de la distribución:
9, 3, 8, 8, 9, 8, 9, 18
4. RANGO
Es la diferencia entre las dos observaciones extremas, la máxima
menos la mínima. Expresa cuantas unidades de diferencia
podemos esperar, como máximo, entre dos valores de la variable.
El rango estima el campo de variación de la variable.
Se afecta mucho por observaciones extremas y utiliza únicamente
una pequeña parte de la información.
DESVIACIONES TIPICAS
Es la raíz cuadrada positiva de la varianza y, por tanto, se expresa en las unidades de
medida de la variable.
Su concepto es análogo al de la desviación típica poblacional.
5. RANGO
Es la desviación cuadrática media de las observaciones a la media muestral.
Su concepto es análogo al de la varianza poblacional. No obstante esta expresión de cálculo de la varianza muestral no se
utiliza mucho pues sus valores tienden a ser menores que el de la auténtica varianza de la variable (debido a que la propia media
muestral tiene una varianza que vale un enésimo de la de las observaciones) Para compensar esta deficiencia y obtener valores
que no subestimen la varianza poblacional (cuando estamos interesados en ella y no en la varianza muestral) utilizaremos una
expresión, esencialmente igual que la anterior salvo que el denominador está disminuido en una unidad.
Normalmente, estaremos interesados en saber cosas acerca de la varianza poblacional y no de la varianza muestral. Por
tanto, en adelante, cuando hablemos de varianza muestral, salvo indicación expresa, nos referiremos a la segunda.
Es el estadístico de dispersión más usado por las propiedades de su distribución. Si la población de la que procede la
muestra es normal:
con n-1 grados de libertad.
Además, utiliza toda la información de la muestra.
Su mayor inconveniente consiste en que se expresa en unidades cuadráticas. Por ello, para muchos propósitos se utiliza
otro estadístico de dispersión que la desviación típica.
Si no disponemos de una calculadora, el cálculo de la varianza puede ser complicado porque, habitualmente, los valores
de las desviaciones de las observaciones a la media resultan ser números con varias cifras decimales. Por ello, se suele utilizar
una ecuación que deriva directamente de la anterior:
o, alternativamente, la equivalente a aquella de "la media de los cuadrados menos el cuadrado de la media".
6. COEFICIENTE DE VARIACION
Es el cociente entre la desviación típica y la media aritmética muestrales y
expresa la variabilidad de la variable en tanto por uno, sin dimensiones.
Permite comparar muestras de variables de distinta naturaleza o muestras
de la misma variable en poblaciones en las que el orden de magnitud de las
observaciones sea muy diferente.