SlideShare una empresa de Scribd logo
ANGEL FRANCISCO ARVELO LUJAN
Angel Francisco Arvelo Luján es un Profesor Universitario Venezolano en el área
de Probabilidad y Estadística, con más de 40 años de experiencia en las más
reconocidas universidades del área metropolitana de Caracas.
Universidad Católica “Andrés Bello” : Profesor Titular Jubilado 1970 a 2003
Universidad Central de Venezuela: Profesor por Concurso de Oposición desde
1993 al presente
Universidad Simón Bolívar: Profesor desde 2005 al presente
Universidad Metropolitana: Profesor desde 1973 a 1987
Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004
Sus datos personales son :
Lugar y Fecha de Nacimiento: Caracas, 16-02-1947
Correo electrónico: angelf.arvelo@gmail.com
Teléfono: 58 416 6357636
Estudios realizados:
Ingeniero Industrial. UCAB Caracas 1968
Máster en Estadística Matemática CIENES , Universidad de Chile 1972
Cursos de Especialización en Estadística No Paramétrica Universidad de Michigan
1982
Doctorado en Gestión Tecnológica: Universidad Politécnica de Madrid 2006 al
Presente
El Profesor Arvelo fue Director de la Escuela de Ingeniería Industrial de la
Universidad Católica “Andrés Bello” (1974-1979) , Coordinador de los
Laboratorios de esa misma Universidad especializados en ensayos de Calidad,
Auditor de Calidad, y autor del libro “Capacidad de Procesos Industriales” UCAB
1998.
En numerosas oportunidades, el Profesor Arvelo ha dictado cursos empresariales
en el área de “Estadística General” y “Control Estadístico de Procesos”.
Para más información consulte la página web. www.arvelo.com.ve
Medidas de Dispersión
Angel Francisco Arvelo L.
2
MEDIDAS DE DISPERSION
Las medidas que hasta ahora conocemos, medias, moda, percentiles, etc., tienen
todas ellas la propiedad de ubicarse siempre entre los dos valores extremos de los
datos, mínimo y máximo, pues indican posición, bien sea central, o bien sea
extrema como por ejemplo el percentil 5 , o el percentil 95.
Las medidas que van a ser estudiadas en este capítulo no gozan de esta
propiedad, y persiguen como objetivo describir la homogeneidad o heterogeneidad
de los datos.
Las medidas de tendencia central son insuficientes para describir el
comportamiento de los datos, pues no proporcionan información acerca de cuan
cerca o cuan lejos se encuentran estos datos, con relación a ese valor central.
Así por ejemplo el trío de datos {8 , 9 , 10 } y { 1 , 10 , 16 } tienen ambos media 9;
pero resulta obvio, que en el primero de ellos existe una menor desviación con
respecto a este valor central, que en el segundo.
Medir la variabilidad resulta muy importante en diversas situaciones prácticas,
pues a través de su medición se podrán comparar conjuntos de datos, y
establecer cuando existe una mayor concentración de ellos en la región central.
Así por ejemplo, en estudios sociales las medidas de dispersión proporcionan la
información requerida para analizar como es la distribución de los ingresos dentro
de la sociedad; en los estudios de calidad industrial, estas mismas medidas de
dispersión se utilizan para medir la precisión de las máquinas utilizadas en el
proceso de producción.
Antes de comenzar a analizar las medidas de dispersión, se recomienda revisar
las propiedades de la media aritmética. (Véase Medidas de Tendencia Central.
Arvelo)
1 Varianza y Desviación Típica: Cuando se tiene un conjunto de datos {
x1, x2 ,x3 , ......
, xn} sin agrupar, se define como desvío de cada dato con relación a
su media aritmética , a la diferencia : di= xi - X .
Aunque los desvíos pueden ser calculados respecto de cualquier valor, salvo que
se indique lo contrario, se sobreentiende que estos se calculan respecto de X, y
como sabemos, la suma de sus cuadrados es mínima, cuando estos desvíos se
calculan respecto de la media aritmética
Cuanto mayor sea este desvío, mas alejado se encuentra el dato xi de X.
Estos desvíos pueden ser positivos o negativos, según el dato xi se encuentre a la
derecha o la izquierda de X, y su suma algebraica da siempre cero.
En consecuencia, no se puede tomar al promedio de los desvíos como medida de
dispersión, debido a que este promedio sería siempre nulo.
El problema del signo de los desvíos puede ser resuelto de dos maneras, o bien
tomando su valor absoluto, o como segunda opción elevándolos al cuadrado.
Para definir la varianza, se adopta esta segunda alternativa.
Medidas de Dispersión
Angel Francisco Arvelo L.
3
La varianza de un conjunto de datos cuantitativos { x1, x2 ,x3 , ......
, xn} sin agrupar,
se define como la media aritmética del cuadrado de sus desvíos.
S
X
n
i
2
2
=
(x
i=1
i=n
)
La expresión anterior es una definición, y por lo tanto debe ser aceptada como tal,
sin demostración.
Sin embargo, debido a que la varianza es la más importante de las medidas de
dispersión, es importante hacer las siguientes aclaratorias:
1°) La varianza es una medida de dispersión que representa exclusivamente lo
que establece la definición: Media aritmética del cuadrado de los desvíos.
Cuanto más desviado esté un dato de X , mayor será su cuadrado , y en
consecuencia mayor será varianza.
La varianza no puede ser interpretada como algo diferente a lo que la definición
misma establece.
2°) La varianza viene expresada en unidades de los datos al cuadrado, y así por
ejemplo, si los datos están en centímetros, la varianza está en centímetros
cuadrados.
Esto ocasiona que el orden de magnitud de la varianza sea completamente
diferente al de los datos originales, y que además no sean comparables con ellos
pues vienen expresados en unidades diferentes.
Por estos dos motivos, en muchas oportunidades interesa regresar a las unidades
originales, y allí es cuando aparece el concepto de “Desviación Típica”, que se
define simplemente como la raíz cuadrada de la varianza.
S
x X
n
i
i
i n
( )2
1
La desviación típica o “estándar” , viene en las mismas unidades de los datos, y
constituye junto con la varianza las más importantes medidas de dispersión.
3°) Otro comentario importante con relación a la varianza, es el que se refiere a su
denominador, si es “n” o “n-1”, pues a lo largo de toda la bibliografía estadística,
existe una gran confusión con relación a este punto.
Cuando una medida se calcula tomando en consideración a toda una población
recibe el nombre de “Parámetro Poblacional” ; mientras que cuando de calcula
sobre una muestra se llama “Estadígrafo” , “Estadístico Muestral” , o simplemente
“estadístico”.
La nomenclatura más utilizada en “Inferencia Estadística” consiste en designar a
los parámetros poblacionales con letras griegas, y a los estadísticos con letras
latinas.
Así por ejemplo , si se tienen “N” datos cuantitativos que constituyen una
población y sobre ellos se quiere calcular su media, la misma vendría
representada por :
x
N
i
i
i N
1
, y se llamaría “Media Poblacional”
Medidas de Dispersión
Angel Francisco Arvelo L.
4
Si de esa población de “N” elementos, se toma al azar una muestra de “n” y se
calcula su media, ésta se designaría por : X
x
n
i
i
i n
1
.
Uno de los problemas importantes que se estudia en “Inferencia Estadística” es el
de estimación, que trata sobre la metodología a seguir para inferir el valor
desconocido de un parámetro poblacional a partir del estadístico muestral.
Cuando esta nomenclatura se aplica sobre la varianza, se obtiene que la
poblacional designada por 2
,viene dada por : 2
2
1
( )x
N
i
i
i N
; mientras que la
muestral : S
x X
n
i
i
i n
2
2
1
( )
.
Sin embargo, en Inferencia Estadística se demuestra que especialmente para
muestras pequeñas (n < 30), un mejor estimador1
de 2
es: Sc
i
i
i n
x X
n
2
2
1
1
( )
que
recibe el nombre de “cuasi varianza muestral” .
Como la diferencia en la estimación, entre uno y otro es realmente muy pequeña
especialmente para muestras grandes y además Sc
2
es mejor estimador, muchos
autores definen de una vez a Sc
2
como “varianza muestral” y omiten definir al otro.
La “Estadística Descriptiva” no hace distinción entre población y muestra, su único
objetivo es describir el comportamiento de los datos, y por este motivo usa a S2
con divisor “n” como definición de “Varianza de los datos”, sin pronunciarse sobre
si es muestral o poblacional.
Propiedades de la Varianza
Propiedad N°1°: S2
0.
Resulta obvio que por ser la varianza la media de cuadrados de los desvíos, sea
siempre una cantidad positiva, pues los cuadrados siempre lo son.
Es importante destacar que el caso S2
= 0 implica que todos los datos son iguales,
es decir que no existe variabilidad, y recíprocamente cuando todos los datos son
iguales entonces S2
= 0.
Esta propiedad es común para todas las medidas de dispersión, es decir:
Medida de Dispersión = 0 x1= x2 = x3 = ......
= xn
Propiedad N°2: Cuando los datos son sometidos a una transformación lineal
Y = a + b X , entonces SY
2
= b2
SX
2
.
1
Es un estimador “Insesgado”. Véanse textos de “Inferencia Estadística” .
Medidas de Dispersión
Angel Francisco Arvelo L.
5
Demostración : Supongamos que se tiene un conjunto de datos { x1, x2 ,x3 , ......
, xn}
y se le somete a la transformación Y = a + b X , dando lugar a unos nuevos datos
{ y1, y2 ,y3 , ......
, yn} .
Por definición : S
y Y
n
Y
i
i
i n
2
2
1
( )
;
y a bx
Y a bX
i iRST
; por la transformación
; por propiedad N 5 de la media
Por lo tanto: S
a bx a bX
n
Y
i
i
i n
2
2
1
( )
=
b x X
n
i
i n
2 2
1
( )
= b2
SX
2
.
Como corolario de esta propiedad N° 2 se deducen las siguientes:
2.a) Si se le suma a cada dato una constante, la varianza no se altera.
Es el caso : b = 1.
2.b) Si cada dato es multiplicado por una constante, la varianza queda multiplicada
por el cuadrado de dicha constante. Es el caso a = 0.
2.c) Si se somete a los datos a una transformación lineal, la desviación típica que
multiplicada por la pendiente de la transformación: Sy = b Sx .
Ejemplo 1 Los siguientes datos representan el peso de 4 personas expresados en
kilogramos: 64 , 70 , 66 y 80.
a) Calcular la varianza y la desviación típica .
b) Transformar los datos en libras, y recalcular su varianza y su desviación típica.
Solución: a) Para calcular la varianza, es necesario calcular primero la media.
X
64 70 66 80
4
= 70 Kgs.
S2
=
( ) (70 ) ( ) ( )64 70 70 66 70 80 70
4
2 2 2 2
= 38 S = 38 = 6,16 Kgs.
b) El factor de conversión de kilogramos a libras es 2,2 , de manera que si el peso
de estas 4 personas se expresara en libras los datos quedarían transformados en:
140,80 , 154,00 , 145,20 y 176,00 .
Para la varianza de los nuevos datos, se puede repetir el procedimiento anterior.
Y
140 80 154 00 145 20 176 00
4
, , , ,
= 154,00
SY
2
2 2 2 2
140 80 154 154 154 145 20 154 176 154
4
( , ) ( ) ( , ) ( )
= 183,92
SY= 183 92, = 13,56
Gracias a la propiedad N° 2 de la varianza, este procedimiento es innecesario,
pues los datos “Y” en libras son los datos “X” en kilogramos sometidos a la
transformación: Y=2,2 X, y por lo tanto:
SY
2
= b2
SX
2
= (2,2)2
38 = 183,92 ; Sy = b Sx = (2,2) 6,16 = 13,56
Medidas de Dispersión
Angel Francisco Arvelo L.
6
Propiedad N°3 : La varianza también puede ser calculada mediante la expresión:
S
x
n
X
i
i
i n
2
2
1 2
Esta es una expresión alternativa, cuyo cálculo suele ser más sencillo que el
explicado con anterioridad a partir de la definición.
Esta expresión recibe el nombre de “cálculo de la varianza por momentos”, por
una razón que se explicará en el capitulo siguiente, y establece que la varianza es
igual a la media de los cuadrados menos el cuadrado de la media.
Demostración: Partiendo de la definición , y desarrollando el cuadrado, se tiene:
S
x X
n
i
i
i n
2
2
1
( )
=
( )x x X X
n
i i
i
i n
2
1
2
2
=
x X X
n
i
i
i n
i
I n
i
i n
2
1 1
2
1
2 xi
Como es X una constante, según las propiedades de las sumatorias se tiene que
X
i
i n
2
1
= n X2
, y además xi
i
I n
1
= n X . Sustituyendo:
S
2
=
x X X n
n
i
i
i n
2
1
2
2 (n X) x n
n
i
i
i n
2
1
2
X x
n
X
i
i
i n
2
1 2
Como consecuencia de esta propiedad se tiene que una fórmula alternativa para
calcular la desviación típica es: S =
x
n
X
i
i
i n
2
1 2
Ejemplo 2 Calcular la varianza y la desviación típica de los pesos en kilogramos
64 , 70 , 66 y 80 del Ejemplo 7.1 , aplicando la fórmula por momentos.
Solución: Hay que calcular la media X = 70
S
2
=
64 70 66 80
4
2 2 2 2
- (70)
2
= 38 S = 38 =6,16
El cálculo de la varianza y de la desviación típica por momentos suele más breve
que por definición ; sin embargo se corre el riesgo de perder de vista lo que se
está calculando, pues no se necesitan calcular los desvíos.
Propiedad N° 4: Desigualdad de Tchebychev. Dado un conjunto de datos
{ x1, x2 ,x3 , ......
, xn} con media X ; la proporción de datos que se desvían de X en
una cantidad menor que , es por lo menos 1 -
S2
2
.
Esta propiedad es general, y una vez demostrada veremos que es mucha utilidad
práctica, especialmente cuando se aplica en ciertos casos particulares como por
ejemplo, en la curva normal.
Medidas de Dispersión
Angel Francisco Arvelo L.
7
Demostración: Supongamos que existen “m” datos que se desvían de X en una
cantidad menor que . Llamemos “C” al conjunto de esos “m” datos.
Se tiene: m n , y además xi - X < , cuando xi C
p =
m
n
= Proporción de datos que pertenecen al conjunto “C”, y que por tanto
difieren de X en una cantidad menor que .
Por definición : S
x X
n
i
i
i n
2
2
1
( )
n S2
= ( )x Xi
i
i n
2
1
La suma ( )x Xi
i
i n
2
1
puede ser descompuesta en dos partes, sobre los datos que
pertenecen al conjunto “C” , y sobre los que no pertenecen a él.
Por tanto : ( )x Xi
i
i n
2
1
= ( ) ( )x X x Xi
x C
i
x Ci i
2 2
Como: ( )x Xi
x Ci
2
0 n S2
= ( )x Xi
i
i n
2
1
( )x Xi
x Ci
2
Existen (n - m) datos { xi } no pertenecientes al conjunto “C” , y para ellos se
verifica: xi C xi - X (xi - X )
2 2
( )x Xi
x Ci
2
(n - m)
2
Por lo tanto : n S2
( )x Xi
x Ci
2
(n - m)
2 S2
2
n m
n
= 1 – p
y en conclusión: p 1 -
S2
2
tal como se quería demostrar.
Frecuentemente se toma “ ”como un múltiplo de “S” , de la forma: = k S , y en
este caso la desigualdad de Tchebychev establece que la proporción de datos que
difiere su media en una cantidad menor que “k veces” la desviación típica , es por
lo menos 1 -
1
k2
, es decir : p 1 -
1
k2
Es evidente que cuando k=1 , esta desigualdad carece de utilidad práctica alguna,
pues en este caso se concluye en: p 0 , lo que es obvio.
Sin embargo, para valores de “k” mayores que la unidad se obtienen conclusiones
importantes, y así por ejemplo para k = 2 concluye que en un conjunto de datos
cualquiera, la proporción de datos que difiere de su media en menos de dos veces
la desviación típica es por lo menos 1 -
1
4
3
4
, es decir p 75% .
Cuando se toma k = 3 , la conclusión es que la proporción de datos que difiere de
su media en menos de tres desviaciones típicas es por lo menos de 1 -
1
9
8
9
lo que equivale al 88,89 % .
Medidas de Dispersión
Angel Francisco Arvelo L.
8
Para cualquier distribución de frecuencias distribuciones , y según lo explicado
anteriormente por la desigualdad de Tchevishev , en el intervalo ( X ± 2 S) deben
caer por lo menos el 75% , y en el intervalo ( X ± 3 S) por lo menos el 88,89 % de
los datos .
En el caso de la distribución normal , esta proporción de datos ha sido determinada
exactamente , y los resultados obtenidos son de amplia utilidad en muchas
aplicaciones.
Para una normal, en el intervalo ( X ± S) deben caer el 68,27% de los datos
muestrales , en el intervalo ( X ± 2 S) deben caer el 95,45% de los datos
muestrales , y en el intervalo ( X ± 3 S) deben caer el 99,73% de los datos
muestrales .
Propiedad N° 5. Para el caso de datos agrupados, el cálculo de la varianza se
hace mediante la expresión : S2
=
( )*
L X f
f
i i
i
i k
i
i
i k
2
1
1
=
( )*
L f
f
X
i i
i
i k
i
i
i k
2
1
1
2
La expresiones anteriores son sencillas de justificar , pues constituyen
adaptaciones de la definición de varianza, y de su cálculo por momentos, tomando
en cuenta que para el caso de datos agrupados, la marca de clase Li
*
representa a
todos los datos que caen dentro del intervalo.
Otra expresión útil para el cálculo, es la que resulta de sustituir en la fórmula de la
derecha para el cálculo de S2
por momentos, la media X por su correspondiente
para datos agrupados en función de las marcas de clase, y por lo tanto:
Medidas de Dispersión
Angel Francisco Arvelo L.
9
S2
=
( )* *
L f
f
L f
f
i i
i
i k
i
i
i k
i
i
i k
i
i
i
i k
2
1
1
1
1
2
F
H
GGGG
I
K
JJJJ
Ejemplo 3 Calcular la varianza y la desviación típica de la siguiente distribución
de frecuencias.
Intervalo 0 a 10 10 a 20 20 a 30 30 a 40 40 a 50 50 a 60 60 a 70
frecuencia 8 34 76 60 31 28 13
Solución : Hay que organizar los cálculos en la siguiente tabla :
Límites reales fi = frecuencia Li
*
= Marca de clase L fi i
*
( )*
L fi i
2
0 a 10 8 5 40 200
10 a 20 34 15 510 7650
20 a 30 76 25 1900 47500
30 a 40 60 35 2100 73500
40 a 50 31 45 1395 62775
50 a 60 28 55 1540 84700
60 a 70 13 65 845 54925
Sumatorias 250 8.330 331.250
S2
=
331250
250
8 330
250
2
. .F
HG I
KJ = 214,78 S = 21478, = 14,66
Método abreviado para el cálculo de la varianza en tablas de frecuencia para
datos agrupados de igual amplitud
Los cálculos requeridos en el Ejemplo 7.3 pueden resultar complicados si no se
tiene una buena calculadora.
Un procedimiento abreviado para efectuar los cálculos consiste en definir unas
marcas de clase artificiales designadas por Ui
*
.
Al intervalo de mayor frecuencia o clase modal se le da una marca de clase
artificial Um
*
= 0 , a los anteriores marcas de clases artificiales -1 , -2 , etc., y a los
posteriores +1 , +2 , +3 , etc.
Con este artificio , la tabla queda :
Límites reales fi = frecuencia Ui
*
= Marca de
clase artificial
U fi i
*
( )*
U fi i
2
0 a 10 8 -2 - 16 32
10 a 20 34 -1 - 34 34
20 a 30 76 0 0 0
30 a 40 60 1 60 60
40 a 50 31 2 62 124
50 a 60 28 3 84 252
60 a 70 13 4 52 208
Sumatorias 250 208 710
Medidas de Dispersión
Angel Francisco Arvelo L.
10
Posteriormente se calcula la varianza de los datos artificiales, mediante la
expresión : SU
2
=
( )* *
U f
f
U f
f
i i
i
i k
i
i
i k
i
i
i k
i
i
i
i k
2
1
1
1
1
2
F
H
GGGG
I
K
JJJJ
=
710
250
208
250
2
F
HG I
KJ = 2,1478
Finalmente : S c SU
2 2 2
, donde c = Amplitud = 10 S2
= (10)
2
2,1478 =214,78
que coincide con el resultado anterior.
Justificación del método abreviado : Se ha definido una función lineal de los datos,
que los transforma en unos datos artificiales más sencillos de trabajar.
Esta transformación es de la forma : U
X L
c
m
*
; donde teóricamente Lm
*
pudiera
ser cualquier origen , pero que por conveniencia se toma la marca de clase del
intervalo de mayor frecuencia, pues así la mayor frecuencia queda multiplicada por
cero simplificando aún más los cálculos.
Por efecto de la transformación, las marcas de clase anteriores se convierten en
-1, -2 , (siempre que la amplitud “c” sea igual para todos los intervalos) , y las
marcas de clase posteriores se convierten en +1 , +2 , etc.
La expresión para calcular SU
2
es la correspondiente al cálculo de la varianza por
momentos para los datos artificiales “U”.
La relación entre los datos originales “X” y los artificiales “U” es lineal pues :
X L c Um
*
Por la propiedad N° 2 de la varianza : S cX U
2 2 2
S , lo que
constituye la justificación del método abreviado de cálculo.
2 La Media de las desviaciones absolutas : En virtud de que los
desvíos respecto de X se compensan, otra manera de omitir su signo es
considerar sus valores absolutos , en lugar de elevarlos al cuadrado como se hace
en el cálculo de la varianza..
Cuando se promedian los desvíos absolutos, aparece otra medida de dispersión,
que se conoce con el nombre de “Media de las desviaciones absolutas”, o
“Desviación Media”, y que representa lo que en promedio se desvían los datos de
X, sin considerar su signo.
D M
x X
n
i
i
i n
. 1
Ejemplo 4 Los siguientes datos representan la duración de cinco cuñas de T.V
expresadas en segundos: 38 , 46 , 42 , 28 , 26 . Calcular la media de las
desviaciones absolutas.
Solución : Se calcula su media X =
38 46 42 28 26
5
= 36, y posteriormente
los desvíos: 38-36 =2 , 46-36 = 10 , 42 –36 = 6 , 28-36 = -8 y 26-36 = -10
Medidas de Dispersión
Angel Francisco Arvelo L.
11
La suma algebraica de los desvíos resulta ser cero, tal como debe ocurrir siempre,
y para calcular la desviación media se promedian los desvíos absolutos:
D M. ,
2 10 6 8 10
5
7 20
Este resultado significa que en promedio, la duración de las cuñas se alejan en
forma absoluta de su media 36 segundos, en 7,20 segundos .
La desviación media absoluta tiene las siguientes propiedades:
1°) Al igual que cualquier otra medida de dispersión D.M 0 , y D.M = 0 es
condición necesaria y suficiente para que todos los datos sean iguales.
2°) En el caso de una distribución normal con desviación típica poblacional “ ”,
existe una relación directa entre la D.M y “ ”, dada por la expresión2
:
D.M =
2
A partir de esta propiedad se obtiene una fórmula aproximada entre la desviación
media absoluta y la desviación típica, según la cual para curvas de frecuencias
simétricas o con poco grado de asimetría, se verifica : D M.
4
5
S
3°) Para datos agrupados, la marca de clase sustituye al verdadero valor de cada
de cada dato, y la desviación media absoluta se calcula mediante la expresión:
D M
L X
f
i
i
i k
i
.
*
1
fi
i=1
i=k
Ejemplo 5 Calcular la D.M para los datos del Ejemplo 3 , y verificar que se
cumple la propiedad N° 2 .
Solución: La media es X =
8.330
250
= 33,32, y se organizan los cálculos
Límites reales fi = frecuencia Li
*
Li X*
Li X*
fi
0 a 10 8 5 28,32 226,56
10 a 20 34 15 18,31 622,54
20 a 30 76 25 8,32 632,32
30 a 40 60 35 1,68 100,80
40 a 50 31 45 11,68 362,08
50 a 60 28 55 21,68 607,04
60 a 70 13 65 31,68 411,84
Sumatorias 250 208 2.963,18
2
Para una demostración de esta propiedad, véase la obra de este mismo autor: “ Capacidad de los
Procesos Industriales” , U.C.A.B 1998 .
Medidas de Dispersión
Angel Francisco Arvelo L.
12
D.M=
2.963,18
250
= 11,85
S = 14,66 Por la propiedad N°3: D.M
4
5
( 14,86 ) = 11,89
3 La media de las desviaciones absolutas respecto de la
mediana: La media de las desviaciones absolutas puede ser calculada también
respecto de la mediana , dando lugar así a otra medida de dispersión, conocida
también “Desviación Media respecto de la Mediana”, y que se define de la
siguiente manera:
D MMed
i
i
I n
.
x Mediana
n
1
Como una de las propiedades de la Mediana, estable que la suma de las
desviaciones absolutas es mínima, cuando estas se calculan respecto de la ella,
entonces se puede garantizar que : D MMed. D.M
Para datos agrupados : D M
f
Med
i
I k
i
i k
.
L Mediana fi
*
i
I=1
1
Ejemplo 6 Calcular la D MMed. para los datos del Ejemplo .4
Solución : La mediana entre { 38 , 46 , 42 , 28 , 26} es 38, y las desviaciones
respecto de ella son {0, 8, 4 , -10 y –12} respectivamente.
Por lo tanto: D MMed. =
0 8 4 10 12
5
= 6,80 < D.M = 7,20
4 El Rango o Recorrido: Esta medida de dispersión se define como la
diferencia entre el mayor y el menor valor de los datos.
R = Máximo Valor - Mínimo Valor
El uso del rango o recorrido , es muy difundido en las aplicaciones industriales de
la Estadística, pues dada su sencillez de cálculo se utiliza en la construcción de
las gráficas de control3
conocidas como ( X, R) cuyo objetivo es detectar a tiempo
la aparición de causas especiales dentro de un proceso de producción.
En el caso de la distribución normal, existe una relación aproximada entre el rango
y la desviación típica, y así por ejemplo cuando :
n=100: S
R
4
; y cuando n=1.000: S
R
6
estas relaciones empíricas son consecuencia de la propiedad ya estudiada para la
distribución normal, según la cual en el intervalo ( X ± 2 S) deben caer el 95,45%
de los datos, y en el intervalo ( X ± 3 S) deben caer el 99,73% .
3
Para una mayor información sobre estas gráficas, véase la misma referencia citada en la nota 2.
Medidas de Dispersión
Angel Francisco Arvelo L.
13
Cuando n=100 , el rango debe ser aproximadamente 4 veces “S” que
corresponde a la longitud del intervalo, y cuando n= 1.000 , el rango debe ser
aproximadamente 6 veces “S” , que es la longitud del intervalo X ± 3S .
Ejemplo 7 Calcular el rango para los datos del ejemplo 7.4
Solución : En este conjunto de datos el mayor valor es 46 y el menor 26 , en
consecuencia: R = 46 – 26 = 20.
VII. 5 Otras Medidas absolutas de dispersión: Además de las ya
estudiadas, existen otras medidas de menor aplicación práctica, tales como:
a)El Rango intercuartílico: Se define como la diferencia entre el tercer y primer
cuartil, y representa la amplitud del intervalo 50% central.
Rq = Q3 – Q1
c)El Rango semi – intercuartílico : Es la mitad del rango intercuartílico, y
representa el radio del intervalo 50% central .
Q
Q Q3 1
2
.
Con el rango semi-intercuartílico, el intervalo 50 % central puede ser escrito como:
Q Q Q Q Q Q1 3 3 1 1 3
2 2 2
= Q
Para distribuciones acampanadas: Q
2
3
S
c)El Rango Percentílico : Se define como la diferencia entre el Percentil 90 y el
Percentil 10, y representa la longitud del intervalo 80 % central .
Rp = P90 – P10
Todas estas medidas de dispersión al igual que las anteriores son absolutas, pues
no toman en cuenta el orden de magnitud de los datos, y vienen en sus mismas
unidades, a excepción de la varianza que viene en unidades al cuadrado.
6 El Coeficiente de Variación o Dispersión Relativa: Las medidas
absolutas de dispersión, al no tomar en cuenta el orden de magnitud de los datos,
no proporcionan una información completa sobre su variabilidad, pues no es lo
mismo por ejemplo, una desviación típica de 100 en unos datos que sean del
orden de cientos, que esa misma desviación típica de 100 en unos datos que sean
Medidas de Dispersión
Angel Francisco Arvelo L.
14
del orden de millones. Resulta obvio que en el primer caso existe una variabilidad
mucho mayor que en el segundo, a pesar de que el valor absoluto de la desviación
típica sea el mismo.
Otro problema que tienen las medidas absolutas de dispersión es el de las
unidades, pues esto impide hacer comparaciones entre conjuntos de datos que
tengan diferente naturaleza.
Así por ejemplo, si se quisiera saber cual variable tiene un comportamiento más
homogéneo, el peso o la estatura de un conjunto de personas, no es posible
comparar las desviaciones típicas entre esas ellas, por venir expresadas en
diferentes unidades.
Para solucionar este par de inconvenientes que presentan las medidas absolutas
de dispersión, se utiliza al coeficiente de variación o dispersión relativa, definido
por : C. V =
S
X
100%
Propiedades del Coeficiente de Variación
1°) Es un porcentaje de razón entre la desviación típica y la media , de manera
que representa cuantas veces es la desviación típica con relación a la media.
Así por ejemplo, un C.V = 50% significa que la desviación típica es la mitad de la
media, lo que revela una alta variabilidad.
Valores del C.V menores al 10 % revelan poca variabilidad de los datos ; y así
por ejemplo, para en el Control de Calidad de la preparación de mezclas, es
frecuente exigir un C.V menor al 5% entre las muestras tomadas en distintos
puntos de la mezcla, a fin de garantizar su homogeneidad.
2°) El C.V es un número abstracto, es decir sin unidades, pues tanto S como X
vienen en las mismas unidades de los datos, y al hacer la división se simplifican.
Esta propiedad permite utilizar al C.V para hacer comparaciones entre varios
conjuntos de datos, y concluir que cuanto más pequeño sea su valor, más
homogéneo es el comportamiento.
3°) El C.V no se altera cuando los datos son multiplicados por una constante, pues
en virtud de las propiedades de X y de “S” ambos quedan multiplicados por esa
constante, sin alterar al cociente.
Esta propiedad trae como consecuencia que el C.V sea invariante frente a
cambios de unidades, como por ejemplo, pasar de libras a kilogramos o de pies a
centímetros, etc.
Ejemplo 8 Calcular el C.V para los datos del ejemplo 3
Solución : S = 14,66 , X
8 330
250
.
= 33,32 C.V =
14 66
33 32
,
,
100% = 44 %
Ejemplo 9 : Al analizar la estatura y el peso de un conjunto de personas, se
obtuvo, para el peso una media de 68,50 Kgs. con una desviación típica de 9,20
Medidas de Dispersión
Angel Francisco Arvelo L.
15
kgs.; y para la estatura una media de 165 cms., con una desviación típica de 11,30
cms. ¿Cuál de las dos variables tiene un comportamiento más homogéneo?.
Solución: Para el peso: C.V =
9 20
68 50
,
,
100% = 13,43 %
Para la estatura : C.V =
1130
165
,
100% = 6,85 %
Se concluye que la estatura tiene un comportamiento más homogéneo.
…………………………….
Una de las limitaciones que tiene el coeficiente de variación, es que sólo puede
ser utilizado cuando los datos corresponden a mediciones sobre una escala de
razón, y por lo tanto existe el cero absoluto.
Cuando existen datos positivos y negativos, la media puede resultar igual a cero ,
negativa o muy próxima a cero, en cuyo caso este coeficiente de variación carece
de sentido como medida de dispersión.
EJERCICIOS RESUELTOS
Ejemplo 10 Al examinar el diámetro de 300 tornillos, en milímetros, se encuentra:
Díametro 2,00 a 2,49 2,50 a 2,99 3,00 a 3,49 3,50 a 3,99 4,00 a 4,49 4,50 a 4,99
Frecuencia 17 51 93 86 41 12
a) Calcule la varianza ,la desviación típica, el coeficiente de variación, la media de
desviaciones absolutas, la media de desviaciones absolutas respecto de la
mediana, el rango intercuartílico y el rango percentílico.
b) Calcule el porcentaje de observaciones que caen en los intervalos X ± S ,
X ± 2S y X ± 3 S.
Solución : Para calcular la varianza, se organizan los cálculos:
Li
*
=Marca de clase fi= Frecuencia Li
*
fi (Li
*
)
2
fi
2,245 17 38,1650 85,6804
2,745 51 139,9950 384,2863
3,245 93 301,7850 979,2923
3,745 86 322,0700 1.206.1522
4,245 41 174,0450 738,8210
4,745 12 56,9400 270,1803
Sumatorias 300 1.033,0000 3.664,4125
S
2
=
3 664 4125
300
1033 00
300
2
. , . ,F
HG I
KJ = 0,3582 S = 0 3582, = 0,5985
Utilizando el método abreviado de cálculo:
Ui
*
=
Marca de clase artificial fi= Frecuencia Ui
*
fi (Ui
*
)
2
fi
-2 17 -34 68
-1 51 -51 51
0 93 0 0
1 86 86 86
Medidas de Dispersión
Angel Francisco Arvelo L.
16
2 41 82 164
3 12 36 108
Sumatorias 300 119 477
SU
2
2
477
300
119
300
F
HG I
KJ = 1,4327
c= Amplitud Real = 0,50 S
2
= c
2
SU
2
= (0,50)
2
0,1,4327 = 0,3582
Para calcular el coeficiente de variación, se necesita: X =
1033
300
= 3,4433
Por el método abreviado: U
119
300
= 0,3967
X = Lm
*
+ c U X = 3,245 + (0,50) 0,3967 = 3,4433
y por lo tanto : C.V =
S
X
100% =
0 5985
3 4433
,
,
100% = 17,38 %.
Para calcular la desviación media:
Li
*
=Marca de clase fi= Frecuencia Li X*
Li X*
fi
2,245 17 1,1983 20,3711
2,745 51 0,6983 35,6133
3,245 93 0,1983 18,4419
3,745 86 0,3017 25,9462
4,245 41 0,8017 32,8697
4,745 12 1,3017 15,6204
Sumatorias 300 148,8626
Por lo tanto D.M =
148,8626
300
= 0,4962
Si se quisiera obtener un cálculo rápido pero aproximado, se pudiera aplicar la
propiedad para distribuciones acampanadas como esta, según la cual:
D.M
4
5
S =
4
5
(0,5985) = 0,4788
Para las restantes medidas de dispersión se necesitan los cuartiles, y los
percentiles 10 y 90, a partir de las frecuencias acumuladas:
Diámetro < 2,495 < 2,995 < 3,495 < 3,995 4,495 4,995
Frecuencia 17 68 161 247 288 300
Q1 = 2,995 +
300
4
68
93
0 50, = 3,0326 ; Q3 = 3,495 +
3
4
300 161
86
0 50
b g
, = 3,8671
Q2 =Med= 2,995 +
1
2
300 68
93
0 50
b g
, =3,4359
Medidas de Dispersión
Angel Francisco Arvelo L.
17
P10 =2,495 +
10
100
300 17
51
0 50
b g
, = 2,6225
P90 =3,995 +
90
100
300 247
41
0 50
b g
, = 4,2755
Para calcular la desviación media absoluta, respecto de la mediana, hay que
organizar los cálculos en una tabla similar a la de la D.M , pero calculando los
desvíos absolutos respecto de la mediana.
Li
*
=Marca de clase fi= Frecuencia Li Med*
Li Med*
fi
2,245 17 1,1909 20,2453
2,745 51 0,6909 35,2359
3,245 93 0,1909 17,7537
3,745 86 0,3091 26,5826
4,245 41 0,8091 33,1731
4,745 12 1,3091 15,7092
Sumatorias 300 148,6998
D.M Med =
148 6998
300
,
= 0,4957
El rango intercuartílico: Rq = Q3 - Q1 = 3,8671 - 3,0326 = 0,8345
El rango percentílico: Rp = P90 - P10 = 4,2755 - 2,6225 = 1,6530
Estos rangos representan la amplitud de los intervalos 50% central, y 80% central
respectivamente.
Para calcular el porcentaje de valores que cae en los intervalos X ± S , X ± 2S
y X ± 3 S, hay que determinar la posición percentil que le corresponde a cada
uno de los extremos de los intervalos, para luego restarlos.
Para X ± S se tiene : 3,4433 ± 0,5985 = [2,8448 ; 4,0418]
El % por debajo de 3,9418 : p2=
100
300
247
4 0418 3 995
0 5
41
F
HG I
KJ, ,
,
= 83,61%
El % por debajo de 2,8448 : p1=
100
300
17
28448 2495
0 5
51
F
HG I
KJ, ,
,
= 17,56%
Dentro de X ± S , caen entonces 83,61% - 17,56% = 66,05 % , que es
aproximadamente el porcentaje teórico de 68,27 % dado por la normal.
Para los intervalos X ± 2S y X ± 3 S, se procede de manera análoga, y se
obtiene 95,45 % y 100 % respectivamente.
Ejemplo 11 Dada la siguiente tabla de frecuencias, para datos sin agrupar:
Valor 0 1 2 3 4 5 6 7
frecuencia 8 14 25 13 20 12 6 2
a) Calcule su varianza, la desviación típica, el coeficiente de variación , el rango,
la media de las desviaciones absolutas, la media de las desviaciones absolutas
respecto de la mediana , el rango intercuartílico.
Medidas de Dispersión
Angel Francisco Arvelo L.
18
b) Determine el porcentaje de observaciones que caen en el intervalo X ± S .
Solución : A diferencia del ejemplo anterior, en este caso los datos no están
agrupados, y por lo tanto para calcular la varianza no se toma a la marca de clase,
sino al verdadero valor del dato.
Xi= Valor del dato fi= Frecuencia Xi fi (Xi)
2
fi
0 8 0 0
1 14 14 14
2 25 50 100
3 13 39 117
4 20 80 320
5 12 60 300
6 6 36 216
7 2 14 98
Sumatorias 100 293 1165
S
2
=
1165
100
293
100
2
F
HG I
KJ = 3,07 S = 3 07, = 1,75 ; X =
293
100
= 2,93
C.V =
175
293
,
,
100% = 59,75 % ; R = 7 – 0 = 7
Xi= Valor del dato fi= Frecuencia Xi X Xi X fi
0 8 2,93 23,44
1 14 1,93 27,02
2 25 0,93 23,25
3 13 0,07 0,91
4 20 1,07 21,40
5 12 2,07 24,84
6 6 3,07 18,42
7 2 4,07 8,14
Sumatorias 100 147,42
D.M =
147 42
100
,
= 1,4742
Para hallar la mediana, y demás cuartiles hay que proceder según lo explicado en
el Ejemplo 6.13 donde se obtuvo Q1 = 2 , y siguiendo la misma metodología
Q2 = Med = 3 , Q3 = 4
Xi= Valor del dato fi= Frecuencia Xi Med Xi Med fi
0 8 3 24
1 14 2 28
2 25 1 25
3 13 0 0
4 20 1 20
5 12 2 24
6 6 3 18
7 2 4 8
Sumatorias 100 147
Medidas de Dispersión
Angel Francisco Arvelo L.
19
D.M Med =
147
100
= 1,47 ; Rq = Q3 –Q1 = 4 - 2 = 2
En cuanto al porcentaje de datos comprendidos en el intervalo X ± S, tenemos que
éste es : 2,93 ± 1,75 = [ 1,18 ; 4,68 ] , y en él caen todos los valores
comprendidos entre 2 y 4 ambos inclusive, que representan el 58 % de los datos.
Preguntas de Revisión
1°) Si se tienen dos conjuntos de datos expresados en las mismas unidades,
¿puede decirse que el que tenga mayor varianza presenta una mayor dispersión?.
2°) Si en un conjunto de datos todos los valores son negativos, ¿puede alguna de
las medidas absolutas de dispersión ser negativa? .
3°) ¿Cuál es la diferencia entre las medidas absolutas y las medidas relativas de
dispersión?. ¿Cuál de las dos mide mejor la variabilidad?.
4°) Analice las modificaciones que sería necesario realizar, si se quisiera aplicar
el método abreviado de cálculo para la varianza, en una tabla de frecuencias con
intervalos de diferente amplitud.
5°) En un conjunto de datos, el menor es 30 , el rango es 10 , y la media 35.
¿Puede el coeficiente de variación ser igual a 40%? .
6°) El valor más bajo de un conjunto de datos es 75, y el más alto 110. ¿Puede ser
la desviación típica 39,50?.
7°) ¿ Qué representa el rango percentílico? .
8°) Suponga que un conjunto de datos es sometido a una transformación no lineal,
como por ejemplo: Y = a + bX
2
. Explique el procedimiento a seguir para calcular la
varianza de los datos transformados.
9°) Si un conjunto de datos es sometido a una transformación lineal: Y = a +bX.
¿Se altera el coeficiente de variación? .
10°) ¿Por qué la desigualdad de Tchebychev no proporciona información alguna
cuando se quiere hallar el porcentaje de datos que difieren de la media en menos
de ½ la desviación típica?.
11°) Según la desigualdad de Tchebychev ¿cuál es el porcentaje mínimo de datos
que difieren de la media en menos de 1,50 veces la desviación típica?.
12°) ¿ Puede un coeficiente de variación ser mayor al 100% ?.
Medidas de Dispersión
Angel Francisco Arvelo L.
20
13°) Suponga que sobre un conjunto de datos { x1, x2 ,x3 , ......
, xn} con media” X ” , y
desviación típica “S”, se define la transformación: zi =
x X
S
i
dando lugar a otro
conjunto de datos { z1, z2 ,z3 , ......
, zn} llamados “datos tipificados”.
¿Cuál es la media y la varianza de los datos tipificados?.
14°) En un conjunto de datos en donde la mitad sea igual a un valor, y la otra
mitad sea igual a otro valor diferente, ¿puede afirmarse que la media de las
desviaciones absolutas es igual a la desviación típica?.
15°) Si { x1, x2 ,x3 , ......
, xn} es una muestra que tiene media muestral X , y proviene
de una población con media poblacional “ ”. ¿ Cual de las siguientes dos
expresiones es menor: ( )xi
i
i n
1
2
ó ( )x Xi
i
i n
1
2
? . Justifique su respuesta.
16°) Explique el porqué en el método de abreviado de calculo para la varianza, se
toma como referencia cero al punto medio de la clase modal. ¿Pudiera tomarse a
otra marca de clase sin modificar el método? .
Temas complementarios para investigar
1°) Investigue sobre las aplicaciones del “Coeficiente de Variación” en el control de
la calidad para la preparación de mezclas, como por ejemplo “el concreto”.
2°) Investigue sobre el uso y significado de otras medidas relativas de dispersión,
como por ejemplo el coeficiente de variación cuartil.
3°) Investigue sobre las aplicaciones del rango muestral en el “Control Estadístico
de Procesos”.
Problemas Propuestos
I. Nivel Elemental
7.12) Una empresa tiene dos agencias , una en Caracas y otra en el interior .
El sueldo de los empleados de esa empresa en cada una de esas dos agencias es
como sigue:
Caracas : Media = Bs. 150.000 Desviación Típica = Bs. 25.000
Interior : Media = Bs. 120.000 Desviación Típica = Bs. 16.000
¿ En cual de las dos agencias, los sueldos son más homogéneos? .
Solución : En la del interior.
7.13) Se tiene un conjunto de seis datos, cuyos valores son : 3 , 8 , 2 , 3 , 5 y 4.
a) Calcule su rango, varianza y coeficiente de variación.
b) Calcule la media de las desviaciones absolutas.
Medidas de Dispersión
Angel Francisco Arvelo L.
21
c) Calcule la media de las desviaciones absolutas respecto de la mediana.
Solución : a) 6 , 3,81 , 46,82% b) 1,56 c) 1,50
7.14) La siguiente tabla se refiere a las estaturas en pulgadas, de un grupo de
estudiantes:
Estatura 60 a 62 63 a 65 66 a 68 69 a 71 72 a 74
Frecuencia 5 18 42 27 8
Determine el rango, la media de las desviaciones absolutas, el porcentaje de
estudiantes dentro del intervalo X ± 2 D.M, el rango intercuartil , el rango percentil ,
la desviación típica , y el coeficiente de variación .
Solución: 15 , 2,26 , 85,67 % , 3,97 , 7,94 , 2,92 y 4,33 % .
7.15) La longitud de unas piezas en milímetros se da en la siguiente tabla:
Longitud 250,00 –250,99 260.00-269,99 270,00-279,99 280,00-289,99 290,00-299.99 300,00-309,99 310,00-319,99
Frecuencia 8 10 16 14 10 5 2
Use el método abreviado de cálculo, para hallar el coeficiente de variación.
Solución : 5,58 % .
7.16)Calcule el coeficiente de variación para la siguiente tabla de frecuencias
relativas acumuladas:
Límites
Reales < 49.5 < 99.5 < 149.5 < 199.5 < 249.5 < 299.5 < 349.5 < 399.5
Hi % 0 % 12% 38% 45% 63% 80% 96% 100%
Solución: 43,40 %
7.17) Calcule el porcentaje de datos que en la distribución anterior caen en el
intervalo X ± 1,50 S . Solución: 87,29%
7.18) Durante un periodo de 150 horas, se observó el número de clientes por hora
que acuden a un comercio, encontrando:
Clientes 0 1 2 3 4 5 6 7 8
frecuencia 5 19 29 30 22 16 14 9 6
a) Determine la desviación típica y la media de las desviaciones absolutas.
b) El porcentaje de veces en que la observación cae en el intervalo X ± 2S .
Solucíón: a) 2,02 y 1,68. b) 96 % .
7.19) La media de unos datos es 10, y su coeficiente de variación es del 20% .
Calcule el nuevo coeficiente de variación en cada uno de los siguientes casos:
a) A cada uno de los datos se le suma 2.
b) Cada uno de los datos se incrementa en un 35%.
Solución : a) 16,67 % . b) 20% .
II. Nivel Intermedio
7.20) El coeficiente de variación de 21 datos es 9,95227 % , y la suma de sus
cuadrados 13255.
Medidas de Dispersión
Angel Francisco Arvelo L.
22
Si los datos se incrementan en 6 unidades, ¿cuál es el nuevo coeficiente de
variación?. Solución: 8,03% .
7.21) Si cada uno de los datos de un conjunto se multiplica por 3, la media
aritmética es 108 ; y si a cada dato se le suma 10, la media cuadrática es 48.
¿ Cual es el coeficiente de variación de los datos?. Solución : 38,09 %
7.22) Sean los datos : 3 , 6 , 6 , x , y . Si el coeficiente de variación es 29,0144 % , y
la varianza es S
2
= 2,64 . Determine los datos que faltan x , y . Solución : 5 y 8
7.23) El sueldo promedio del personal de una empresa es de $1.200 con una
desviación típica de $250.
El personal va a ser beneficiado con un bono fijo y un aumento porcentual , y según
el orden en que se apliquen estos beneficios, el futuro sueldo promedio puede ser
de $ 1.810 si aplica primero el incremento porcentual y luego el bono, o de $ 1.885
si se aplica primero el bono y luego el incremento porcentual.
a) Determine el monto del bono fijo y del aumento porcentual.
b) Analice cual de estas modalidades proporciona una mayor homogeneidad en los
sueldos del personal.
Solución : $ 250 de bono con 30% de incremento porcentual , o $ 360 de bono con
20,8333 % de incremento porcentual .
7.24) La media de un conjunto de datos es 8 , y la media cuadrática 10.
¿Cual será el nuevo coeficiente de variación, si cada dato es incrementado en:
a) 2 unidades?. b) 20% ?.
Solución: a) 60% b) El mismo anterior al incremento = 75%.
7.25) Si cada uno de los datos de un conjunto es incrementado en 2 unidades, el
nuevo coeficiente de variación es del 10%, y la nueva varianza 4 .
¿Cual era la media de los datos originales ? . Solución: 18
7.26) Los salarios en una empresa tienen una desviación típica de 1.200.
Si todos los salarios son incrementados en 2.000, el coeficiente de variación
disminuye en 2%. Calcule el salario medio después del aumento. Solución: 12.000
7.27) En el almacén de una empresa existen diversas cajas, que pueden ser
clasificadas así: pequeñas cuyo peso es menos de 150 kilos, regulares con un peso
desde 150 hasta 250 kilos, grandes con un peso desde 250 kilos hasta 500 kilos, y
extra grandes desde 500 kilos en adelante.
Si el peso medio de las cajas es de 200 kilos, con una desviación típica de 20 kilos.
¿Cuál es el porcentaje mínimo de las cajas de tamaño regular dentro del almacén? .
Solución : 84 % por lo menos.
Medidas de Dispersión
Angel Francisco Arvelo L.
23
III. Nivel Avanzado
7.28) Para “n” datos cualesquiera { x1, x2 ,x3 , ......
, xn} , demuestre que: X
x
n
i
i
i n
2
1
Utilice el resultado anterior para demostrar: D.M . S . ¿Cuándo son iguales?.
7.29) La media de un conjunto de datos es 1,50 , la desviación típica es 3,50 , y la
mitad de ellos son iguales a un valor “a” , mientras que la otra mitad son iguales a
otro valor “b”. ( a < b) .
a) Determine “a” y “b”.
b) Si se añaden cinco nuevos datos que resultan ser iguales a “b”, y se obtiene que
la nueva media es 2,20. ¿Cuántos datos había inicialmente?.
Solución : a) a = -2 , b= 5 b) 20
7.30) Se tiene “n” datos con media X y varianza S
2
.
Suponga que se obtiene un nuevo dato xn 1 que se incorpora al conjunto anterior
dando lugar a un conjunto de (n+1) datos.
Demuestre que la varianza Sn 1
2
del nuevo conjunto de datos, viene dada por :
S
n
n
n 1
2 2
1
S +
n
(n+1)
( X - x2
2 n+1 )
7.31) Generalice el resultado anterior , para dos conjuntos de datos disjuntos, de
tamaños n1 y n2 , con medias X1 y X2 , y varianzas S1
2
y S2
2
respectivamente.
Deduzca una fórmula que permita calcular la varianza de su unión.
Solución : S
n n X X
n
2 1 2 1 2
2
1 2
2=
n S + n S
n +n
1 1
2
2 2
2
1 2
( )
(n )
7.32) Suponga que se tienen dos conjuntos de datos disjuntos , con igual media X ,
pero de diferentes tamaños n1 y n2 , y con diferentes coeficientes de variación CV1
y CV2 respectivamente .
Al unir estos dos conjuntos, ¿qué tipo de media entre sus coeficientes de variación
debe utilizarse, para obtener el coeficiente de variación de la unión?.
Solución: C.V =
n V V
n n
1 1
2
2 2
2
1 2
C n C. .
= Media cuadrática ponderada entre sus
coeficientes de variación.
7.33) Se tienen dos conjuntos de datos, en donde:
Medidas de Dispersión
Angel Francisco Arvelo L.
24
1° Conjunto: n1= 75 ; X i
i
i n
1
2
1
1
= 67688,75 ; C.V1 = 5%
2° Conjunto: n2 = 80 ; X i
i
i n
2
2
1
2
= 46540,80 ; C.V2 = 10%
Calcule el coeficiente de variación de su unión.
Solución: 13,43%
7.34) El sueldo promedio del personal de una industria es de 40.000.
Se sabe que del personal de esa industria,
2
3
son obreros y
1
3
son empleados, y
que además, el sueldo promedio de los empleados es el doble del de los obreros .
La desviación típica en el sueldo de los obreros es de 5.000 ; mientras que en el
sueldo de los empleados es de 15.000 .
a) ¿Cual es el sueldo promedio de los empleados y cual el de los obreros?.
b) Si se aumentan los sueldos en 20% para los empleados, y en 50% para los
obreros.
Encuentre el nuevo coeficiente de variación en los sueldos, para todo el personal
Solución : a) 60.000 y 30.000 b) 32,47% .
7.35) En una plantel se administró un examen sobre 100 puntos, y los alumnos
concurrieron en dos turnos: mañana y tarde.
Para el turno de la mañana se obtuvo una media de 52,00 puntos ,y para el turno
de la tarde donde presentaron 330 alumnos, se obtuvo una media de 46,00 puntos.
La media de todo el grupo resultó ser de 48,04 puntos.
Tanto para el turno de la mañana como para el de la tarde, se obtuvo la misma
desviación típica; pero la desviación típica de todo el grupo resultó ser 30% mayor
que la de la mañana (o de la tarde) .
En base a esta información, obtenga el coeficiente de variación para cada uno de
los turnos, y el de todo el grupo.
Solución: Mañana : 6,58 % . Tarde: 7,43 % . General : 9,25 % .
7.36) Determine la varianza de “n” datos que sean iguales a los primeros “n”
números naturales: 1, 2, 3 , …..
, n. Solución :
n2
1
12
.
7.37) Aproveche el resultado del ejercicio anterior para encontrar la varianza de “n”
datos que se encuentren en progresión aritmética: a , a + r , a + 2r , …., a+ (n -1) r .
Solución :
r2 2
1
12
(n )

Más contenido relacionado

La actualidad más candente

Estadística datos y variables.
Estadística datos y variables.Estadística datos y variables.
Estadística datos y variables.
Abigail Arellano
 
Modulo De Metodos Cuantitativos En Investigacion[1]
Modulo De Metodos Cuantitativos En Investigacion[1]Modulo De Metodos Cuantitativos En Investigacion[1]
Modulo De Metodos Cuantitativos En Investigacion[1]
Fernando Lopez
 
Estadistica I
Estadistica IEstadistica I
Estadistica I
Videoconferencias UTPL
 
Presentación de estadistica
Presentación de estadisticaPresentación de estadistica
Presentación de estadistica
Sebastian Delgado
 
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
guest8a3c19
 
Estadistica MI-23
Estadistica MI-23Estadistica MI-23
Estadistica MI-23
knoshie
 
Distribuciones de Probabilidad
Distribuciones de ProbabilidadDistribuciones de Probabilidad
Distribuciones de Probabilidad
Viri_TPerales
 
Psico 6ta medidas posición relativa
Psico 6ta  medidas posición relativaPsico 6ta  medidas posición relativa
Psico 6ta medidas posición relativa
Univ Peruana Los Andes
 
Módulo 2
Módulo 2Módulo 2
Módulo 2
Fredy Espejo
 
Ejercicio practico 1 10 2018
Ejercicio practico 1 10 2018Ejercicio practico 1 10 2018
Ejercicio practico 1 10 2018
edidson fuentes
 
Psico 11ava. resumen de muestras
Psico 11ava. resumen de muestrasPsico 11ava. resumen de muestras
Psico 11ava. resumen de muestras
Univ Peruana Los Andes
 
UTPL-ESTADÍSTICA I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)
UTPL-ESTADÍSTICA I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)UTPL-ESTADÍSTICA I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)
UTPL-ESTADÍSTICA I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)
Videoconferencias UTPL
 
Estadística Descriptiva. Medidas de posicion
Estadística Descriptiva. Medidas de posicionEstadística Descriptiva. Medidas de posicion
Estadística Descriptiva. Medidas de posicion
Juan González Díaz
 
Prueba de los signos
Prueba de los signosPrueba de los signos
Prueba de los signos
Soledad Malpica
 
Clase 4 medidas de tendencia no central
Clase 4 medidas de tendencia no centralClase 4 medidas de tendencia no central
Clase 4 medidas de tendencia no central
LUZ ELENA GARCIA
 
Medidas de dispersión
Medidas de dispersiónMedidas de dispersión
Medidas de dispersión
Alex ESPIRITU ROJAS
 
Prueba no paramétrica- Wilcoxon
Prueba no paramétrica- WilcoxonPrueba no paramétrica- Wilcoxon
Prueba no paramétrica- Wilcoxon
Fernanda Alcalá
 
Estadistica
EstadisticaEstadistica
Estadistica
Silvia Curichumbi
 
Manual spss
Manual spssManual spss
Manual spss
jesepozo1992
 
Psico 4ta medidas de dispersion
Psico 4ta medidas de dispersionPsico 4ta medidas de dispersion
Psico 4ta medidas de dispersion
Univ Peruana Los Andes
 

La actualidad más candente (20)

Estadística datos y variables.
Estadística datos y variables.Estadística datos y variables.
Estadística datos y variables.
 
Modulo De Metodos Cuantitativos En Investigacion[1]
Modulo De Metodos Cuantitativos En Investigacion[1]Modulo De Metodos Cuantitativos En Investigacion[1]
Modulo De Metodos Cuantitativos En Investigacion[1]
 
Estadistica I
Estadistica IEstadistica I
Estadistica I
 
Presentación de estadistica
Presentación de estadisticaPresentación de estadistica
Presentación de estadistica
 
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
 
Estadistica MI-23
Estadistica MI-23Estadistica MI-23
Estadistica MI-23
 
Distribuciones de Probabilidad
Distribuciones de ProbabilidadDistribuciones de Probabilidad
Distribuciones de Probabilidad
 
Psico 6ta medidas posición relativa
Psico 6ta  medidas posición relativaPsico 6ta  medidas posición relativa
Psico 6ta medidas posición relativa
 
Módulo 2
Módulo 2Módulo 2
Módulo 2
 
Ejercicio practico 1 10 2018
Ejercicio practico 1 10 2018Ejercicio practico 1 10 2018
Ejercicio practico 1 10 2018
 
Psico 11ava. resumen de muestras
Psico 11ava. resumen de muestrasPsico 11ava. resumen de muestras
Psico 11ava. resumen de muestras
 
UTPL-ESTADÍSTICA I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)
UTPL-ESTADÍSTICA I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)UTPL-ESTADÍSTICA I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)
UTPL-ESTADÍSTICA I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)
 
Estadística Descriptiva. Medidas de posicion
Estadística Descriptiva. Medidas de posicionEstadística Descriptiva. Medidas de posicion
Estadística Descriptiva. Medidas de posicion
 
Prueba de los signos
Prueba de los signosPrueba de los signos
Prueba de los signos
 
Clase 4 medidas de tendencia no central
Clase 4 medidas de tendencia no centralClase 4 medidas de tendencia no central
Clase 4 medidas de tendencia no central
 
Medidas de dispersión
Medidas de dispersiónMedidas de dispersión
Medidas de dispersión
 
Prueba no paramétrica- Wilcoxon
Prueba no paramétrica- WilcoxonPrueba no paramétrica- Wilcoxon
Prueba no paramétrica- Wilcoxon
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Manual spss
Manual spssManual spss
Manual spss
 
Psico 4ta medidas de dispersion
Psico 4ta medidas de dispersionPsico 4ta medidas de dispersion
Psico 4ta medidas de dispersion
 

Similar a Medidas de-dispersion-arvelo

Medidas de-dispersion-arvelo
Medidas de-dispersion-arveloMedidas de-dispersion-arvelo
Medidas de-dispersion-arvelo
Axel Juarez
 
METODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptx
METODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptxMETODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptx
METODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptx
franciscocuevas2190
 
Medida de dispersion.
Medida de dispersion.Medida de dispersion.
Medida de dispersion.
anniekl
 
Hidro informe
Hidro informeHidro informe
Medidas de dispersion
Medidas de dispersionMedidas de dispersion
Medidas de dispersion
araguache1610
 
Medidas De Dispersion
 Medidas De Dispersion Medidas De Dispersion
Medidas De Dispersion
NancyDlFiguera
 
Informe estadistica medidas de dispersion gilfran yañez 20027780
Informe estadistica medidas de dispersion gilfran yañez 20027780Informe estadistica medidas de dispersion gilfran yañez 20027780
Informe estadistica medidas de dispersion gilfran yañez 20027780
Eduardo Claro
 
Dispersion04
Dispersion04Dispersion04
Dispersion04
Alejandra Camors
 
1° Repaso de Estadistica Descriptiva-2.pdf
1° Repaso de Estadistica Descriptiva-2.pdf1° Repaso de Estadistica Descriptiva-2.pdf
1° Repaso de Estadistica Descriptiva-2.pdf
Carlos Araya Morata
 
Medidas de dispersion......
Medidas de dispersion......Medidas de dispersion......
Medidas de dispersion......
holaqhaces123
 
distribuciones muestrales
distribuciones muestralesdistribuciones muestrales
distribuciones muestrales
Jtonymattey
 
Medidasdetendenciacentralydispersion.pdf
Medidasdetendenciacentralydispersion.pdfMedidasdetendenciacentralydispersion.pdf
Medidasdetendenciacentralydispersion.pdf
leyonat
 
Universidad fermin toro
Universidad fermin toroUniversidad fermin toro
Universidad fermin toro
mapezim
 
Jose borges tarea presentacion ppt dist de prob
Jose borges tarea presentacion ppt dist de probJose borges tarea presentacion ppt dist de prob
Jose borges tarea presentacion ppt dist de prob
Jose Ramon Borges Yepez
 
Presentación 2 estadistica
Presentación 2   estadisticaPresentación 2   estadistica
Presentación 2 estadistica
Luis Alejandro Bastardø
 
Doc medidas
Doc medidasDoc medidas
Doc medidas
jennypao39
 
Presentación1
Presentación1Presentación1
Presentación1
carmen m pastrano b
 
Inferencia Estadística con muestras grandes
Inferencia Estadística con muestras grandesInferencia Estadística con muestras grandes
Inferencia Estadística con muestras grandes
JesusDanielRodriguez6
 
Resumen Medidas de Variabilidad
Resumen Medidas de VariabilidadResumen Medidas de Variabilidad
Resumen Medidas de Variabilidad
Mauricio Gramajo Zoireff
 
Estadistica I 05
Estadistica  I 05Estadistica  I 05
Estadistica I 05
Leonardo Simmons
 

Similar a Medidas de-dispersion-arvelo (20)

Medidas de-dispersion-arvelo
Medidas de-dispersion-arveloMedidas de-dispersion-arvelo
Medidas de-dispersion-arvelo
 
METODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptx
METODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptxMETODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptx
METODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptx
 
Medida de dispersion.
Medida de dispersion.Medida de dispersion.
Medida de dispersion.
 
Hidro informe
Hidro informeHidro informe
Hidro informe
 
Medidas de dispersion
Medidas de dispersionMedidas de dispersion
Medidas de dispersion
 
Medidas De Dispersion
 Medidas De Dispersion Medidas De Dispersion
Medidas De Dispersion
 
Informe estadistica medidas de dispersion gilfran yañez 20027780
Informe estadistica medidas de dispersion gilfran yañez 20027780Informe estadistica medidas de dispersion gilfran yañez 20027780
Informe estadistica medidas de dispersion gilfran yañez 20027780
 
Dispersion04
Dispersion04Dispersion04
Dispersion04
 
1° Repaso de Estadistica Descriptiva-2.pdf
1° Repaso de Estadistica Descriptiva-2.pdf1° Repaso de Estadistica Descriptiva-2.pdf
1° Repaso de Estadistica Descriptiva-2.pdf
 
Medidas de dispersion......
Medidas de dispersion......Medidas de dispersion......
Medidas de dispersion......
 
distribuciones muestrales
distribuciones muestralesdistribuciones muestrales
distribuciones muestrales
 
Medidasdetendenciacentralydispersion.pdf
Medidasdetendenciacentralydispersion.pdfMedidasdetendenciacentralydispersion.pdf
Medidasdetendenciacentralydispersion.pdf
 
Universidad fermin toro
Universidad fermin toroUniversidad fermin toro
Universidad fermin toro
 
Jose borges tarea presentacion ppt dist de prob
Jose borges tarea presentacion ppt dist de probJose borges tarea presentacion ppt dist de prob
Jose borges tarea presentacion ppt dist de prob
 
Presentación 2 estadistica
Presentación 2   estadisticaPresentación 2   estadistica
Presentación 2 estadistica
 
Doc medidas
Doc medidasDoc medidas
Doc medidas
 
Presentación1
Presentación1Presentación1
Presentación1
 
Inferencia Estadística con muestras grandes
Inferencia Estadística con muestras grandesInferencia Estadística con muestras grandes
Inferencia Estadística con muestras grandes
 
Resumen Medidas de Variabilidad
Resumen Medidas de VariabilidadResumen Medidas de Variabilidad
Resumen Medidas de Variabilidad
 
Estadistica I 05
Estadistica  I 05Estadistica  I 05
Estadistica I 05
 

Más de alejandromoises

97305049 fisica-primero-guia-luz-e-imagenes
97305049 fisica-primero-guia-luz-e-imagenes97305049 fisica-primero-guia-luz-e-imagenes
97305049 fisica-primero-guia-luz-e-imagenes
alejandromoises
 
3 ecuaciones cuadraticas.
3 ecuaciones cuadraticas.3 ecuaciones cuadraticas.
3 ecuaciones cuadraticas.
alejandromoises
 
2 sistemas-de-ecuaciones
2 sistemas-de-ecuaciones2 sistemas-de-ecuaciones
2 sistemas-de-ecuaciones
alejandromoises
 
Taller gráficos de cinemática
Taller   gráficos de cinemáticaTaller   gráficos de cinemática
Taller gráficos de cinemática
alejandromoises
 
Ejercicios sonido
Ejercicios sonidoEjercicios sonido
Ejercicios sonido
alejandromoises
 
2015 demre-modelo-prueba-ciencias-biologia
2015 demre-modelo-prueba-ciencias-biologia2015 demre-modelo-prueba-ciencias-biologia
2015 demre-modelo-prueba-ciencias-biologia
alejandromoises
 
42 inecuaciones y sistemas de inecuaciones
42 inecuaciones y sistemas de inecuaciones42 inecuaciones y sistemas de inecuaciones
42 inecuaciones y sistemas de inecuaciones
alejandromoises
 
Ejercicios propuestos taller p. s. u.
Ejercicios propuestos taller p. s. u.Ejercicios propuestos taller p. s. u.
Ejercicios propuestos taller p. s. u.
alejandromoises
 

Más de alejandromoises (8)

97305049 fisica-primero-guia-luz-e-imagenes
97305049 fisica-primero-guia-luz-e-imagenes97305049 fisica-primero-guia-luz-e-imagenes
97305049 fisica-primero-guia-luz-e-imagenes
 
3 ecuaciones cuadraticas.
3 ecuaciones cuadraticas.3 ecuaciones cuadraticas.
3 ecuaciones cuadraticas.
 
2 sistemas-de-ecuaciones
2 sistemas-de-ecuaciones2 sistemas-de-ecuaciones
2 sistemas-de-ecuaciones
 
Taller gráficos de cinemática
Taller   gráficos de cinemáticaTaller   gráficos de cinemática
Taller gráficos de cinemática
 
Ejercicios sonido
Ejercicios sonidoEjercicios sonido
Ejercicios sonido
 
2015 demre-modelo-prueba-ciencias-biologia
2015 demre-modelo-prueba-ciencias-biologia2015 demre-modelo-prueba-ciencias-biologia
2015 demre-modelo-prueba-ciencias-biologia
 
42 inecuaciones y sistemas de inecuaciones
42 inecuaciones y sistemas de inecuaciones42 inecuaciones y sistemas de inecuaciones
42 inecuaciones y sistemas de inecuaciones
 
Ejercicios propuestos taller p. s. u.
Ejercicios propuestos taller p. s. u.Ejercicios propuestos taller p. s. u.
Ejercicios propuestos taller p. s. u.
 

Medidas de-dispersion-arvelo

  • 1. ANGEL FRANCISCO ARVELO LUJAN Angel Francisco Arvelo Luján es un Profesor Universitario Venezolano en el área de Probabilidad y Estadística, con más de 40 años de experiencia en las más reconocidas universidades del área metropolitana de Caracas. Universidad Católica “Andrés Bello” : Profesor Titular Jubilado 1970 a 2003 Universidad Central de Venezuela: Profesor por Concurso de Oposición desde 1993 al presente Universidad Simón Bolívar: Profesor desde 2005 al presente Universidad Metropolitana: Profesor desde 1973 a 1987 Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004 Sus datos personales son : Lugar y Fecha de Nacimiento: Caracas, 16-02-1947 Correo electrónico: angelf.arvelo@gmail.com Teléfono: 58 416 6357636 Estudios realizados: Ingeniero Industrial. UCAB Caracas 1968 Máster en Estadística Matemática CIENES , Universidad de Chile 1972 Cursos de Especialización en Estadística No Paramétrica Universidad de Michigan 1982 Doctorado en Gestión Tecnológica: Universidad Politécnica de Madrid 2006 al Presente El Profesor Arvelo fue Director de la Escuela de Ingeniería Industrial de la Universidad Católica “Andrés Bello” (1974-1979) , Coordinador de los Laboratorios de esa misma Universidad especializados en ensayos de Calidad, Auditor de Calidad, y autor del libro “Capacidad de Procesos Industriales” UCAB 1998. En numerosas oportunidades, el Profesor Arvelo ha dictado cursos empresariales en el área de “Estadística General” y “Control Estadístico de Procesos”. Para más información consulte la página web. www.arvelo.com.ve
  • 2. Medidas de Dispersión Angel Francisco Arvelo L. 2 MEDIDAS DE DISPERSION Las medidas que hasta ahora conocemos, medias, moda, percentiles, etc., tienen todas ellas la propiedad de ubicarse siempre entre los dos valores extremos de los datos, mínimo y máximo, pues indican posición, bien sea central, o bien sea extrema como por ejemplo el percentil 5 , o el percentil 95. Las medidas que van a ser estudiadas en este capítulo no gozan de esta propiedad, y persiguen como objetivo describir la homogeneidad o heterogeneidad de los datos. Las medidas de tendencia central son insuficientes para describir el comportamiento de los datos, pues no proporcionan información acerca de cuan cerca o cuan lejos se encuentran estos datos, con relación a ese valor central. Así por ejemplo el trío de datos {8 , 9 , 10 } y { 1 , 10 , 16 } tienen ambos media 9; pero resulta obvio, que en el primero de ellos existe una menor desviación con respecto a este valor central, que en el segundo. Medir la variabilidad resulta muy importante en diversas situaciones prácticas, pues a través de su medición se podrán comparar conjuntos de datos, y establecer cuando existe una mayor concentración de ellos en la región central. Así por ejemplo, en estudios sociales las medidas de dispersión proporcionan la información requerida para analizar como es la distribución de los ingresos dentro de la sociedad; en los estudios de calidad industrial, estas mismas medidas de dispersión se utilizan para medir la precisión de las máquinas utilizadas en el proceso de producción. Antes de comenzar a analizar las medidas de dispersión, se recomienda revisar las propiedades de la media aritmética. (Véase Medidas de Tendencia Central. Arvelo) 1 Varianza y Desviación Típica: Cuando se tiene un conjunto de datos { x1, x2 ,x3 , ...... , xn} sin agrupar, se define como desvío de cada dato con relación a su media aritmética , a la diferencia : di= xi - X . Aunque los desvíos pueden ser calculados respecto de cualquier valor, salvo que se indique lo contrario, se sobreentiende que estos se calculan respecto de X, y como sabemos, la suma de sus cuadrados es mínima, cuando estos desvíos se calculan respecto de la media aritmética Cuanto mayor sea este desvío, mas alejado se encuentra el dato xi de X. Estos desvíos pueden ser positivos o negativos, según el dato xi se encuentre a la derecha o la izquierda de X, y su suma algebraica da siempre cero. En consecuencia, no se puede tomar al promedio de los desvíos como medida de dispersión, debido a que este promedio sería siempre nulo. El problema del signo de los desvíos puede ser resuelto de dos maneras, o bien tomando su valor absoluto, o como segunda opción elevándolos al cuadrado. Para definir la varianza, se adopta esta segunda alternativa.
  • 3. Medidas de Dispersión Angel Francisco Arvelo L. 3 La varianza de un conjunto de datos cuantitativos { x1, x2 ,x3 , ...... , xn} sin agrupar, se define como la media aritmética del cuadrado de sus desvíos. S X n i 2 2 = (x i=1 i=n ) La expresión anterior es una definición, y por lo tanto debe ser aceptada como tal, sin demostración. Sin embargo, debido a que la varianza es la más importante de las medidas de dispersión, es importante hacer las siguientes aclaratorias: 1°) La varianza es una medida de dispersión que representa exclusivamente lo que establece la definición: Media aritmética del cuadrado de los desvíos. Cuanto más desviado esté un dato de X , mayor será su cuadrado , y en consecuencia mayor será varianza. La varianza no puede ser interpretada como algo diferente a lo que la definición misma establece. 2°) La varianza viene expresada en unidades de los datos al cuadrado, y así por ejemplo, si los datos están en centímetros, la varianza está en centímetros cuadrados. Esto ocasiona que el orden de magnitud de la varianza sea completamente diferente al de los datos originales, y que además no sean comparables con ellos pues vienen expresados en unidades diferentes. Por estos dos motivos, en muchas oportunidades interesa regresar a las unidades originales, y allí es cuando aparece el concepto de “Desviación Típica”, que se define simplemente como la raíz cuadrada de la varianza. S x X n i i i n ( )2 1 La desviación típica o “estándar” , viene en las mismas unidades de los datos, y constituye junto con la varianza las más importantes medidas de dispersión. 3°) Otro comentario importante con relación a la varianza, es el que se refiere a su denominador, si es “n” o “n-1”, pues a lo largo de toda la bibliografía estadística, existe una gran confusión con relación a este punto. Cuando una medida se calcula tomando en consideración a toda una población recibe el nombre de “Parámetro Poblacional” ; mientras que cuando de calcula sobre una muestra se llama “Estadígrafo” , “Estadístico Muestral” , o simplemente “estadístico”. La nomenclatura más utilizada en “Inferencia Estadística” consiste en designar a los parámetros poblacionales con letras griegas, y a los estadísticos con letras latinas. Así por ejemplo , si se tienen “N” datos cuantitativos que constituyen una población y sobre ellos se quiere calcular su media, la misma vendría representada por : x N i i i N 1 , y se llamaría “Media Poblacional”
  • 4. Medidas de Dispersión Angel Francisco Arvelo L. 4 Si de esa población de “N” elementos, se toma al azar una muestra de “n” y se calcula su media, ésta se designaría por : X x n i i i n 1 . Uno de los problemas importantes que se estudia en “Inferencia Estadística” es el de estimación, que trata sobre la metodología a seguir para inferir el valor desconocido de un parámetro poblacional a partir del estadístico muestral. Cuando esta nomenclatura se aplica sobre la varianza, se obtiene que la poblacional designada por 2 ,viene dada por : 2 2 1 ( )x N i i i N ; mientras que la muestral : S x X n i i i n 2 2 1 ( ) . Sin embargo, en Inferencia Estadística se demuestra que especialmente para muestras pequeñas (n < 30), un mejor estimador1 de 2 es: Sc i i i n x X n 2 2 1 1 ( ) que recibe el nombre de “cuasi varianza muestral” . Como la diferencia en la estimación, entre uno y otro es realmente muy pequeña especialmente para muestras grandes y además Sc 2 es mejor estimador, muchos autores definen de una vez a Sc 2 como “varianza muestral” y omiten definir al otro. La “Estadística Descriptiva” no hace distinción entre población y muestra, su único objetivo es describir el comportamiento de los datos, y por este motivo usa a S2 con divisor “n” como definición de “Varianza de los datos”, sin pronunciarse sobre si es muestral o poblacional. Propiedades de la Varianza Propiedad N°1°: S2 0. Resulta obvio que por ser la varianza la media de cuadrados de los desvíos, sea siempre una cantidad positiva, pues los cuadrados siempre lo son. Es importante destacar que el caso S2 = 0 implica que todos los datos son iguales, es decir que no existe variabilidad, y recíprocamente cuando todos los datos son iguales entonces S2 = 0. Esta propiedad es común para todas las medidas de dispersión, es decir: Medida de Dispersión = 0 x1= x2 = x3 = ...... = xn Propiedad N°2: Cuando los datos son sometidos a una transformación lineal Y = a + b X , entonces SY 2 = b2 SX 2 . 1 Es un estimador “Insesgado”. Véanse textos de “Inferencia Estadística” .
  • 5. Medidas de Dispersión Angel Francisco Arvelo L. 5 Demostración : Supongamos que se tiene un conjunto de datos { x1, x2 ,x3 , ...... , xn} y se le somete a la transformación Y = a + b X , dando lugar a unos nuevos datos { y1, y2 ,y3 , ...... , yn} . Por definición : S y Y n Y i i i n 2 2 1 ( ) ; y a bx Y a bX i iRST ; por la transformación ; por propiedad N 5 de la media Por lo tanto: S a bx a bX n Y i i i n 2 2 1 ( ) = b x X n i i n 2 2 1 ( ) = b2 SX 2 . Como corolario de esta propiedad N° 2 se deducen las siguientes: 2.a) Si se le suma a cada dato una constante, la varianza no se altera. Es el caso : b = 1. 2.b) Si cada dato es multiplicado por una constante, la varianza queda multiplicada por el cuadrado de dicha constante. Es el caso a = 0. 2.c) Si se somete a los datos a una transformación lineal, la desviación típica que multiplicada por la pendiente de la transformación: Sy = b Sx . Ejemplo 1 Los siguientes datos representan el peso de 4 personas expresados en kilogramos: 64 , 70 , 66 y 80. a) Calcular la varianza y la desviación típica . b) Transformar los datos en libras, y recalcular su varianza y su desviación típica. Solución: a) Para calcular la varianza, es necesario calcular primero la media. X 64 70 66 80 4 = 70 Kgs. S2 = ( ) (70 ) ( ) ( )64 70 70 66 70 80 70 4 2 2 2 2 = 38 S = 38 = 6,16 Kgs. b) El factor de conversión de kilogramos a libras es 2,2 , de manera que si el peso de estas 4 personas se expresara en libras los datos quedarían transformados en: 140,80 , 154,00 , 145,20 y 176,00 . Para la varianza de los nuevos datos, se puede repetir el procedimiento anterior. Y 140 80 154 00 145 20 176 00 4 , , , , = 154,00 SY 2 2 2 2 2 140 80 154 154 154 145 20 154 176 154 4 ( , ) ( ) ( , ) ( ) = 183,92 SY= 183 92, = 13,56 Gracias a la propiedad N° 2 de la varianza, este procedimiento es innecesario, pues los datos “Y” en libras son los datos “X” en kilogramos sometidos a la transformación: Y=2,2 X, y por lo tanto: SY 2 = b2 SX 2 = (2,2)2 38 = 183,92 ; Sy = b Sx = (2,2) 6,16 = 13,56
  • 6. Medidas de Dispersión Angel Francisco Arvelo L. 6 Propiedad N°3 : La varianza también puede ser calculada mediante la expresión: S x n X i i i n 2 2 1 2 Esta es una expresión alternativa, cuyo cálculo suele ser más sencillo que el explicado con anterioridad a partir de la definición. Esta expresión recibe el nombre de “cálculo de la varianza por momentos”, por una razón que se explicará en el capitulo siguiente, y establece que la varianza es igual a la media de los cuadrados menos el cuadrado de la media. Demostración: Partiendo de la definición , y desarrollando el cuadrado, se tiene: S x X n i i i n 2 2 1 ( ) = ( )x x X X n i i i i n 2 1 2 2 = x X X n i i i n i I n i i n 2 1 1 2 1 2 xi Como es X una constante, según las propiedades de las sumatorias se tiene que X i i n 2 1 = n X2 , y además xi i I n 1 = n X . Sustituyendo: S 2 = x X X n n i i i n 2 1 2 2 (n X) x n n i i i n 2 1 2 X x n X i i i n 2 1 2 Como consecuencia de esta propiedad se tiene que una fórmula alternativa para calcular la desviación típica es: S = x n X i i i n 2 1 2 Ejemplo 2 Calcular la varianza y la desviación típica de los pesos en kilogramos 64 , 70 , 66 y 80 del Ejemplo 7.1 , aplicando la fórmula por momentos. Solución: Hay que calcular la media X = 70 S 2 = 64 70 66 80 4 2 2 2 2 - (70) 2 = 38 S = 38 =6,16 El cálculo de la varianza y de la desviación típica por momentos suele más breve que por definición ; sin embargo se corre el riesgo de perder de vista lo que se está calculando, pues no se necesitan calcular los desvíos. Propiedad N° 4: Desigualdad de Tchebychev. Dado un conjunto de datos { x1, x2 ,x3 , ...... , xn} con media X ; la proporción de datos que se desvían de X en una cantidad menor que , es por lo menos 1 - S2 2 . Esta propiedad es general, y una vez demostrada veremos que es mucha utilidad práctica, especialmente cuando se aplica en ciertos casos particulares como por ejemplo, en la curva normal.
  • 7. Medidas de Dispersión Angel Francisco Arvelo L. 7 Demostración: Supongamos que existen “m” datos que se desvían de X en una cantidad menor que . Llamemos “C” al conjunto de esos “m” datos. Se tiene: m n , y además xi - X < , cuando xi C p = m n = Proporción de datos que pertenecen al conjunto “C”, y que por tanto difieren de X en una cantidad menor que . Por definición : S x X n i i i n 2 2 1 ( ) n S2 = ( )x Xi i i n 2 1 La suma ( )x Xi i i n 2 1 puede ser descompuesta en dos partes, sobre los datos que pertenecen al conjunto “C” , y sobre los que no pertenecen a él. Por tanto : ( )x Xi i i n 2 1 = ( ) ( )x X x Xi x C i x Ci i 2 2 Como: ( )x Xi x Ci 2 0 n S2 = ( )x Xi i i n 2 1 ( )x Xi x Ci 2 Existen (n - m) datos { xi } no pertenecientes al conjunto “C” , y para ellos se verifica: xi C xi - X (xi - X ) 2 2 ( )x Xi x Ci 2 (n - m) 2 Por lo tanto : n S2 ( )x Xi x Ci 2 (n - m) 2 S2 2 n m n = 1 – p y en conclusión: p 1 - S2 2 tal como se quería demostrar. Frecuentemente se toma “ ”como un múltiplo de “S” , de la forma: = k S , y en este caso la desigualdad de Tchebychev establece que la proporción de datos que difiere su media en una cantidad menor que “k veces” la desviación típica , es por lo menos 1 - 1 k2 , es decir : p 1 - 1 k2 Es evidente que cuando k=1 , esta desigualdad carece de utilidad práctica alguna, pues en este caso se concluye en: p 0 , lo que es obvio. Sin embargo, para valores de “k” mayores que la unidad se obtienen conclusiones importantes, y así por ejemplo para k = 2 concluye que en un conjunto de datos cualquiera, la proporción de datos que difiere de su media en menos de dos veces la desviación típica es por lo menos 1 - 1 4 3 4 , es decir p 75% . Cuando se toma k = 3 , la conclusión es que la proporción de datos que difiere de su media en menos de tres desviaciones típicas es por lo menos de 1 - 1 9 8 9 lo que equivale al 88,89 % .
  • 8. Medidas de Dispersión Angel Francisco Arvelo L. 8 Para cualquier distribución de frecuencias distribuciones , y según lo explicado anteriormente por la desigualdad de Tchevishev , en el intervalo ( X ± 2 S) deben caer por lo menos el 75% , y en el intervalo ( X ± 3 S) por lo menos el 88,89 % de los datos . En el caso de la distribución normal , esta proporción de datos ha sido determinada exactamente , y los resultados obtenidos son de amplia utilidad en muchas aplicaciones. Para una normal, en el intervalo ( X ± S) deben caer el 68,27% de los datos muestrales , en el intervalo ( X ± 2 S) deben caer el 95,45% de los datos muestrales , y en el intervalo ( X ± 3 S) deben caer el 99,73% de los datos muestrales . Propiedad N° 5. Para el caso de datos agrupados, el cálculo de la varianza se hace mediante la expresión : S2 = ( )* L X f f i i i i k i i i k 2 1 1 = ( )* L f f X i i i i k i i i k 2 1 1 2 La expresiones anteriores son sencillas de justificar , pues constituyen adaptaciones de la definición de varianza, y de su cálculo por momentos, tomando en cuenta que para el caso de datos agrupados, la marca de clase Li * representa a todos los datos que caen dentro del intervalo. Otra expresión útil para el cálculo, es la que resulta de sustituir en la fórmula de la derecha para el cálculo de S2 por momentos, la media X por su correspondiente para datos agrupados en función de las marcas de clase, y por lo tanto:
  • 9. Medidas de Dispersión Angel Francisco Arvelo L. 9 S2 = ( )* * L f f L f f i i i i k i i i k i i i k i i i i k 2 1 1 1 1 2 F H GGGG I K JJJJ Ejemplo 3 Calcular la varianza y la desviación típica de la siguiente distribución de frecuencias. Intervalo 0 a 10 10 a 20 20 a 30 30 a 40 40 a 50 50 a 60 60 a 70 frecuencia 8 34 76 60 31 28 13 Solución : Hay que organizar los cálculos en la siguiente tabla : Límites reales fi = frecuencia Li * = Marca de clase L fi i * ( )* L fi i 2 0 a 10 8 5 40 200 10 a 20 34 15 510 7650 20 a 30 76 25 1900 47500 30 a 40 60 35 2100 73500 40 a 50 31 45 1395 62775 50 a 60 28 55 1540 84700 60 a 70 13 65 845 54925 Sumatorias 250 8.330 331.250 S2 = 331250 250 8 330 250 2 . .F HG I KJ = 214,78 S = 21478, = 14,66 Método abreviado para el cálculo de la varianza en tablas de frecuencia para datos agrupados de igual amplitud Los cálculos requeridos en el Ejemplo 7.3 pueden resultar complicados si no se tiene una buena calculadora. Un procedimiento abreviado para efectuar los cálculos consiste en definir unas marcas de clase artificiales designadas por Ui * . Al intervalo de mayor frecuencia o clase modal se le da una marca de clase artificial Um * = 0 , a los anteriores marcas de clases artificiales -1 , -2 , etc., y a los posteriores +1 , +2 , +3 , etc. Con este artificio , la tabla queda : Límites reales fi = frecuencia Ui * = Marca de clase artificial U fi i * ( )* U fi i 2 0 a 10 8 -2 - 16 32 10 a 20 34 -1 - 34 34 20 a 30 76 0 0 0 30 a 40 60 1 60 60 40 a 50 31 2 62 124 50 a 60 28 3 84 252 60 a 70 13 4 52 208 Sumatorias 250 208 710
  • 10. Medidas de Dispersión Angel Francisco Arvelo L. 10 Posteriormente se calcula la varianza de los datos artificiales, mediante la expresión : SU 2 = ( )* * U f f U f f i i i i k i i i k i i i k i i i i k 2 1 1 1 1 2 F H GGGG I K JJJJ = 710 250 208 250 2 F HG I KJ = 2,1478 Finalmente : S c SU 2 2 2 , donde c = Amplitud = 10 S2 = (10) 2 2,1478 =214,78 que coincide con el resultado anterior. Justificación del método abreviado : Se ha definido una función lineal de los datos, que los transforma en unos datos artificiales más sencillos de trabajar. Esta transformación es de la forma : U X L c m * ; donde teóricamente Lm * pudiera ser cualquier origen , pero que por conveniencia se toma la marca de clase del intervalo de mayor frecuencia, pues así la mayor frecuencia queda multiplicada por cero simplificando aún más los cálculos. Por efecto de la transformación, las marcas de clase anteriores se convierten en -1, -2 , (siempre que la amplitud “c” sea igual para todos los intervalos) , y las marcas de clase posteriores se convierten en +1 , +2 , etc. La expresión para calcular SU 2 es la correspondiente al cálculo de la varianza por momentos para los datos artificiales “U”. La relación entre los datos originales “X” y los artificiales “U” es lineal pues : X L c Um * Por la propiedad N° 2 de la varianza : S cX U 2 2 2 S , lo que constituye la justificación del método abreviado de cálculo. 2 La Media de las desviaciones absolutas : En virtud de que los desvíos respecto de X se compensan, otra manera de omitir su signo es considerar sus valores absolutos , en lugar de elevarlos al cuadrado como se hace en el cálculo de la varianza.. Cuando se promedian los desvíos absolutos, aparece otra medida de dispersión, que se conoce con el nombre de “Media de las desviaciones absolutas”, o “Desviación Media”, y que representa lo que en promedio se desvían los datos de X, sin considerar su signo. D M x X n i i i n . 1 Ejemplo 4 Los siguientes datos representan la duración de cinco cuñas de T.V expresadas en segundos: 38 , 46 , 42 , 28 , 26 . Calcular la media de las desviaciones absolutas. Solución : Se calcula su media X = 38 46 42 28 26 5 = 36, y posteriormente los desvíos: 38-36 =2 , 46-36 = 10 , 42 –36 = 6 , 28-36 = -8 y 26-36 = -10
  • 11. Medidas de Dispersión Angel Francisco Arvelo L. 11 La suma algebraica de los desvíos resulta ser cero, tal como debe ocurrir siempre, y para calcular la desviación media se promedian los desvíos absolutos: D M. , 2 10 6 8 10 5 7 20 Este resultado significa que en promedio, la duración de las cuñas se alejan en forma absoluta de su media 36 segundos, en 7,20 segundos . La desviación media absoluta tiene las siguientes propiedades: 1°) Al igual que cualquier otra medida de dispersión D.M 0 , y D.M = 0 es condición necesaria y suficiente para que todos los datos sean iguales. 2°) En el caso de una distribución normal con desviación típica poblacional “ ”, existe una relación directa entre la D.M y “ ”, dada por la expresión2 : D.M = 2 A partir de esta propiedad se obtiene una fórmula aproximada entre la desviación media absoluta y la desviación típica, según la cual para curvas de frecuencias simétricas o con poco grado de asimetría, se verifica : D M. 4 5 S 3°) Para datos agrupados, la marca de clase sustituye al verdadero valor de cada de cada dato, y la desviación media absoluta se calcula mediante la expresión: D M L X f i i i k i . * 1 fi i=1 i=k Ejemplo 5 Calcular la D.M para los datos del Ejemplo 3 , y verificar que se cumple la propiedad N° 2 . Solución: La media es X = 8.330 250 = 33,32, y se organizan los cálculos Límites reales fi = frecuencia Li * Li X* Li X* fi 0 a 10 8 5 28,32 226,56 10 a 20 34 15 18,31 622,54 20 a 30 76 25 8,32 632,32 30 a 40 60 35 1,68 100,80 40 a 50 31 45 11,68 362,08 50 a 60 28 55 21,68 607,04 60 a 70 13 65 31,68 411,84 Sumatorias 250 208 2.963,18 2 Para una demostración de esta propiedad, véase la obra de este mismo autor: “ Capacidad de los Procesos Industriales” , U.C.A.B 1998 .
  • 12. Medidas de Dispersión Angel Francisco Arvelo L. 12 D.M= 2.963,18 250 = 11,85 S = 14,66 Por la propiedad N°3: D.M 4 5 ( 14,86 ) = 11,89 3 La media de las desviaciones absolutas respecto de la mediana: La media de las desviaciones absolutas puede ser calculada también respecto de la mediana , dando lugar así a otra medida de dispersión, conocida también “Desviación Media respecto de la Mediana”, y que se define de la siguiente manera: D MMed i i I n . x Mediana n 1 Como una de las propiedades de la Mediana, estable que la suma de las desviaciones absolutas es mínima, cuando estas se calculan respecto de la ella, entonces se puede garantizar que : D MMed. D.M Para datos agrupados : D M f Med i I k i i k . L Mediana fi * i I=1 1 Ejemplo 6 Calcular la D MMed. para los datos del Ejemplo .4 Solución : La mediana entre { 38 , 46 , 42 , 28 , 26} es 38, y las desviaciones respecto de ella son {0, 8, 4 , -10 y –12} respectivamente. Por lo tanto: D MMed. = 0 8 4 10 12 5 = 6,80 < D.M = 7,20 4 El Rango o Recorrido: Esta medida de dispersión se define como la diferencia entre el mayor y el menor valor de los datos. R = Máximo Valor - Mínimo Valor El uso del rango o recorrido , es muy difundido en las aplicaciones industriales de la Estadística, pues dada su sencillez de cálculo se utiliza en la construcción de las gráficas de control3 conocidas como ( X, R) cuyo objetivo es detectar a tiempo la aparición de causas especiales dentro de un proceso de producción. En el caso de la distribución normal, existe una relación aproximada entre el rango y la desviación típica, y así por ejemplo cuando : n=100: S R 4 ; y cuando n=1.000: S R 6 estas relaciones empíricas son consecuencia de la propiedad ya estudiada para la distribución normal, según la cual en el intervalo ( X ± 2 S) deben caer el 95,45% de los datos, y en el intervalo ( X ± 3 S) deben caer el 99,73% . 3 Para una mayor información sobre estas gráficas, véase la misma referencia citada en la nota 2.
  • 13. Medidas de Dispersión Angel Francisco Arvelo L. 13 Cuando n=100 , el rango debe ser aproximadamente 4 veces “S” que corresponde a la longitud del intervalo, y cuando n= 1.000 , el rango debe ser aproximadamente 6 veces “S” , que es la longitud del intervalo X ± 3S . Ejemplo 7 Calcular el rango para los datos del ejemplo 7.4 Solución : En este conjunto de datos el mayor valor es 46 y el menor 26 , en consecuencia: R = 46 – 26 = 20. VII. 5 Otras Medidas absolutas de dispersión: Además de las ya estudiadas, existen otras medidas de menor aplicación práctica, tales como: a)El Rango intercuartílico: Se define como la diferencia entre el tercer y primer cuartil, y representa la amplitud del intervalo 50% central. Rq = Q3 – Q1 c)El Rango semi – intercuartílico : Es la mitad del rango intercuartílico, y representa el radio del intervalo 50% central . Q Q Q3 1 2 . Con el rango semi-intercuartílico, el intervalo 50 % central puede ser escrito como: Q Q Q Q Q Q1 3 3 1 1 3 2 2 2 = Q Para distribuciones acampanadas: Q 2 3 S c)El Rango Percentílico : Se define como la diferencia entre el Percentil 90 y el Percentil 10, y representa la longitud del intervalo 80 % central . Rp = P90 – P10 Todas estas medidas de dispersión al igual que las anteriores son absolutas, pues no toman en cuenta el orden de magnitud de los datos, y vienen en sus mismas unidades, a excepción de la varianza que viene en unidades al cuadrado. 6 El Coeficiente de Variación o Dispersión Relativa: Las medidas absolutas de dispersión, al no tomar en cuenta el orden de magnitud de los datos, no proporcionan una información completa sobre su variabilidad, pues no es lo mismo por ejemplo, una desviación típica de 100 en unos datos que sean del orden de cientos, que esa misma desviación típica de 100 en unos datos que sean
  • 14. Medidas de Dispersión Angel Francisco Arvelo L. 14 del orden de millones. Resulta obvio que en el primer caso existe una variabilidad mucho mayor que en el segundo, a pesar de que el valor absoluto de la desviación típica sea el mismo. Otro problema que tienen las medidas absolutas de dispersión es el de las unidades, pues esto impide hacer comparaciones entre conjuntos de datos que tengan diferente naturaleza. Así por ejemplo, si se quisiera saber cual variable tiene un comportamiento más homogéneo, el peso o la estatura de un conjunto de personas, no es posible comparar las desviaciones típicas entre esas ellas, por venir expresadas en diferentes unidades. Para solucionar este par de inconvenientes que presentan las medidas absolutas de dispersión, se utiliza al coeficiente de variación o dispersión relativa, definido por : C. V = S X 100% Propiedades del Coeficiente de Variación 1°) Es un porcentaje de razón entre la desviación típica y la media , de manera que representa cuantas veces es la desviación típica con relación a la media. Así por ejemplo, un C.V = 50% significa que la desviación típica es la mitad de la media, lo que revela una alta variabilidad. Valores del C.V menores al 10 % revelan poca variabilidad de los datos ; y así por ejemplo, para en el Control de Calidad de la preparación de mezclas, es frecuente exigir un C.V menor al 5% entre las muestras tomadas en distintos puntos de la mezcla, a fin de garantizar su homogeneidad. 2°) El C.V es un número abstracto, es decir sin unidades, pues tanto S como X vienen en las mismas unidades de los datos, y al hacer la división se simplifican. Esta propiedad permite utilizar al C.V para hacer comparaciones entre varios conjuntos de datos, y concluir que cuanto más pequeño sea su valor, más homogéneo es el comportamiento. 3°) El C.V no se altera cuando los datos son multiplicados por una constante, pues en virtud de las propiedades de X y de “S” ambos quedan multiplicados por esa constante, sin alterar al cociente. Esta propiedad trae como consecuencia que el C.V sea invariante frente a cambios de unidades, como por ejemplo, pasar de libras a kilogramos o de pies a centímetros, etc. Ejemplo 8 Calcular el C.V para los datos del ejemplo 3 Solución : S = 14,66 , X 8 330 250 . = 33,32 C.V = 14 66 33 32 , , 100% = 44 % Ejemplo 9 : Al analizar la estatura y el peso de un conjunto de personas, se obtuvo, para el peso una media de 68,50 Kgs. con una desviación típica de 9,20
  • 15. Medidas de Dispersión Angel Francisco Arvelo L. 15 kgs.; y para la estatura una media de 165 cms., con una desviación típica de 11,30 cms. ¿Cuál de las dos variables tiene un comportamiento más homogéneo?. Solución: Para el peso: C.V = 9 20 68 50 , , 100% = 13,43 % Para la estatura : C.V = 1130 165 , 100% = 6,85 % Se concluye que la estatura tiene un comportamiento más homogéneo. ……………………………. Una de las limitaciones que tiene el coeficiente de variación, es que sólo puede ser utilizado cuando los datos corresponden a mediciones sobre una escala de razón, y por lo tanto existe el cero absoluto. Cuando existen datos positivos y negativos, la media puede resultar igual a cero , negativa o muy próxima a cero, en cuyo caso este coeficiente de variación carece de sentido como medida de dispersión. EJERCICIOS RESUELTOS Ejemplo 10 Al examinar el diámetro de 300 tornillos, en milímetros, se encuentra: Díametro 2,00 a 2,49 2,50 a 2,99 3,00 a 3,49 3,50 a 3,99 4,00 a 4,49 4,50 a 4,99 Frecuencia 17 51 93 86 41 12 a) Calcule la varianza ,la desviación típica, el coeficiente de variación, la media de desviaciones absolutas, la media de desviaciones absolutas respecto de la mediana, el rango intercuartílico y el rango percentílico. b) Calcule el porcentaje de observaciones que caen en los intervalos X ± S , X ± 2S y X ± 3 S. Solución : Para calcular la varianza, se organizan los cálculos: Li * =Marca de clase fi= Frecuencia Li * fi (Li * ) 2 fi 2,245 17 38,1650 85,6804 2,745 51 139,9950 384,2863 3,245 93 301,7850 979,2923 3,745 86 322,0700 1.206.1522 4,245 41 174,0450 738,8210 4,745 12 56,9400 270,1803 Sumatorias 300 1.033,0000 3.664,4125 S 2 = 3 664 4125 300 1033 00 300 2 . , . ,F HG I KJ = 0,3582 S = 0 3582, = 0,5985 Utilizando el método abreviado de cálculo: Ui * = Marca de clase artificial fi= Frecuencia Ui * fi (Ui * ) 2 fi -2 17 -34 68 -1 51 -51 51 0 93 0 0 1 86 86 86
  • 16. Medidas de Dispersión Angel Francisco Arvelo L. 16 2 41 82 164 3 12 36 108 Sumatorias 300 119 477 SU 2 2 477 300 119 300 F HG I KJ = 1,4327 c= Amplitud Real = 0,50 S 2 = c 2 SU 2 = (0,50) 2 0,1,4327 = 0,3582 Para calcular el coeficiente de variación, se necesita: X = 1033 300 = 3,4433 Por el método abreviado: U 119 300 = 0,3967 X = Lm * + c U X = 3,245 + (0,50) 0,3967 = 3,4433 y por lo tanto : C.V = S X 100% = 0 5985 3 4433 , , 100% = 17,38 %. Para calcular la desviación media: Li * =Marca de clase fi= Frecuencia Li X* Li X* fi 2,245 17 1,1983 20,3711 2,745 51 0,6983 35,6133 3,245 93 0,1983 18,4419 3,745 86 0,3017 25,9462 4,245 41 0,8017 32,8697 4,745 12 1,3017 15,6204 Sumatorias 300 148,8626 Por lo tanto D.M = 148,8626 300 = 0,4962 Si se quisiera obtener un cálculo rápido pero aproximado, se pudiera aplicar la propiedad para distribuciones acampanadas como esta, según la cual: D.M 4 5 S = 4 5 (0,5985) = 0,4788 Para las restantes medidas de dispersión se necesitan los cuartiles, y los percentiles 10 y 90, a partir de las frecuencias acumuladas: Diámetro < 2,495 < 2,995 < 3,495 < 3,995 4,495 4,995 Frecuencia 17 68 161 247 288 300 Q1 = 2,995 + 300 4 68 93 0 50, = 3,0326 ; Q3 = 3,495 + 3 4 300 161 86 0 50 b g , = 3,8671 Q2 =Med= 2,995 + 1 2 300 68 93 0 50 b g , =3,4359
  • 17. Medidas de Dispersión Angel Francisco Arvelo L. 17 P10 =2,495 + 10 100 300 17 51 0 50 b g , = 2,6225 P90 =3,995 + 90 100 300 247 41 0 50 b g , = 4,2755 Para calcular la desviación media absoluta, respecto de la mediana, hay que organizar los cálculos en una tabla similar a la de la D.M , pero calculando los desvíos absolutos respecto de la mediana. Li * =Marca de clase fi= Frecuencia Li Med* Li Med* fi 2,245 17 1,1909 20,2453 2,745 51 0,6909 35,2359 3,245 93 0,1909 17,7537 3,745 86 0,3091 26,5826 4,245 41 0,8091 33,1731 4,745 12 1,3091 15,7092 Sumatorias 300 148,6998 D.M Med = 148 6998 300 , = 0,4957 El rango intercuartílico: Rq = Q3 - Q1 = 3,8671 - 3,0326 = 0,8345 El rango percentílico: Rp = P90 - P10 = 4,2755 - 2,6225 = 1,6530 Estos rangos representan la amplitud de los intervalos 50% central, y 80% central respectivamente. Para calcular el porcentaje de valores que cae en los intervalos X ± S , X ± 2S y X ± 3 S, hay que determinar la posición percentil que le corresponde a cada uno de los extremos de los intervalos, para luego restarlos. Para X ± S se tiene : 3,4433 ± 0,5985 = [2,8448 ; 4,0418] El % por debajo de 3,9418 : p2= 100 300 247 4 0418 3 995 0 5 41 F HG I KJ, , , = 83,61% El % por debajo de 2,8448 : p1= 100 300 17 28448 2495 0 5 51 F HG I KJ, , , = 17,56% Dentro de X ± S , caen entonces 83,61% - 17,56% = 66,05 % , que es aproximadamente el porcentaje teórico de 68,27 % dado por la normal. Para los intervalos X ± 2S y X ± 3 S, se procede de manera análoga, y se obtiene 95,45 % y 100 % respectivamente. Ejemplo 11 Dada la siguiente tabla de frecuencias, para datos sin agrupar: Valor 0 1 2 3 4 5 6 7 frecuencia 8 14 25 13 20 12 6 2 a) Calcule su varianza, la desviación típica, el coeficiente de variación , el rango, la media de las desviaciones absolutas, la media de las desviaciones absolutas respecto de la mediana , el rango intercuartílico.
  • 18. Medidas de Dispersión Angel Francisco Arvelo L. 18 b) Determine el porcentaje de observaciones que caen en el intervalo X ± S . Solución : A diferencia del ejemplo anterior, en este caso los datos no están agrupados, y por lo tanto para calcular la varianza no se toma a la marca de clase, sino al verdadero valor del dato. Xi= Valor del dato fi= Frecuencia Xi fi (Xi) 2 fi 0 8 0 0 1 14 14 14 2 25 50 100 3 13 39 117 4 20 80 320 5 12 60 300 6 6 36 216 7 2 14 98 Sumatorias 100 293 1165 S 2 = 1165 100 293 100 2 F HG I KJ = 3,07 S = 3 07, = 1,75 ; X = 293 100 = 2,93 C.V = 175 293 , , 100% = 59,75 % ; R = 7 – 0 = 7 Xi= Valor del dato fi= Frecuencia Xi X Xi X fi 0 8 2,93 23,44 1 14 1,93 27,02 2 25 0,93 23,25 3 13 0,07 0,91 4 20 1,07 21,40 5 12 2,07 24,84 6 6 3,07 18,42 7 2 4,07 8,14 Sumatorias 100 147,42 D.M = 147 42 100 , = 1,4742 Para hallar la mediana, y demás cuartiles hay que proceder según lo explicado en el Ejemplo 6.13 donde se obtuvo Q1 = 2 , y siguiendo la misma metodología Q2 = Med = 3 , Q3 = 4 Xi= Valor del dato fi= Frecuencia Xi Med Xi Med fi 0 8 3 24 1 14 2 28 2 25 1 25 3 13 0 0 4 20 1 20 5 12 2 24 6 6 3 18 7 2 4 8 Sumatorias 100 147
  • 19. Medidas de Dispersión Angel Francisco Arvelo L. 19 D.M Med = 147 100 = 1,47 ; Rq = Q3 –Q1 = 4 - 2 = 2 En cuanto al porcentaje de datos comprendidos en el intervalo X ± S, tenemos que éste es : 2,93 ± 1,75 = [ 1,18 ; 4,68 ] , y en él caen todos los valores comprendidos entre 2 y 4 ambos inclusive, que representan el 58 % de los datos. Preguntas de Revisión 1°) Si se tienen dos conjuntos de datos expresados en las mismas unidades, ¿puede decirse que el que tenga mayor varianza presenta una mayor dispersión?. 2°) Si en un conjunto de datos todos los valores son negativos, ¿puede alguna de las medidas absolutas de dispersión ser negativa? . 3°) ¿Cuál es la diferencia entre las medidas absolutas y las medidas relativas de dispersión?. ¿Cuál de las dos mide mejor la variabilidad?. 4°) Analice las modificaciones que sería necesario realizar, si se quisiera aplicar el método abreviado de cálculo para la varianza, en una tabla de frecuencias con intervalos de diferente amplitud. 5°) En un conjunto de datos, el menor es 30 , el rango es 10 , y la media 35. ¿Puede el coeficiente de variación ser igual a 40%? . 6°) El valor más bajo de un conjunto de datos es 75, y el más alto 110. ¿Puede ser la desviación típica 39,50?. 7°) ¿ Qué representa el rango percentílico? . 8°) Suponga que un conjunto de datos es sometido a una transformación no lineal, como por ejemplo: Y = a + bX 2 . Explique el procedimiento a seguir para calcular la varianza de los datos transformados. 9°) Si un conjunto de datos es sometido a una transformación lineal: Y = a +bX. ¿Se altera el coeficiente de variación? . 10°) ¿Por qué la desigualdad de Tchebychev no proporciona información alguna cuando se quiere hallar el porcentaje de datos que difieren de la media en menos de ½ la desviación típica?. 11°) Según la desigualdad de Tchebychev ¿cuál es el porcentaje mínimo de datos que difieren de la media en menos de 1,50 veces la desviación típica?. 12°) ¿ Puede un coeficiente de variación ser mayor al 100% ?.
  • 20. Medidas de Dispersión Angel Francisco Arvelo L. 20 13°) Suponga que sobre un conjunto de datos { x1, x2 ,x3 , ...... , xn} con media” X ” , y desviación típica “S”, se define la transformación: zi = x X S i dando lugar a otro conjunto de datos { z1, z2 ,z3 , ...... , zn} llamados “datos tipificados”. ¿Cuál es la media y la varianza de los datos tipificados?. 14°) En un conjunto de datos en donde la mitad sea igual a un valor, y la otra mitad sea igual a otro valor diferente, ¿puede afirmarse que la media de las desviaciones absolutas es igual a la desviación típica?. 15°) Si { x1, x2 ,x3 , ...... , xn} es una muestra que tiene media muestral X , y proviene de una población con media poblacional “ ”. ¿ Cual de las siguientes dos expresiones es menor: ( )xi i i n 1 2 ó ( )x Xi i i n 1 2 ? . Justifique su respuesta. 16°) Explique el porqué en el método de abreviado de calculo para la varianza, se toma como referencia cero al punto medio de la clase modal. ¿Pudiera tomarse a otra marca de clase sin modificar el método? . Temas complementarios para investigar 1°) Investigue sobre las aplicaciones del “Coeficiente de Variación” en el control de la calidad para la preparación de mezclas, como por ejemplo “el concreto”. 2°) Investigue sobre el uso y significado de otras medidas relativas de dispersión, como por ejemplo el coeficiente de variación cuartil. 3°) Investigue sobre las aplicaciones del rango muestral en el “Control Estadístico de Procesos”. Problemas Propuestos I. Nivel Elemental 7.12) Una empresa tiene dos agencias , una en Caracas y otra en el interior . El sueldo de los empleados de esa empresa en cada una de esas dos agencias es como sigue: Caracas : Media = Bs. 150.000 Desviación Típica = Bs. 25.000 Interior : Media = Bs. 120.000 Desviación Típica = Bs. 16.000 ¿ En cual de las dos agencias, los sueldos son más homogéneos? . Solución : En la del interior. 7.13) Se tiene un conjunto de seis datos, cuyos valores son : 3 , 8 , 2 , 3 , 5 y 4. a) Calcule su rango, varianza y coeficiente de variación. b) Calcule la media de las desviaciones absolutas.
  • 21. Medidas de Dispersión Angel Francisco Arvelo L. 21 c) Calcule la media de las desviaciones absolutas respecto de la mediana. Solución : a) 6 , 3,81 , 46,82% b) 1,56 c) 1,50 7.14) La siguiente tabla se refiere a las estaturas en pulgadas, de un grupo de estudiantes: Estatura 60 a 62 63 a 65 66 a 68 69 a 71 72 a 74 Frecuencia 5 18 42 27 8 Determine el rango, la media de las desviaciones absolutas, el porcentaje de estudiantes dentro del intervalo X ± 2 D.M, el rango intercuartil , el rango percentil , la desviación típica , y el coeficiente de variación . Solución: 15 , 2,26 , 85,67 % , 3,97 , 7,94 , 2,92 y 4,33 % . 7.15) La longitud de unas piezas en milímetros se da en la siguiente tabla: Longitud 250,00 –250,99 260.00-269,99 270,00-279,99 280,00-289,99 290,00-299.99 300,00-309,99 310,00-319,99 Frecuencia 8 10 16 14 10 5 2 Use el método abreviado de cálculo, para hallar el coeficiente de variación. Solución : 5,58 % . 7.16)Calcule el coeficiente de variación para la siguiente tabla de frecuencias relativas acumuladas: Límites Reales < 49.5 < 99.5 < 149.5 < 199.5 < 249.5 < 299.5 < 349.5 < 399.5 Hi % 0 % 12% 38% 45% 63% 80% 96% 100% Solución: 43,40 % 7.17) Calcule el porcentaje de datos que en la distribución anterior caen en el intervalo X ± 1,50 S . Solución: 87,29% 7.18) Durante un periodo de 150 horas, se observó el número de clientes por hora que acuden a un comercio, encontrando: Clientes 0 1 2 3 4 5 6 7 8 frecuencia 5 19 29 30 22 16 14 9 6 a) Determine la desviación típica y la media de las desviaciones absolutas. b) El porcentaje de veces en que la observación cae en el intervalo X ± 2S . Solucíón: a) 2,02 y 1,68. b) 96 % . 7.19) La media de unos datos es 10, y su coeficiente de variación es del 20% . Calcule el nuevo coeficiente de variación en cada uno de los siguientes casos: a) A cada uno de los datos se le suma 2. b) Cada uno de los datos se incrementa en un 35%. Solución : a) 16,67 % . b) 20% . II. Nivel Intermedio 7.20) El coeficiente de variación de 21 datos es 9,95227 % , y la suma de sus cuadrados 13255.
  • 22. Medidas de Dispersión Angel Francisco Arvelo L. 22 Si los datos se incrementan en 6 unidades, ¿cuál es el nuevo coeficiente de variación?. Solución: 8,03% . 7.21) Si cada uno de los datos de un conjunto se multiplica por 3, la media aritmética es 108 ; y si a cada dato se le suma 10, la media cuadrática es 48. ¿ Cual es el coeficiente de variación de los datos?. Solución : 38,09 % 7.22) Sean los datos : 3 , 6 , 6 , x , y . Si el coeficiente de variación es 29,0144 % , y la varianza es S 2 = 2,64 . Determine los datos que faltan x , y . Solución : 5 y 8 7.23) El sueldo promedio del personal de una empresa es de $1.200 con una desviación típica de $250. El personal va a ser beneficiado con un bono fijo y un aumento porcentual , y según el orden en que se apliquen estos beneficios, el futuro sueldo promedio puede ser de $ 1.810 si aplica primero el incremento porcentual y luego el bono, o de $ 1.885 si se aplica primero el bono y luego el incremento porcentual. a) Determine el monto del bono fijo y del aumento porcentual. b) Analice cual de estas modalidades proporciona una mayor homogeneidad en los sueldos del personal. Solución : $ 250 de bono con 30% de incremento porcentual , o $ 360 de bono con 20,8333 % de incremento porcentual . 7.24) La media de un conjunto de datos es 8 , y la media cuadrática 10. ¿Cual será el nuevo coeficiente de variación, si cada dato es incrementado en: a) 2 unidades?. b) 20% ?. Solución: a) 60% b) El mismo anterior al incremento = 75%. 7.25) Si cada uno de los datos de un conjunto es incrementado en 2 unidades, el nuevo coeficiente de variación es del 10%, y la nueva varianza 4 . ¿Cual era la media de los datos originales ? . Solución: 18 7.26) Los salarios en una empresa tienen una desviación típica de 1.200. Si todos los salarios son incrementados en 2.000, el coeficiente de variación disminuye en 2%. Calcule el salario medio después del aumento. Solución: 12.000 7.27) En el almacén de una empresa existen diversas cajas, que pueden ser clasificadas así: pequeñas cuyo peso es menos de 150 kilos, regulares con un peso desde 150 hasta 250 kilos, grandes con un peso desde 250 kilos hasta 500 kilos, y extra grandes desde 500 kilos en adelante. Si el peso medio de las cajas es de 200 kilos, con una desviación típica de 20 kilos. ¿Cuál es el porcentaje mínimo de las cajas de tamaño regular dentro del almacén? . Solución : 84 % por lo menos.
  • 23. Medidas de Dispersión Angel Francisco Arvelo L. 23 III. Nivel Avanzado 7.28) Para “n” datos cualesquiera { x1, x2 ,x3 , ...... , xn} , demuestre que: X x n i i i n 2 1 Utilice el resultado anterior para demostrar: D.M . S . ¿Cuándo son iguales?. 7.29) La media de un conjunto de datos es 1,50 , la desviación típica es 3,50 , y la mitad de ellos son iguales a un valor “a” , mientras que la otra mitad son iguales a otro valor “b”. ( a < b) . a) Determine “a” y “b”. b) Si se añaden cinco nuevos datos que resultan ser iguales a “b”, y se obtiene que la nueva media es 2,20. ¿Cuántos datos había inicialmente?. Solución : a) a = -2 , b= 5 b) 20 7.30) Se tiene “n” datos con media X y varianza S 2 . Suponga que se obtiene un nuevo dato xn 1 que se incorpora al conjunto anterior dando lugar a un conjunto de (n+1) datos. Demuestre que la varianza Sn 1 2 del nuevo conjunto de datos, viene dada por : S n n n 1 2 2 1 S + n (n+1) ( X - x2 2 n+1 ) 7.31) Generalice el resultado anterior , para dos conjuntos de datos disjuntos, de tamaños n1 y n2 , con medias X1 y X2 , y varianzas S1 2 y S2 2 respectivamente. Deduzca una fórmula que permita calcular la varianza de su unión. Solución : S n n X X n 2 1 2 1 2 2 1 2 2= n S + n S n +n 1 1 2 2 2 2 1 2 ( ) (n ) 7.32) Suponga que se tienen dos conjuntos de datos disjuntos , con igual media X , pero de diferentes tamaños n1 y n2 , y con diferentes coeficientes de variación CV1 y CV2 respectivamente . Al unir estos dos conjuntos, ¿qué tipo de media entre sus coeficientes de variación debe utilizarse, para obtener el coeficiente de variación de la unión?. Solución: C.V = n V V n n 1 1 2 2 2 2 1 2 C n C. . = Media cuadrática ponderada entre sus coeficientes de variación. 7.33) Se tienen dos conjuntos de datos, en donde:
  • 24. Medidas de Dispersión Angel Francisco Arvelo L. 24 1° Conjunto: n1= 75 ; X i i i n 1 2 1 1 = 67688,75 ; C.V1 = 5% 2° Conjunto: n2 = 80 ; X i i i n 2 2 1 2 = 46540,80 ; C.V2 = 10% Calcule el coeficiente de variación de su unión. Solución: 13,43% 7.34) El sueldo promedio del personal de una industria es de 40.000. Se sabe que del personal de esa industria, 2 3 son obreros y 1 3 son empleados, y que además, el sueldo promedio de los empleados es el doble del de los obreros . La desviación típica en el sueldo de los obreros es de 5.000 ; mientras que en el sueldo de los empleados es de 15.000 . a) ¿Cual es el sueldo promedio de los empleados y cual el de los obreros?. b) Si se aumentan los sueldos en 20% para los empleados, y en 50% para los obreros. Encuentre el nuevo coeficiente de variación en los sueldos, para todo el personal Solución : a) 60.000 y 30.000 b) 32,47% . 7.35) En una plantel se administró un examen sobre 100 puntos, y los alumnos concurrieron en dos turnos: mañana y tarde. Para el turno de la mañana se obtuvo una media de 52,00 puntos ,y para el turno de la tarde donde presentaron 330 alumnos, se obtuvo una media de 46,00 puntos. La media de todo el grupo resultó ser de 48,04 puntos. Tanto para el turno de la mañana como para el de la tarde, se obtuvo la misma desviación típica; pero la desviación típica de todo el grupo resultó ser 30% mayor que la de la mañana (o de la tarde) . En base a esta información, obtenga el coeficiente de variación para cada uno de los turnos, y el de todo el grupo. Solución: Mañana : 6,58 % . Tarde: 7,43 % . General : 9,25 % . 7.36) Determine la varianza de “n” datos que sean iguales a los primeros “n” números naturales: 1, 2, 3 , ….. , n. Solución : n2 1 12 . 7.37) Aproveche el resultado del ejercicio anterior para encontrar la varianza de “n” datos que se encuentren en progresión aritmética: a , a + r , a + 2r , …., a+ (n -1) r . Solución : r2 2 1 12 (n )