UNIVERSIDAD NACIONAL EXPERIMENTAL
FRANCISCO DE MIRANDA
ADI
UNIDAD CURRICULAR TRABAJO II
ESTADISTICA
MEDIDAS DE DISPERSIÓN
PROF: Dra. Marina Ávila
ESCOGENCIA ENTRE EL PROMEDIO, LA
MEDIANA Y EL MODO.
 El promedio aritmético es el que se utiliza con mayor fr.
a. El promedio aritmético como medida de resumen tiene la
ventaja de tomar en cuenta la totalidad de los valores de la
serie y su desventaja es que puede ser afectado por valores
anormalmente altos o bajos.
b. La mediana debe ser utilizada cuando los valores que se
estudian hay alguno muy diferente de los otros. Ejm. Tiempo de
hospitalización de 5 niños con gastroenteritis fuera:
2, 3, 4, 6 y 30 días. El promedio: 45/5 = 9 días.
La mediana es de 4 días, tiene ventaja de no tomar en cuenta los
valores anormalmente extremos.
Cuando los valores extremos no existen, el valor del promedio y la
mediana concuerdan, si la serie es simétrica
Cuando los valores extremos no existen, el valor del promedio y la
mediana concuerdan, si la serie es simétrica. Ejm.
3, 5, 7, 9, 11.
c. El modo, es la constante que se emplea cuando el interés se
centra en conocer el valor que más se repite.
MEDIDAS DE DISPERSIÓN
 Medida que indica claramente como se distribuyen las
observaciones alrededor de un promedio o mediana.
Medidas de variación:
 Desviación estándar (s)
 Intervalo intercuarticular
 Variancia
 Coeficiente de Variación.
IMPORTANCIA DE LAS MEDIDAS DE DISPERSIÓN
 Si se tiene un grupo de pacientes de 7 individuos cada uno:
Constatar los siguientes puntos.
1. Cada serie tiene el mismo número de observaciones
2. En los 3 casos la amplitud de la serie es la misma
3. Las 3 series tienen el mismo promedio
4. Tienen la misma mediana
5. 5. en cada serie el promedio y la mediana coinciden
exactamente.
Enfermedades Días de hospitalización de los pacientes
Gastroenteritis
Bronquitis
Amigdalitis
1, 3, 5, 7, 9, 11, 13
1, 2, 3, 7, 11, 12, 13
1, 5, 6, 7, 8, 9, 13
 Sin embargo las 3 series son muy distintas:
a. Gastroenteritis: los 7 Px se distribuyen uniformemente
en el lapso de 1 a 13 días
b. bronquitis: los Px se agrupan en los extremos de dicho
lapso 1, 2, 3 y 11, 12, 13
c. Amigdalitis: se agrupan hacia el centro (5, 6, 7, 8, 9)
CALCULO DE LA DESVIACIÓN ESTANDAR (S)
EN SERIES NO AGRUPADAS
 D. E. consiste en averiguar cuanto difiere cada
observación del promedio general del grupo (xi -X=x),
esta suma es igual a 0, se eleva cada desviación al
cuadrado para hacer desaparecer el signo.
 La suma de estos cuadrados se divide entre el num. de
observaciones -1 (n-1)
 y luego se extrae la raíz cuadrada para volver a la unidad
de origen.
S=√(xi -Xi) / n-1
Ejm.
Días de hospitalización en 7 pacientes con bronquitis
Numero de
pacientes
Días de
hospitalización Xi
Valores Xi al
cuadrado
Primero
Segundo
Tercero
Cuarto
Quinto
sexto
séptimo
1
2
3
7
11
12
13
1
4
9
49
121
144
169
Total 49 497
 Pasos a seguir:
1. Sumar la observaciones Σxi =49
2. Elevar al cuadrado cada observación y sumar esta columna
Σxi
2
=497
3. Elevar al cuadrado la suma de las observaciones y ÷ por el
num. De observaciones (Σxi )2
/n=(49)2
/7=343
4. Restar este último valor a la suma de cuadrados obtenida
(497-343)=154
5. Dividir por el núm. de observaciones menos 1, (n-1) y extraer
la raíz cuadrada.
6. S=√(154/6)=5,07
DESVIACIÓN ESTÁNDAR EN SERIES AGRUPADAS
 Escolares de acuerdo a su peso
(Cálculo de la desviación estándar)
peso en
kilos (1)
Número de
personas fi
(2)
Punto medio
de cada
clase xi (3)
Producto fi .xi
col. (2x3) fi .xi
(4)
Xi
2
(5)
Producto fi
.xi
2
(cols.
3x4) f1 .xi
2
(6)
20-24
25-29
30-34
35-39
40-44
45-49
50-54
4
8
9
10
7
6
6
22
27
32
37
42
47
52
88
216
288
370
294
282
312
484
729
1.024
1.369
1.764
2.209
2.704
1.936
5.832
9.216
13.690
12.348
13.254
16.224
Total 50 1.850 72.500
 s=√Σfi .Xi
2
-(fi .Xi )2
/n /n-1
= √72.500-(1850 2
/50) = √82,6=9,1 kilos
49
Promedio = 1850/50=37 kilos
Pasos a seguir:
1. Obtener valores fi xi (col. 2 x 3) y sumar los valores=
1850
2. Obtener valores fi xi
2
(col. 3 x 4) y sumar estos
valores=72500
3. Elevar al cuadrado la suma fixi y ÷ entre el num. de
observaciones (18502
/50=68450
4. Restar a 72.500 (72.500-68450=4050)
5. 4050÷n-1 y sacar raíz cuadrada (√4050/49=9,1 kilos)
UTILIZACIÓN DE LA D.E.
 Junto con el promedio, ayuda a determinar los limites dentro de
los cuales se encuentran las observaciones que se estudian
 Esta interpretación se basa en las propiedades de la Curva
Normal:
 Tiene forma de campana
 Perfectamente simétrica, una perpendicular que pasa por su
vértice la divide en 2 partes iguales (la perpendicular representa
el promedio aritmético)
 Tiene 2 puntos de inflexión (derecho e izquierdo)
 La distancia que separa a cada punto de inflexión de la línea
central que representa el promedio constituye una D.E.
 Su totalidad del área se encuentra comprendida a 3 D.E.
Ejm. Si la edad promedio de un grupo de individuos es de 30 años
y la D.E. =3 años, entonces:
 Aprox. El 68% de los individuos tienen entre 27 y 33 años (X ±
1 D.E= 1x3)
 Aprox. El 95% de los individuos tienen entre 24 y 36 años (X±2
D.E=2x3)
 Prácticamente la totalidad de los individuos tienen entre 21 y 39
años (X±3 D.E= 30±3x3)
Curva Normal.
COEFICIENTE DE VARIACIÓN
 Consiste en expresar la D. E. como una proporción del
promedio.
 La D. E. varia de acuerdo a las unidades utilizadas.
 Ej.: el peso de un grupo de estudiantes se encuentra que la D.
E es de 5 kilos, su valor seria de 5000 gramos, si se expresa en
gramos.
 Si en un estudio de glóbulos rojos y en otro sobre glóbulos
blancos se hubiera encontrado:
 Glóbulos rojos glóbulos blancos
Promedio = 5.000.000 promedio = 10.000
D. E= 100.000 D. E=1.000
 Cuando se quiere hacer comparaciones de este tipo, se recurre
al coeficiente de variación.
Coeficiente de variación = D.E/promedio x 100, entonces:
Para G.R: C.V.= 100.000/5.000.000x100=2%
Para G.B: C.V.= 1.000/10.000x100=10%
 Se concluye, que la variación relativa de los G. B, es mayor que
la de los G.R.
INTERVALO INTERCUARTICULAR
 Se entiende por percentiles y cuartiles.
 El termino percentil deriva de “por cierto”, por lo tanto, una serie de
observaciones no puede tener más de 100 percentiles.
 Cada percentil indica el % de observaciones que en determinada serie
esta por debajo de él. El 10° percentil por ejemplo, es el valor por
debajo del cual está el 10% de las observaciones.
 Según esto, la mediana es el 50° percentil y por debajo de ella se
encuentra el 50% de las observaciones-
 Al 25° percentil se le da el nombre de 1er cuartil (por debajo de ese
valor se encuentra el 25% de las observaciones)
 El 75° percentil se le da el nombre de tercer cuartil.
CALCULO DEL PRIMER CUARTIL (Q1).
Se procede de manera semejante, como se hizo el
calculo de la mediana.
a. Buscar los verdaderos limites de la clase-
b. Obtener la frecuencia acumulada de las observaciones
c. Averiguar cúal de las observaciones corresponde al primer
cuartil, o sea:
(n/4)=(50/4)=12,5
d. Como el primer cuartil estará situado en la posición 12.5 y
como hay 12 observaciones por debajo de 29,5 kilos, se
necesita ½ observación más (12.5-12=0,5) de las que hay en la
siguiente clase. Las observaciones están igualmente
espaciadas, se tomara 0,5/9 de la amplitud de la siguiente clase
y se añadirá a su punto de comienzo, con el fin de obtener el
valor del 1er cuartil.
Q1=29,5+(0,5/9)x5)=29,5+0,27=29,77 kilos
Peso en kilos
(1)
Intervalos
verdaderos
Nº de
escolares
Frecuencias
acumuladas
20-24
25-+29
30-34
35-39
40-44
45-49
50-54
19.-,5-25,5
24,5-29,5
29,5-34,5
34,5-39,5
39,5-44,5
44,5-49,5
49,5-54,5
4
8
9
10
7
6
6
4
12
21
31
38
44
50
Total 50
CALCULO DE TERCER CUARTIL (Q3)
(3/4)n=(3/4)x50=37,5, por tanto:
 Hay 31 observaciones por debajo de 39,5 kilos, se
necesitan 6,5 observaciones más de las 7 que hay en la
próxima clase, o sea se debe tomar 6,5/7 de la amplitud
de la clase y añadirlo a su comienzo para averiguar el
valor del Q3:
Q3=39,5+ ((6,5/7)x5)=39,5+4,64=44,14 kilos.
INTERVALO INTERCUARTICULAR
 Es aquel comprendido entre el primer y tercer cuartiles
 Su utilidad consiste en que dentro de los límites determinados
por el, se encuentra el 50% de las observaciones “centrales”,
generalmente no afectadas por las fluctuaciones extremas de
la serie.
 Mide la dispersión de los valores de la serie, mientras más
próximos sus límites, mayor concentración de las
observaciones alrededor de la mediana.
 Ejm. Días de hospitalización de dos grupos de pacientes es:
primer grupo segundo grupo
Ma=10 Ma=10
Q1=9 Q1=3
Q3=11 Q2=18
 A pesar que la mediana es 10 para ambos grupos, en el 1ro. El
50% de los Px tienen valores muy próximos a ella y en segundo
grupo, la dispersión es mucho mayor
 Q = Qi y Q3 el resumen de la serie quedarìa imcompleto
desviacion estandar-marw

desviacion estandar-marw

  • 1.
    UNIVERSIDAD NACIONAL EXPERIMENTAL FRANCISCODE MIRANDA ADI UNIDAD CURRICULAR TRABAJO II ESTADISTICA MEDIDAS DE DISPERSIÓN PROF: Dra. Marina Ávila
  • 2.
    ESCOGENCIA ENTRE ELPROMEDIO, LA MEDIANA Y EL MODO.  El promedio aritmético es el que se utiliza con mayor fr. a. El promedio aritmético como medida de resumen tiene la ventaja de tomar en cuenta la totalidad de los valores de la serie y su desventaja es que puede ser afectado por valores anormalmente altos o bajos. b. La mediana debe ser utilizada cuando los valores que se estudian hay alguno muy diferente de los otros. Ejm. Tiempo de hospitalización de 5 niños con gastroenteritis fuera: 2, 3, 4, 6 y 30 días. El promedio: 45/5 = 9 días.
  • 3.
    La mediana esde 4 días, tiene ventaja de no tomar en cuenta los valores anormalmente extremos. Cuando los valores extremos no existen, el valor del promedio y la mediana concuerdan, si la serie es simétrica Cuando los valores extremos no existen, el valor del promedio y la mediana concuerdan, si la serie es simétrica. Ejm. 3, 5, 7, 9, 11. c. El modo, es la constante que se emplea cuando el interés se centra en conocer el valor que más se repite.
  • 4.
    MEDIDAS DE DISPERSIÓN Medida que indica claramente como se distribuyen las observaciones alrededor de un promedio o mediana. Medidas de variación:  Desviación estándar (s)  Intervalo intercuarticular  Variancia  Coeficiente de Variación.
  • 5.
    IMPORTANCIA DE LASMEDIDAS DE DISPERSIÓN  Si se tiene un grupo de pacientes de 7 individuos cada uno: Constatar los siguientes puntos. 1. Cada serie tiene el mismo número de observaciones 2. En los 3 casos la amplitud de la serie es la misma 3. Las 3 series tienen el mismo promedio 4. Tienen la misma mediana 5. 5. en cada serie el promedio y la mediana coinciden exactamente. Enfermedades Días de hospitalización de los pacientes Gastroenteritis Bronquitis Amigdalitis 1, 3, 5, 7, 9, 11, 13 1, 2, 3, 7, 11, 12, 13 1, 5, 6, 7, 8, 9, 13
  • 6.
     Sin embargolas 3 series son muy distintas: a. Gastroenteritis: los 7 Px se distribuyen uniformemente en el lapso de 1 a 13 días b. bronquitis: los Px se agrupan en los extremos de dicho lapso 1, 2, 3 y 11, 12, 13 c. Amigdalitis: se agrupan hacia el centro (5, 6, 7, 8, 9)
  • 7.
    CALCULO DE LADESVIACIÓN ESTANDAR (S) EN SERIES NO AGRUPADAS  D. E. consiste en averiguar cuanto difiere cada observación del promedio general del grupo (xi -X=x), esta suma es igual a 0, se eleva cada desviación al cuadrado para hacer desaparecer el signo.  La suma de estos cuadrados se divide entre el num. de observaciones -1 (n-1)  y luego se extrae la raíz cuadrada para volver a la unidad de origen.
  • 8.
    S=√(xi -Xi) /n-1 Ejm. Días de hospitalización en 7 pacientes con bronquitis Numero de pacientes Días de hospitalización Xi Valores Xi al cuadrado Primero Segundo Tercero Cuarto Quinto sexto séptimo 1 2 3 7 11 12 13 1 4 9 49 121 144 169 Total 49 497
  • 9.
     Pasos aseguir: 1. Sumar la observaciones Σxi =49 2. Elevar al cuadrado cada observación y sumar esta columna Σxi 2 =497 3. Elevar al cuadrado la suma de las observaciones y ÷ por el num. De observaciones (Σxi )2 /n=(49)2 /7=343 4. Restar este último valor a la suma de cuadrados obtenida (497-343)=154 5. Dividir por el núm. de observaciones menos 1, (n-1) y extraer la raíz cuadrada. 6. S=√(154/6)=5,07
  • 10.
    DESVIACIÓN ESTÁNDAR ENSERIES AGRUPADAS  Escolares de acuerdo a su peso (Cálculo de la desviación estándar) peso en kilos (1) Número de personas fi (2) Punto medio de cada clase xi (3) Producto fi .xi col. (2x3) fi .xi (4) Xi 2 (5) Producto fi .xi 2 (cols. 3x4) f1 .xi 2 (6) 20-24 25-29 30-34 35-39 40-44 45-49 50-54 4 8 9 10 7 6 6 22 27 32 37 42 47 52 88 216 288 370 294 282 312 484 729 1.024 1.369 1.764 2.209 2.704 1.936 5.832 9.216 13.690 12.348 13.254 16.224 Total 50 1.850 72.500
  • 11.
     s=√Σfi .Xi 2 -(fi.Xi )2 /n /n-1 = √72.500-(1850 2 /50) = √82,6=9,1 kilos 49 Promedio = 1850/50=37 kilos Pasos a seguir: 1. Obtener valores fi xi (col. 2 x 3) y sumar los valores= 1850 2. Obtener valores fi xi 2 (col. 3 x 4) y sumar estos valores=72500 3. Elevar al cuadrado la suma fixi y ÷ entre el num. de observaciones (18502 /50=68450 4. Restar a 72.500 (72.500-68450=4050) 5. 4050÷n-1 y sacar raíz cuadrada (√4050/49=9,1 kilos)
  • 12.
    UTILIZACIÓN DE LAD.E.  Junto con el promedio, ayuda a determinar los limites dentro de los cuales se encuentran las observaciones que se estudian  Esta interpretación se basa en las propiedades de la Curva Normal:  Tiene forma de campana  Perfectamente simétrica, una perpendicular que pasa por su vértice la divide en 2 partes iguales (la perpendicular representa el promedio aritmético)  Tiene 2 puntos de inflexión (derecho e izquierdo)  La distancia que separa a cada punto de inflexión de la línea central que representa el promedio constituye una D.E.  Su totalidad del área se encuentra comprendida a 3 D.E.
  • 13.
    Ejm. Si laedad promedio de un grupo de individuos es de 30 años y la D.E. =3 años, entonces:  Aprox. El 68% de los individuos tienen entre 27 y 33 años (X ± 1 D.E= 1x3)  Aprox. El 95% de los individuos tienen entre 24 y 36 años (X±2 D.E=2x3)  Prácticamente la totalidad de los individuos tienen entre 21 y 39 años (X±3 D.E= 30±3x3)
  • 14.
  • 15.
    COEFICIENTE DE VARIACIÓN Consiste en expresar la D. E. como una proporción del promedio.  La D. E. varia de acuerdo a las unidades utilizadas.  Ej.: el peso de un grupo de estudiantes se encuentra que la D. E es de 5 kilos, su valor seria de 5000 gramos, si se expresa en gramos.  Si en un estudio de glóbulos rojos y en otro sobre glóbulos blancos se hubiera encontrado:  Glóbulos rojos glóbulos blancos Promedio = 5.000.000 promedio = 10.000 D. E= 100.000 D. E=1.000
  • 16.
     Cuando sequiere hacer comparaciones de este tipo, se recurre al coeficiente de variación. Coeficiente de variación = D.E/promedio x 100, entonces: Para G.R: C.V.= 100.000/5.000.000x100=2% Para G.B: C.V.= 1.000/10.000x100=10%  Se concluye, que la variación relativa de los G. B, es mayor que la de los G.R.
  • 17.
    INTERVALO INTERCUARTICULAR  Seentiende por percentiles y cuartiles.  El termino percentil deriva de “por cierto”, por lo tanto, una serie de observaciones no puede tener más de 100 percentiles.  Cada percentil indica el % de observaciones que en determinada serie esta por debajo de él. El 10° percentil por ejemplo, es el valor por debajo del cual está el 10% de las observaciones.  Según esto, la mediana es el 50° percentil y por debajo de ella se encuentra el 50% de las observaciones-  Al 25° percentil se le da el nombre de 1er cuartil (por debajo de ese valor se encuentra el 25% de las observaciones)  El 75° percentil se le da el nombre de tercer cuartil.
  • 18.
    CALCULO DEL PRIMERCUARTIL (Q1). Se procede de manera semejante, como se hizo el calculo de la mediana. a. Buscar los verdaderos limites de la clase- b. Obtener la frecuencia acumulada de las observaciones c. Averiguar cúal de las observaciones corresponde al primer cuartil, o sea: (n/4)=(50/4)=12,5 d. Como el primer cuartil estará situado en la posición 12.5 y como hay 12 observaciones por debajo de 29,5 kilos, se necesita ½ observación más (12.5-12=0,5) de las que hay en la siguiente clase. Las observaciones están igualmente espaciadas, se tomara 0,5/9 de la amplitud de la siguiente clase y se añadirá a su punto de comienzo, con el fin de obtener el valor del 1er cuartil. Q1=29,5+(0,5/9)x5)=29,5+0,27=29,77 kilos
  • 19.
    Peso en kilos (1) Intervalos verdaderos Nºde escolares Frecuencias acumuladas 20-24 25-+29 30-34 35-39 40-44 45-49 50-54 19.-,5-25,5 24,5-29,5 29,5-34,5 34,5-39,5 39,5-44,5 44,5-49,5 49,5-54,5 4 8 9 10 7 6 6 4 12 21 31 38 44 50 Total 50
  • 20.
    CALCULO DE TERCERCUARTIL (Q3) (3/4)n=(3/4)x50=37,5, por tanto:  Hay 31 observaciones por debajo de 39,5 kilos, se necesitan 6,5 observaciones más de las 7 que hay en la próxima clase, o sea se debe tomar 6,5/7 de la amplitud de la clase y añadirlo a su comienzo para averiguar el valor del Q3: Q3=39,5+ ((6,5/7)x5)=39,5+4,64=44,14 kilos.
  • 21.
    INTERVALO INTERCUARTICULAR  Esaquel comprendido entre el primer y tercer cuartiles  Su utilidad consiste en que dentro de los límites determinados por el, se encuentra el 50% de las observaciones “centrales”, generalmente no afectadas por las fluctuaciones extremas de la serie.  Mide la dispersión de los valores de la serie, mientras más próximos sus límites, mayor concentración de las observaciones alrededor de la mediana.
  • 22.
     Ejm. Díasde hospitalización de dos grupos de pacientes es: primer grupo segundo grupo Ma=10 Ma=10 Q1=9 Q1=3 Q3=11 Q2=18  A pesar que la mediana es 10 para ambos grupos, en el 1ro. El 50% de los Px tienen valores muy próximos a ella y en segundo grupo, la dispersión es mucho mayor  Q = Qi y Q3 el resumen de la serie quedarìa imcompleto