Estadística descriptiva y medidas de tendencia central y dispersión
1. 1
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
UNIDAD 1: Revisión de Estadística Descriptiva.
La Estadística descriptiva proporciona herramientas para organizar y
presentar datos, su objetivo es describir sus características. Estos se
pueden manejar en forma no agrupada (datos simples) y en forma
agrupada (organizando grupos o clases). A continuación
estudiaremos las principales formas de presentar datos, medidas
de centralización, dispersión tanto para datos no agrupados como
para agrupados.
1.1 Variables
Una variable es una propiedad o característica que puede variar y esta variación es
susceptible de medición.
Las variables puedes ser cuantitativas y cualitativas.
Se llaman cuantitativas, cuando se pueden expresar numéricamente. Las cuantitativas
pueden ser a la vez discretas; cuando se pueden expresar mediante números enteros, y
continuas cuando se expresan por números reales.
Las variables cualitativas son aquellas que no se expresan numéricamente, o en las que
un número no representa cantidad sino cualidad. A su vez pueden ser nominales u
ordinales. Las variables cualitativas ordinales, son aquellas que se pueden ordenar de
forma lógica ascendente o descendentemente. Las nominales en las que no reflejan un
orden.
Ejemplo 1
Variable Tipo
Cuantitativa discreta
Número de hijos por familia
Tiempo que demora un cliente de un banco en realizar una Cuantitativa continua
transacción bancaria
Religión Cualitativa nominal.
Calidad de un producto ( Malo, regular, bueno) Cualitativa ordinal.
2. 2
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
Datos:
Un dato es el resultado de observar, contar o medir una característica específica de
interés (variable).
1.2 Distribución de frecuencias, medidas de centralización y
dispersión para datos no agrupados:
1.2.1 Frecuencias de datos no agrupados:
La frecuencia absoluta de un dato, es el número de veces que aparece. La frecuencia
porcentual, es la relación que existe entre la frecuencia absoluta del dato respecto al
total, expresada en porcentaje. La suma de las frecuencias absolutas de todos los datos,
debe ser igual al número total de datos, y la suma de las frecuencias porcentuales de
todos los datos debe ser igual a 100. La frecuencia porcentual se obtiene dividiendo la
frecuencia absoluta (f.i) de cada dato para el número total de datos (n) y multiplicado
por 100.
f .i
f.% = 100
n
Ejemplo 2: Construir la tabla de frecuencias para los datos: 2, 3, 3, 4, 5, 5, 5, 6
Dato Frec. Frec,
Absoluta Porcentual
(f.i) (f..%)
2 1 12-5%
3 2 25%
4 1 12.5%
5 3 37.5%
6 1 12.5%
Total 8 100%
1.2.2 Medidas de centralización
En un conjunto de datos es importante localizar su centro y su variabilidad.
La tendencia central de un conjunto de datos es la disposición de éstos para agruparse
alrededor del centro.
Entre las principales medidas de centralización tenemos: Media aritmética, media
geométrica , media armónica, mediana, modo.
a) Media aritmética: Es el promedio de un conjunto de datos; es una buena medida de
tendencia central siempre que no se presenten valores extremos.
3. 3
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
Se calcula sumando todos los datos y dividiendo para el número de datos:
Ejemplo 3: Calcule la media aritmética de los siguientes datos: 3,4,5,6,6,7,8,9,10.
Desarrollo
n
x
j1
j
3 4 5 6 6 7 8 9 10 58
a) X = 6.44
n 9 9
c) Mediana: Es el valor central de un conjunto de datos. Para calcularla en primer lugar
es necesario ordenar los datos ya sea en forma ascendente o descendente. Para calcular
la mediana se debe tomar en cuenta dos casos:
a) Si el número de datos es par: Se debe ubicar los dos datos centrales, lo cual se
consigue dividiendo el número de datos para 2, se toma el dato que esté en esa
posición y el siguiente. La mediana será el promedio de los datos centrales.
Ejemplo 4: Calcular la mediana de: 5, 3, 6, 7, 5 ,1.
El primer paso es ordenar los datos: 1, 3, 5, 5, 6, 7
Como son 6 datos, la mitad es 3, entonces debemos tomar el dato que ocupa el
tercer lugar y el siguiente, que en este caso será el que ocupa el cuarto lugar:
estos datos son 5 y 5, el promedio de los dos es 5, por lo tanto Md = 5.
b) Si el número de datos es impar: Se debe ubicar el dato central, y ese será el
valor de la mediana. Para ello dividimos igual el número de datos para dos y
aproximamos ese valor, así obtendremos la posición de la mediana.
Ejemplo 5: Calcular la mediana de: 4, 2, 5, 6, 7 .
El primer paso es ordenar los datos: 2, 4, 5, 6, 7
Como son 5 datos, al dividir para 2 sale 2.5, aproximando tenemos 3, luego el
tercer dato es la mediana, entonces Md = 5.
d) Moda: La moda de un conjunto de datos es el dato que mayor frecuencia tiene.
Ejemplo 6: Encuentre la moda de los siguientes datos: 2, 3, 3, 4, 5, 5, 5, 6
Primero construiremos la tabla de frecuencias para datos no agrupados.
Dato Frec.
Absoluta
(f.i)
2 1
3 2
4 1
5 3
6 1
4. 4
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
Ahora buscamos el dato de mayor frecuencia, vemos que tanto en la frecuencia absoluta
como porcentual el dato que buscamos es el 5, por lo tanto la moda Mo = 5.
Ejemplo 7:
Con los siguientes datos: 3,4,5,6,6,7,8,9,10. Halle: a) la media aritmética, b) mediana y
c) modo.
Desarrollo
n
xj1
j
3 4 5 6 6 7 8 9 10 58
a) X = 6.44
n 9 9
b) Md = 6, como son 9 datos, y 9 es impar tiene un dato central que se encuentra en la
quinta posición , por lo tanto si contamos hasta el quinto dato, tenemos el 6.
c) Mo = 6, pues es el dato que más se repite.
1.2.3 Medidas de dispersión:
Las medidas de dispersión indican cómo están distribuidos los datos al rededor de las
medidas centrales; esto es, si los valores son muy pequeños los datos están concentrados
alrededor del centro (poco dispersos), si son grandes, los datos están alejados del centro
(muy dispersos).
Entre las principales medidas de dispersión tenemos: varianza, desviación estándar,
coeficiente de variación.
a) Varianza, desviación estándar:
La varianza se obtiene sumando los cuadrados de las diferencias entre cada dato y la
media aritmética (desviaciones) y dividiendo para el número total de datos menos 1:
n
(x i X) 2
i 1
s2
n -1
Algunos autores trabajan con n-1 si el número de datos es pequeño, caso contrario con
n. La desviación Estándar no es más que la raíz cuadrada de la varianza:
n
(x i X) 2
i 1
s= s2 =
n -1
Ejemplo 8: Calcular la varianza y desviación Estándar de 1, 4, 4, 5, 6.
Primero calculamos la media aritmética x = (4+4+5+7)/4 = 5.
n
(x i X) 2 (4 5) 2 (4 5) 2 (5 5) 2 (7 5) 2 6
i 1
s2 = = =2
n -1 3 3
5. 5
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
s= 2 = 1.41.
b) Rango
El rango de una serie de datos discretos (enteros) se calcula así: Rango = máximo -
mínimo +1. Si los datos no son discretos: Rango = máximo - mínimo
NOTA. El rango puede ser afectado por el tamaño de la muestra.
1.3 Distribución de frecuencias, medidas de centralización y
dispersión para datos agrupados:
1.3.1. Frecuencias de datos agrupados:
Una tabla de frecuencias para datos agrupados consta de clases, límites reales,
frecuencias absolutas, porcentuales, acumuladas, puntos medios.
Para determinar estos elementos, cuando el número de datos es relativamente grande, se
aconseja seguir el siguiente algoritmo:
Se calcula la amplitud o rango: Amplitud = Máximo - mínimo (en datos discretos
Máximo - mínimo +1)
El número de clases C debe estar en lo posible entre 5 y 20; una fórmula que se
utiliza es la siguiente:
n
C = 1+3.33* log10 , siendo n el número total de datos
El ancho del intervalo c se calcula así (cuando todas las clases van a tener el mismo
ancho):
Amplitud
c , donde C es el número de clases
C
En cada clase se colocan los límites inferiores y superiores (simples o absolutos)
En cada clase se colocan los límites reales inferiores y superiores (el límite real
inferior es 0.5 menos del límite inferior simple, y el límite real superior es 0.5 más
del límite superior simple, siempre que éstos sean enteros. Si éstos tienen un decimal
el límite real inferior es 0.05 menos del límite inferior simple, y el límite real
superior es 0.05 más del límite superior simple, y así sucesivamente)
Se ponen los puntos medios de cada clase que son la semisuma de los límites reales
correspondientes.
Se colocan las frecuencias (absolutas o simples) de cada clase, que son el número de
observaciones que corresponden a cada clase.
Se pueden colocar las frecuencias acumuladas. La frecuencia acumulada de cada
clase es la suma de todas las frecuencias inferiores incluida la de la clase.
Se pueden colocar las frecuencias relativas que son las frecuencias absolutas o
simples de cada clase divididas para n. Se pueden colocar también las frecuencias
relativas acumuladas.
6. 6
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
En fin, se colocan las desviaciones o cualesquiera otros datos según los estadígrafos
que vayamos a calcular.
Ejemplo 9:
Construir una tabla de frecuencias para datos agrupados con:
22 23 14 26 11 18 21 20 22 19 14 19 21 26 27 24 23 21
12 25 20 15 11 17 20 19 24 21 17 21 23 24 26 25 25 22
13 15 10 18 16 15 19 28 23 18 27 25 22 20 17 16 13 20
16 17 19 22 29 24 18 13 16 30 26
Primero se debe conocer el número de clases y el ancho convenientes:
Número de clases: 1+3.33log10 65 = 7,04 que se aproxima a 7.
Ancho de clases: 20 / 7 = 2, 86 que se aproxima a 3.
Es decir que tendremos 7 clases de ancho 3.
Limites Clases F.i. F.% Puntos F.% acm
reales medios
(C.i)
9.5 - 12.5 10-12 4 6,2 11 6,2
12.5 - 15.5 13-15 8 12,3 14 18,5
15.5 - 18.5 16-18 12 18,5 17 36,9
18.5 - 21.5 19-21 15 23,1 20 60,0
21.5 - 24.5 22-24 13 20,0 23 80,0
24.5 - 27.5 25-27 10 15,4 26 95,4
27.5 - 30.5 28-30 3 4,6 29 100,0
Total 65 100,0
1.3.2 Medidas de centralización
a) Media aritmética: Para calcular la media aritmética se debe multiplicar el punto
medio de cada clase por la frecuencia absoluta de la misma, luego se suman todos los
productos y se divide para el número total de datos:
k
f x
i 1
i i
fx
x k
n
f
i 1
i
Ejemplo 10: Calcule la media de los datos agrupados del Ejemplo 3.
Clases F.i. Puntos F.i *xi.
medios
(xi.)
10-12 4 11 44
13-15 8 14 112
16-18 12 17 204
7. 7
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
19-21 15 20 300
22-24 13 23 299
25-27 10 26 260
28-30 3 29 87
Total 65 = 1306
k
f x i i
1306
X i 1
20.09
n 65
c) Mediana: Para calcular la mediana de datos agrupados, necesitamos primero
localizar la clase mediana o también llamado intervalo mediano. El intervalo mediano
n
contiene a la primera frecuencia acumulada mayor o igual a 2 . Luego se aplica la
siguiente fórmula:
n
f a1
Md L i 2 c
fmd
Donde:
L i = límite real inferior de la clase mediana.
n = número total de datos
f a1 = frecuencia acumulada anterior a la del intervalo mediano.
fmd = frecuencia de la clase mediana
c = ancho del intervalo
Ejemplo 11 : Calcule la mediana de los datos agrupados del ejemplo 9
Limites Clases F.i. F.% Puntos F.i acm
reales medios
(C.i)
9.5 - 12.5 10-12 4 6,2 11 4
12.5 - 15.5 13-15 8 12,3 14 12
15.5 - 18.5 16-18 12 18,5 17 24
Clase Md 18.5 - 21.5 19-21 15 23,1 20 39
21.5 - 24.5 22-24 13 20,0 23 52
24.5 - 27.5 25-27 10 15,4 26 62
27.5 - 30.5 28-30 3 4,6 29 65
Total 65 100,0
El intervalo mediano es el cuarto, porque la cuarta frecuencia acumulada 39 es la
n 65
mínima mayor o igual a 32.5 ; además:
2 2
L i = 18.5, f a1 = 24, fmd = 15, c = 3. Luego, el valor calculado de la mediana es:
8. 8
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
n 65
fa 1 24
Md Li 2 c = 18.5 2 3 20.2
fmd 15
d) Moda: Para calcular la moda de datos agrupados, debemos localizar la clase modal,
que es la que tiene mayor frecuencia absoluta. Luego aplicamos la fórmula:
d1
Mo L i
d d c
1 2
Donde:
d 1 = frecuencia absoluta de la clase modal - frecuencia absoluta de la clase inferior
d 2 = frecuencia absoluta de la clase modal – frecuencia absoluta de la clase superior
c = ancho del intervalo de clase.
Si hay dos frecuencias más altas la distribución es bimodal.
Ejemplo 12: Calcule la moda de los datos agrupados del ejemplo 9
Limites Clases F.i.
reales
9.5 - 12.5 10-12 4
12.5 - 15.5 13-15 8
15.5 - 18.5 16-18 12
Clase Modal 18.5 - 21.5 19-21 15
21.5 - 24.5 22-24 13
24.5 - 27.5 25-27 10
27.5 - 30.5 28-30 3
Total 65
La clase de mayor frecuencia es la cuarta, por lo tanto es la clase modal.
L i = 18.5, d 1 = 15-12= 3 , d 2 = 15-13 = 2, c = 3. Luego, el valor calculado de la moda
es:
d1 3
Mo L i d d c = 18.5 3 2 3 20.3
1 2
Ejemplo 13:
Construir una tabla de frecuencias para datos agrupados con:
22 23 14 26 11 18 21 20 22 19 14 19 21 26 27 24 23 21
12 25 20 15 11 17 20 19 24 21 17 21 23 24 26 25 25 22
13 15 10 18 16 15 19 28 23 18 27 25 22 20 17 16 13 20
16 17 19 22 29 24 18 13 16 30 26
Primero se debe conocer el número de clases y el ancho convenientes:
Número de clases: 1+3.33log10 65 = 7,04 que se aproxima a 7.
9. 9
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
Ancho de clases: 20 / 7 = 2, 86 que se aproxima a 3.
Es decir que tendremos 7 clases de ancho 3. Es así como aparece:
Frequency Percent Valid Cumulativ
Percent e Percent
Valid 10-12 4 6,2 6,2 6,2
13-15 8 12,3 12,3 18,5
16-18 12 18,5 18,5 36,9
19-21 15 23,1 23,1 60,0
22-24 13 20,0 20,0 80,0
25-27 10 15,4 15,4 95,4
28-30 3 4,6 4,6 100,0
Total 65 100,0 100,0
La distribución de frecuencias y los estadísticos anteriores fueron hechos en el
computador. Ahora calculemos los estadísticos utilizando las fórmulas correspondientes
para datos agrupados en una distribución de frecuencias:
k
f x i
1306 i
a) Media aritmética (promedio) X i 1
20.09
n 65
b) Mediana: El intervalo mediano es el cuarto, porque la cuarta frecuencia acumulada
n 65
39 es la mínima mayor o igual a 32.5 ; además:
2 2
L i = 18.5, f a1 = 24, fmd = 15, c = 3. Luego, el valor calculado de la mediana es:
n 65
fa 1 24
Md Li 2 c = 18.5 2 3 20.2
fmd 15
c) Moda
El intervalo modal es el cuarto, porque contiene a la mayor frecuencia absoluta; además:
L i = 18.5, d 1 = 3 , d 2 = 2, c = 3. Luego, el valor calculado de la moda es:
d1 3
Mo L i
d d c = 18.5 3 2 3 20.3
1 2
10. 10
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
1.3.2 Medidas de dispersión
a) Varianza y desviación estándar
k
f i (x i X) 2
i 1
Aplicamos la siguiente fórmula para la varianza: s 2
n -1
Donde:
fi = frecuencia absoluta de la clase i
xi = punto medio de la clase i
De igual manera la desviación estándar se calcula obteniendo la raíz cuadrada de la
varianza.
Ejemplo 14 : Calcule la varianza y desviación estándar de los datos agrupados del
apartado 1.2.2
k
f i (x i X) 2
1439.447
i 1
Varianza = s 2 22.491
=
n -1 64
Desviación estándar = s = s 2 = 22.491 4.743
b) Coeficiente de variación
En cualquiera de los dos casos, sean datos agrupados o no, el coeficiente de variación
es el cociente entre la desviación estándar y la media aritmética, expresado en
porcentaje.
s
C.V
X
Es útil cuando:
a) Los datos están en unidades diferentes.
b) Los datos están en las mismas unidades pero las medias son muy distantes.
Ejemplo 15: Se desea comparar la variación de los ingresos anuales de ejecutivos con
la variación de los ingresos de trabajadores no calificados. Se sabe que para una grupo
de ejecutivos la media es de $500 000 y la desviación estándar de $50 000, en cambio
para los empleados no calificados la media es de $22 000 y la desviación estándar de
$2 200.
A simple vista se podría decir que existe más dispersión en los sueldos de los
ejecutivos, pero calculemos los dos coeficientes de variación:
s 50000
C.V.e = = = 0.1 para transformar a porcentaje multiplicamos por 100%,
X 500000
luego C.V.e = 10%.
11. 11
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
s 2200
C.V.t = = = 0.1 para transformar a porcentaje multiplicamos por 100%,
X 22000
luego C.V.t = 10%. Por lo tanto no existe diferencia en la dispersión de los dos grupos.
1.4 Medidas de Posición
1.4.1 Cuartiles, deciles y centiles (o percentiles)
Cuando una serie de datos se ordenan ascendentemente, puede interesar conocer por
ejemplo datos que se ubiquen en la cuarta parte, las dos cuartas y las tres curtas partes
de la distribución; en este caso estamos hablando de los CUARTILES Q 1, Q2, Q3. Si
queremos conocer datos ubicados en el primer décimo, en los dos décimos, ... estamos
hablando de los DECILES D1, D2, ....; así también, si queremos conocer datos ubicados
en la centésima parte, las dos centésimas; etc, estamos hablando de los CENTILES (o
percentiles) P1 , P2 , ... .
Generalmente estas medidas de dispersión interesan calcularse en datos agrupados, es
decir, cuando tenemos una tabla de distribución de frecuencias. Entonces habrá que
hablar de dos aspectos: a) de la posición en un intervalo, y, b) de su valor calculado.
a) La posición de estos estadísticos en el intervalo correspondiente se encuentra
utilizando por ejemplo las siguientes fórmulas:
i.n n
Posición de Q i = ; así por ejemplo Posición de Q1 =
4 4
i.n 7n
Posición de D i = ; así por ejemplo Posición de D7 =
10 10
i.n 5n
Posición de P i = ; así por ejemplo Posición de P5 =
100 100
NOTA. Si n es pequeño es preferible poner n+1 en vez de n
El intervalo posición Ii correspondiente es el que contiene a la primera frecuencia
acumulada mayor o igual al valor de la posición.
b) Cálculo de los valores de los cuartiles, deciles y centiles (o percentiles)
Las siguientes fórmulas se utilizan generalmente para calcular los cuartiles:
n n 3n
fa 1 f a 1 fa 1
Q1 Li 4 c , Q2 Li 2 c , Q3 L i 4 c
fQ1 f Q2 fQ3
donde:
Li es el límite real inferior de la clase que contiene a dicho cuartil.
f a 1 es la frecuencia acumulada del intervalo inmediato anterior al intervalo que
contiene al cuartil.
f Q1 , f Q2 , f Q3 son las frecuencias de los intervalos de los cuartiles uno, dos y tres
respectivamente.
12. 12
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
c es el ancho del intervalo que contiene al cuartil correspondiente, es la diferencia de los
límites reales del intervalo.
Para calcular los deciles, puede utilizarse las fórmulas:
n 2n kn
f a 1 fa 1 fa 1
D1 Li 10 c , D 2 Li 10 c ,... , Dk Li 10 c ; etc.
f D1 fD2 f Dk
donde:
Li es el límite real inferior de la clase que contiene a dicho decil.
f a 1 es la frecuencia acumulada del intervalo inmediato anterior al intervalo que
contiene al decil. f D1 , f D2 ,..., f Dk , . . . son las frecuencias de los intervalos de los
deciles uno, dos,..., k respectivamente. c es el ancho del intervalo que contiene al decil
correspondiente.
Para calcular los percentiles (o centiles), puede utilizarse las fórmulas:
n 2n kn
fa 1 fa 1 fa 1
P1 Li 100 c , P2 Li 100 c ,..., Pk Li 100 c ; etc.
f P1 f P2 f Pk
donde:
Li es el límite real inferior de la clase que contiene a dicho percentil.
f a 1 es la frecuencia acumulada del intervalo inmediato anterior al intervalo que
contiene al percentil.
f P1 , f P2 ,..., f Pk son las frecuencias de los intervalos de los percentiles uno, dos,..., k
respectivamente.
c es el ancho del intervalo que contiene al percentil correspondiente.
13. 13
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
1.5 Gráficos: Diagramas de barras, gráfico de líneas, circular o
de pastel, histogramas y polígonos de frecuencias
Los diagramas de barras, los histogramas y polígonos de frecuencias tienen como
abscisas los puntajes (o puntos medios en datos agrupados) y como ordenadas las
frecuencias absolutas; se hacen también gráficos de distribución de frecuencias relativas
( f r f ), frecuencias acumuladas (ojivas), frecuencias relativas acumuladas (ojivas
n
porcentuales).
Los gráficos de pastel son gráficos circulares cuyas áreas son proporcionales a las
frecuencias; así 360 grados equivale a n que es el número de casos o al porcentaje, los
f(360)
grados del sector circular de cada frecuencia se obtiene con la fórmulas .
n
Ejemplo 16:
A continuación se presentan gráficos de barras, de líneas y de pastel que se realizaron
en el SPSS 8.0
Diagrama de barras Gráfico de líneas
3,5 3,5
3,0
3,0
2,5
2,5
2,0
2,0
1,5
1,5
1,0
Count
1,0
,5
Count
9,00 13,00 14,00 17,00 18,00 20,00
,5
9,00 13,00 14,00 17,00 18,00 20,00
Gráfico pastel
Histograma
16 28-30 10-12
4,6% 6,2%
14 25-27 13-15
15,4% 12,3%
12
10
8
16-18
22-24 18,5%
6
20,0%
4
2 19-21
23,1%
0
1,0 2,0 3,0 4,0 5,0 6,0 7,0
14. 14
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
Cuadro Resumen 1:
PRINCIPALES MEDIDAS DE CENTRALIZACIÓN EN DATOS NO AGRUPADOS
Y AGRUPADOS
* Datos no Datos agrupados
agrupados
MEDIA ARITMÉTICA. Es el n k
promedio de un conjunto de xj
j1
f i x i fx
datos; es una buena medida de x x i 1k
n
tendencia central siempre que n
fi
no se presenten valores i 1
extremos.
k = número de clases
x i = punto medio de la clase i
Primero se n
ordenan los datos, f a1
luego si el número Md L i fmd c
2
MEDIANA. Es el valor
central de un conjunto de datos es impar
ordenado de datos. Se es el dato central.
prefiere cuando la Si el número de El intervalo mediano contiene a la primera
datos es par, es el frecuencia acumulada mayor o igual a 2
n
distribución es asimétrica.
promedio de los L i = límite real inferior de la
datos centrales. clase mediana.
n = número total de datos
f a1 = frecuencia acumulada anterior a la del
intervalo mediano.
fmd = frecuencia de la clase mediana
c = ancho del intervalo
d1
Mo L i d d c
MODA. Es el dato de mayor Dato que más se repite 1 2
frecuencia d 1 = frecuencia de la clase modal
. -frecuencia de la clase inferior
d 2 = frecuencia de la clase modal
-frecuencia de la clase superior
c = ancho del intervalo de clase.
La moda puede calcularse inclusive con
variables categóricas.
La clase modal es la clase que contiene a la
mayor frecuencia. Si hay dos frecuencias
iguales la distribución es BIMODAL
15. 15
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
Cuadro Resumen 2: PRINCIPALES MEDIDAS DE DISPERSIÓN
PARA DATOS AGRUPADOS Y NO AGRUPADOS.
Datos no agrupados Datos agrupados
2
s = VARIANZA (o
n k
(x i X) 2 f i (x i X) 2
desviación cuadrática media)
. Es la media de los i 1 i 1
cuadrados de las s2 s2
n -1 n -1
desviaciones
si n es pequeño se pone n-1
en vez de n, aproxima mejor.
s = DESVIACIÓN TÍPICA n k
O ESTANDAR. Es la raíz (x i X) 2 f i (x i X) 2
i 1 i 1
cuadrada de la varianza. s= s
s para la muestra n -1 n -1
σ para la población
CV = COEFICIENTE DE s
VARIACIÓN. Es el cociente entre C.V
la desviación estándar y la media X
aritmética.
Mide el grado de
homogeneidad de los datos,
si C.V < 33% los datos son
homogéneos, si C.V33%
los datos son heterogéneos
(dispersos)
16. 16
Maestría en Educación Matemática Dr. Angel Urquizo Mgs
Estadística Inferencial Dra. Angélica Urquizo Mgs.
Actividad 1:
EJERCICIO 1: Con los siguientes datos: 1,2,3,5,5,6,6,6,7,8,10,10. Halle: a) media
aritmética, b) mediana, y c) modo.
EJERCICIO 2: Con los siguientes datos:
12,4,6,10,1,9,8,11,12,3,7,4,5,6,9,8,9,12,8,9,7,7,11,13,13,11,13,4,8,9,14,5,6,4,7,15,6,11,
10,17,7,10,12,10,14,10,12,13,20,14,11,9,13,16,14,16,16,19,17,14,15,16,15,17,20.
a) Agrupe los datos utilizando la hoja Excel.
b) Tomando como base el cuadro anterior, elabore un cuadro de distribución de
frecuencias con: Límites, límites reales, frecuencias absolutas, porcentuales y
puntos medios.
c) Utilizando las fórmulas correspondientes para datos agrupados en una
distribución de frecuencias calcule: promedio, mediana, moda.
EJERCICIO 3
a) Con los siguientes datos: 24, 22, 24, 27, 22, 24, 24, 21, 20, 24 elabore el diagrama
de barras y de líneas en Excel.
b) Con los datos agrupados del Ejercicio 2, elabore: histograma y diagrama pastel en
excel.
EJERCICIO 4: Con los datos no agrupados del EJERCICIO 2. Hallle: a) los 3 cuartiles,
b) los deciles 1 y 9, c) los centiles 10 y 95, d) varianza, desviación estándar.
Auto evaluación 1
Diga si son verdaderas o falsas los siguientes enunciados:
a) La media de un conjunto de datos es el dato que más se repite.( )
b) La desviación estándar se calcula sacando la raíz cuadrada de la varianza.( )
c) Los cuartiles dividen a los datos en 3 partes iguales.( )
d) El histograma se construye con los datos y las frecuencias acumuladas. ( )
e) La frecuencia porcentual es la semisuma de los límites de clase cuando se
agrupan los datos.( )