1. Tabla de Frecuencia para datos continuos.
Algunas veces, la tabla simple de frecuencias, no es adecuada, pues hay
demasiados valores con frecuencia absoluta igual a uno, lo que no justifica
considerarlos por separado; o la muestra tiene muchos valores distintos y la tabla se
hace demasiada extensa. Estos datos representan un rango muy amplio. En estos
casos, nos conviene agrupar en lo que se llama
“Intervalo de clase”.
Intervalo de clase: Intervalos empleados en la Tabla de Frecuencia
Estadística, capaz de
contener diversas medidas de una variable. Consta de un límite inferior (Li) y un
límite superior
(Ls).
Ejemplo: Se tienen los siguientes datos, que representan el numero de
horas que se mantuvieron funcionando cada uno de los 40 bombillos que se
sometieron a prueba, pertenecientes a la producción de cierta fabrica .
900, 500, 450, 1900, 1200, 1250, 2500, 550, 1650, 1200, 1000, 550, 950, 600,
750, 1300,
850, 350, 1400, 700, 300, 1100, 300, 1600, 1500, 1000, 1800, 900, 500, 650, 2000,
1000, 2000,
450, 750, 850, 600, 3000, 350 y 1500.
Evidentemente, son demasiados valores y muchos de ellos aparecen una sola
vez, por lo que se decide a utilizar intervalos de clase. El único factor negativo, es
que al agruparlos de esta forma, se pierde inevitablemente parte de la información
(en este caso las vidas utiles de cada bombillo) y se generan pequeños errores
estadísticos, basados en la agrupación.
Obviamente, el intervalo seleccionado, no debería ser tan amplio como
para perder demasiada información, ni tan pequeño pues no tendría sentido el haber
agrupado en intervalos.
Es importante que todos los datos asignados a una clase, se puedan
considerar, sin gran error, iguales al valor medio del intervalo, entonces, se usará
dicho valor como representante de todos los de la clase. Ahora:
3. Esta cantidad de intervalos no debería ser mucho, debido a que no se
cumpliría el objetivo de resumir la información, y no tan pocos intervalos, ya que se
perdería mucha información.
Numero de intervalos (K): Cantidad de intervalos de los cuales se compone una
tabla de frecuencia .
No existe una formula, ni principios únicos para establecer el numero de
intervalos. En general optaremos por manejar un número de intervalos conveniente
entre 5 y 15. Algunos autores han propuestos formulas que permiten ayudar en la
tarea de conseguir el número ideal de intervalos. Nosotros optaremos por la raíz
cuadrada del umero de datos, esto es, raíz de 40, y aproximamos el resultado por exceso
a k = 7
Una vez que decidimos utilizar 7 intervalos, veamos cuál es el
procedimiento para asignar los valores a las distintas clases:
1. Buscamos el valor máximo y mínimo entre los datos, que hemos llamado
valores extremos, y realizamos la diferencia, que hemos denominado rango.
Rango = 3000 - 300 = 2700
2. Calculamos el ancho o amplitud de la clase, que es el cociente entre el rango
y el número de intervalos.
Amplitud = 2700 = 385,71
7
Como este valor debe ser entero, para simplificar los cálculos, en caso de que
sea decimal, lo aproximamos siempre al entero superior. Es decir, que la amplitud
en este caso será 386.
3. Si multiplicamos la amplitud por el número de intervalos, obtenemos el rango
real.
Rango Real = 7 * 386 = 2702
5. Se observa que en cuando se hallo la amplitud, se aproximó el entero superior,
pues de lo contrario el rango nos quedaría menor a 2700. Como consecuencia,
al construir las clases, nos encontraríamos con valores de la población o
muestra que no pertenecerían a ninguna clase.
El rango real ( 2702) es superior al rango anterior ( 2700) en 2. Entonces
los que sobran, debemos considerarlos en el primer y último intervalo. Hay
distintas formas de hacerlo, solamente tenemos que tener en cuenta que 300 es
el valor mínimo de los datos, 3000 el valor máximo y que todos los valores deben
estar en alguna clase.
Una forma es considerar el límite inferior del intervalo como el valor mínimo (
300) menos uno, y entonces el límite superior del último intervalo, resultará
incrementado en uno, con lo que repartimos los dos sobrantes.
Luego, en nuestro caso, el extremo inferior del primer intervalo es : 300 – 1 = 299
Si no hubiera diferencia entre el rango y el rango real, consideramos el
valor mínimo de la muestra o población como el mínimo inferior del primer
intervalo.
4. Se construyen los intervalos de la siguiente manera: a 299 se le suma la
amplitud y se obtiene el extremo superior de la primera clase:
299 + 386 = 685
Este 685 a su vez será el límite inferior del segundo intervalo y así se repite el
procedimiento hasta obtener los 7 intervalos.
5. Se asignan los datos de la muestra al intervalo que corresponden, logrando así
la frecuencia absoluta de cada clase. Se consideran los intervalos de tal forma
que incluyen el extremo inferior, pero no al superior.
Si hubiera algún intervalo que quedara vacío, es decir, sin ningún valor, se debe
replantear el número de intervalos.
En nuestro ejemplo los Intervalos de clases quedaron conformados de la siguiente
manera:
1º Intervalo = 299 – 685
2º Intervalo = 685 – 1071
3º Intervalo = 1071 – 1457
4º Intervalo = 1457 – 1843
5º Intervalo = 1843 – 2229
6º Intervalo = 2229 – 2615
7. Siguiendo los pasos anteriores se tiene:
Monto de
los
préstamo
s
Li -- Ls
Marca
de clase
(Mi)
Conteo
Frecuenci
a
absoluta
(fi)
Frecuenci
a
Relativa
(hi)
Frecuenci
a
absoluta
Acumulad
a
(Fi)
Frecuencia
relativa
Acumulada
(Hi )
299 – 685 492 ///////////// 13 0,325 13
0,325
685 - 1071 878 /////////// 11 0,275 24
0,600
1071 - 1457 1264 ////// 6 0,150 30
0,750
1457 - 1843 1650 ///// 5 0,125 35
0,875
1843 - 2229 2036 /// 3 0,075 38
0,950
2229 - 2615 2422 / 1 0,025 39
0,975
2615 - 3001 2808 / 1 0,025 40
1,000
TOTAL 40 1,00
Ya se sabe qué significan las columnas fi ( Frecuencia absoluta) , Fi (
Frecuencia absoluta Acumulada) . La columna hi corresponde a las frecuencias
relativas, y nos indica que proporción del total de los datos corresponde a cada clase.
Por ejemplo, el 0,325 significa que el 32,5 % de los bombillos tuvieron una vida
util entre 299 y 685 horas. Las calculamos dividiendo la frecuencia absoluta de
cada clase por el número total de datos de la muestra ( Tamaño de la
muestra). Por ejemplo:
0,325 =
13
4
0
Se observa que la suma de esta columna debe ser 1, es decir 100 %.
8. Se recuerda que la columna Fi, corresponde a las frecuencias acumuladas. Por
ejemplo, el 5º valor, 38, se obtuvo como: 13 + 11 + 6 + 5 + 3. En la práctica se
puede obtener como 35 + 3, es decir a la frecuencia acumulada anterior, se suma la
frecuencia absoluta del intervalo.
2
4
9. Este valor 38 indica que hubo 38 bombillos cuya vida útil fue a lo sumo 2229
horas, es decir la frecuencia acumulada es el número de datos que son menores
o iguales al extremo superior del intervalo.
La columna Mi, se denomina “Marca de Clase” y es el valor medio de cada
intervalo. Se utilizan para representar a todos los datos del intervalo. Se calcula
sumando los límites del intervalo y dividiendo esta suma por dos. Por ejemplo para el
primer valor:
492 = 299 +
685
2
Si se deseara comparar una muestra con otra previamente agrupada, es muy
importante que se escoja el mismo agrupamiento, pues si se ignora esta convención,
sería muy difícil comparar los resultados de los diferentes estudios.