Este documento explica conceptos básicos de estadística descriptiva como distribución de frecuencias, tablas de frecuencias, histogramas, polígonos de frecuencia y ojivas. También describe medidas de tendencia central como la media, mediana y moda. Define cada concepto y ofrece ejemplos numéricos para ilustrar cómo calcular y representar gráficamente cada medida. El objetivo general es proporcionar una introducción a técnicas comunes para organizar, resumir y visualizar conjuntos de datos.
2. Elaborado por: Profesora Ana Luisa Velásquez Estadística Descriptiva 2
DISTRIBUCIÓN DE FRECUENCIA
¿Porque se llama distribución de frecuencia?
Una Distribución de frecuencia muestra el número de observaciones provenientes del
conjunto de datos que caen dentro de cada una de las clases. Si podemos determinar la
frecuencia con que ocurren los valores en cada clase de un conjunto de datos, estaremos en
condiciones de construir una distribución de frecuencia.
Una distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla
de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.
Una tabla de distribución de frecuencia puede expresarse:
a) En cifras absolutas (frecuencias absolutas)
b) En cifras relativas (frecuencias relativas)
Frecuencia absoluta:
La frecuencia absoluta es el número de veces que aparece un determinado valor en un
estudio estadístico.
Se representa por fi.
La suma de las frecuencias absolutas es igual al número total de datos, que se representa
por N.
Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que
se lee suma o sumatoria.
Frecuencia relativa:
La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y
el número total de datos.
Se puede expresar en tantos por ciento y se representa por ni. (También es representada por
fr)
3. Elaborado por: Profesora Ana Luisa Velásquez Estadística Descriptiva 3
La suma de las frecuencias relativas es igual a 1.
Frecuencia acumulada:
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores
inferiores o iguales al valor considerado.
Se representa por Fi. (También es representada por fa)
Frecuencia relativa acumulada:
La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un
determinado valor y el número total de datos. Se puede expresar en tantos por ciento.
DISTRIBUCIÓN DE FRECUENCIAS AGRUPADAS:
La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las
variables toman un número grande de valores o la variable es continua.
Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A
cada clase se le asigna su frecuencia correspondiente.
Clase o Categoría:
Es el par de valores ordenados separados por un guión y que también se conoce como
intervalo de clase.
Límites de la clase:
Los números extremos de una clase o categoría se les conocen como límites de clase. Cada
clase está delimitada por el límite inferior de la clase y el límite superior de la clase.
Amplitud de la clase:
La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase.
Marca de clase:
La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo
el intervalo para el cálculo de algunos parámetros (se obtiene sumando los límites superior
e inferior de la clase y dividiendo entre 2).
4. Elaborado por: Profesora Ana Luisa Velásquez Estadística Descriptiva 4
Reglas generales para la formación de una tabla de distribución de frecuencia:
a) Obtener el rango: (diferencia entre el mayor y el menor de los datos de la ordenación)
b) Determinar el número de clases deseado. (Una opción es obtener la raíz cuadrada del
número total de observaciones)
c) Determinar la anchura o amplitud de clase. Rango ÷ número de clases.
d) Determinar el número de observaciones que caen dentro de cada clase. Lo mejor para
esto es utilizar una hoja de conteo.
Ejemplo: Construcción de una tabla de datos agrupados
3, 15, 24, 28, 33, 35, 38, 42, 43, 38,
36, 34, 29, 25, 17, 7, 34, 36, 39, 44,
31, 26, 20, 11, 13, 22, 27, 47, 39, 37,
34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
1º se localizan los valores menor y mayor de la distribución. En este caso son 3 y 48.
2º Se restan y se busca un número entero un poco mayor que la diferencia y que sea
divisible por el número de intervalos de queramos poner.
Es conveniente que el número de intervalos oscile entre 6 y 15.
En este caso, 48 - 3 = 45, incrementamos el número hasta 50 : 5 = 10 intervalos.
Se forman los intervalos teniendo presente que el límite inferior de una clase pertenece al
intervalo, pero el límite superior no pertenece intervalo, se cuenta en el siguiente intervalo.
ci fi Fi ni Ni
[0, 5) 2.5 1 1 0 0
[5, 10) 7.5 1 2 0.025 0.050
[10, 15) 12.5 3 5 0.075 0.125
[15, 20) 17.5 3 8 0.075 0.200
[20, 25) 22.5 3 11 0.075 0.2775
[25, 30) 27.5 6 17 0.150 0.425
[30, 35) 32.5 7 24 0.175 0.600
[35, 40) 37.5 10 34 0.250 0.850
[40, 45) 42.5 4 38 0.100 0.950
[45, 50) 47.5 2 40 0.050 1
5. Elaborado por: Profesora Ana Luisa Velásquez Estadística Descriptiva 5
40 1
DISTRIBUCIÓN DE FRECUENCIA NO AGRUPADA:
Es aquella distribución que indica las frecuencias con que aparecen los datos estadísticos,
desde el menor de ellos hasta el mayor de ese conjunto sin que se haya hecho ninguna mo-
dificación al tamaño de las unidades originales. En estas distribuciones cada dato mantiene
su propia identidad después que la distribución de frecuencia se ha elaborado. En estas dis-
tribuciones los valores de cada variable han sido solamente reagrupados, siguiendo un orden
lógico con sus respectivas frecuencias. Se utiliza si el número de dato no es muy grande.
Ejemplo: En una comunidad de vecinos hemos preguntado a 20 de ellos por el número de
personas que estudian en cada familia, sus respuestas han sido:
1, 3, 0, 1, 0, 2, 2, 1, 2, 0, 1, 1, 4, 1, 1, 1, 1, 1, 0, 2
Tabla de datos
(personas que estudian)
Valores
posibles
X
Veces que se
repite cada
valor de X
n
0 4
1 10
2 4
3 1
4 1
Frecuencia total N = Σ n = 20
Frecuencia relativa f = n / N “ f0 = n0 / N = 4/20=0,2 “ f1 = n1 / N = 10/20 = 0,5
* La suma de las frecuencias relativas = 1
Frecuencia absoluta acumulada ascendente Ni un determinado valor ordenado de menor
a mayor xi al número de datos que son menores o iguales a él.
Se representa:
Frecuencia absoluta acumulada descendente Ni un determinado valor ordenado de menor
a mayor xi al número de datos que son mayores o iguales a él.
6. Elaborado por: Profesora Ana Luisa Velásquez Estadística Descriptiva 6
Xi ni fi Ni↑ ٭٭ Ni ↓ Fi↑ ٭ Fi ↓
0 4
4/20
4 16
1/5 4/5
1 10
10/20
14 6
2/5 3/5
2 4
4/20
18 2
3/5 2/5
3 1
1/20
19 1
4/5 1/5
4 1
1/20
20 0 1 0
N = 20.
٭ debe sumar siempre 1. ٭٭ debe sumar siempre N.
Todo lo anterior si se trata de variables o características de naturaleza cuantitativa, si se
tratara de atributos que toman distintas modalidades cualitativas, no tiene sentido calcular las
Frecuencias acumuladas.
Ejemplo: A 100 personas se les ha preguntado su estado civil (x = casado, viudo, soltero,
otro).
Xi ni fi
Casado 50 50/100
Viudo 15 15/100
Soltero 25 25/100
Otro 10
10/100
N = 100
La F = N
HISTOGRAMA.
Los estadísticos han empleado las técnicas gráficas para describir de manera más vívida
series de datos. En particular, los histogramas se usan para describir datos numéricos que
han sido agrupados en distribuciones de frecuencia.
Un histograma, consiste en una serie de rectángulos cuyo ancho es proporcional al alcance
de los datos, que se encuentran dentro de una clase y cuya altura es proporcional al número
de elementos que caen dentro de la clase.
7. Elaborado por: Profesora Ana Luisa Velásquez Estadística Descriptiva 7
Ventajas de los Histogramas:
Los rectángulos muestran cada clase de la distribución por separado.
El área de cada rectángulo, en relación con el resto, muestra la proporción del número
total de observaciones que se encuentran en esa clase.
POLÍGONOS DE FRECUENCIA.
Polígono de frecuencia, es un gráfico hecho uniendo los puntos medios de la cima de las co-
lumnas de un histograma de frecuencia. Se marcan las frecuencias sobre el eje vertical y los
valores de la variable que se está midiendo en el eje horizontal. Se representa la frecuencia
de cada clase dibujando un punto medio de la clase dibujando un punto medio de la clase y
se conectan los puntos sucesivos con líneas rectas para formar el polígono. En los extremos
de la escala horizontal se agregan 2 nuevas clases con frecuencia cero. Esto permite que el
polígono llegue al eje horizontal en los extremos de la distribución.
Ventajas de los Polígonos:
El polígono de frecuencias es más sencillo que su correspondiente histograma.
Traza conmás claridad elpatrón de losdatos.
El polígono se vuelve más liso y parecido a una curva conforme aumentamos el número
de clases y el número de observaciones.
8. Elaborado por: Profesora Ana Luisa Velásquez Estadística Descriptiva 8
OJIVAS.
Una distribución de frecuencias acumuladas nos permite ver cuantas observaciones están
por encima de ciertos valores, en lugar de hacer un mero registro del número de elementos
que hay dentro de los intervalos. La representación gráfica de las frecuencias acumuladas se
le conoce como Ojiva.
En el eje vertical se representa la frecuencia (absoluta ó relativa) acumulada, partiendo des-
de 0 hasta la última frecuencia acumulada y en el eje horizontal se coloca los límites supe-
riores del intervalo de clase, partiendo desde el primer límite menor.
Existen las ojivas “mayor que” (van hacia la izquierda) y las ojivas “menor que” (van hacia la
derecha), para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la
mayor.
MEDIDAS DE TENDENCIA CENTRAL (MEDIA, MODA Y MEDIANA).
Las medidas de tendencia central son útiles para encontrar indicadores representativos de un
colectivo de datos. Los tres métodos que permiten obtener el punto medio de una serie de
datos son la media, la mediana y la moda. .
Son indicadores estadísticos que muestran hacia que valor (o valores) se agrupan los datos.
LA MEDIA ARITMÉTICA.
La medida de tendencia central más familiar es la media aritmética. Conocida en forma popu-
lar como el promedio, en ocasiones es llamada promedio aritmético, o simplemente la media.
Se encuentra sumando todos los valores de una serie de datos y dividiendo el total entre el
número de valores que se sumaron.
Muestra:
9. Elaborado por: Profesora Ana Luisa Velásquez Estadística Descriptiva 9
Población:
Las propiedades de la media aritmética incluyen las siguientes:
1. Para una serie de datos, hay una, y sólo una, media aritmética.
2. Su significado se entiende con facilidad.
3. En vista de que todo valor entra en su cálculo, es afectada por la magnitud de cada valor.
Debido a esta propiedad, la media aritmética puede no ser la mejor medida de tendencia
central cuando están presentes uno o dos valores extremos en una serie de datos.
4. La media, a diferencia de algunas medidas descriptivas cuyos valores pueden ser deter-
minados por inspección, es una medida calculada y por consiguiente puede ser manipulada
en forma algebraica. Esta propiedad la hace una medida útil en especial para propósitos de
inferencia estadística.
LA MEDIANA:
L a mediana es el valor por encima del cual cae la mitad de los valores y por debajo del cual
cae la otra mitad. Si el número de puntos es impar, la mediana es el valor del punto medio de
una serie ordenada, cuando los puntos están ordenados en orden ascendente (o descenden-
te) de magnitud. Si el número de puntos es par, ninguno de los puntos tiene un número igual
de valores por encima y por debajo de él. En este caso, la mediana es igual a la media, o
promedio, de los dos valores intermedios.
Serie Impar:
Serie Par:
Las propiedades de la mediana incluyen las siguientes:
1. La mediana siempre existe en una serie de datos numéricos. Para una serie dada de da-
tos, sólo hay una mediana.
2. La mediana no es afectada a menudo por valores extremos, mientras que la media sí. De-
bido a esta propiedad, la mediana con frecuencia es la medida de tendencia central de elec-
ción para una serie de datos que está sesgada.
10. Elaborado por: Profesora Ana Luisa Velásquez Estadística Descriptiva 10
3. La mediana puede ser usada para caracterizar datos cualitativos. Por ejemplo, un producto
podría ser comercializado en tres categorías de calidad: buena, mejor y óptima, donde la ca-
lidad del producto que cae en la categoría “mejor” es considerada “promedio”.
4. La mediana es fácil de calcular a menos que esté implicado un número grande de valores.
5. La mediana para una serie de datos puede ser localizada aún cuando los datos estén in-
completos, a condición de que se conozcan el número y localización general de todas las
mediciones cercanas al centro de la serie respecto a la magnitud de las mediciones cercanas
al centro de la serie de datos se encuentre disponible.
LA MODA:
La moda para datos discretos no agrupados es el valor que ocurre con más frecuencia. Si
todos los valores en una serie de datos son diferentes, no hay moda.
En las distribuciones simétricas, la media y la mediana tienen valor idéntico. En las distribu-
ciones asimétricas, estos valores no son iguales. Si la media es mayor que la mediana, la
distribución está sesgada hacia la derecha. Si la media es menor que la mediana, la distribu-
ción está sesgada hacia la izquierda.
Las medidas poblacionales de tendencia central a menudo son llamadas parámetros de loca-
lización, en vista de que “localizan” la posición de una distribución de frecuencia de la pobla-
ción en el eje horizontal.
MEDIDAS DE DISPERSIÓN (VARIANZA, DESVIACIÓN ESTÁNDAR Y COEFICIENTE DE
VARIACIÓN)
La dispersión se refiere al esparcimiento de los datos, o sea al grado de dispersión de las
observaciones.Se usa describir el grado en que una serie de valores varía respecto a su
media. Otros términos que transmiten este mismo concepto son variación, difusión y
propagación. Cuando los valores en una muestra o población están todos cerca de la media,
exhiben menos dispersión que cuando algunos de los valores son mucho más grandes y/o
mucho más pequeños que la media. Cuatro medidas descriptivas usadas para expresar la
cantidad de dispersión presente en una serie de datos son el rango, la desviación media, la
varianza y la desviación estándar.
LA VARIANZA.
La varianza, como la desviación promedio, usa todas las desviaciones de los valores de su
media.
Muestra:
11. Elaborado por: Profesora Ana Luisa Velásquez Estadística Descriptiva 11
Población:
La varianza también es una clase de promedio. Es el promedio de los cuadrados de las des-
viaciones de los valores individuales de su media. La varianza muestral tiene dos funciones
en el análisis estadístico. Primera, es usada como una medida de la dispersión presente en
la muestra. Segunda, es usada para estimar la varianza de la población de la que se extrajo
la muestra.
LA DESVIACIÓN ESTÁNDAR.
La varianza es expresada en unidades cuadradas. Si los datos son medidos en metros, la
varianza se expresa en metros cuadrados. En el análisis estadístico, a menudo se desea te-
ner una medida de dispersión que esté expresada en las mismas unidades que las observa-
ciones originales. Se obtiene dicha medida, llamada desviación estándar, extrayendo la
raíz cuadrada positiva de la varianza.
Muestra: s = √ s²
Población: = √ ²
COEFICIENTE DE VARIACIÓN.
En ocasiones surge la necesidad de comparar la variabilidad presente en dos series de da-
tos. Esto por lo general puede hacerse de manera satisfactoria comparando las dos varian-
zas o desviaciones estándar si los datos satisfacen dos condiciones, a saber:
Primero, se empleó la misma unidad de medición en ambas series de datos y segundo, las
medias de las dos series de datos son aproximadamente iguales.
Si no se cumple cualquiera de estas dos condiciones, se necesita una medida relativa de
dispersión para usarla en la comparación de la variabilidad de las dos series de datos. Dicha
medida relativa de dispersión es el coeficiente de variación.
El coeficiente de variación (CV) muestral es igual a la razón de la desviación estándar con la
media. Es decir,
Muestra:
Población:
12. Elaborado por: Profesora Ana Luisa Velásquez Estadística Descriptiva 12
El coeficiente de variación con frecuencia se multiplica por 100 y se expresa como
porcentaje. Nótese que el coeficiente de variación es independiente de la unidad de
medición. En vista de que tanto la media como la desviación estándar están expresadas en
las mismas unidades de medición, estas unidades se cancelan en el cálculo de la razón.
MEDIDAS DESCRIPTIVAS A PARTIR DE DATOS AGRUPADOS.
En ocasiones se necesitan calcular las diversas medidas descriptivas a partir de datos que
han sido agrupados en intervalos de clase y presentados como una distribución de frecuen-
cia. Si los datos consisten en una gran cantidad de valores, y si los cálculos se tienen que
hacer en forma manual o con una calculadora, se puede ahorrar una gran cantidad de trabajo
agrupando los datos antes de calcular las medidas descriptivas.
Cuando se calculan medidas descriptivas a partir de datos agrupados, se deben hacer cier-
tas suposiciones respecto a los datos. Como una consecuencia de hacer estas suposiciones,
los valores de las medidas descriptivas calculados de esta manera se deben considerar co-
mo aproximaciones a los valores verdaderos.
LA MEDIA.
Cuando se calcula la media a partir de datos agrupados, se hace la suposición de que cada
observación que cae dentro de un intervalo de clase determinado es igual al valor del punto
medio de ese intervalo. El punto medio de un intervalo de clase es llamado marca de clase.
Se obtiene la marca de clase sumando los límites de clase respectivos y dividiéndolos entre
2.
La experiencia ha demostrado que la suposición por lo general es satisfactoria. Como lo son
las suposiciones hechas acerca de las otras medidas descriptivas calculadas a partir de da-
tos agrupados.
En vista de que cada observación toma el valor de la marca de clase del intervalo en el que
cae, se calcula la media multiplicando cada marca de clase por su frecuencia correspondien-
te. Luego se suman los productos resultantes y se divide el total entre el número de observa-
ciones. Se puede expresar el procedimiento para datos de muestra por:
donde: N c = El número de intervalos de clase.
Mci = La marca de clase del i-ésimo intervalo de clase.
fi = la frecuencia del i-ésimo intervalo de clase.
13. Elaborado por: Profesora Ana Luisa Velásquez Estadística Descriptiva 13
LA MEDIANA.
La mediana para una distribución de frecuencia es el valor, o punto, sobre el eje horizontal
del histograma de la distribución en el que una línea perpendicular divide el área del histo-
grama en dos partes iguales.
donde: Li = Límite inferior de la clase medianal.
n = Número de datos.
Fi-1 = Frecuencia acumulada de la clase que antecede a la clase medianal.
fi = Frecuencia de la clase medianal.
i c = Longitud del intervalo de la clase mediana.
LA MODA (Mo).
Cuando se trata de datos agrupados para hallar la moda debemos determinar antes que todo
la clase modal en la cual se halla ésta. Dicha clase corresponde a aquella que presente ma-
yor frecuencia (absoluta). Una vez localizada la clase modal, procedemos por interpolación
para determinarla. Esta interpolación nos conduce a la siguiente fórmula para la media:
Mo. = Li + [ ( ∆1 / ∆1+∆2 ) ] C
Donde:
Li = límite inferior de la clase modal (clase de mayor frecuencia absoluta (fa)
∆1 = diferencia de las frecuencias absolutas de la clase modal y pre-modal.
∆2 = diferencia de las frecuencias absolutas de la clase modal y post-modal
C = amplitud de la clase modal.
http://es.scribd.com/doc/3278260/ESTADISTICA-matematica-Aplicada
BIBLIOGRAFIA
“ESTADÍSTICA PARA ADMINISTRACIÓN Y ECONOMÍA” por William J. Stevenson, Editorial
Harla.
“ESTADÍSTICA PARA ADMINISTRADORES” por Richard I. Levin & David S. Rubin, Sexta
edición, editorial Prentice Hall.