Este archivo ha sido diseñado para mis estudiantes de los cursos de Estadística Descriptiva. Se desarrollan las técnicas de organización y presentación de datos, las tablas de frecuencias, la elaboración de cuadros estadísticos y gráficas.
1. Unidad II.
Distribución de Frecuencias y
Presentación de Datos
Prof. Elisa Mendoza G.
Universidad de Panamá
2. Unidad II. Distribución de Frecuencias
OBJETIVOS:
• Reconocer los elementos y
conceptos de las tablas de
frecuencias.
• Organizar los datos en tablas de
frecuencias.
• Interpretar tablas de frecuencias
• Elaborar gráficas a partir de las
tablas de frecuencias.
CONTENIDOS:
• Conceptos deTablas de
Frecuencias
• Organización de datos. Diagrama de
Tallo – Hoja
• Elementos de unaTabla de
Frecuencias
• FrecuenciaAbsoluta
• Frecuencia Relativa
• Frecuencias Acumuladas
• Gráficas relacionadas con lasTablas
de Frecuencias
• Histograma
• Polígono de Frecuencias
• Ojiva
Prof. Elisa Mendoza 2
3. Distribución de Frecuencias
• En la actualidad se recaban una gran cantidad de datos sobre
diversos tópicos en cualquier campo ocupacional, de servicio o
de investigación, inclusive en el campo personal para la toma de
decisiones, o la descripción del fenómeno estudiado.
• En cualquiera de los casos, la organización de los datos es uno
de los primeros pasos en el análisis de los datos.
• Los datos pueden ser organizados de distintas formas:
• Ordenar los datos, de acuerdo a su magnitud, alfabéticamente,
lógico, u otro orden.
• Organizar y Presentar en Diagramas deTallo y Hoja
• Organizar enTablas de Frecuencias, Datos no agrupados y Datos
agrupados.
• Gráficas para datos cualitativos, y Gráficas para datos cuantitativos.
Prof. Elisa Mendoza 3
4. ORGANIZACIÓN DE DATOS:
Diagrama deTallo - Hojas
• Es un arreglo ordenado de los datos en dos
columnas. Los números se dividen en dos
grupos, separando el último dígito o la unidad
mínima. En la primera columna se colocarán de
forma ordenada los valores restantes sin
repetición. A esta columna se le denomina Tallo;
a la siguiente columna se le denomina Hojas. Y
se colocan las unidades separadas en cada tallo
correspondiente, de forma ordenada,
incluyendo las repeticiones. El total de Hojas,
corresponderá al total de datos ordenados.
• Tal y como se observa en el ejemplo
Prof. Elisa Mendoza 4
Ejemplo
5. Ejemplo
• Los siguientes datos corresponden al Índice de Masa Corporal
(IMC) de los estudiantes del Proyecto Jóvenes en Acción por un
Ambiente Sano.
Prof. Elisa Mendoza 5
Tallo Hojas
18. 2 6 9
19. 3 9
20. 4 8 9 9
21. 4 5 5 5
22. 0 1 1 3 3
23. 0 3 6 8
24. 5 6
25. 6
26. 2 2 9
27. 2 2 5
28. 1
29. 4
30. 8
31. 0 0
Diagrama de tallo – Hoja del IMC
IMC
18.2 22.1 25.6
18.6 22.3 26.2
18.9 22.3 26.2
19.3 23.0 26.9
19.9 23.3 27.2
20.4 23.3 27.2
20.8 23.6 27.5
20.9 23.6 28.1
20.9 23.8 29.4
21.4 23.8 30.8
22.0 24.5 31.0
22.1 24.6 31.0
Datos
Los dígitos de
las hojas
deben
totalizar el
número de
datos de la
muestra.
6. OtrosTipos de Diagramas deTallo - Hoja
Prof. Elisa Mendoza 6
Tallo Hojas
6 1
6* 8 9
7 0 0 3 4
7* 5 5 5 7
8 0 1 1 3 3
8* 5 5 6 8
9 0 0 1
9* 5 7 8
10 0
Tallo y Hoja con frecuencia. Salida de SPSS
Tallo y Hoja clasificado por otra
variable (dos hojas y un solo tallo)
Tallo subdividido,
cuando los datos
tienen poca
variabilidad y la
muestra es grande.
7. Tablas de frecuencias
• Las tablas de frecuencias son arreglos ordenados de los datos.
Los datos son ordenados de menor a mayor o viceversa
colocándoles al lado el número de veces que se repite cada dato
(frecuencias).
• El primer paso, es determinar las características de la cantidad y
el rango de variabilidad de los datos.
• Si los datos son pocos y tienen poca variabilidad, bastará con sólo
ordenarlos en una lista de datos.
• Si los datos son muchos y con poca variabilidad, se pueden obtener
las frecuencias sin agrupar los datos en rangos.
• Si los datos son muchos y con mucha variabilidad, entonces conviene
hacer una tabla de frecuencias con rangos de agrupación de los
datos.
Prof. Elisa Mendoza 7
8. Ejemplos
Prof. Elisa Mendoza 8
Edad
5
6
7
7
8
10
14
17
18
18
Tipo 1.
Pocos datos y
poca variabilidad.
Las frecuencias de los
datos es la misma
(uno) para cada dato
de la lista)
Edad N° %
5 3 3.9
6 7 9.2
7 15 19.7
8 16 21.1
10 8 10.5
14 12 15.8
17 9 11.8
18 6 7.9
Total 76 100
Tipo II.
Muchos datos y poca
variabilidad.
Edad N° %
0-4 18 7.8
5-9 25 10.9
10-14 30 13.0
15-19 34 14.8
20-24 37 16.1
25-29 29 12.6
30-34 36 15.7
35-39 21 9.1
Total 230 100
Tipo III.
Muchos datos y Mucha
variabilidad.
Cuando los datos son
prácticamente los mismos,
pero se repiten muchas
veces, conviene ordenarlos
y colocar su frecuencia.
Si son muchos datos, y son
diferentes muchos de ellos
(variabilidad), entonces,
conviene agrupar los datos y
colocar la frecuencia para cada
grupo de datos.
El Rango de variabilidad, se obtiene como la
diferencia del dato con el máximo valor y el dato con
el mínimo valor: R=Xmax-Xmin
R=18-5=13
R=18-5=13 R=39-0=39
9. Tablas de Frecuencias.
(Datos Agrupados)
Los datos pueden ser agrupados en rangos o clases, cuando son
muchos en cantidad y variabilidad, proporcionando una mejor
presentación para los usuarios de la información.
Cuando los datos son agrupados en clases, a esta presentación
se le llama Tabla de Frecuencia para datos agrupados.
En las tablas de frecuencias, se presentan las columnas de:
Clases o Intervalos de los datos, Frecuencias Absolutas,
Frecuencias Relativas, entre otras columnas que permiten
además, cálculos de medidas estadísticas.
Prof. Elisa Mendoza 9
10. Bien, ¿Cómo se
elabora la tabla
de frecuencias?
Existen diversos Criterios para determinar el
Número de Intervalos de Frecuencias o Clases:
Uso de la fórmula de Sturges: C=1+3.322*log(n)
Calculando la Raíz de n. C= raiz(n)
A Juicio del Investigador
Generalmente, se acostumbra que el Número de
Intervalo de Clases esté entre 5 y 15.
Donde: n, es el número total de datos.
Las clases (rangos o intervalos) de los datos, se
construyen de la siguiente manera:
Prof. Elisa Mendoza 10
11. Tabla de frecuencias
Prof. Elisa Mendoza 11
Tabla de FrecuenciasTipo III
Variable
Edad fi fr% Fi Fr%
5 3 3.9 3 3.9
6 7 9.2 10 13.2
7 15 19.7 25 32.9
8 16 21.1 41 53.9
10 8 10.5 49 64.5
14 12 15.8 61 80.3
17 9 11.8 70 92.1
18 6 7.9 76 100.0
Total 76 100
Frecuencias absolutas Frecuencias acumuladas
Tabla de FrecuenciasTipo II
Variable
Peso (kg) fi fr% Fi Fr% mi Lri Lrs
55-59 15 9.4 18 9.4 2 54.5 59.5
60-64 36 22.5 54 31.9 7 59.5 64.5
65-69 21 13.1 75 45.0 12 64.5 69.5
70-74 26 16.3 101 61.3 17 69.5 74.5
75-79 24 15.0 125 76.3 22 74.5 79.5
80-84 18 11.3 143 87.5 27 79.5 84.5
85-89 12 7.5 155 95.0 32 84.5 89.5
90-94 8 5.0 163 100.0 37 89.5 94.5
Total 160 100
Frecuencias absolutas Otros datos de las tablas de frecuenciasFrecuencias acumuladas
Se agregan:
mi: Punto medio (PM)
Límites reales: Lri
(inferior) y Lrs (superior)
12. Tablas de Frecuencias.
Conceptos Generales
Frecuencia absoluta (fi): es el número de valores o datos que se
encuentran en el intervalo i. La suma de las frecuencias absolutas
equivale al número total de observaciones (n)
Frecuencia relativa (fr): corresponde a la proporción de datos
que se encuentra en cada intervalo i. Se obtiene de la división de
la frecuencia absoluta (fi) del intervalo i, entre el total de
observaciones (n). Ésta proporción, se puede expresar como una
fracción o porcentaje (si es multiplicada por 100). La suma de fr
debe totalizar 1.00 (si lo deja en fracciones o decimales) ó 100 (si
lo expresa en porcentajes).
Prof. Elisa Mendoza 12
13. Tablas de Frecuencias.
Conceptos Generales
Frecuencias Acumuladas (Fi y Fr): es el número de datos que están por
encima o por debajo de un valor determinado del intervalo i. Se obtiene de
la acumulación de las frecuencias de intervalo, se empieza con los
intervalos menores o mayores. Generalmente, se acumula hacia abajo (De
menor a mayor).
La primera Fi y Fr coinciden con la primera fi y fr, respectivamente. La
última Fi y Fr deben ser n y 100, respectivamente. Véase el ejemplo
Puntos Medios o Marcas de Clase (mi o PM): es el punto medio del
intervalo i. Se calcula promediando el límite inferior y el límite superior de
cada clase. También se le denomina marca de clase, ya que es un valor que
representa al intervalo al cual pertenece. La marca de clase es un valor
medio contenido en el intervalo i.
Prof. Elisa Mendoza 13
14. Tabla de Distribución de Frecuencias de las Ventas de
Equipos informáticos (en miles) en 210 Tiendas
Electrónicas. 2014
Prof. Elisa Mendoza 14
Venta de equipos
(en miles)
Frecuencia
Límite inferior (Li) Límite superior (Ls) fi fr%
10 19 21 10.0
20 29 35 16.7
30 39 43 20.5
40 49 47 22.4
50 59 31 14.8
60 69 18 8.6
70 79 15 7.1
Total 210 100.0
fi. Frecuencia absoluta o conteo.
fr%, frecuencia relativa porcentual (fi/total * 100).
15. La Distribución Normal
La desviación estándar puede utilizarse para sacar ciertas conclusiones,
como por ejemplo, si el conjunto de datos en cuestión está distribuido
normalmente. Una distribución normal es una distribución de datos
continuos (no discretos) que produce una curva simétrica en forma de
campana. Cuyas características, entre otras, permite generar la regla
empírica de la distribución de los datos.
0 5 10 15
20
x
Frecuenciade
Observación
f(x)
Prof. Elisa Mendoza 15
17. Medidas de Forma de la
distribución: Sesgo y Curtosis
La distribución de las frecuencias de los datos ordenados,
proveen información sobre la forma de la concentración o
dispersión de los datos. Estas medidas se conocen como
Sesgo y Curtosis. Una se refiere a la forma de la dispersión, y
la otra a la forma de la concentración de los datos.
Una distribución normal, tiene la mayor concentración de
datos en los valores centrales y su media, moda y mediana
son iguales, además que la dispersión de los datos es
simétrica respecto a su media. Cuando esto no ocurre,
entonces se dice que la distribución está sesgada.
Prof. Elisa Mendoza 17
18. Medidas de Forma de la
distribución: Sesgo y Curtosis
Existen diversas técnicas para evidenciar las medidas de forma de una
distribución de la frecuencia de los datos, entre ellas las de tipo gráfico y
las numéricas.
Una primera aproximación para determinar el SESGO, es comparando las
medidas de tendencia central:
• Cuando las tres medidas de tendencia central: media, mediana y moda
coinciden, se dice que la distribución es INSESGADA o SIMÉTRICA.
• Cuando la Media es mayor que la mediana, el SESGO se da a la
derecha por que se hace una cola larga hacia esa dirección.
• Cuando la Media es menor que la Mediana, entonces el SESGO se da
a la izquierda y la cola larga es en esa dirección.
Prof. Elisa Mendoza 18
19. Sesgo o Asimetría
Moda<Mediana< Media
Sesgo a la Derecha
Sesgo a la izquierda
Moda>Mediana> Media
Distribución Normal
(No Sesgo o Insesgada)
Prof. Elisa Mendoza 19
Fórmula de Pearson:
Donde: Md, se refiere a la mediana de los datos.
s, Es la desviación estándar de los datos.
Es la media de los datos.ҧ𝑥
As > 0
As < 0
As = 0
20. Curtosis
• Por su parte, la medida de forma con relación a la
concentración de los datos, es la Curtosis.
• La Curtosis, determina el grado de concentración que
presentan los valores alrededor de la media de la
distribución de los datos.
Prof. Elisa Mendoza 20
Donde: N, se refiere al número de datos.
s, Es la desviación estándar de los datos.
Es la media de los datos.ҧ𝑥
21. Curtosis
Prof. Elisa Mendoza 21
Distribución
PLATICÚRTICA,
Las frecuencias de la
distribución de los
datos son muy
parecidas o similares.
Distribución
MESOCÚRTICA,
Las frecuencias de la
distribución de los
datos son muy
parecidas o similares.
Distribución
LEPTOCÚRTICA,
Las frecuencias de la
distribución de los
datos son muy
parecidas o similares.
23. Formato del Cuadro Estadístico
Cuadro (Número (1) ). (Título (2))
Encabezado (3)
Columna
Matriz
(4)
Matriz de Datos (5)
Casilla (6)
Notas (7)
Llamadas (8)
Fuente (9)
** Los cuadros estadísticos no se cierran con líneas en los bordes izquierdo ni derecho.
Prof. Elisa Mendoza 23
24. Formato del Cuadro Estadístico
1. Número de Cuadro: Es el número que identifica un cuadro y se coloca luego de
la palabra Cuadro. Debe concluir con el punto y dejar dos espacios para anotar el
título.
2. Título El título debe ser de corta extensión y debe, expresar claramente el
contenido del cuadro para facilitar su interpretación. Por lo general, el título está
orientado a contestar las siguientes preguntas ¿qué clase de datos? ¿dónde se
obtuvieron? ¿cómo han sido clasificados? y ¿cuándo se obtuvieron?. El título debe
escribirse en letras mayúsculas cerrada y centrado.
3. Encabezamiento: Son las columnas que se colocan a continuación del título, allí
se colocan los títulos que corresponde a cada columna. La principal característica se
coloca en el primer nivel en los siguientes niveles, las características dependientes,
serán las colocadas en el título, precedidas por la preposición "por" y que detallan la
información obtenida para la confección del cuadro.
Prof. Elisa Mendoza 24
Un cuadro estadístico es un arreglo ordenado de los datos, cuyo formato con una estructura
formal, establecido en el Manual para la elaboración y publicación de cuadros elaborado por el
Instituto de Estadística y Censos, de la Contraloría General de la República.
25. Ejemplo para redactar elTítulo
Cuadro No. 1. ESTUDIANTES DE LA UNIVERSIDAD
DE PANAMÁ, POR SEXO, SEGÚN FACULTAD.
Año 2014
Obsérvese que el título responde a las preguntas:
¿qué población? ESTUDIANTES
¿De dónde? DE LA UNIVERSIDAD DE
PANAMÁ
¿cómo se clasifican? POR SEXO, SEGÚN FACULTAD
Cuándo se obtuvieron los datos? Año 2014
Prof. Elisa Mendoza 25
26. Formato del cuadro estadístico
4. Columna Matriz: Es la primera columna de la izquierda que
encontrarnos en un cuadro estadístico; el contenido de esta columna debe
guardar relación con la expresión precedida por la preposición "según" en el
título.
5. Cuerpo del Cuadro (Matriz de Datos): Está constituido por los espacios
que forman las filas y columnas, es decir, por líneas que se trazan en forma
vertical u horizontal. Sólo se tratan las líneas verticales dejando los extremos
abiertos.
6. Casillas: Pertenecen al cuerpo del cuadro y resultan como una columna
del encabezamiento en estas casillas debe colocarse siempre algún valor, no
puede aparecer en blanco.
Prof. Elisa Mendoza 26
27. Formato del cuadro estadístico
7. Nota: Las notas se hacen en la parte inferior de la página que le corresponde,
su objetivo es el de brindar información más amplia para que la persona que
utilice el cuadro comprenda rápida y directamente su contenido.
8. Llamadas: Se utiliza cuando es necesario llamar la atención sobre una parte
específica de la información que se presenta en el cuadro.
9. Fuentes de Información: En cada cuadro debe anotarse el origen de la
información. La fuente se coloca después de las notas o llamadas si las hay.
Prof. Elisa Mendoza 27
28. Ejemplo de Cuadro Estadístico
Cuadro No. 1. ESTUDIANTES DE LA UNIVERSIDAD DE PANAMÁ,
POR SEXO, SEGÚN FACULTAD.
Año 2014
No. % No. No. %%
Estudiantes
Total
Hombre Mujer
Facultad
Total
Administración de
Empresas
Ciencias de la
Educación
Ciencias
Naturales, Exactas
y Tecnología
Economía
Fuente: Estudio realizado en una población estudiantil en el año 2014.
Prof. Elisa Mendoza 28
Sexo
Obsérvese que los totales de filas y columnas, se ubican en
primer lugar.También que el cuadro no se cierra en los bordes
derecho ni izquierdo.
29. Gráficas Estadísticas
Todo gráfico es la expresión de los números
proporcionados por los cuadros estadísticos. Por lo
mismo, el gráfico nunca podrá reemplazar al cuadro
estadístico y sólo debe aceptarse como un complemento
de aquel.
Las características expresadas en la confección del
cuadro estadístico, como: Título, Notas, Llamadas y
Fuente son válidas en la confección de las Gráficas.
Además el gráfico, incluye títulos de cada uno de los
ejes entre otros.
Prof. Elisa Mendoza 29
30. Tipos de Gráficos recomendados, de
acuerdo al tipo de variable:
Gráficas Datos cuantitativos:
• Histograma: Barras verticales sobre los límites de clases
• Polígono de Frecuencia: Líneas conectadas en los puntos
medios de cada intervalo de clase y su respectiva frecuencia
(relativa, relativa porcentual o absoluta)
•, Ojiva (menor que): Líneas en secuencia conectadas sobre
los límites de clases inferiores y su frecuencia relativa
acumulada (porcentual).
Gráficas Datos cualitativos:
Barras (Columnas), Pastel (Circular) y Diagrama de Pareto.
Prof. Elisa Mendoza 30
31. Gráficas para datos cuantitativos.
Histograma:
Presenta la distribución de los datos para comparar con la curva de una
distribución Normal (Gauss). En el eje de las X se ubican los intervalos
o clases (o característica) y en el eje de las Y se colocan las frecuencias
absolutas.
Prof. Elisa Mendoza 31
0
1
2
3
4
5
6
7
8
9
22 37 52 67 82
N°Clientes(fi)
Edad (Punto medio)
DISTRIBUCIÓN DE FRECUENCIAS DE LA EDAD DE CLIENTES BANCARIOS
32. Gráficas para datos cuantitativos.
Polígono de frecuencias:
Presenta la distribución de los datos para comparar con la curva de una
distribución Normal (Gauss). En el eje de las X se ubican los punto
medios de cada clase de la característica medida y en el eje de las Y se
colocan las frecuencias absolutas.
Se llama polígono a la gráfica de líneas cerrada que une los puntos
medios de acuerdo a su frecuencia absoluta.
Prof. Elisa Mendoza 32
0
7
8
4
1
2
00
2
4
6
8
10
22 37 52 67 82
N°Clientes(fi)
Edad (Puntos medios)
DISTRIBUCIÓN DE FRECUENCIAS DE LA EDAD DE
CLIENTES BANCARIOS
33. Gráficas para datos cuantitativos.
Ojiva “Menos que”
Es una gráfica de línea continua, que representa en el eje de las Y las
frecuencias acumuladas relativas porcentuales y en el eje de las X se
ubican las clases de la característica medida.
Prof. Elisa Mendoza 33
0%
20%
40%
60%
80%
100%
120%
14.5 29.5 44.5 59.5 74.5 89.5
Fr%
Edad (Límites reales)
DISTRIBUCIÓN DE FRECUENCIAACUMULADA DE LAS EDADES DE
LOS CLIENTES BANCARIOS
34. Gráficas recomendadas para datos
cualitativos: Barras o Columnas
Prof. Elisa Mendoza
34
Barras o columnas simples Barras o columnas
comparativas
Barras horizontales
comparativas Barras o columnasApiladas
35. Gráficas recomendadas para datos
cualitativos: Pastel o Circulares
Prof. Elisa Mendoza 35
Hombre
75%
Mujer
25%
ESTUDIANTES DE LA UNIVERSIDAD DE
PANAMÁ, SEGÚN SEXO.Año 2015
Gráfica circular simple, cuando se
representa una sola variable
Gráfica circular combinada, cuando
se representan dos variables
36. Gráficas Lineales y de Puntos
Prof. Elisa Mendoza
36
Gráfica lineal simple (serie temporal) Gráfica lineal comparativa (serie temporal)
Gráfica bi variada (dos variables) – Diagrama
de dispersión o de puntos.
37. Práctica. No.1
1. El siguiente conjunto de datos muestra el precio de venta
en el mercado inmobiliario, de Apartamentos Nuevos en 30
ciudades seleccionadas (los precios están en miles de
dólares):
Construya la tabla de frecuencias.
Elabore las gráficas correspondientes.
Prof. Elisa Mendoza 37
275.6 156.0 172.8
158.3 262.0 150.5
272.4 156.0 161.0
152.9 265.0 360.2
161.0 453.0 175.0
166.5 177.0 161.2
262.5 354.2 179.9
182.6 173.4 170.0
266.5 472.9 162.0
175.3 162.5 154.0
38. Práctica. No. 3
Elabore las gráficas correspondientes.
3. Utilice las siguientes tablas de datos para elaborar las gráficas según
corresponda.
Prof. Elisa Mendoza 38
Sexo Labora No labora
Hombre 15 35
Mujer 9 21
Año
Accidentes
laborales
2000 12
2001 10
2002 11
2003 9
2004 5
2005 6
Actividad de
entretenimiento N°
Ver Televisión 18
Hacer deportes 21
Leer 11
Otros 7
Los datos corresponden a pacientes atendidos
en la clínica Dr. Muelita en Junio de 2015
Los datos corresponden al número de accidentes
laborales ocurridos en la empresa XYZ, en los años
2000 a 2005
Los datos corresponden a clientes encuestados
en el MALL Rosalitos, en agosto de 2014
Los datos son ficticios