1. Unidad 1
Contenido
*Organización de Datos
Agrupados
*Elementos para la
construcción de la
tabla de Distribución de
frecuencia
*Medidas Descriptivas
numéricas
Medidas de tendencia
central (MTC)
Medidas de dispersión
(MD)
* Métodos gráficos
Histograma de
frecuencia
Polígono de frecuencia
Polígono de frecuencia
acumulada (OJIVA)
Circular o torta
ORGANIZACIÓN DE DATOS
AGRUPADOS
Un profesor fue evaluado por sus 40 estudiantes basado en su desempeño durante un año escolar, obteniendo
los siguientes resultados: Muy bueno 50%, Bueno 20%, Regular 20% y Malo 10%
• ¿De que tipo de variable y datos se manejo en la encuesta?
• ¿Cuál fue la población y muestra dentro de este estudio?
• ¿Qué puedes concluir de los resultados obtenidos?
Cátedra: Probabilidad y Estadística I
Prof.: Lcda Depool Xioglennys
Esto nos permite la manipulación y
análisis de datos, para dar
interpretación del comportamiento de
una variable, para ello se utilizan los
datos de la tabla de distribución de
frecuencia
Siendo el dato el material que se debe procesar, es decir, la materia
prima de la estadística, el primer paso es entonces la recolección
de datos. El segundo paso es la organización y ordenamiento de los
datos, lo que se hace a través de tablas, las cuales pueden ser por
medio de una distribución de frecuencias, para ello se agrupan
todos aquellos que corresponden al mismo dato nominal o variable
y expresando en una columna el número de veces que aparece esa
variable.
En dicha interpretación se debe considerar si los datos son
cualitativos y cuantitativos. Cuando la organización de los datos
es cualitativos, es muy sencilla y se hace de acuerdo a las
modalidades que presente las variable en estudio mediante un
conteo se determina el número de datos. Cuando la organización
de los datos es cuantitativa, se organiza y agrupan dependiendo
del tipo cuantitativo discretos o continuos.
2. En la presentación de este tipo de tabla se presenta un análisis completo de la
información recolectada de la muestra. Como se muestra en la siguiente tabla:
Cuando los datos
disponibles son muy
numerosos es
conveniente
agruparlos en varias
clases o intervalos de
clases para facilitar
su análisis y
conclusión Veamos ahora como calcular cada uno de los elementos mencionados.
2
Elementos para la Construcción de la Tabla de Distribución de
frecuencia
Xi - Xs Li- Ls f fa fr fra Xm Xm*f 𝒇 ∗ (𝑿𝒎 − 𝑿)𝟐
Limites
Aparentes
Limites
Reales
Frecuencia
Marca de
Clase
Media
Aritmética
Varianza
Limites Aparentes: Xi - Xs
Estos limites se calculan a partir de los datos originales ya ordenados. Donde el limite
inferior XI (extremo izquierdo) es el valor mínimo de la serie de datos y el limite
superior (extremo derecho) debe contener el valor máximo de la serie de datos, para
ello se debe establecer el ancho o longitud de cada una de las clases o intervalos.
Para entender mejor como crear los limites aparentes veamos los pasos a seguir:
2. Una vez obtenido el resultado anterior (número de clase) se calcula la
amplitud de clase, basándose en encontrar el valor máximo (Vmax) y el valor
mínimo (Vmin) de toda la serie de datos originales
Método de Káiser:
𝑛𝑐 = 𝑁
Método de Sturges:
𝑛𝑐 = 1 + 3.322 log𝑁
ó
Se utiliza solo una ya que ambas formulas calculan lo mismo.
1. Se debe calcular el numero de clase o intervalos, para ello se establece el
número ideal de intervalos con cualquiera de las siguientes formulas:
𝑎 =
𝑉𝑚𝑎𝑥 − 𝑉𝑚𝑖𝑛
𝑛𝑐
3. Se establece el tamaño de cada intervalo partiendo del resultado de la
amplitud, para ello se toma el Vmin y se empieza a contar de allí hasta
completar el Vmax
El intervalo esta
compuesto por dos
valores [A ; B] de
todos los números
reales X tal que
𝑨 ≤ 𝑿 ≤ 𝑩
1 ORGANIZACIÓN DE DATOS AGRUPADOS
3. Limites Reales Li - Ls
Se te presenta la
siguiente tabla donde
se están los limites
aparentes ya
establecido:
3
Es aquel que está formado por dos extremos o limites, uno mayor llamado límite
inferior (Li) y otro llamado límite superior (Ls). Los límites reales se determinan de
la siguiente forma:
Xi - Xs Li – Ls
140-144 ?
145-149 ?
150-154 ?
¿Cómo quedarían los
limites reales? Explica
el procedimiento que
usaste para calcularlos.
Frecuencias (f; fa; fr y fra)
Estas están conformadas por la frecuencia absoluta (f); la frecuencia absoluta
acumulada (fa); la frecuencia relativa (fr) y por ultimo la frecuencia relativa
acumulada (fra).
Recuerda que estas se calculan de igual forma como lo veníamos
haciendo en temas anteriores
Es el punto medio de los intervalos de clase y se calcula mediante la semisuma de
los limites aparentes, su fórmula es la siguiente
Marca de Clase
2
Xs
Xi
Xm
El límite inferior real (Li) se calcula RESTANDO 0,5 al límite inferior aparente (Xi).
El límite superior real (Ls) se calcula SUMANDO 0,5 al límite superior aparente (Xs).
Es importante acotar que la marca de clase se calcula por cada uno de los
intervalos que existan en la tabla de distribución de frecuencia. Para ello
se usa cada uno de los intervalos o clases ya establecidos.
1 ORGANIZACIÓN DE DATOS AGRUPADOS
4. 4
Medidas Descriptivas Numéricas
Las Notas de Samuel
en sus pruebas
cortas son: 16; 17;
15,5 y 14,7. ¿Cuál es
la nota mínima que
debe sacar en la
quinta prueba para
obtener por lo
menos un promedio
de 16 Puntos?
Medidas de Tendencia Central (MTC)
Permiten resumir la información y que permiten realizar comparaciones. Se
utilizan para encontrar un valor que represente a todos los datos. Las mas
importantes son:
En matemática hay
varios tipos de
«Medias» de
conjuntos de
números, además de
la Media Aritmética.
Como por ejemplo
la Media Cuadrática
es la raíz cuadrada
del promedio de los
datos. Y la Media
Geométrica de un
conjunto de N
números positivos es
la raíz de índice N del
producto de los N
números.
Todas estas medidas tienen su fin para hacer posteriormente la inferencia
estadística que como hemos dicho al principio buscamos como meta definitiva.
Buscamos entonces primordialmente: la localización del centro de los datos y su
variabilidad. Las medidas mayormente usadas son las siguientes:
Media Aritmética
Es el valor resultante de sumar los valores de las observaciones y dividirlos por
el numero de ellos. es decir, el promedio de los datos expresados de forma
cuantitativa. Usando los términos de la tabla de distribución de frecuencia se
multiplica los valores de la Marca de Clase (Xm) por su respectiva frecuencia
absoluta (f), se suman los productos obtenidos y la suma total se divide entre el
numero de datos
𝑿 =
𝑿𝒎 ∗ 𝒇
𝑵
La marca de clase nos da en punto medio de cada intervalo dentro de nuestra
tabla, por esta razón se usa para calcular o promediar los datos
Donde:
𝑋 = 𝑉𝑎𝑙𝑜𝑟 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑀𝑒𝑑𝑖𝑎 𝐴𝑟𝑖𝑡𝑚𝑒𝑡𝑖𝑐𝑎
𝑋𝑚 ∗ 𝑓 =
Sumatoria de la multiplicación de cada marca de
clase por sus respectiva frecuencia absoluta
𝑁 = 𝑁𝑢𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒
1 ORGANIZACIÓN DE DATOS AGRUPADOS
5. 5
La media aritmética
de varios números
también es conocida
como «promedio»,
aunque en
estadística la media
aritmética como la
mediana son algunas
clases de promedio
Mediana
Valor de clase que deja por debajo y por encima de él igual numero de
observaciones, es decir, que el 50% de las frecuencias estas por encima y el
resto esta por debajo. Su valor se determina mediante la siguiente formula:
𝒎𝒅 = 𝑳𝒓𝒊 +
𝑵
𝟐
−𝒇𝒂
𝒇
* a
Donde:
𝑚𝑑 = 𝑉𝑎𝑙𝑜𝑟 𝑓𝑖𝑛𝑎𝑙 𝑀𝑒𝑑𝑖𝑎𝑛𝑎𝑙
𝐿𝑟𝑖 = Limite real inferior del intervalo medianal
a= Amplitud de clase
fa= Frecuencia absoluta acumulada anterior al intervalo medianal
𝑁
2
= Valor medio de los datos
f= Frecuencia absoluta mayor
Moda
Valor de clase que deja por debajo y por encima de él igual numero de
observaciones, es decir, que el 50% de las frecuencias estas por encima y el
resto esta por debajo. Su valor se determina mediante la siguiente formula:
𝒎𝒐 = 𝑳𝒓𝒊 +
∆𝟏
∆𝟏+∆𝟐
* a
Donde:
𝑚𝑜 = 𝑉𝑎𝑙𝑜𝑟 𝑓𝑖𝑛𝑎𝑙 𝑀𝑜𝑑𝑎𝑙
𝐿𝑟𝑖 = Limite real inferior del, intervalo modal
a= Amplitud de clase
∆1= Valor de restar f mayor menos la f anterior
∆2= Valor de restar f mayor menos la f siguiente
Medidas de
Tendencia Central
son conocidas
también como
medidas de
localización y sirven
para determinar los
valores centrales de
una distribución
Para conocer el intervalo medianal, lo promedio es calcular el valor medio de
los datos (𝑵
𝟐) el resultado del mismo se ubica en fa. Teniendo en cuenta que
el valor de fa puede ser mayor o igual que al obtenido pero nunca menor.
Para conocer el intervalo modal, se debe ubicar la frecuencia absoluta (f) mayor
dentro de la tabla
1 ORGANIZACIÓN DE DATOS AGRUPADOS
6. 6
Medidas de Dispersión (MD) para Datos Agrupados
Estas van a permitir medir el grado de variabilidad (dispersión) de los valores de
la serie con relación al valor central que las representa. Para estos tipos de
Datos solo cambia la formula de la Varianza dado que usa la marca de clase (Xm)
y la frecuencia absoluta (f).
Rango, Recorrido o Intervalo Total de Variación
𝑅 = 𝑉𝑚𝑎𝑥 − 𝑉𝑚𝑖𝑛
Varianza
La varianza es la medida que refleja la dispersión de todas las observaciones
𝑆2
=
𝑓. 𝑋𝑚 − 𝑋 2
𝑁 − 1
𝑉𝑎𝑙𝑜𝑟 𝑚𝑖𝑛𝑖𝑚𝑜 𝑑𝑒 𝑙𝑎 𝑠𝑒𝑟
𝑖𝑒 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠
𝑉𝑎𝑙𝑜𝑟 𝑚eximo 𝑑𝑒 𝑙𝑎 𝑠𝑒𝑟
𝑖𝑒 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑜 (1)
Desviación Típica o Estándar
𝑆 = 𝑆2
1 ORGANIZACIÓN DE DATOS AGRUPADOS
Coeficiente de Variación de Pearson
El coeficiente de variación de Pearson, se concluye en base a la varianza y la
media aritmética. Los cuales se usan para concluir de la siguiente manera:
si 𝑺𝟐
tienden a 0 ∴ C.V=0, son Homogéneas
si 𝑺𝟐
mayor a 𝑿 ∴ C.V=0-100 tienden a 0, son Heterogéneas
𝐶𝑉 =
𝑆
𝑋
∗ 100
Valor total de la
Media Aritmética
Valor total de la
Varianza
Las medidas de
dispersión cuantifican
la separación, la
dispersión, la
variabilidad de los
valores de la
distribución respecto
al valor central.
Distinguimos entre
medidas de
dispersión absolutas,
que no son
comparables entre
diferentes muestras y
las relativas que nos
permitirán comparar
varias muestras
Sumatoria de la diferencia de
cuadrados multiplicado por la
frecuencia absoluta
7. Las distribuciones de frecuencias se suelen representar gráficamente a fin de
observar en los mismos algunas características resaltantes e importantes .
La palabra
histograma se
compone de dos
partes, «histo» que
hace referencia a
historia y la raíz
«grama» que
significa dibujo o
grafica.
7
Métodos Gráficos Para Datos Agrupados
Ejemplo de como se vería un
Histograma con información
Los métodos gráficos
pueden ser usados
para expresar
valores de variables
discretas y variables
continuas (en la
mayoría de los casos
usando las
frecuencias ya
calculadas de la
tabla de distribución
de frecuencia) o
representar variables
cualitativas por
medio de atributos,
cualidades,
características,
propiedades o
categorías, que
identifiquen o
describan un estudio.
Histograma o Diagrama de Barras
Se construye mediante un sistema de ejes cartesiano, dibujando los intervalos
de clases en el eje de las x, que se toma como base de rectángulos que tiene
como altura las frecuencias absolutas en el eje y.
Un histograma es un diagrama en la que se
dibujan barras uno al lado de otra, sin
espacio que las separe.
Polígonos de Frecuencias (Absoluta)
Aquellos que resultan de unir mediante líneas una serie de puntos, los cuales se
originan haciendo coincidir los valores de la variable a representar con sus
respectivos frecuencia absoluta con la marca de clase.
Ejemplo de como se vería un polígono
de frecuencia con información
Un polígono de frecuencia (Absoluta) parte
de la unión del primer valor de la primera
frecuencia absoluto con su marca de clase
1 ORGANIZACIÓN DE DATOS
8. Es importante acotar
que por medio del
histograma se puede
generar el polígono
de frecuencia,
debido a que el
primero usa los
intervalos o clases y
el segundo el punto
medio (marca de
clase) entre los
intervalos.
Mediante este
ejemplo se puede
apreciar como
quedarían ambos
gráficos.
8
Polígonos de Frecuencias Acumulada (OJIVA)
Mantienen la característica de unir mediante líneas una serie de puntos, a
diferencia del anterior este se origina haciendo coincidir los valores de la
variable a representar con sus respectivos frecuencia acumulada.
Ejemplo de como se vería un
polígono de frecuencia
acumulada o OJIVA con
información
Un polígono de frecuencia acumulada o
OJIVA genera una curva siempre en
sentido ascendente, la misma parte del
primer valor o limite
Grafico Circular o Grafico por Sectores
Considera los 360° de la circunferencia como total a representar de la variable
en estudio, determinando luego el sector que le corresponde a la parte.
Muestra la información partiendo de la frecuencia relativa
Para este tipo de grafico hay que considerar la siguiente regla para poder
dividir los sectores
Quedando la formula
A usar de la Siguiente manera
Regla de tres
N -----》 360º
fr ------》 ?
𝑋° =
360
100
∗ 𝑓𝑟
Para dibujar cada uno de los sectores del
grafico con exactitud puedes usar un compas
y/o transportador .
1 ORGANIZACIÓN DE DATOS
9. Una gráfica circular,
también
llamada gráfico de
pastel, gráfico de
torta o gráfica de
360 grados, es un
recurso estadístico q
ue se utiliza para
representar
porcentajes y propor
ciones.
Se utilizan en
aquellos casos donde
interesa no sólo
mostrar el número
de veces que se da
una característica o
atributo de manera
tabular sino más
bien de manera
gráfica, de tal
manera que se
pueda visualizar
mejor la proporción
en que aparece esa
característica
respecto del total
9
Grafico Circular o Grafico por Sectores
Al final la suma de cada uno de los segmentos
debe generar los 360º de la circunferencia original
Si no posees un transportador o un compas puedes generar el grafico a
deducción.
360º
180º
45º
Sigues dividiendo hasta lograr el valor que se desee.
1 ORGANIZACIÓN DE DATOS NO AGRUPADOS
Ejercicio Nº 03:
Partiendo del los datos del ejercicio Nº 01 (Guía anterior) referentes a las cantidades de pacientes
que entran a quirófano de emergencia en un Hospital de la Ciudad. Trabaje con una amplitud de 3 y
calcule las Medidas Descriptivas Numérica y Métodos Gráficos. Para datos Agrupados