2. Consideraremos un tipo especial de medida que determina cualquier
posición intermedia o lejana dentro de una distribución de datos. Se
denominan Cuantiles o Fractiles, y se utilizan sobre todo para
resumir o describir las propiedades de conjuntos grandes de
observaciones ordenadas de menor a mayor. Tenemos los Centiles
o Percentiles, Deciles y Cuartiles.
Son 99 valores que dividen al conjunto de datos en 100 partes cada una con
igual cantidad de observaciones ordenadas ascendentemente, y se denotan
en forma respectiva como P1, P2,…, P99. Por debajo de un valor Pi se
encuentra el i % de las observaciones, y el (100 – i) % son mayores que Pi, i
= 1,…, 99.
Son 9 valores que dividen al conjunto de datos en 10 partes cada una con igual
cantidad de observaciones ordenadas ascendentemente, y se denotan en
forma respectiva como D1, D2,…, D9. Por debajo de Di se encuentra el (i 10)
% de las observaciones, y el (100 – i 10) % son mayores que Di, i = 1,…, 9.
Por ejemplo, el 30% de las observaciones son menores que D3 y el 70% de
estos son mayores que D30.
3. Son 3 valores que dividen al conjunto de datos en 4 partes cada una
con igual cantidad de observaciones ordenadas ascendentemente, y
se denotan en forma respectiva como Q1, Q2 y Q3. Por debajo de Qi
se encuentra el (i 25) % de las observaciones, y el (100 – i 25) %
de estas son mayores que Qi, i = 1, 2 ,3.
Es un valor tal que el 25% o la cuarta parte de las observaciones son
menores que ese valor, o lo que es lo mismo, el 75% o las tres cuartas
partes de las observaciones son mayores que ese valor.
Es un valor tal que el 50% o las dos cuartas partes) de las observaciones son
menores que ese valor, o lo que es lo mismo, el 50% o las dos cuartas partes
de las observaciones son mayores que ese valor.
Es un valor tal que el 75% o las tres cuartas partes de
las observaciones son menores que ese valor, o lo
que es lo mismo, el 25% o la cuarta parte de las
observaciones son mayores que ese valor.
4. De una distribución de n datos simples, obtenemos una serie de N
observaciones ordenadas de menos a mayor. Para esta serie y un cuartil Qi
dado, sea xj la observación que le es más cercana de entre las que son
menores a Qi, i = 1, 2, 3.
La posición j de esa observación varía de acuerdo al tipo de cuartil, habiendo
aproximadamente j observaciones con valores menores a Qi.
El valor resultante de esa formulación para j no necesariamente va
a dar un valor entero, por lo que se hace necesario el uso de
ciertas reglas al respecto.
5. Regla Si el valor obtenido para j es un número entero, se elige como cuartil
al valor de la observación específica en esa posición. Entonces Qi = xj.
Regla 2: Si el valor obtenido para j se encuentra en el justo medio de dos números
enteros (es decir, si ese valor es un número fraccionario cuya parte decimal sólo consta
del dígito 5), se redondea a j por defecto y el cuartil es el promedio de los valores
correspondientes a las observaciones xj y xj+1. Entonces Qi=Xj+Xj+1/2
Si el valor obtenido para j no es un número entero o el valor medio entre
dos números enteros (es decir, si ese valor es un número fraccionario cuya parte
decimal no consta solamente con el dígito 5), se redondea a j por defecto o exceso
al número entero más cercano, y el cuartel asume el valor numérico de la
observación que ocupa esa posición. Entonces Qi = xj
Vemos que el valor de un cuartil no necesariamente va a coincidir
con el de alguna observación, lo cual depende de la cantidad N de
observaciones ordenadas.
6. Dada una distribución de frecuencias para datos agrupados, a través del
correspondiente polígono de frecuencias relativas acumuladas (u ojiva porcentual)
se puede determinar gráficamente cualquiera de los cuartiles. El valor porcentual
del cuartil (25%, 50% o 75%) se ubica en el Eje Y, y desde allí se traza una línea
paralela al Eje X hasta tocar la ojiva en un punto de esta, y desde allí trazamos
una línea paralela al Eje Y hasta tocar el Eje X en otro punto que va a ser el
cuartil buscado (Q1, Q2 o Q3, respectivamente). En el próximo ejemplo se
realizará el cálculo solamente para el caso de Q1, y los demás serán resueltos
por el estudiante de manera análoga al procedimiento que aplicaremos aquí.
Ejemplo: Las edades de los asistentes a un centro ambulatorio de Barrio Adentro
en una de las parroquias caraqueñas se distribuyeron en 6 grupos.
7. Son los valores más representativos de una distribución de datos y frecuencias,
ubicándoseles en su zona central. Cada medida es un valor típico descriptivo en la que
un conjunto de datos muestra una tendencia bien determinada a agruparse o
aglomerarse alrededor de cierto punto central.
Estas medidas son la Media Aritmética (y en particular la Media
Ponderada), la Mediana, la Moda, el Eje Medio y el Rango Medio. A veces
cada una de estas medidas es denominada promedio, nombre que en
general se reserva para la Media Aritmética.
8. Partiendo de una serie de observaciones asociada a esa distribución,
definimos la Media como la suma de todas las observaciones dividida
entre la cantidad N de estas. En virtud de las propiedades de la suma,
el orden de las observaciones no altera el resultado para la Media.
La formulación de la Media es:
La Media es un valor que equilibra los valores de las observaciones
que le son mayores y menores, y es sensible a mediciones extremas
que no estén equilibradas a su alrededor.
9. Es la suma de los productos obtenidos de cada valor ponderado por su
respectiva ponderación de acuerdo al fenómeno estudiado, dividido entre la
suma de todas las ponderaciones. Las ponderaciones pueden ser las k
frecuencias relativas asociadas a las frecuencias absolutas de las clases de
una variable cualitativa.
La formulación es:
10. Se define la mediana como el dato o dato potencial de una distribución, por arriba y por
abajo del cual caen la mitad de las frecuencias. No es extraño que esta definición resulte
al lector un tanto familiar. La mediana es sencillamente un caso especial del rango
percentil. En efecto, la mediana es el dato correspondiente al percentil 50. Debe quedar
claro que los procedimientos generales estudiados en la guía 4 para determinar los datos
en varios rangos percentiles, pueden ser aplicados para calcular la mediana.
Modificando la fórmula para su aplicación al caso especial de la mediana, se obtiene:
Mediana = Xn + i(N /2) - fn acum fi (5.4)
Usando en esta fórmula los datos de la tabla, se obtiene: Mediana = 109.5 + 5 (110/2)-43
17 = 109.5 + 5 (55 - 43) = 109.5 + 5 (12/17) 17 = 109.5 + 3.53 = 113.03.
11. Dada una distribución de frecuencias para datos agrupados en que clases, a
través del correspondiente polígono de frecuencias relativas acumuladas (u
ojiva porcentual) se puede determinar gráficamente la Mediana, cuyo valor
porcentual (que es 50%) se ubica en el Eje Y, desde allí se traza una línea
paralela al Eje X hasta tocar la ojiva en un punto de 16 esta, y luego partiendo
de ese punto trazamos una línea paralela al Eje Y hasta tocar el Eje X en otro
punto que va a ser la Mediana.
Ese valor viene siendo la abscisa del punto de intersección de la ojiva
porcentual hacia arriba con la ojiva porcentual hacia abajo, asociadas
respectivamente a las frecuencias relativas acumuladas hacia arriba ( Ha ) y
hacia abajo ( Ha ).
La manera como calcularemos a MD es similar al procedimiento efectuado
para el Primer Cuartil Q1, pues ya dijimos que la Mediana es igual al
Segundo Cuartil Q2.
12. De todas las medidas de tendencia central, la moda es la que se determina
más fácilmente, puesto que se obtiene a simple vista y no mediante el cálculo.
La moda es, simplemente, la calificación que se presenta con mayor
frecuencia. En el caso de datos agrupados, la moda se designa como el punto
medio del intervalo al que corresponde la mayor frecuencia. La moda es 112, o
sea, el punto medio del intervalo 110-114, que contiene la frecuencia mayor. En
algunas distribuciones, que no consideraremos aquí, podrá haber dos puntos
de frecuencia máxima que en la gráfica produzcan la apariencia de dos
jorobas, similares a la de la espalda de un camello. Tales distribuciones se
denominan bimodales. Una distribución que contenga más de dos jorobas se
llama multimodal.
13. De una distribución de n datos simples, obtenemos una serie de N
observaciones ordenadas de menos a mayor. Para esta serie, la
Moda Mo es el valor de aquella observación que aparece con mayor
frecuencia (el que más se repite o el más típico). Si son varios valores
distintos los que se repiten a la vez con una misma frecuencia mayor
que las de otras observaciones, entonces la serie aquí dada es pluri-
modal.
La Moda Mo es el valor alrededor del cual los datos tienden a concentrarse más
densamente. Está localizada en el intervalo de clase de mayor frecuencia, y se le
denomina Intervalo Modal. Aunque ahora veremos una formulación para la Moda,
en algunos textos se le toma como la marca de clase con mayor ordenada en un
polígono de frecuencia (absoluta). Sin embargo, para la Moda no siempre se tiene
un valor exacto sino aproximado, el cual será más exacto a medida que disminuya
el tamaño del intervalo de clase y aumente la cantidad de observaciones O datos.
Es posible que la distribución que los agrupe sea pluri-modal.
14. RANGO MEDIO
El Rango Medio RM se obtiene con la semisuma del valor más pequeño
y el valor más grande de un conjunto de N observaciones ordenadas
ascendentemente, o como la semisuma del límite inferior y el límite
superior del primer y último intervalo de clase, respectivamente, cuando
tenemos datos agrupados en k clases. En el primer caso, al comparar la
serie de N observaciones con los n datos simples, tenemos que X1 = x1
y Xn = xN. Las correspondientes formulaciones son:
15. Medidas de Dispersión
Las Medidas de Tendencia Central carecen de significación por sí solas pues de
nada vale conocer únicamente el comportamiento central de una serie de valores
si se desconoce la manera como se alejan o se acercan esos valores con
respecto a un valor representativo de estos y obtenido calculando la apropiada
medida de tendencia central. Lo anterior implica la necesidad de caracterizar
numéricamente la dispersión, la cual se entiende como la manera en que los
valores de una serie difieren unos de otros. La dispersión será mayor o menor de
acuerdo a la magnitud de esas diferencias.
Las Medidas de Dispersión se dividen en dos grupos.
Medidas de Dispersión Absoluta: sus valores vienen expresados en las mismas
unidades de medición del conjunto de observaciones o datos a ser estudiado, y
sólo hacen referencia al conjunto en cuestión. Las medidas más importantes son
el Rango, la Varianza y la Desviación Estándar.
16. Medidas de Dispersión Relativa:
Sus valores se obtienen de los cocientes fraccionales entre medidas de dispersión
absoluta y de tendencia central, y como ambas vienen expresadas en las mismas
unidades de medición, las medidas de dispersión relativa asumen valores abstractos o
porcentuales. Este hecho nos permite comparar la dispersión en dos o más conjuntos de
datos para determinar el que tiene mayor o menor dispersión. Sin estas medidas de
dispersión relativa, la comparación sería imposible en caso de haber dos conjuntos con
distintas unidades de medición, o que tengan un mismo valor para una medida de
dispersión absoluta pero habiendo a la vez distinta variabilidad de sus respectivas
observaciones o datos con respecto a una medida de tendencia central. La más
importante entre las medidas de dispersión relativa es la del Coeficiente de Variación.
17. VARIANZA Y DESVIACIÓN ESTÁNDAR O TÍPICA
Para medir mejor la dispersión de los datos en términos de su totalidad, es
necesaria pero no suficiente la concepción del rango como una sola diferencia o
distancia de dos valores, siendo pertinente ampliar el alcance de esta idea a los
valores restantes para que todos (y no dos) se vean reflejados o influyan en una
medida de dispersión. Como no tendría sentido tomar en cuenta todas las
diferencias posibles (aunque sean tomadas positivamente como distancias,
obviando sus verdaderos signos) para las observaciones o datos, es más práctico y
razonable considerar las diferencias o desvíos entre cada uno de estos valores y
una medida de tendencia central que sirva de referencia.
Se escoge la Media Aritmética pues es aquella medida de tendencia central que
equilibra a todas las observaciones y no solamente a dos. Todas esas diferencias o
desvíos se promedian en su totalidad mediante expresiones cuadráticas cuya
justificación matemática escapa al alcance de los objetivos de este Unidad. Sin
embargo, esas expresiones son numéricamente muy precisas y útiles para
representar la dispersión y para su posterior uso en Estadística Inferencial.
Además, son más exactas que el simple promedio de esas diferencias, el cual es
un valor que se denomina Desviación Media, y que aparece en cualquier libro de
Estadística pero no lo estudiaremos en la presente Guía Didáctica.