2. Cuando se tiene un número pequeño de datos
es fácil hallar su descripción.
¿Qué pasa cuando no tienes unos cuántos
datos, sino decenas, centenas, miles de
millones de datos?
Imagínate lo que tardarías describiendo la
población de Colombia, o sólo quedarnos con
la población infantil, sería terrible si tienes
que hacerlo tú sólo ¿no?
3. Para eso existen precisamente las medidas de
tendencia central. Para poder describir
grandes cantidades de números de datos con
mucha facilidad
4. Estadística: Medidas Numéricas
En la primera parte se estudió las presentaciones tabula y
gráfica para resumir datos. En esta parte se presentan
varias medidas numéricas que proporcionan otras opciones
para resumir datos.
Medidas de Tendencia Central : Media, mediana y moda.
Rango, varianza, desviación estándar, los percentiles y la
correlación.
5. Medidas de Localización
Media:
La medida de localización más importante es la media, o valor promedio, de
una variable. La media proporciona una media de localización central de los
datos.
6. Ejemplo:
Suponga que la bolsa de trabajo de una universidad envía cuestionarios a los
recién egresados de la carrera de administración solicitándoles información
sobre sus sueldos mensuales iniciales. En la tabla aparecen estos salari0s.
8. Media poblacional
En el ejemplo anterior no se trabajo con toda la población sino con una muestra
n. Para calcular la media de una población use la misma fórmula, pero con una
notación diferente para indicar que trabaja con toda la población. El número de
observaciones es una población se denota N y el símbolo para la media
poblacional es 𝝁.
9. Mediana
La mediana es otra medida de localización central. Es el valor de en medio en
los datos ordenados de menor a mayor (en forma ascendente). Cuando tiene
un número impar de observaciones, la mediana es el valor de en medio.
Cuando la cantidad de observaciones es par, no hay un número en medio. En
este caso, se sigue una convención y la mediana es definida como el promedio
de las dos observaciones de en medio.
10. Ejemplo:
Del ejemplo anterior, el salario inicial de los 12 recién egresados de la carrera
de administración, sería.
11. Por qué se usa la mediana
Aunque la media es la medida de localización central más
empleada, en algunas situaciones se prefiere la mediana.
A la medida la influyen datos en extremo pequeños o
considerablemente grandes. Por ejemplo, con el caso de
los egresados, que pasaría si uno de los egresados tuviera
unos ingresos de $ 10.000. La nueva media sería de $4046.
Pero si calculáramos la mediana seguiría intacta $ 3505.
12. Moda
La moda es el valor que se presenta con mayor frecuencia.
El único salario mensual inicial que se presenta más de una vez es $ 3.480. Como
este valor tiene la mayor frecuencia, es la moda.
13. Para tener en cuenta:
Hay situaciones en que la frecuencia mayor se
presenta con dos o más valores distintos. Cuando
esto ocurre hay más de una moda. Si los datos
contienen más de una moda se dice que los datos
son bimodales. Si contienen mas de dos modas,
son multimodales. En los casos multimodales casi
nunca se da la moda, porque dar tres o más
modas no resulta de mucha ayuda para describir
la localización de los datos.
14. MEDIDAS NO CENTRALES
Ejemplo: Las puntuaciones en los exámenes de admisión de escuelas y
universidades suelen dar términos de percentiles. Por ejemplo,
suponga que un estudiantes obtiene 54 puntos en la parte verbal del
examen de admisión. Esto no dice mucho acerca de este estudiante
en relación con los demás estudiantes que realizaron el examen. Sin
embargo, si presenta una puntuación corresponde al percentil 70,
entonces 70% de los estudiantes obtuvieron una puntuación menor a la
de dicho estudiante y el 30% de los estudiantes obtuvieron una
puntuación mayor.
15.
16.
17.
18. CUARTILES
Con frecuencia es conveniente dividir los datos en cuatro partes; así, cada
parte contiene una cuarta parte o 25% de las observaciones. A los puntos de
división se le conoce como cuartiles y están definidos como sigue:
23. MEDIDAS DE VARIABILIDAD
Además de las medidas de localización, suele ser útil considerar las medidas
de variabilidad o de dispersión. Un ejemplo para ello, suponga que usted es el
encargado de compras de una empresa gran y que con regularidad envía
ordenes de compra a dos proveedores. Después, de algunos meses de
operación, se percata de que el número de promedio de días que ambos
proveedores requieren para surtir una orden es de 10 días.
24. Que se puede concluir
Aunque en las dos empresas proveedoras se tiene un promedio de 10 días,
¡muestran los dos proveedores el mismo grado de confiabilidad en términos
de tiempos para surtir los productos? ¿Qué proveedor preferiría usted?
Para la mayoría de las empresas es importante recibir a tiempo los materiales
que necesitan para sus procesos. En el caso de J. C. Clark Distributors sus
tiempo de entrega ¡, de siete u ocho días, parecen muy aceptables; sin
embargo, sus pocos tiempos de entrega de 13 a 15 días resultan desastrosos
en términos de mantener ocupada a la fuerza de trabajo y de cumplir con el
plan de producción. Este ejemplo ilustra una situación en que la variabilidad
en los tiempos de entrega puede ser la consideración mas importante en la
elección de un proveedor. Por ello Dawson Supply, Inc. Hará de esta empresa
el proveedor preferido.
25. Tres tipos de medida de variabilidad
Rango:
Es la medida más sencilla de variabilidad y consiste en:
Si nos remitimos al ejemplo de los salarios de egresados. El mayor sueldo
inicial es 3925 y el menor 3310. El rango es 3925 - 3310 = 615. Sin embargo,
el rango tiene la misma dificultad que la media, es decir se ve afectada por
valores extremos exageradamente pequeño y exageradamente grande.
26. Rango intercuartílico (RIC)
Esta medida no es afectada por los valores extremos. Esta medida de
variabilidad es la diferencia entre el tercer cuartil y el primer cuartil.. En
otras palabras, el rango intercuartilico e el rango en que se encuentra el 50%
central de los datos.
En los datos de los sueldos mensuales iniciales, los cuartiles son tercer cuartil
3600 y primer cuartil 3465. Por o tanto el rango intercuartílico es 3600 – 3465
= 135.
27. Varianza
La varianza es una medida de variabilidad que utiliza todos los datos. La
varianza está basada en la diferencia entre el valor de cada observación y la
media.
28. Cálculo de la varianza muestra con los datos de los
sueldos iniciales.
29. Desviación estándar
La desviación estándar se define como la raíz cuadrada positiva de la varianza. Continuando con la
notación adoptada para la varianza muestral y para la varianza poblacional, se emplea s para
denotar la desviación estándar muestral y 𝜎 para denotar la desviación estándar poblacional.
En los datos de los sueldos iniciales, la desviación estándar es 165.65.
La desviación estándar me ayuda a comprar los datos de la desviación dado que las unidades de medida
de la primera están en unidades cuadradas .
30. Coeficiente de Variación
En algunas ocasiones se requiere un estadístico descriptivo que
indique cuán grande es la desviación en relación con la media.
Esta medida es el coeficiente de variación y se representa como
porcentaje.
En los datos de los sueldos iniciales el coeficiente de variación es de
4.7%