1. Medidas de variabilidad o dispersión ( de
una muestra de datos numéricos)
Índices utilizados para medir el grado de dispersión de los
datos de una muestra o población.
Los más utilizados son:
1. Rango.
2. Rango intercuartil.
3. Varianza y desviación estándar o típica. (se supera con
ellos el hecho de mostrar una mejor dispersión de
datos aunque haya datos separados)
4. Coeficiente de variación. (toma en cuenta todos los
datos de la muestra)
2. Rango y Rango Intercuartílico
Rango: La medida de variabilidad mas sencilla es el rango.
Rango= valor mayor – valor menor
Rango Intercuartílico: es una medida que no es afectada por
los valores extremos llamada (RIC), esta medida de
variabilidad es la diferencia entre el tercer cuartil y el
primer cuartil. En otras palabras, el rango intercuartílico
es el rango en el que se encuentra el 50%central de los
datos.
RIC=Q3-Q1
3. Ejercicio 1
Los siguientes datos son utilidades diarias en una muestra
de 18 días de operación de un negocio.
31, 20, 38, 50, 49, 56, 9, 32, 48, 22, 27, 15, 13, 23, 26, 10, 28, 30.
Determine:
Rango y el rango intercuartílico
4. Varianza y desviación estándar o típica.
La varianza es una medida de la variabilidad que utiliza
todos los datos. La varianza esta basada en la diferencia
entre el valor de la observación y la media de los datos.
Se tienen dos tipos de varianza:
1. La varianza poblacional.
2. La varianza muestral.
5. Varianza poblacional
La varianza poblacional se denota con la letra griega
En una población que hay N observaciones y la media
poblacional , la varianza poblacional se define como:
6. Varianza muestral
La varianza muestral es el estimador de la varianza
poblacional .
Se define de la siguiente manera:
7. Desviación estándar
La desviación estándar se define como la raíz cuadrada
positiva de la varianza.
La desviación estándar es mas fácil de interpretar que la
varianza debido a que la desviación estándar se mide en
las mismas unidades que los datos.
Desviación estándar poblacional:
Desviación estándar muestral:
8. Fórmulas alternativa para el cálculo de la varianza y la
desviación estándar muestral
Se tienen las siguientes:
𝑥𝑖
2
− ( 𝑥𝑖)2
𝑠2
= 𝑛
𝑛 − 1
𝑠 =
𝑥𝑖
2
−
( 𝑖)2
𝑛
𝑛 − 1
9. Propiedades de la varianza
Si a cada uno de los datos de una muestra le sumamos una
constante, la varianza de los nuevos datos es igual a la
original.
Si a cada dato de una muestra se multiplica por una constante
real entonces la varianza de los nuevos datos se puede
obtener multiplicando la varianza original por el cuadrado de
la constante.
¿Qué ocurre con la deviación estándar?
10. Interpretación de la desviación estándar
Tal como hemos definido esta medida, no se le encuentra una
interpretación evidente. Su interpretación y significado, se encuentra
al referirla a la relación que guarda con las distribuciones que
tienden a la simetría o perfectamente normales.
Una distribución normal, se define completamente por su media
aritmética y por su desviación típica.
Si asumimos que una distribución es normal, se cumple lo siguiente:
𝜇 ± 𝜎 Comprende aproximadamente el 68% de los términos de la serie
𝜇 ± 2𝜎 Comprende aproximadamente el 95% de los términos de la serie
𝜇 ± 3𝜎 Comprende aproximadamente el 99% de los términos de la serie
11. Ejercicio 1
Los siguientes datos son utilidades diarias en una muestra
de 18 días de operación de un negocio.
31, 20, 38, 50, 49, 56, 9, 32, 48, 22, 27, 15, 13, 23, 26, 10, 28, 30.
Determine:
la varianza y la desviación estándar de las utilidades
diarias del negocio.
12. Coeficiente de variación
El coeficiente de variación es una mediada relativa de la
variabilidad; mide la desviación estándar en relación con la
media.
Este estadístico descriptivo indica cuan grande es la
desviación estándar en relación con la media.
CV=(desviación estándar/media)*100%
𝐶𝑉=
𝑆
∗ 100%
𝑥
13. La interpretación de este coeficiente es igual al de
otras medidas de dispersión. El grado de
representatividad de la media se determina por
medio del coeficiente de variabilidad en la forma
siguiente:
Grado en que la media representa a la
serie:
De 0 a menos de 10%.....Media altamente representativa
De 10 a menos de 20%......Media bastante representativa
De 20 a menos a 30%….Media tiene representatividad
De 30 a menos de 40%....Media cuya representación es dudosa
De 40% o más….Media carente de representatividad
14. Ejercicio 1
Los siguientes datos son utilidades diarias en una muestra
de 18 días de operación de un negocio.
31, 20, 38, 50, 49, 56, 9, 32, 48, 22, 27, 15, 13, 23, 26, 10, 28, 30.
Determine:
El coeficiente de variación.
Que se pude concluir con el resultado obtenido.
15. Análisis exploratorio de datos
Para el análisis exploratorio se hace uso de operaciones
aritméticas sencillas y representaciones gráficas fáciles de
dibujar para resumir datos. Se pude realizar análisis
exploratorios de los datos, se consideran los resúmenes de
cinco números y los diagramas de cajas.
El resumen de cinco número se usan los cinco números
siguientes para resumir los datos:
1. El valor menor.
2. El primer cuartil.
3. La mediana.
4. El tercer cuartil.
5. El valor mayor.
16. Diagrama de caja
Un diagrama de caja es un resumen gráfico de los datos con
base en el resumen de los cinco números antes
mencionados.
Los diagramas de caja proporcionan otra manera de
identificar observaciones atípicas. Si se hace uso de los
siguientes usos.
𝐿𝐼= 𝑄1−1.5𝑅𝐼𝐶
𝐿𝑆= 𝑄3+1.5𝑅𝐼𝐶
17. Ejercicio 1
A continuación se presentan las ventas, en millones de
dólares, de 21 empresas farmacéuticas.
8408 1374 1872 8879 2459 11413 608
14138 6452 1850 2818 1356 10498 7478
4019 4341 739 2127 3653 5794 8305
Proporcione el resumen de cinco números con su
respectivo diagrama de cajas.
Calcule los limites superior e inferior.
¿Hay alguna observación atípica?