2. Medidas de tendencia central: la Media
⚫ La media aritmética de un conjunto de valores
numéricos es:
⚫ El símbolo que se usa para la media poblacional
es la letra griega µ (mu), y el signo para la media
de la muestra es (x barra).
Suma de los valores
Número de valores
Media =
x
3. la Media
⚫ Fórmula para calcular la media de una población:
Donde µ = media poblacional
= suma de todos los valores de los datos de la población
N = tamaño de la población
N
x
=
x
4. la Media
⚫ Fórmula para calcular la media de una muestra:
Donde = media poblacional
= suma de todos los valores de los datos de la muestra
n = tamaño de la muestra
x
n
x
x
=
x
5. Parámetro vs estadístico
⚫ Un parámetro de una población es cualquier característica
medible de la población.
⚫ Un estadístico muestral es cualquier característica medible
de una muestra.
6. ⚫ Características de la media aritmética
⚫ Todo conjunto de datos medido en una escala de intervalos
o de razón tiene una media.
⚫ Todos los valores se encuentran incluidos en el cálculo de
la media.
⚫ Sólo existe una media en un conjunto de datos.
⚫ La suma de las desviaciones de cada valor de la media es
cero.
⚫ La media es sensible a valores extremos.
7. Autoevaluación 3-1
1. Los ingresos anuales de una muestra de empleados de administración media en Google
son: $62 900, $69 100, $58 300 y $76 800.
a) Proporcione la fórmula de la media muestral.
b) Determine la media muestral.
c) ¿Es la media que calculó en el inciso b) un estadístico o un parámetro? ¿Por qué razón?
d) ¿Cuál es su mejor aproximación de la media de la población?
2. Todos los estudiantes de Ciencias Avanzadas de la Computación de la clase 411
constituyen una población. Sus calificaciones en el curso son de 92, 96, 61, 86, 79 y 84.
a) Proporcione la fórmula de la media poblacional.
b) Calcule la calificación media del curso.
c) ¿Es la media que calculó en el inciso b) un estadístico o un parámetro? ¿Por qué razón?
9. Media ponderada
⚫ Constituye un caso especial de la media aritmética.
Se presenta cuando hay varias observaciones con
el mismo valor.
⚫ La media ponderada del conjunto de números
representados como X1, X2, X3, … Xn con las
ponderaciones correspondientes w1, w2, w3, …, wn,
se calcula mediante:
10. La Mediana
⚫ La mediana es el elemento central de un conjunto de
datos ordenado de menor a mayor.
⚫ El 50% de los valores son menores que la mediana y
el otro 50% son mayores.
⚫ Para hallar la mediana:
1. Ordenar las observaciones en orden ascendente.
2. Si el número de observaciones n es impar, la mediana es la
observación central de la lista ordenada. La mediana se halla
contando (n+1)/2 observaciones desde el comienzo de la lista.
3. Si el número de observaciones n es par, la mediana es la
media de las dos observaciones centrales de la lista
ordenada.
11. La Mediana
⚫ Ejemplo. Para calcular la mediana de una muestra constituida por 10
tiempos que requieren para arreglarse en las mañanas, los tiempos
diarios, en minutos, se ordenan de la siguiente manera:
Valores ordenados:
29 31 35 39 39 40 43 44 44 52
Clasificación:
1 2 3 4 5 6 7 8 9 10
Mediana = 39.5
12. La Mediana
⚫ Características de la mediana
⚫ Todo conjunto de datos a nivel ordinal, nivel de intervalo o nivel de
razón tiene una mediana.
⚫ La mediana no es sensible a los valores extremos.
⚫ La mediana no tiene ciertas propiedades matemáticas valiosas para
poderla usar en otros cálculos.
13. La Moda
⚫ La moda de un conjunto de datos es el valor que ocurre con
más frecuencia.
⚫ Características de la moda:
⚫ Algunos conjuntos de datos no tienen una moda.
⚫ Algunos conjuntos de datos tienen más de una moda.
⚫ La moda no tiene ciertas propiedades matemáticas valiosas para
usarla en otros cálculos.
14. La Moda
⚫ Ejemplo. Un conjunto de datos consiste en los valores 2, 3, 3, 5, 6, 4,
3, 6, 7, 9, 3, 2 y 6.
La moda de estos datos es 3 puesto que es el número que aparece
más veces (cuatro).
⚫ Ejemplo. Determinar la moda para los siguientes valores de datos:
12, 14, 15, 16, 15, 18, 19, 20, 14
En este arreglo de datos, dos valores (14 y 15) ocurren con una
frecuencia de dos. Por lo tanto, se puede decir que el conjunto es
bimodal, con modas 14 y 15.
15.
16. Ejercicios
Las siguientes son las edades de 10 personas que se
encuentran en una sala de videojuegos a las 10 de la
mañana.
Determine a) la media, b) la mediana y c) la moda
17. Distribuciones simétricas y asimétricas
Una distribución es
simétrica si el lado
derecho e izquierdo del
histograma con
respecto a la mediana
son aproximadamente
iguales.
Distribución simétrica
18. Una distribución es asimétrica
hacia la derecha (sesgo
positivo) si el lado derecho del
histograma se extiende sobre un
mayor número de valores
(intervalos) que el lado
izquierdo.
La media aritmética es más
afectada que la mediana o la
moda por unos valores
extremadamente altos.
La media no sería una medida
representativa.
Distribución con sesgo positivo
19. En una distribución
asimétrica hacia la
izquierda (sesgo
negativo), la media es
menor que la mediana o
que la moda.
Distribución con sesgo negativo
20. Autoevaluación 3-4
Las ventas semanales de una muestra de tiendas de
suministros electrónicos de alta tecnología se organizaron
en una distribución de frecuencias. La media de las
ventas semanales que se calculó fue de $105 900, la
mediana de $105 000 y la moda de $104 500.
a) Trace una gráfica de las ventas con forma de polígono
de frecuencias suavizado. Observe la ubicación de la
media, la mediana y la moda sobre el eje x.
b) ¿La distribución es simétrica, tiene un sesgo positivo o un
sesgo negativo? Explique su respuesta.
22. Media geométrica
⚫ Útil para determinar el cambio promedio de porcentajes,
razones, índices o tasas de crecimiento.
⚫ La media geométrica siempre es menor o igual que la media
aritmética. Todos los datos deben ser positivos.
⚫ Ej. Juan recibe 5% de incremento salarial este año y 15% el
siguiente. El incremento porcentual anual promedio es de 9.886
y no de 10. Recuerde, 5% de incremento salarial equivale a
105%, que se expresa como 1.05
23. ⚫ La media geométrica permite determinar un cambio
porcentual promedio durante cierto periodo. Ej. Si ganó S/.
30 000 en 2010 y S/. 50 000 en 2015, ¿cuál es la tasa
anual de incremento durante el periodo? Esta es de 10.76%
⚫ La tasa de incremento se determina mediante
donde n es el número de periodos.
24. La producción de cobre crecería 74,6
por ciento entre el 2013 y 2017
26. Dispersión: ¿Porqué es importante?
⚫ Permite evaluar la confiabilidad de nuestra medida de
tendencia central. Si los datos se encuentran ampliamente
dispersos, la posición central es menos representativa de los
datos.
⚫ Permite apreciar cuán dispersas están dos o más
distribuciones.
28. Rango (alcance, amplitud total)
⚫ El rango es la diferencia entre el valor más grande y el más pequeño
en el conjunto de datos.
Rango = xmayor - xmenor
⚫ El rango no siempre es una buena medida de variabilidad. Siempre
que la distribución contenga un valor extremo, el rango indicará una
variación excesiva.
⚫ Las mejores descripciones de variabilidad tienen que ver con la
desviación de los datos respecto a alguna medida de tendencia
central. La media es la medida de tendencia central que por lo general
se usa.
29. Desviación media
⚫ Media aritmética de los valores absolutos de las
desviaciones con respecto a la media aritmética.
32. Varianza y Desviación Estándar
⚫ La varianza es el promedio de los cuadrados de las
diferencias entre los valores de los datos y la media.
⚫ Varianza para los datos de una población:
donde σ2 = varianza de la población
x = valores de la población
µ = media aritmética de la población
N = número de observaciones en la población
N
x
−
=
2
2
)
(
33. Varianza y Desviación Estándar
⚫ Ejemplo. La tabla 1 presenta una población de cinco edades.
Tabla 1. Datos de edades
x x - µ (x - µ)2
20 -20 400
30 -10 100
40 0 0
50 10 100
60 20 400
200 0 1,000
200
5
000
,
1
)
( 2
2
=
=
−
=
N
x
34. Varianza y Desviación Estándar
⚫ La desviación estándar mide la cantidad típica en la que los valores del
conjunto de datos difieren de la media.
⚫ La desviación estándar de la población se calcula mediante:
⚫ En el ejemplo anterior la población tiene una media de 40 y una desviación
estándar de 14.1. Esto significa que la cantidad típica en la que los valores
del arreglo difieren de su media (40) es alrededor de 14.1
N
x
−
=
2
)
(
35. Varianza y Desviación Estándar de la
muestra
⚫ Varianza de la muestra:
⚫ Donde:
s2 = varianza de la muestra
s = desviación estándar de la muestra
x = valores de la muestra
= media muestral
n = número de observaciones en la muestra
1
)
( 2
2
−
−
=
n
x
x
s
x
36. Coeficiente de variación
⚫ El coeficiente de variación para un conjunto de datos
expresa la desviación estándar como un porcentaje de la
media.
⚫ El coeficiente de variación indica la cantidad relativa de
variabilidad en una distribución.
⚫ Coeficiente de variación para una muestra:
⚫ Por ejemplo, una desviación estándar de 10 puede ser
grande si la media es 100, pero no lo es si la media es 500.
)
100
(
x
s
CV =
37. Teorema de Chebyshev
⚫ Establece que para todo conjunto de datos (muestra o población),
sin importar cuál sea la forma de la distribución, el porcentaje de
valores que se encuentran a una distancia de k desviaciones
estándar o menos de la media, debe ser por lo menos igual a
(1 – 1/k2) x 100%
Se puede usar esta regla para todo valor de k > 1.
Porcentaje de valores encontrados en intervalos alrededor de la media
Chebyshev Regla empírica
Intervalo (para toda distribución) (distribución en forma de campana)
(µ-σ, µ+σ) Al menos 0% Aproximadamente 68%
(µ-2σ, µ+2σ) Al menos 75% Aproximadamente 95%
(µ-3σ, µ+3σ) Al menos 88.9% Aproximadamente 99.7%
39. Autoevaluación
⚫ Tubos S. A. es un fabricante de tubos PVC. El departamento de
control de calidad tomó una muestra de 600 tubos de 2 metros
de longitud. A una distancia de 30 cm del extremo del tubo, se
midió el diámetro externo. La media fue de 14.0 cm y la
desviación estándar de 0.1 cm.
a) Si no conoce la forma de la distribución, ¿por lo menos qué
porcentaje de las observaciones se encontrará entre 13.85 y
14.15 cm?
b) Si supone que la distribución de los diámetros es simétrica y
tiene forma de campana, ¿entre qué dos valores se encontrará
aproximadamente el 95% de las observaciones?
41. Media aritmética de datos agrupados
La media de una muestra de datos organizados en una
distribución de frecuencias se calcula de la siguiente manera:
44. Autoevaluación 3-10
Los ingresos netos de una muestra de grandes importadores
de antigüedades se organizaron en la siguiente tabla:
a) ¿Qué nombre recibe la tabla?
b) ¿Cuál es el valor aproximado del ingreso promedio aritmético?
c) ¿Cuál es la desviación estándar?
53. Cuartiles, deciles y percentiles
⚫ Suponga que LP representa la ubicación de cierto
percentil que se busca. Así, si quiere encontrar el
trigésimo tercer percentil, usaría L33, y si buscara la
mediana, el percentil 50º, entonces L50.
⚫ Si el número de observaciones es n, la localización
de un percentil es
54. Ejemplo
Localice la mediana, el primer y el tercer cuartiles
de los siguiente datos:
⚫ Primer paso: ordenar los datos de menor a mayor
⚫ La mediana se localiza en el centro, el percentil 50º
L50 = (n+1) (50/100) = (15+1) (50/100) = 8. La
octava posición es 2038.
2038 1758 1721 1637 2097 2047 2205 1787
2287 1940 2311 2054 2406 1471 1460
1460 1471 1637 1721 1758 1787 1940 2038
2047 2054 2097 2205 2287 2311 2406
55. ⚫ Los cuartiles dividen a un conjunto de datos en cuatro partes
iguales.
⚫ Primer cuartil Q1. El 25% de los valores son menores que el
primer cuartil Q1, y el 75% son mayores. Equivale al percentil
25º .
L25 = (n+1)(25/100) = 4
El primer cuartil es igual al cuarto valor de la serie ordenada, es
decir, Q1 = 1721
⚫ De modo similar, el tercer cuartil equivale al percentil 75º:
L75 = (15+1)(75/100) = 12
El tercer cuartil es Q3 = 2205.
25% 25% 25% 25%
Q1 Q2 Q3
56. Localice el primer cuartil de los siguientes datos:
91, 75, 61, 101, 43 y 104.
⚫ Los datos ordenados son: 43, 61, 75, 91, 101 y 104. El primer
cuartil se localiza en
L25 = (n+1)(P/100) = (6+1)(25/100) = 1.75
El primer cuartil se encuentra entre el primer y segundo valores;
es decir entre 43 y 61. La distancia entre estos valores es 18.
Al localizar el primer cuartil, necesita desplazarse una
distancia de 0.75 entre el primer y segundo valores; así, 0.75
(18) =13.5
El primer cuartil es 43 + 13.5 = 56.5
57. Autoevaluación 4-2
El departamento de control de calidad de Las Delicias
SAC verifica el peso de un frasco de crema de
cacahuate de ocho onzas. Los pesos de la muestra
de nueve frascos fabricados la hora pasada son los
siguientes:
a) ¿Cuál es el peso mediano?
b) Determine los pesos correspondientes del primer y
tercer cuartil.
7.69 7.72 7.8 7.86 7.90 7.94 7.97 8.06 8.09
59. Rango intercuartil (amplitud
intercuartílica)
⚫ Es la diferencia entre el tercer y primer cuartiles.
Rango intercuartil = Q3 – Q1
⚫ El rango intercuartil mide la dispersión en la mitad (parte central) de los
datos, así que no se ve influido por los valores extremos.
60. Diagrama de caja
⚫ Los cinco números resumen, que permiten determinar la forma de
distribución, son representados gráficamente por un diagrama de
caja.
⚫ Máx - Observación máxima
⚫ Q3 - Tercer cuartil
⚫ Q2 - Mediana
⚫ Q1 - Primer cuartil
⚫ Mín - Observación mínima
61. Diagrama de caja
⚫ Los lados inferior y superior de la caja van del primer al tercer cuartil. Por
tanto, la altura de la caja es la amplitud del 50% de los datos centrales.
⚫ El segmento del interior de la caja indica la mediana. Los extremos de los
segmentos perpendiculares a los lados superior e inferior indican,
respectivamente, los valores máximo y mínimo de la distribución.
Q1 Q2 Q3
Mín Máx
62. Para construir un diagrama de caja
⚫ Calcule la mediana, los cuartiles superior e inferior y el rango
intercuartil (IQR) para el conjunto de datos.
⚫ Trace una recta horizontal que represente la escala de medición
63. ⚫ Detección de resultados atípicos – observaciones que están a
mayor distancia:
⚫ Límite inferior: Q1 – 1.5 (IQR)
⚫ Límite superior: Q3 + 1.5 (IQR)
⚫ Cualquier medición a mayor distancia del límite superior o inferior
es un resultado atípico.
⚫ La gráfica marca el rango del conjunto de datos usando “bigotes”
para conectar las mediciones más pequeñas y más grandes
(excluyendo resultados atípicos).
⚫ Los resultados atípicos se marcan con un asterisco en la gráfica
64. Ejercicio
Construya una gráfica de caja para estos datos e identifique los
resultados atípicos:
25, 22, 26, 23, 27, 26, 28, 18, 25, 24, 12
65. Ejercicio
Concentración de mercurio en delfines.
El delfín de franjas (Stenella coeruleoalba) fue objeto de este estudio. Las
concentraciones de mercurio (microgramos(gramo) en los hígados de 28 delfines de
franjas machos fueron como sigue:
1.70 183.00 221.00 286.00 1.72 168.00 406.00 315.00
8.80 218.00 252.00 241.00 5.90 180.00 329.00 397.00
101.00 264.00 316.00 209.00 85.40 481.00 445.00 314.00
118.00 485.00 278.00 318.00
a. Calcule el resumen de cinco números para los datos
b. Construya una gráfica de caja para los datos
c. ¿Hay algún resultado atípico?
67. Coeficiente de sesgo de Pearson
➢ Según esta expresión el sesgo puede variar de -3 a +3.
➢ Un valor próximo a -3, como -2.57, indica un sesgo
negativo considerable.
➢ Un valor como 1.63 indica un sesgo positivo moderado.
➢ Un valor de 0, que ocurre cuando la media y la mediana
son iguales, indica que la distribución es simétrica y que
no se presenta ningún sesgo.
69. Autoevaluación 4-4
Una muestra de cinco empleados que laboran en la
oficina de impuestos revisó el siguiente número de
expedientes fiscales durante la última hora:
73, 98, 60, 92 y 84.
a) Calcule la media, la mediana y la desviación estándar.
b) Calcule el coeficiente de sesgo con el método de
Pearson.
c) Calcule el coeficiente de sesgo usando un paquete de
software.
d ) ¿Qué conclusión obtiene respecto del sesgo de los
datos?