3. Objetivos
• Identificar la utilidad de utilizar medidas
numéricas para complementar el análisis
Gráfico.
• Conocer las medidas de tendencia central más
relevantes y su utilización
4. Introducción
• Aunque las gráficas vistas en sesiones
anteriores nos dan información sobre la
distribución de los datos, su tendencia central
(y su dispersión); siempre es necesario
complementarlo con medidas numéricas.
• Éstas proveen información puntual sobre la
localización de los datos (y su variabilidad).
6. Medidas de Tendencia
Central
Determinan los valores centrales de la población; esto es el centro de
la distribución. Entre ellas se encuentran:
1. Media
– Promedio aritmético de los datos
2. Mediana
– El punto central de los datos
– Los datos se ordenan del menor al mayor. La mediana será el dato que
esté al centro.
– Si existen dos datos al centro se tomará promedio.
3. Moda
– Es el valor que mas se repite en un conjunto de datos
7. Promedio
Definición: La media aritmética de un conjunto de n medidas
o mediciones 𝑥1, 𝑥2, … , 𝑥 𝑛 es igual a la suma de los valores
dividida entre n.
A la media de una población (tamaño N) la denotamos por la
letra griega 𝝁 (miu) y para la media de una muestra (tamaño
n) utilizaremos 𝒙 (x barra)
𝜇 =
𝑖=1
𝑁
𝑥𝑖
𝑁
𝑥 =
𝑖=1
𝑛
𝑥𝑖
𝑛
8. Promedio
• En el caso de Datos Agrupados, un promedio
puede obtenerse como sigue:
Donde:
mc = Marca de clase del intervalo i
Pi = Frecuencia relativa (porcentual) del
intervalo i
𝑥 =
𝑖=1
𝑛
𝑚𝑐𝑖 ∗ 𝑃𝑖
10. Promedio
• Por lo tanto, el promedio se obtiene como:
Intervalo
Marca de Clase
(MC)
Frecuencia
Relativa (FR)
MC*FR
[80, 100) 90 0.08 7.2
[100, 120) 110 0.14 15.4
[120, 140) 130 0.18 23.4
[140, 160) 150 0.26 39.0
[160, 180) 170 0.18 30.6
[180, 200) 190 0.10 19.0
[200, 220] 210 0.06 12.6
Promedio 147.2
11. Ejercicio 1
• Individual. Para las siguientes calificaciones,
Obtener el valor del promedio de las dos
maneras:
• Sin agrupar
• Utilizando un histograma de 5 clases (no es
necesario hacer el gráfico:
76 96 66 78 52 86 75 78 74 88
74 82 76 72 68 84 62 92 82 70
12. Promedio
• Bajo los supuestos de normalidad,
independencia y aleatoriedad, el promedio
resulta ser el dato estadístico que minimiza el
error en la estimación.
• Asumiendo el ejemplo de las calificaciones:
Archivo Demostración Promedio.xls
76 96 66 78 52 86 75 78 74 88
74 82 76 72 68 84 62 92 82 70
13. Promedio
• Conveniencias:
– Cálculo sencillo
– Intervienen todos los datos.
– Su valor es único.
– Se usa con frecuencia para comparar poblaciones,
– Se interpreta como "punto de equilibrio" o
"centro de masa" del conjunto de datos, ya que
tiene la propiedad de equilibrar las desviaciones
de los datos respecto de su propio valor:
14. Sensibilidad del Promedio
• Sin embargo, es muy fácil pensar que dos
muestras (o poblaciones) son iguales (o
equivalentes) porque su promedio es igual.
• Esto no es del todo cierto. Supongamos dos
muestras n1 y n2:
n1 {1, 2, 3, 4, 5} 𝑥 = 3
n2 {1, 2, 4, 4, 4} 𝑥 = 3
¿Qué puedes concluir?
15. Sensibilidad del Promedio
• El promedio es un buen estimador del centro
de la población (en el caso normal)
• El segundo caso (anterior), se presenta
mucho en distribuciones sesgadas. Esto
comúnmente ocurre cuando:
– Se muestrea sobre uno de los extremos de la
población o
– El mecanismo de muestreo no es aleatorio.
– Se trabaja con procesos automatizados o de
optimización
16. Sensibilidad del Promedio
• Por ejemplo, consideremos los siguientes
datos (Cópialos en una hoja en Excel):
10, 40, 50, 30, 60, 40, 30, 20, 10, 10, 30, 30, 30
¿Cuál es el promedio de ésta serie?
17. Sensibilidad del Promedio
• Ahora, para esa serie, agrega a la derecha el
valor de 1000.
– ¿Qué pasó con el promedio?
• Ahora en las siguientes tres celdas de la
derecha, agrega los valores 0, 0, -10.
– ¿Qué pasó ahora?
¿Qué tan estable es el promedio ante estos
cambios?
18. Mediana
• Se simboliza como Me o como m
• Representa el quincuagésimo percentil de los
datos.
(El dato del centro)
• En el caso de que el número de datos sea par,
entonces se obtendrá como el promedio de
los dos datos del centro:
𝑀𝑒 =
𝑛
2
+
𝑛
2
+ 1
2
19. Mediana
• En el caso de datos agrupados:
– Se encuentra en el intervalo donde la frecuencia
acumulada llega hasta la mitad de la suma de las
frecuencias absolutas.
(Buscar el intervalo en el que se encuentre N / 2)
Luego, aplicamos la siguiente fórmula:
Li-1 es el límite inferior de la clase donde se
encuentra la mediana.
N / 2 es la mitad de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase
mediana.
fi es la frecuencia absoluta del intervalo mediano.
ti es la amplitud de los intervalos.
20. Ejemplo
• Individual. Para las siguientes calificaciones,
Obtener el valor de la mediana
Al ordenar los datos, nos damos cuenta que la
mediana es 77 {(76+78)/2}.
76 96 66 78 52 86 75 78 74 88
74 82 76 72 68 84 62 92 82 70
52 62 66 68 72 74 74 75 76 76
78 78 82 82 84 86 88 92 96 70
21. Ejemplo
• Para el caso de Datos Agrupados, retomemos
el ejemplo:
Intervalo Frecuencia
Frecuencia
Acumulada
[80, 100) 4 4
[100, 120) 7 11
[120, 140) 9 20
[140, 160) 13 33
[160, 180) 9 42
[180, 200) 5 47
[200, 220] 3 50
N/2= 25
22. Ejemplo
• Al aplicar la fórmula:
• Por lo tanto, el valor de la mediana es 147.69
Li Es el límite inferior de la clase donde se
encuentra la mediana.
N / 2 Es la mitad de las frecuencias absolutas.
Fi-1 Es la frecuencia acumulada anterior a la clase
mediana.
fi Es la frecuencia absoluta del intervalo mediano.
ti Es la amplitud de los intervalos.
𝑴𝒆 = 𝟏𝟒𝟎 +
𝟐𝟓 − 𝟐𝟎
𝟏𝟑
∗ 𝟐𝟎
23. Ejercicio
• Para los datos de las calificaciones analizados
por intervalos, obtener la mediana.
24. Mediana
• A diferencia del promedio, la mediana posee
propiedades que le permiten ser muy útil en
situaciones de distribuciones sesgadas.
• Las principales propiedades son:
– Es menos sensible que la media a oscilaciones de
los valores de la variable.
Un error de transcripción en la serie del
ejemplo anterior en, por ejemplo, el último
número, deja a la mediana inalterada.
20/08/2018 Dr. Samuel Moisés Nucamendi Guillén
25. Mediana
• Además, puede calcularse para datos
agrupados en intervalos, incluso cuando
alguno de ellos no está acotado.
• No se ve afectada por la dispersión. De
hecho, es más representativa que la media
aritmética cuando la población es bastante
heterogénea.
26. Mediana
• Inconvenientes
Sus principales inconvenientes son que en el
caso de datos agrupados en intervalos, su
valor varía en función de la amplitud de éstos.
Por otra parte, no se presta tan bien para
cálculos algebraicos como la media aritmética
(sin embargo veremos algunos casos donde sí
es útil).
27. Moda
• La moda (Mo) simplemente representa el dato
que más se repite en la población (o muestra).
• Es muy útil para saber, en caso de tener que
seleccionar elementos aleatoriamente, qué
valor es más probable que salga.
• Para datos que siguen una distribución
normal, tanto el promedio como la mediana
coinciden con este valor.
28. Ejemplo
• Consideremos el ejemplo de una la encuesta
sobre la marca de automóvil que tienen los
estudiantes.
• Ch=Chevrolet, F= Ford, H=Honda, M= Mazda,
VW= Volkswagen.
• Obtener la moda de los datos
Ch M Ch H F Ch F Ch H Ch
M VW H Ch VW M VW F H H
Ch M Ch M H Ch VW F Ch M
H Ch VW M Ch F Ch H VW Ch
M H Ch VW F H Ch M VW M
29. Ejemplo
• Con un simple recuento, obtenemos lo
siguiente:
0
2
4
6
8
10
12
14
16
18
Ch M VW F H
Chart Title
30. Moda
• En el caso de Datos Agrupados:
– Si todos los intervalos tienen la misma amplitud:
Li Extremo inferior del intervalo modal (intervalo
que tiene mayor frecuencia absoluta).
fi Frecuencia absoluta del intervalo modal.
fi-1 Frecuencia absoluta del intervalo anterior al
modal.
fi+1 Frecuencia absoluta del intervalo posterior al
modal.
ti Amplitud de los intervalos.
31. Moda
• En el caso de Datos Agrupados:
– Si los intervalos tienen amplitudes distintas:
En primer lugar tenemos que hallar las alturas.
• hi= fi/ ti
Donde:
• hi: altura correspondiente a cada intervalo.
• fi: Frecuencia absoluta del intervalo (también se puede
utilizar la frecuencia acumulada o relativa)
• ti: Amplitud de los intervalos
Luego la clase modal es la que tiene mayor altura.
32. Ejercicio
• Calcular la moda para los datos del ejemplo de
clase:
Intervalo Frecuencia
Frecuencia
Acumulada
[80, 100) 4 4
[100, 120) 7 11
[120, 140) 9 20
[140, 160) 13 33
[160, 180) 9 42
[180, 200) 5 47
[200, 220] 3 50
Respuesta: 150
34. Moda
• Inconvenientes:
– Su valor es independiente de la mayor parte de los
datos, lo que la hace muy sensible a variaciones
muestrales.
– Por otra parte, en variables agrupadas en
intervalos, su valor depende excesivamente del
número de intervalos y de su amplitud.
– Grandes variaciones en los datos fuera de la
moda, no afectan en modo alguno a su valor.
35. Moda
• Inconvenientes
– No siempre se sitúa hacia el centro de la
distribución.
– Puede haber más de una moda.
36. ¿Cuándo usar la media, la mediana o
la moda?
• Estas son formas de destacar la respuesta
típica en datos a nivel de intervalo.
• El uso de la media o el promedio, puede llevar
a malinterpretar los datos, si estos se inclinan
hacia uno lado u otro, i.e. si están “sesgados”
estadísticamente.
37. Ejemplo
• Se realiza una encuesta entre los alumnos de
la UP preguntándoles cuántas veces desean
casarse.
• La gran mayoría contestará que una sola vez,
mientras que muy pocas personas
contestarían con un número mayor a 10.
• En este caso, la distribución estará sesgada
hacia la izquierda (valores bajos).
38. Ejemplo
• Si al reportar el promedio, ocurrió que alguna
persona dio un valor muy alto, el promedio no
será típico.
• En estos casos, sería mejor reportar la
mediana.
39. ¿Cuándo usar la media, la mediana o
la moda?
• Cuando los datos no estén sesgados (por
ejemplo, distribuidos normalmente) la media
y la mediana serán esencialmente muy
cercanas (llegando a coincidir).
40. ¿Cuándo usar la media, la mediana o
la moda?
• También puede utilizar la moda, por ejemplo,
si hay una encuesta que mide el aumento de
conocimiento después de una capacitación y
se quiere saber el puntaje más común de los
participantes.
42. Tarea 2
Por parejas:
• Utilizando la información del histograma
realizado con los datos del archivo Hist1.xls,
obtener:
– La media, mediana y moda utilizando los datos
agrupados (si necesita apilar antes, hágalo).
– Comprobar la precisión de los cálculos hechos arriba
al determinar la media, mediana y Moda utilizando los
datos sin agrupar.
Entregar en Moodle (pestaña HW2) a más tardar
mañana a las 11:59 pm (En la parte de texto,
anotar nombres completos y ID de los integrantes)
Notas del editor
(aunque es más apropiado acompañarla de una medida de dispersión).
Es por ello el parámetro más utilizado cuando al resumir una población donde no es posible realizar otros cálculos. Por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social.