ISO 45001-2018.pdf norma internacional para la estandarización
Medidas en estadística media y cuartes.pptx
1. Dra. Lila Virginia Lugo
García
Santa Ana de Coro, Septiembre 2020
Clases de Estadistica Medidas
Sesión de Clase III y IV
Estadística Aplicada a la Investigación
LVLG-sept2020 Pág 1
2. Tema II: Medidas Estadísticas
LVLG-sept2020 Pág 2
Existen algunas medidas que facilitan la descripción de los datos y permiten realizar el
análisis del comportamiento de los mismos.
Entre las más importante se tienen las Medidas de Tendencia Central que permiten ver la
localización de los datos en el centro de la distribución, entre las más usuales se tiene: la Media
Aritmética, la Mediana y la Moda. Pero existen algunas medidas que también son de Posición
que se pueden ubicar en cualquier punto de la distribución, como los Percentiles, Deciles o
Cuartiles
Además se tienen las Medidas de Dispersión que representan la variabilidad de los datos, es
decir indican si los datos están unidos o dispersos. Entre ellos se tienen: Rango, Desviación
Media y la Desviación Típica o Estándar y la Varianza.
Otros estadísticos importantes son las Medidas de Apuntamiento que determina el grado de
concentración que presentan los valores de una variable alrededor de la zona central de la
distribución de frecuencias, entre ellas se tiene la Curtosis y la Simetría.
INTRODUCCIÓN
3. Tema II: Medidas Estadísticas
ESTRUCTURA DE LA SESIÓN DE CLASE
Medidas de Tendencia Central: Definiciones, ejemplos y ejercicios
Media Aritmética
Mediana
Moda
Media Geométrica
Media Armónica
Medidas de Posición: Definición, ejemplos y ejercicios
Percentiles
Deciles
Cuartiles
Medidas de Dispersión: Definiciones, ejemplos y ejercicios
Rango
Desviación con respecto a la media
Desviación Típica y Varianza
Coeficiente de Variación de Pearson
Medidas de Apuntamiento: Definición, ejemplos y ejercicios
Curtosis
Simetría
LVLG-sept2020 Pág 3
4. Tipos de Medidas Estadísticas
LVLG-sept2020 Pág 4
Las medidas estadísticas se clasifican en tres grandes tipos: de posición donde están las tendencia
Central, de Dispersión y de Apuntamiento. A continuación los estadísticos más resaltantes
5. Adaptado de: Johson R. y Kuby p (2004). Estadística Elemental. Lo esencial. 3ra Edición. Editorial Thomson. México D.F
Se les llama medidas de tendencia central porque en una distribución de datos
generalmente la acumulación más alta se encuentra en los valores intermedios,
es decir son valores numéricos que localizan en el centro de la distribución de los
datos.
Medidas de Tendencia Central
LVLG-sept2020 Pág 5
TIPOS
- Media Aritmética
- Mediana
- Moda
- Media Geométrica
- Media Armónica
Media Aritmética es la medida de posición más
usada, es el también llamada promedio
Mediana es la medida de posición que se
encuentra exactamente en la mitad
Moda es la medida de posición que más se repite
Media Geométrica es un promedio más útil para datos que van en función de un producto
no de suma (como las velocidades de crecimiento) y
Media Armónica es útil en el conjunto de números que se definen en relación con una
unidad, por ejemplo la velocidad que es distancia por tiempo
En estas dos últimas medidas no haremos mucho hincapié por que generalmente no son
tan usadas
6. Media Aritmética es el promedio y se calcula por medio de la suma de todos
los valores divido entre el número de datos
Medidas de Tendencia Central
LVLG-sept2020 Pág 6
Note que el promedio es de 7 años esto no significa que necesariamente todos los
niños tengan 7 años, de hecho en este ejemplo ninguno posee esa edad. Sin embargo
para efecto del cálculo del promedio es como si todos poseen 7 años
7. LVLG-sept2020 Pág 7
Cálculo de las Medidas de Tendencia Central
Datos Agrupados
Datos No Agrupados
MEDIA ARITMÉTICA
Símbolo: para muestra o para la
población
Fórmula:
Donde:
•N o n = total de datos
• es la sumatoria significa que debemos multiplicar cada
marca de clase por su frecuencia simple y luego se suman
Ejemplo:
Edades de un grupo de 85 estudiantes que
viven en la comunidad LVIII
La media
aritmética o
promedio de la
esas de los
estudiantes
será:
Li Lf Xi fi Xi*fi
10 11 10,5 8 84,00
12 13 12,5 13 162,50
14 15 14,5 17 246,50
16 17 16,5 22 363,00
18 19 18,5 10 185,00
20 21 20,5 9 184,50
22 23 22,5 6 135,00
N=85 1360,50
8. Medidas de Tendencia Central
Mediana es la medida de posición que se encuentra exactamente en la
mitad de los valores o de la distribución cuando los datos están ordenados
LVLG-sept2020 Pág 8
9. MEDIANA
Símbolo: Me
Formula: Posición de la mediana en datos
previamente ordenados en forma ascendente
o descendentes:
Donde:
•n= total de datos
Datos No Agrupados Datos Agrupados
Cálculo de las Medidas de Tendencia Central
Ejemplo:
Edades de un grupo de estudiantes
de 5to año de bachillerato (los datos
deben estar ordenados)
Datos impares (valor central)
15,15,16,16,16,16,17,17,17,18,18
Me= 16
Datos Pares (Promedio de los
valores central)
15,15,16,16,16,16,17,17,17,18,18,19
Me= 16,5
LVLG-sept2020 Pág 9
MEDIANA
Símbolo: Me
Fórmula:
Donde:
•n= total de datos,
•Lm= límite real,
•fi= frecuencia simple posterior a n/2
•Fi = frecuencia acumulada anterior a n/2,
•ci= amplitud de los limites de la clase
Ejemplo:
Edades de un grupo de 85 estudiantes que viven
en la comunidad LVIII
Se ubica n/2= 42,5 en la frecuencia acumulada
La mediana será:
42,5
Li Lf fi Fi
10 11 8 8
12 13 13 21
14 15 17 38
16 17 22 60
18 19 10 70
20 21 9 79
22 23 6 85
n=85
10. Moda es la medida de posición que más se repite los datos sean agrupados o
no agrupados
Medidas de Tendencia Central
LVLG-sept2020 Pág 10
Ejemplo 1: Si la variable es la estatura la moda será:
11. MODA
Símbolo: Mo
La moda es el dato que más se repite.
•Si hay dos datos que se repiten con la misma
frecuencia se dice que la distribución
es bimodal. Análogamente si existen varios
datos que se repiten la misma cantidad de
veces se dice que es multimodal.
•Si todos los datos se repiten el mismo
número de veces, entonces no hay moda.
•Si ningún dato se repite, tampoco hay
moda.
Datos No Agrupados Datos Agrupados
Cálculo de las Medidas de Tendencia Central
MODA
Símbolo: Mo
Fórmula:
Donde:
•Lm= límite real,
•1= diferencia de la frecuencia simple máxima y la frecuencia
anterior a ella
•2= diferencia de la frecuencia simple máxima y la frecuencia
posterior a ella
•ci= amplitud de los limites de la clase
Ejemplo:
Edades de un grupo de estudiantes
de 5to año de bachillerato (los datos
deben estar ordenados)
Una moda
15,15,16,16,16,16,17,17,17,18,18
Mo= 16
Dos modas (Bimodal)
15,15,16,16,16,16,17,17,17,17,18,18,19
Mo1= 16 y Mo2= 17
LVLG-sept2020 Pág 11
Ejemplo:
Edades de un grupo de 85 estudiantes que viven la comunidad
LVIII
Se ubica la frecuencia máxima que en este caso es 22
Al calcular 1 y 2 queda:
1= 22-17= 5
1= 22-10= 12
El limite real será: (16+15)/2=15,5
Y la amplitud
ci= 17-16=1
Li Lf fi Fi
10 11 8 8
12 13 13 21
14 15 17 38
16 17 22 60
18 19 10 70
20 21 9 79
22 23 6 85
n=85
12. Medidas de Tendencia Central
LVLG-sept2020 Pág 12
Ejemplo 1: Calcular la media geométrica de los siguientes datos no agrupados: 3,5,6,6,7,10,12
Ejemplo 2: Calcular la media geométrica de los siguientes datos agrupados
Considerando la fórmula de logaritmos se
tiene:
G = anti log(45,221/22)
G = anti log(2,0555)
G= 113,632.
13. Medidas de Tendencia Central
LVLG-sept2020 Pág 13
Media Armónica útil en el conjunto de números que se definen en relación
con una unidad por ejemplo velocidad que es distancia por tiempo. Las
fórmulas que se utiliza para calcularla son:
Datos no agrupados
Datos Agrupados
𝐻 =
𝑛
𝑓𝑖
𝑥𝑖
𝑛
𝑖=1
𝐻 =
𝑛
1
𝑥𝑖
𝑛
𝑖=1
Ejemplo: Calcular la media Armónica de los siguientes datos agrupados
14. Medidas de Posición
El percentil es una medida de posición utilizada para comparar datos, es un número de
va desde 0 a 100 que indica el porcentaje de datos que son igual o menor que un
determinado valor. Es decir, hasta que valor llega en la distribución determinado
porcentaje, por ejemplo calcula cual es el valor que cubre el 30 % de la distribución de
datos
Es importante aclarar que se tienen percentiles, deciles y cuartiles.
Los percentiles van de uno en uno, se tendrán 100 percentiles
Los deciles van de 10 en 10 , se tendrán 10 deciles
Los cuartiles de 25 en 25, se tendrán 4 cuartiles
Cabe mencionar que existe una equivalencia entre los percentiles, deciles y cuartiles. Es
decir, el percentil 50 es el mismo que el decil 5 y el cuartil 2 pero además es la
Mediana, ya que este es el dato que representa el 50% de la distribución. Las fórmulas
que se utilizan se trabajan de manera similar a la fórmula de mediana
Los percentiles son muy conocidos por su uso en los percentiles de crecimiento. Por
ejemplo, si el peso de un bebé está en el percentil 65, quiere decir que el 65% de los
bebés de la misma edad pesan más o menos lo mismo.
LVLG-sept2020 Pág 14
15. Medidas de Posición
Las fórmulas para cada una de estas medidas de posición son similares.
A continuaciones se presentan
Donde:
•n= total de datos,
•Lm= límite real,
•fi= frecuencia simple posterior a n.p/100 o n.p/10 o n.p/4 (según sea el caso)
•Fi = frecuencia acumulada anterior a n.p/100 o n.p/10 o n.p/4 (según sea el caso)
•ci= amplitud de los limites de la clase
Lo primero que se hace es ubicar en la frecuencia acumulada el resultado de n.p/100 o
n.p/10 o n.p/4 (de acuerdo a lo que se requiera) y los demás factores dependerán de dicho
valor
PERCENTIL
DECILES
CUARTILES
LVLG-sept2020 Pág 15
16. Medidas de Posición
EJERCICIO:
De la siguiente tabla que representa las edades de un grupo de estudiantes en la
comunidad LVIII determinar: a) Percentil 15, b) Decil 3 y c) Cuartil 3
LVLG-sept2020 Pág 16
Li Lf Xi fi Fi
10 11 10,5 8 8
12 13 12,5 13 21
14 15 14,5 17 38
16 17 16,5 22 60
18 19 18,5 10 70
20 21 20,5 9 79
22 23 22,5 6 85
85
PERCENTIL
CUARTIL
Observación: Es importante mencionar
que el DECIL 3 es lo mismo que el
PERCENTIL 30 se pueden calcular por la
fórmula que más desee.
También se puede calcular el CUARTIL 3
como el PERCENTIL 75
17. Es este sentido las Medidas de Dispersión son los parámetros que indican la mayor o
menor concentración de los datos alrededor de los parámetros de centralización. Es
decir, hace referencia a valores que indican el movimiento de una variable en relación con
otra usualmente centralizada como la media aritmética.
LVLG-sept2020 Pág 17
Observe las siguientes gráficas
Note que en la primera los datos están más concentrados
que en la segunda que se encuentran más dispersos.
A este comportamiento de concentración de datos es lo
que se conoce como Dispersión
Además estas medidas al igual que las de tendencia central permiten conocer de manera
resumida una característica de la variable estudiada ya que ofrecen información del
comportamiento de la distribución, misma que puede ser utilizada para comparar e
interpretar y de ser necesario tomar decisiones.
Entre las medidas de dispersión las más importantes se encuentran: Rango, Desviación
respecto de la media, Desviación estándar, Coeficiente de Variación de Pearson y la
Varianza.
Medidas de Dispersión
18. RANGO
Es recorrido estadístico, indica la separación general de lo datos, se determina
con la diferencia entre el valor máximo y el mínimo de un conjunto de elementos.
Símbolo: R
Formula: R= Vmáx - Vmín
LVLG-sept2020 Pág 18
Datos no agrupados
Ejemplo: Los siguientes datos
representan las edades de un grupo
de estudiantes de 5to año de
bachillerato
15,15,16,16,16,16,17,17,17,18,18
R= 18 -15= 3
Datos Agrupados
Ejemplo: La siguiente tabla representa las
edades de un grupo de 85 estudiantes que viven
en la comunidad LVIII
R= 23 – 10 = 13
Li Lf fi Fi
10 11 8 8
12 13 13 21
14 15 17 38
16 17 22 60
18 19 10 70
20 21 9 79
22 23 6 85
n=85
Medidas de Dispersión
19. LVLG-sept2020 Pág 19
Datos no agrupados
Ejemplo:
Edades de un grupo de estudiantes de
5to año de bachillerato
15,15,16,16,16,16,17,17,17,18,18, 19
La media aritmética es:
Xi | Xi- |
15 1,667
15 1,667
16 0,667
16 0,667
16 0,667
16 0,667
17 0,333
17 0,333
17 0,333
18 1,333
18 1,333
19 2,333
12
DESVIACIÓN RESPECTO A LA MEDIA
Símbolo: DM
Formula: (Datos no Agrupados) (Datos
Agrupados)
Donde: Xi es el dato en especifico y es la media aritmética. Y fi la frecuencia simple
Medidas de Dispersión
Datos Agrupados
Ejemplo: La siguiente tabla representa las
edades de un grupo de 85 estudiantes que viven
en la comunidad LVIII
Li Lf Xi fi Xi. fi |Xi-X|.fi
10 11 10,5 8 84 44,048
12 13 12,5 13 162,5 45,578
14 15 14,5 17 246,5 25,602
16 17 16,5 22 363 10,868
18 19 18,5 10 185 24,94
20 21 20,5 9 184,5 40,446
22 23 22,5 6 135 38,964
N= 85 1360,5 230,446
20. LVLG-sept2020 Pág 20
Medidas de Dispersión
Ejemplo:
Si se tiene dos comunidades, en el grupo A la media de la edad es de 45 años
con desviación de 8 y en el grupo B la media es también de 45 años con
desviación de 12 Entonces en base a esto se puede decir que el grupo A los datos
están más concentrados que en el B, es decir estan menos dispersos del
promedio.
DESVIACIÓN TÍPICA O ESTANDAR y VARIANZA
Es la medida de dispersión más común por su confiabilidad, que indica la
dispersión de los datos con respecto a la media aritmética. Dicha medida
cuantifica la dispersión alrededor de la media, es decir es el promedio de la
distancia que poseen los datos con respecto a la media aritmética. Mientras mayor
sea este valor mayor será la dispersión de los datos.
Símbolo: S o (Desviación Estándar) y S2 o 2 (Varianza)
Formula: (Muestra) (Muestra)
(Población) (Población)
21. LVLG-sept2020 Pág 21
USO DE LA DESVIACIÓN ESTÁNDAR
Posee muchos usos, entre ellos uno de los más importantes es determinar la
confiabilidad de los datos.
La desviación estándar puede representar la diferencia al seleccionar diferentes
muestras, permitiendo distinguir la más adecuada. Por ejemplo si dos
encuestadores realizan la recogida de información en la misma zona con los
mismos habitantes, la desviación estándar indica cual del conjunto de datos es
más confiable, teniendo como criterio en cuenta que mientras más pequeña sea
la desviación más confiables son los datos.
Una aplicación de la desviación estándar es que determina los niveles de
confiabilidad en una distribución normal, que abordaremos más adelante.
Medidas de Dispersión
22. LVLG-sept2020 Pág 22
En la distribución normal, las desviaciones estándar sucesivas con respecto a la
media establecen valores de referencia para estimar el porcentaje de
observaciones de los datos. Es así como desde la media más o menos una
desviación estándar ( 1) se encuentran el 68% de los datos, mientras que
desde la media más o menos dos desviación estándar ( 2) se encuentran el
95% de los datos y la media más o menos tres desviación estándar ( 3) se
encuentran el 99% de los datos. A continuación se presenta la representación
gráfica de esta afirmación
-3 -2 -1 +1 +2 +3
Medidas de Dispersión
23. LVLG-sept2020 Pág 23
Ejemplo: La siguiente tabla representa las edades de un grupo de 85
estudiantes que viven en la comunidad LVIII
Se pide calcular desviación estándar y varianza
Desviación Estándar Varianza
Li Lf Xi fi |Xi-X|^2.fi
10 11 10,5 8 242,5283
12 13 12,5 13 159,7965
14 15 14,5 17 38,55661
16 17 16,5 22 5,368792
18 19 18,5 10 62,20036
20 21 20,5 9 181,7643
22 23 22,5 6 253,0322
N= 85 943,2471
Medidas de Dispersión
24. COEFICIENTE DE VARIACION DE PEARSON (CV)
LVLG-sept2020 Pág 24
Medidas de Dispersión
El coeficiente de variación de Pearson mide la variación de los datos respecto a
la media, sin tener en cuenta las unidades en la que están. Dichos valores se
comprenden entre 0 y 1. Si el coeficiente es próximo al 0 entonces existe poca
variabilidad en los datos por tanto la muestra muy compacta. En cambio, si se
acerca a 1 entonces la muestra está dispersa. Se calcula como el cociente entre la
desviación estándar y media aritmética
o
Para interpretar fácilmente el coeficiente, podemos multiplicarlo por cien en este
caso se habla del porcentaje de variación de Pearson
25. LVLG-sept2020 Pág 25
Ejemplo: La siguiente tabla representa las edades de un grupo de 85
estudiantes que viven en la comunidad LVIII
Determinar el Coeficiente de Variación de Pearson
Desviación Estándar
Media Aritmética
Coeficiente de Variación de Pearson
Es importante mencionar que dependiendo del estadístico o investigador el 20,810 %
puede ser muy alto, sin embargo en comparación con el 100% puede ser considerada
no tan alta. Dependerá de los criterios considerados en la distribución
Li Lf Xi fi
10 11 10,5 8
12 13 12,5 13
14 15 14,5 17
16 17 16,5 22
18 19 18,5 10
20 21 20,5 9
22 23 22,5 6
N= 85
Medidas de Dispersión
27. LVLG-sept2020 Pág 27
Medidas de Apuntamiento
CURTOSIS
Entre las medida de apuntamiento se tiene la Curtosis y la Simetría que se relacionan con la
forma de agrupación de los datos
La curtosis es una medida estadística que determina el grado de concentración que
presentan los valores de una variable alrededor de la zona central de la distribución de
frecuencias. Por medio del Coeficiente de Curtosis, podemos identificar dicha concentración
de valores.
Tipos de Curtosis
1)Se llama Leptocúrtica cuando existe una gran concentración en la zona central de valores
2)Se llama Mesocúrtica, cuando la concentración en la zona central es normal
3)Se llama Platicútica cuando la concentración en la zona central es baja
29. LVLG-sept2020 Pág 29
Medidas de Apuntamiento
EJERCICIO:
La siguiente tabla representa las edades de un grupo de 85 estudiantes que
viven en la comunidad LVIII
Determinar la curtosis
1)Determinar el momento 2 y momento 4 por medio de la fórmula (p=2 y p=4)
2)Se aplica la fórmula
3)Se analiza el resultado considerando los parámetros
Si g2>0 es Leptocúrtica
Si g2=0 es Mesocúrtica
Si g2<0 es Platicútica
30. LVLG-sept2020 Pág 30
Medidas de Apuntamiento
EJERCICIO:
La siguiente tabla representa las edades de un grupo de 85 estudiantes que
viven en la comunidad LVIII
Determinar la Curtosis
Li Lf Xi fi |Xi-X|^2.fi |Xi-X|^4.fi
10 11 10,5 8 242,528 7352,496
12 13 12,5 13 159,796 1964,224
14 15 14,5 17 38,557 87,448
16 17 16,5 22 5,369 1,310
18 19 18,5 10 62,200 386,888
20 21 20,5 9 181,764 3670,919
22 23 22,5 6 253,032 10670,884
SUMA N= 85 943,247 24134,169
Como el valor de g2 da
negativo la distribución de
los datos es Platicúrtica
MOMENTO
31. LVLG-sept2020 Pág 31
Medidas de Apuntamiento
SIMETRÍA
Los indicadores de SIMETRÍA o ASIMETRÍA indican si los valores de la
distribución se disponen simétricamente alrededor de la media, o bien si se
decantan en mayor medida hacia la derecha (asimetría derecha, o positiva) o hacia
la izquierda (asimetría izquierda o negativa), sin necesidad de representar
gráficamente la distribución de frecuencias.
Se puede tener presentar tres casos:
1)Asimetría negativa: la cola de la distribución se alarga para valores inferiores a
la media.
2)Simétrica: hay el mismo número de elementos a izquierda y derecha de la
media.
3)Asimetría positiva: la cola de la distribución se alarga (a la derecha) para
valores superiores a la media.
32. LVLG-sept2020 Pág 32
Medidas de Apuntamiento
CÁLCULO DE SIMETRÍA
Para calcular se debe:
1)Determinar el momento 2 y 3 (p=2 y p=3)
2) Se aplica la fórmula denominada Coeficiente de Asimetría de Fisher
3) Se analiza el resultado considerando los parámetros
Si g1>0 es Asimetría Positiva
Si g1=0 es Simétrica
Si g1<0 es Asimetría Negativa
33. LVLG-sept2020 Pág 33
Medidas de Apuntamiento
EJERCICIO:
La siguiente tabla representa las edades de un grupo de 85 estudiantes que
viven en la comunidad LVIII
Determinar la Simetría
Como el valor de g2 da
positivo la distribución
Asimétrica Positiva
MOMENTO
Li Lf Xi fi |Xi-X|^2.fi |Xi-X|^3.fi
10 11 10,5 8 242,528 -1335,361
12 13 12,5 13 159,796 -560,246
14 15 14,5 17 38,557 -58,066
16 17 16,5 22 5,369 2,652
18 19 18,5 10 62,200 155,128
20 21 20,5 9 181,764 816,849
22 23 22,5 6 253,032 1643,191
SUMA N= 85 943,247 664,147
34. Resumen de los resultados del Ejercicio
LVLG-sept2020 Pág 34
MEDIDAS DE
TENDENCIA
CENTRAL
Los valores se
concentran
alrededor de 16
MEDIDAS DE APUNTAMIENTO
Como el valor de g2 < 0 Platicúrtica
Como el valor de g2 > 0 Asimétrica Positiva
Se puede observar como los resultados de las medidas se
visualizan en el comportamiento de su gráfica, se nota que
existe una marcada dispersión de los datos. Además que la
concentración de la zona central es baja por eso es Platicúrtica y
la distribución se alarga a la derecha siendo Asimétrica Positiva
35. Paginas relacionadas con el manejo de EXCEL para
calculo de medidas de tendencia central y de dispersión para datos no
agrupados:
https://www.youtube.com/watch?v=b5eNyENGRw4
https://www.youtube.com/watch?v=11HQTBspowo
https://www.youtube.com/watch?v=Qbwr3-GkTng
LVLG-sept2020 Pág 35
Paginas relacionadas con el manejo de EXCEL para
calculo de medidas de tendencia central para datos agrupados:
https://www.youtube.com/watch?v=Hu1U4SrZ4FQ
Recomendación de videos