UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA
VICE-RECTORADO ACADÉMICO
COORDINACIÓN GENERAL DE PREGRADO
PROYECTO DE CARRERA: CIENCIAS FISCALES
ASIGNATURA: ESTADISTICA Y PROBABILIDAD
SEMESTRE: II
SECCIÓN I
MEDIDAS DE TENDENCIA CENTRAL, MEDIDAS DE POSICIÓN Y
DISPERSIÓN
FACILITADOR (A):
LCD. Francis Tenia
RESPONSABLE:
Br. De Caires José CI: V-28.273.184
Caicara del Orino, 04 Octubre 2020
MEDIDAS DE TENDENCIA CENTRAL
Son parámetros estadísticos que informan sobre el centro de la distribución de
la muestra o población estadística. Corresponden a valores que generalmente se
ubican en la parte central de un conjunto de datos. Las medidas estadísticas pretenden
"resumir" la información de la "muestra" para poder tener así un mejor conocimiento
de la Población. Ellas permiten analizar los datos en torno a un valor central. Entre
éstas están la media aritmética, la moda y la mediana y ayudan a entender cómo se
comportan los datos, siempre y cuando su distribución sea relativamente normal, es
decir, que los datos que más se repiten estén más al centro. Si los graficáramos según
su frecuencia, se verían más o menos como en la imagen.
Entre las medidas de tendencia central podemos encontrarnos con las siguientes:
La Media (Promedio):
Es el valor promedio de un conjunto de datos numéricos, calculada como la suma
del conjunto de valores dividida entre el número total de valores, es decir, en pocas
palabras se suman todos los datos y se divide entre el número de datos.
Es una medida matemática, un número individual que representa razonablemente
el comportamiento de todos los datos.
Para datos no agrupados X = S xi / n
𝐗̅ =
∑ 𝑿 𝒊
𝐍
Para datos agrupados X = S fi.Xi / S fi
𝐗̅ =
∑ 𝑿𝒊.𝒇𝒊
∑ 𝒇𝒊
Donde (Xi) es la marca de clase para cada intervalo y (fi) es la frecuencia de clase.
No es indispensable acomodar los datos en orden para calcularla, pero si se hace,
puede multiplicarse cada dato por su frecuencia, para hacer más rápido la suma.
Los datos recabados como cera no modifican la suma, pero sí cuentan para
determinar el número entre el que se divide, por lo que sí modifican el promedio.
La media se puede considerar el centro de gravedad de toda la distribución, pues
en ella se representa todos los valores observados. La media puede servir para
representar un conjunto de datos. Por ejemplo, si en un grupo las personas tienen una
estatura cuya media es de 1.50 n, representa la estatura de todos, aunque puede no ser
la estatura de ninguna en particular.
Conocer la media de un grupo es bueno para saber si un dato está por encima o por
debajo de ella y qué tanto. Por ejemplo, con el dato de que la media de estatura de un
niño de 2 años es 88 cm, podemos saber si nuestro hijo de esa edad está muy por
debajo o muy por arriba de esa medida y pensar si es necesario consultar al pediatra a
ese respecto. También facilita la comparación de dos grupos mediante un solo datos.
Si la altura promedio de los hombres de 15 años es mayor que la altura promedio de
las mujeres de 15 años, se puede conjeturar a partir de solo esos dos datos que, los
hombres de 15 años son más altos que las mujeres de esa edad.
¿Cómo calcular la media aritmética en tablas de frecuencias para datos no
agrupados en intervalos?
Ejemplo: En estos casos, tenemos un número más alto de datos no agrupados y
además, estos datos pueden repetirse.
Podríamos calcular la media sumando todos los valores y dividiendo entre el
número total, pero sería una operación muy larga.
En su lugar, construimos una tabla de frecuencias con los datos, donde añadiremos
una columna para multiplicar cada valor por su frecuencia absoluta.
La media será la suma de cada dato por su frecuencia absoluta, dividida entre el
número de datos:
𝐗̅ =
∑ 𝑿𝒊.𝒇𝒊
∑ 𝒇𝒊
Vamos a verlo más despacio:
Tenemos los siguientes datos no agrupados y nos piden calcular la media aritmética:
1 1 3 3 1
4 5 5 2 4
2 3 2 4 2
Colocamos los datos en la primera columna de la tabla de frecuencias ordenadamente
de menor a mayor y su frecuencia absoluta en la segunda columna:
Datos
Xi
Frecuencia absoluta
𝒇𝒊
1 3
2 4
3 3
4 3
5 2
Total: 15
Ahora añadimos una tercera columna, donde iremos añadiendo la multiplicación de
cada dato por su frecuencia absoluta:
Datos
Xi
Frecuencia absoluta
fi xi.fi
1 3
2 4
3 3
4 3
5 2
Total: 15
Datos
Xi
Frecuencia absoluta
fi xi.fi
1 3 3
2 4 8
3 3 9
4 3 12
5 2 10
Total: 15 42
Una vez tenemos esta tabla, aplicamos la fórmula de la media aritmética:
X̅ =
𝑓1. 𝑥1 + 𝑓2. 𝑥2 + 𝑓3. 𝑥3…..
n
Donde el numerador es igual a la suma de cada elemento por su frecuencia, que es
42 y lo tenemos calculado en la última fila de la tercera columna y el denominador en
la suma de las frecuencias absolutas, calculada en la última fila de la segunda
columna y que es igual a 15:
X̅ =
∑ 𝑋𝑖
𝑛
= 𝑋̅ =
3 + 8 + 9 + 12 + 10
15
=
42
15
= 2,8
¿Cómo calcular la media aritmética para datos agrupados en intervalos?
Ejemplo: Cuando tengamos variables de tipo continuo, expresadas en intervalos, la
media aritmética también la calcularemos con la siguiente fórmula:
X̅ =
𝑓1. 𝑥1 + 𝑓2. 𝑥2 + 𝑓3. 𝑥3…..
n
Pero en este caso, la X corresponde a la marca de clase de cada intervalo, es decir, al
punto medio de cada intervalo.
Vamos a verlo con un ejemplo:
Tenemos los siguientes datos y nos piden calcular la media aritmética:
Analicemos las notas que obtuvo un alumno hasta el 4to año. ¿Cuál es su promedio
de notas en esta presentación de datos continuos?
6,4 6,2 8,4 7,5 9,4
9,9 6,1 7,1 6,8 7,3
6,8 7,1 8,2 8,1 7,2
8,4 8,3 7,4 7,1 6,8
Ordenamos los datos:
6.1 6.2 6.4 6.8 6.8
6.8 7.1 7.1 7.1 7.2
7.3 7.4 7.5 8.1 8.2
8.3 8.4 8.4 9.4 9.9
Construimos la tabla de frecuencias, en la primera columna colocamos los intervalos
y en la segunda columna (xi) primero vamos a buscar el ancho de clase de la
siguiente manera:
Hallar el Rango:
Valor máximo-Valor mínimo
9.9-6.1= 3.8≃ 4
Hallar en número de intervalos:
K= 1+3,33.log (n)
K= log (20).3, 33+1= 5.3
Hallar la amplitud o ancho de clase:
𝐶 =
𝑅
𝐾
𝐶 =
4
5,3
= 0.75 ≃ 0.8
Intervalos
Marca de clase
Xi
[6.1-6.9) 6.5
[6.9-7.7)
[7.7-8.5)
[8.5-9.3)
[9.3-10.1)
La marca de clase de cada intervalo la obtenemos calculando su punto medio,
dividiendo entre 2 la suma del límite inferior más límite superior:
𝑿𝒊 =
𝑳𝒊𝒎𝒊𝒏𝒇 + 𝑳𝒊𝒎 𝒔𝒖𝒑
𝟐
Por ejemplo, para el primer intervalo sería:
𝑿𝒊 =
𝟔. 𝟏 + 𝟔. 𝟗
𝟐
= 𝟔. 𝟓
Haciendo lo mismo para el resto de intervalos, la tabla nos queda:
Intervalos
Marca de clase
xi
[6.1-6.9) 6.5
[6.9-7.7) 7.3
[7.7-8.5) 8.1
[8.5-9.3) 8.9
[9.3-10.1) 9.7
Seguidamente colocamos otra columna con los valores que pertenecen a cada
intervalo para obtener su frecuencia absoluta. La última fila la dejamos para la suma
total:
Intervalos
Marca de clase
xi
Frecuencia
absoluta
fi
[6.1-6.9) 6.5 6
[6.9-7.7) 7.3 7
[7.7-8.5) 8.1 5
[8.5-9.3) 8.9 1
[9.3-10.1) 9.7 2
Total: 20
Ahora, añadimos otra columna más, en la que multiplicaremos la marca de clase (xi)
de cada intervalo por su frecuencia absoluta:
Intervalos
Marca de clase
xi
Frecuencia
absoluta
fi xi.fi
[6.1-6.9) 6.5 6
[6.9-7.7) 7.3 7
[7.7-8.5) 8.1 5
[8.5-9.3) 8.9 1
[9.3-10.1) 9.7 2
Total: 20
Añadimos el resultado de cada multiplicación en su fila correspondiente y en la
última fila realizamos la suma de toda la columna:
Intervalos
Marca de clase
xi
Frecuencia
absoluta
fi xi.fi
[6.1-6.9) 6.5 6 39
[6.9-7.7) 7.3 7 51.1
[7.7-8.5) 8.1 5 40.5
[8.5-9.3) 8.9 1 8.9
[9.3-10.1) 9.7 2 19.4
Total: 20 158.9
Ahora ya podemos aplicar la fórmula de la media aritmética:
X̅ =
𝑓1. 𝑥1 + 𝑓2. 𝑥2 + 𝑓3. 𝑥3…..
n
X̅ =
39 + 51.1 + 40.5 + 8.9 + 19.4
20
Donde el numerador es igual a la suma de cada marca de clase por su frecuencia,
que es 158,9, calculado en la última fila de la cuarta columna y el denominador es
la suma de las frecuencias absolutas, calculada en la última fila de la tercera columna
y que es igual a 20:
X̅ =
158,9
20
= 7,94
Es decir, el promedio de notas del alumno es de 7,94
La Mediana (Me):
La segunda medida de tendencia central que analizaremos es la mediana, en
ocasiones se le llama media posicional, porque queda exactamente en la mitad de un
grupo de datos, luego de que los datos se han colocado de forma ordenada. En este
caso la mitad (50%) de los datos estará por encima de la mediana y la otra mitad
(50%) estará por debajo de ella. La mediana es el valor intermedio cuando los valores
de los datos se han ordenado. La mediana de un conjunto ordenado de menor a
mayor de datos, es el valor que está en el medio, es decir, tiene los mismos datos
delante que detrás. Si el número de datos es par y por tanto, no hay ningún valor que
se quede en el medio, la mediana se le asigna el valor medio de los dos datos
centrales. Es el valor (único) que ocupa el propio centro de dichos datos.
Según el número de valores que se tengan se pueden presentar dos casos:
 Si el número de valores es impar: la Mediana corresponderá al valor central
de dicho conjunto de datos. Si N es impar, la mediana ocupa la posición
(n +1) / 2 de los datos. Ejemplo:
Se tienen los siguientes datos: 5, 4, 8, 10, 9, 1, 2. Total de datos: n=7
(n+1)
2
Sustituimos los valores:
(7 + 1)
2
= 4
Al ordenarlos en forma creciente, es decir de menor a mayor, se tiene:
1, 2, 4, 5, 8, 9, 10
→
1,2,4
𝟓
←
8,9,10
El 5 corresponde a la Media, porque es el valor central en este conjunto de
datos impares.
 Si el número de valores es par: la Mediana corresponderá al Promedio de
los dos valores centrales (los valores centrales se suman y se dividen por 2), sí
N es par, entonces la mediana se encuentra entre los datos que ocupan las
posiciones (n/2) y (n +1)/2. Ejemplo:
El siguiente conjunto de datos está ordenado en forma decreciente, de mayor a
menor, y corresponde a un conjunto de valores pares, por lo tanto, la Mediana
será el promedio de los valores centrales:
21 19 18 15 13 11 10 9 5 3
Total de datos: n= 10
n
2
=
10
2
= 5
21 19 18 15 13 11 10 9 5 3
1 2 3 4 5 5 4 3 2 1
Mediana =
13+11
=
24
= 12
2 2
¿Cómo calcular la mediana en tablas de frecuencias?
Si tenemos muchos valores, la mediana la obtenemos ordenando los datos
previamente en una tabla de frecuencias, utilizando la columna de frecuencia absoluta
acumulada.
Ejemplo: Los siguientes datos corresponden a preguntarle a un grupo de 180
estudiantes cuantas horas al día navegan por internet:
5 5 2 5 1 1 1 1 1 3 2 4 5 5 5
5 4 4 3 3 2 2 1 1 3 1 0 3 1 1
1 0 0 3 2 4 3 4 5 5 3 4 4 2 2
2 2 2 3 3 1 4 2 1 2 3 4 5 5 4
3 2 1 0 0 0 0 0 4 3 3 3 1 1 2
3 4 3 4 5 4 3 2 1 2 3 4 5 4 0
3 2 1 2 5 1 2 1 2 3 3 4 4 5 5
3 4 2 3 1 2 1 3 2 4 3 5 3 4 2
3 1 5 1 4 2 3 3 1 3 3 1 4 5 1
2 1 3 2 5 3 4 0 2 4 3 5 2 3 3
2 2 3 1 5 4 2 3 1 3 2 4 3 5 2
4 1 2 1 2 3 2 4 2 4 2 4 2 5 3
Ordenamos los datos de menor a mayor:
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 5 5 5 5 5 5 5 5 5
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Buscamos el ancho de clase:
Hallar el Rango:
R= Valor máximo-Valor mínimo
R= 5-0= 5
Hallar en número de intervalos:
K= 1+3,33.log (n)
K= log (180).3, 33+1= 8,5 ≃ 9
Hallar la amplitud o ancho de clase:
𝑪 =
𝑹
𝑲
𝑪 =
𝟓
𝟗
= 𝟎. 𝟓𝟓 ≃ 𝟏
Calculamos la frecuencia absoluta que son los números de datos que se repiten:
Tiempo en hora
(Intervalo o Clase)
Cantidad de
estudiantes
(fi)
[0-1) 10
[1-2) 32
[2-3) 40
[3-4) 43
[4-5) 31
[5-6) 24
Total: 180
Seguidamente calculamos la marca de clase (xi) con la fórmula:
𝑿𝒊 =
𝑳𝒊𝒎𝒊𝒏𝒇 + 𝑳𝒊𝒎 𝒔𝒖𝒑
𝟐
Tiempo en hora
(Intervalo o Clase)
Marca de clase
xi
Cantidad de
estudiantes
(fi)
[0-1) 0,5 10
[1-2) 1,5 32
[2-3) 2,5 40
[3-4) 3,4 43
[4-5) 4,5 31
[5-6) 5,5 24
Total: 180
Posteriormente para poder calcular la Mediana necesitamos calcular la frecuencia
absoluta acumulada (Fi) que consiste en sumar la frecuencia absoluta:
Tiempo en hora
(Intervalo o Clase)
Marca de clase
xi
Cantidad de
estudiantes
(fi) (Fi)
[0-1) 0,5 10 10
[1-2) 1,5 32 42
[2-3) 2,5 40 82
[3-4) 3,4 43 125
[4-5) 4,5 31 156
[5-6) 5,5 24 180
Total: 180
Para saber en qué posición debe caer la clase mediana, dividimos el número total de
elementos entre 2:
𝒏
𝟐
=
𝟏𝟖𝟎
𝟐
= 𝟗𝟎
La mediana es el valor, cuya frecuencia absoluta acumulada esté inmediatamente
por encima a la mitad del número de datos.
La mitad del número de datos es 90. El valor que tiene una frecuencia absoluta
acumulada inmediatamente por encima es el [3-4), que tiene una frecuencia absoluta
acumulada de 125. Por lo tanto la clase mediana es de 3-4 horas, es decir, los
estudiantes se conectan de 3 a 4 horas en internet por día.
Pero no obstante a eso buscamos el tiempo exacto de los estudiantes que navegan
en internet, para conseguirlo tenemos que calcular de la clase mediana “la mediana”
es decir entre [3-4) horas. Y hay una fórmula para calcularla que es la siguiente:
𝑴𝒆𝒅 = 𝑳𝒊𝒏𝒇 + 𝑨.
𝑵
𝟐
− 𝑭𝒊 − 𝟏
𝒇𝒊
𝐋𝐢𝐧𝐟 Límite inferior de la clase que contiene la mediana
A Ancho de clase
𝐧
𝟐
Intervalo que contiene la mediana
Fi-1
Frecuencia absoluta acumulada anterior al intervalo que tiene la
mediana
fi Frecuencia absoluta del intervalo que contiene la mediana
Sustituimos los valores:
1.-
180
2
= 90
2.- 𝑀𝑒𝑑 = 3 + 1. [
90−82
43
]
3.- Med= 3 + 1.
8
43
4.- Med= 3 +
8
43
5.- Med= 3 + 0,186
6.- Med= 3,18 Según el resultado obtenido de la Media, los alumnos se conectan
aproximadamente 3 horas con y 18 minutos por días.
La Moda:
La moda es el dato que más se repite o el dato que ocurre con mayor frecuencia.
Un grupo de datos puede no tener moda, tener una moda (unimodal), dos modas
(bimodal) o más de dos modas (multimodal).
De lo anterior se infiere que en una muestra para que haya moda, tiene que existir
por lo menos un dato que se repita una cantidad de veces mayor que la que aparecen
los demás. Por tanto, en una muestra la moda puede o no existir, y si existe puede ser
única o no. Se puede calcular para cualquier escala de medición de la variable que se
estudia. Para denotar la moda de una variable X, se usará la notación Mo.
Por ejemplo, la moda se utiliza para indicar el número más frecuente de veces que
un árbitro muestra tarjeta amarilla a un jugador en un partido de voleibol para
penalizar sus faltas, para indicar la nota más frecuente que un grupo de alumnos
obtuvo en la prueba de Matemática, para identificar el horario preferido por los
pobladores de una ciudad en una encuesta sobre el tránsito de una línea de ómnibus.
Otro ejemplo, ¿cuál es la moda de la siguiente tabla de salarios?
Trabajador Salario
1 Bs 1.250
2 Bs 1.250
3 Bs 854
4 Bs 550
5 Bs 1.536
6 Bs 1.536
7 Bs 1.621
8 Bs 978
9 Bs 1.250
10 Bs 768
La moda sería 1.250Bs. Si vemos los salarios de los 10 trabajadores, veríamos que
1.250Bs se repite en tres ocasiones.
Ejemplo: Determinar la moda en el siguiente conjunto de datos que corresponden a
las edades de niñas de un Jardín Infantil:
5 7 3 3 7 8 3 5 9 5 3 4 3
La edad que más se repite es 3, por lo tanto, la Moda es 3 (Mo= 3)
Ejemplo:
20 12 14 23 78 56 96
En este conjunto de datos no existe ningún valor que se repita, por lo tanto, este
conjunto de valores no tiene Moda.
Veamos los siguientes ejemplos:
a) Se tiene una muestra con valores 20, 23, 24, 25, 25, 26 y 30.
Mo = 25 es unimodal
b) Se tiene una muestra con valores 20, 20, 23, 24, 25, 25, 26 y 30.
Mo= 20 y 25, se dice que es bimodal.
c) Se tiene una muestra con valores 20, 23, 24, 25, 25, 26, 30 y 30.
Mo= 20, 25 y 30, se dice que es multimodal.
¿Cómo calcular la Moda en una tabla de distribución de frecuencia?
A continuación tenemos una tabla de distribución de frecuencia que contiene el
número de horas trabajas por 130 empleados de una empresa. Para ello solo
necesitaremos la expresión de frecuencia absoluta (fi).
La fórmula:
𝑀𝑜 = 𝐿𝑖𝑚𝑖𝑛𝑓 +
𝐶. ( 𝑓𝑖 − 𝑓𝑖−1)
( 𝑓𝑖 − 𝑓𝑖−1) + ( 𝑓𝑖 − 𝑓𝑖+1)
Entonces la Moda es igual al límite inferior del
intervalo modal el cual necesitamos encontrar cuál es
ese intervalo modal y se consigue de la siguiente
manera; tienes que mirar la columna de la frecuencia
absoluta (fi) y en ella buscas aquella frecuencia que
es mayor, el cual podrás aprecias que la mayor
frecuencia absoluta es 50, por lo tanto ese será
nuestro intervalo, es decir, aquel que posee mayor
frecuencia.
Entonces el intervalo modal para el ejemplo es: [70-75)
Seguidamente se sustituyen los valores de la fórmula:
Horas
(Intervalo o Clase) fi
[55-60) 5
[60-65) 18
[65-70) 20
[70-75) 50
[75-80) 17
[80-85) 16
[85-90) 4
130
Horas
(Intervalo o Clase) fi
[55-60) 5
[60-65) 18
[65-70) 20
[70-75) 50
[75-80) 17
[80-85) 16
[85-90) 4
130
𝐋𝐢𝐦 𝐢𝐧𝐟 = 𝟕𝟎 Límite inferior del intervalo modal
C= 5 Ancho de clase
𝒇𝒊 = 𝟓𝟎 Frecuencia absoluta que posee el intervalo modal
𝒇𝒊−𝟏 = 𝟐𝟎 Frecuencia absoluta anterior a la frecuencia
absoluta del intervalo modal
𝒇𝒊+𝟏 = 𝟏𝟕 Frecuencia absoluta después de la frecuencia
absoluta del intervalo modal
𝑴𝒐 = 𝟕𝟎 +
𝟓. (𝟓𝟎 − 𝟐𝟎)
( 𝟓𝟎 − 𝟐𝟎) + ( 𝟓𝟎 − 𝟏𝟕)
𝑴𝒐 = 𝟕𝟎 +
𝟓. ( 𝟑𝟎)
𝟑𝟎 + 𝟑𝟑
𝑴𝒐 = 𝟕𝟎 +
𝟏𝟓𝟎
𝟔𝟑
𝐌𝐨 = 𝟕𝟎 + 𝟐, 𝟑𝟖
𝐌𝐨 = 𝟕𝟐, 𝟑𝟖
El número de horas trabajadas con más frecuencia
por los trabajadores fue de 72,38.
MEDIDAS DE POSICIÓN (Cuantiles)
Las medidas o índices de posición, también llamados cuantiles, informan acerca
de la posición relativa de un sujeto con respecto a su grupo de referencia, dentro de la
distribución de frecuencias de la variable. Para ello debemos dividir la distribución en
un número de partes o secciones iguales entre sí en cuanto al número de
observaciones. Los cuantiles son los valores de la distribución que la dividen en
partes iguales, es decir, en intervalos que comprenden el mismo número de valores.
Cuando la distribución contiene un número alto de intervalos o de marcas de clases y
se requiere obtener un promedio de una parte de ella, se puede dividir la distribución
en cuatro, en diez o en cien partes.
Las medidas de posición son indicadores estadísticos que muestran la frecuencia
acumulada hasta un valor k cualquiera. Nos dividen el conjunto de datos en k partes,
donde en cada parte hay el mismo número de elementos.
Si por ejemplo:
Tenemos diez datos (N=10), y si queremos hacer cuatro partes (k=4), necesitamos
tres marcas ( 𝑸 𝟏, 𝑸 𝟐 𝒚 𝑸 𝟑)
Cuando k=4, se llaman CUARTILES; cuando k=10, DECILES; y cuando k=100,
PERCENTILES
Trataremos tres medidas de posición o cuantiles: los cuartiles, los deciles y los
percentiles.
Los cuartiles
Son medidas posicionales que dividen la distribución de frecuencia en cuatro
partes iguales. Los tres cuartiles suelen designarse con los símbolos:
𝑸 𝟏, 𝑸 𝟐 𝒚 𝑸 𝟑 Determinan los valores correspondientes al 25%, al 50% y al 75% de
los datos. 𝑸 𝟐 Coincide con la mediana.
Los cuartiles son tres que dividen a la muestra en 4 partes iguales, el cuartil
inferior o primer cuartil 𝑸 𝟏 cuyo valor de X es mayor de que ¼ de las mediciones, y
menor que los ¾, el segundo cuartil es la mediana 𝑸 𝟐 y el tercer superior o cuartil 3
𝑸 𝟑 es aquel valor de X que es mayor a los ¾ de las mediciones y menor que el ¼
restante. Representación gráfica a continuación:
El cuartil uno 𝑸 𝟏 está representado por aquellos valores menores al 25% de la
medida y mayores que el 75%.
El cuartil dos 𝑸 𝟐 coincide con la mediana, ya que es el centro de la muestra,
entonces son aquellos valores menores al 50% y mayores al 50%.
El cuartil tres 𝑸 𝟑 está representado por aquellas observaciones menores al 75% y
mayores al 25% restante.
Como se calculan los cuartiles:
Para datos simples:
Sean las siguientes notas de un grupo de estudiantes ordenadas de mayor a menor:
10 12 14 15 15 15 16 17 18
1 2 3 4 5 6 7 8 9
Total de Datos: 9
Determinamos la posición del cuartil (1.2 y 3) mediante la fórmula siguiente tomando
en cuenta si los datos son pares o impares:
𝑸 𝒌 =
𝒌.𝑵
𝟒
(Para datos pares)
𝑸 𝒌 =
𝒌.(𝑵+𝟏)
𝟒
(Para datos impares)
Dónde: k = Cuartil
N = Cantidad de datos
Con los datos anteriores podemos determinar el cuartil 1
𝑸 𝟏 =
𝟏.(𝟗+𝟏)
𝟒
𝑸 𝟏 =
𝟏.(𝟏𝟎)
𝟒
𝑸 𝟏 =
𝟏𝟎
𝟒
𝑸 𝟏 = 𝟐, 𝟓 ≃ 𝟑
El resultado obtenido es la cantidad de estudiantes ubicados en el primer cuartil,
tenemos que las notas que se ubican en la posición 3 es hasta 14 puntos.
Interpretación: El 25% de los estudiantes, tienen notas menores o iguales a 14
puntos, y el 75% mayor a 14 puntos.
75%
25%
Para datos no agrupados:
Tenemos las siguientes notas de estadística de un grupo de estudiantes:
Xi fi Fi
02 2 2
03 2 4
04 3 7
05 2 9
06 1 10
07 3 13
08 1 14
09 2 16
10 2 18
11 3 21
12 1 22
13 5 27
14 2 29
15 1 30
17 1 31
18 1 32
19 1 33
20 1 34
Total:34
Determinar la posición del cuartil (1,2 o 3) mediante la fórmula:
1.-Posición: 𝑸 𝒌 =
𝒌.∑ 𝐟𝐢
𝟒
Datos no agrupados: (Números de datos pares)
2-.Posición: 𝑸 𝒌 =
𝒌.∑(𝐟𝐢+𝟏)
𝟒
Datos no agrupados: (Números de datos impares)
3.-Posición: 𝑸 𝒌 = 𝑳𝒊+
(
𝒌.∑ 𝐟𝐢
𝟒
−𝑭𝒊−𝟏).𝑰𝑪
𝐟𝐢
Datos agrupados: (Números de datos
pares)
4.-Posición: 𝑸 𝒌 = 𝑳𝒊+
(
𝒌.∑(𝐟𝐢+𝟏)
𝟒
−𝑭𝒊−𝟏).𝑰𝑪
𝐟𝐢
Datos agrupados: (Números de
datos impares)
Dónde: 𝑳𝒊= Límite inferior de la posición, calculado de la siguiente forma:
( 𝑿 𝒊+𝑿 𝒊)
𝟐
C = Intervalo o ancho de clase
𝑭𝒊 − 𝟏= Frecuencia absoluta anterior
𝒇𝒊 = Frecuencia absoluta de la posición
Con la tabla anterior determinar el cuartil 1:
1.-Primero ubicamos la posición del cuartil en la tabla con la siguiente fórmula
porque el total de datos es par:
𝑸 𝒌 =
𝒌.𝑵
𝟒
–> 𝑸 𝟏 =
𝟏.𝟑𝟒
𝟒
–> 𝑸 𝟏 =
𝟑𝟒
𝟒
–> 𝑸 𝟏 = 𝟖, 𝟓
:
La posición 8,5 está en la cuarta fila de la frecuencia
absoluta acumulada, es decir entre (7 y 9) tomando en
cuenta esta, procedemos a calcular el cuartil 1 con la
siguiente fórmula para datos pares:
𝑸 𝒌 = 𝑳𝒊+
(
𝒌. ∑ 𝐟𝐢
𝟒
− 𝑭𝒊 − 𝟏) . 𝑰𝑪
𝐟𝐢
𝑸 𝒌 = 𝟒, 𝟓 +
( 𝟖, 𝟓 − 𝟕). 𝟏
𝟐
𝑸 𝒌 = 𝟒, 𝟓 +
( 𝟏, 𝟓). 𝟏
𝟐
𝑸 𝒌 = 𝟒, 𝟓 +
𝟏, 𝟓
𝟐
𝑸 𝒌 = 𝟒, 𝟓 + 𝟎, 𝟕𝟓
𝑸 𝒌 = 𝟓, 𝟐𝟓 ≃ 𝟓
Ubicamos los valores
𝑳𝒊= Entre 04-05 de la posición en Xi:
𝑳 𝒔𝒖𝒑+𝑳𝒊𝒏𝒇
𝟐
=
𝟎𝟓+𝟎𝟒
𝟐
=
𝟗
𝟐
= 𝟒. 𝟓
𝒌.∑ 𝐟𝐢
𝟒
=Es la posición ya encontrada
𝑭 𝒊−𝟏 = 7 Está antes de 8,5 (posición)
𝒇𝒊 = 2 Está en la frecuencia absoluta
𝑰𝑪 = ( 𝑋𝑖 − 𝑋𝑖) = 05 − 04 = 1
Interpretación: El25% de los estudiantes tiene una nota menor
e igual a 5 puntos. El otro 75% mayor a 5 puntos.
Los Deciles
Los deciles son medidas de posición que dividen la distribución de frecuencia en
diez partes iguales y estas van de desde el número uno hasta el número nueve.
Ciertos números dividen la sucesión de datos ordenados en diez partes
porcentualmente iguales. Son también un caso particular de los percentiles. Los
deciles se denotan y se leen:
𝑫 𝟏: Primer decil
𝑫 𝟐 : Segundo decil
𝑫 𝟑: Tercer decil
𝑫 𝟒..., 𝑫 𝟗
Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los
datos.
𝑫 𝟓 Coincide con la mediana.
El primer decil, deja por debajo de sí al 10% de los datos, el segundo el 20% y así
hasta el 90%; pudiendo emplear nuevamente los percentiles correspondientes para su
cálculo. Representación gráfica de los deciles:
Como se calculan los deciles:
Sean las siguientes notas:
Para datos Simples:
𝑫 𝒌 =
𝒌.(𝐍+𝟏)
𝟏𝟎
Cálculo del primer decil:
𝑫 𝟏 =
𝟏.(𝟐𝟓+𝟏)
𝟏𝟎
=
𝟏.𝟐𝟔
𝟏𝟎
=
𝟐𝟔
𝟏𝟎
= 𝟐. 𝟔
El 10% de las notas son menores e iguales a 09, y el 90% mayor a 9.
Total de datos:
N= 25
𝐃 𝟏 𝐃 𝟐 𝐃 𝟑 𝐃 𝟒 𝐃 𝟓 𝐃 𝟔 𝐃 𝟕 𝐃 𝟖 𝐃 𝟗
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Cálculo del segundo decil:
𝑫 𝟐 =
𝟐.(𝟐𝟓+𝟏)
𝟏𝟎
=
𝟐.𝟐𝟔
𝟏𝟎
=
𝟓𝟐
𝟏𝟎
= 𝟓. 𝟐
Cálculo del tercer decil:
𝑫 𝟑 =
𝟑.(𝟐𝟓+𝟏)
𝟏𝟎
=
𝟑.𝟐𝟔
𝟏𝟎
=
𝟕𝟖
𝟏𝟎
= 𝟕. 𝟖
Las formulas son las misma que la del cuartil, lo único que cambia es el 4 por el
10, puesto que el decil divide los datos por 10 y el cuartil por 4.
Los Percentiles
Un percentil es una de las llamadas medidas de posición no central (cuartiles,
deciles, quintiles, percentiles, etc.) que se puede describir como una forma de
comparación de resultados, por ello es un concepto ampliamente utilizado en campos
como la estadística o el análisis de datos. El percentil es un número de 0 a 100 que
está muy relacionado con el porcentaje pero que no es el porcentaje en sí. Para un
conjunto de datos, el percentil para un valor dado indica el porcentaje de datos que
son igual o menores que dicho valor; en otras palabras, nos dice dónde se posiciona
una muestra respecto al total. Los deciles se denotan y se leen:
𝑷 𝟏: Primer Percentil
𝑷 𝟐 : Segundo Percentil
𝑷 𝟑𝟑: Percentil 33
𝑷 𝟔𝟔..., 𝑷 𝟗𝟗
Los percentiles son los 99 valores que dividen la serie de datos en 100 partes
iguales.
Los percentiles dan los valores correspondientes al 1%, al 2%, 3%, 15%, 25%,
67%... y al 99% de los datos.
𝑷 𝟓𝟎 Coincide con la mediana.
Como se calculan los percentiles:
Datos simples:
𝑷 𝒌 =
𝒌. (𝐍 + 𝟏)
𝟏𝟎𝟎
𝑷 𝟏 =
𝟏.(𝟗+𝟏)
𝟏𝟎𝟎
=
𝟏.𝟏𝟎
𝟏𝟎𝟎
=
𝟏𝟎
𝟏𝟎𝟎
= 𝟎. 𝟏
𝑷 𝟒𝟒 =
𝟒𝟒.(𝟗+𝟏)
𝟏𝟎𝟎
=
𝟒𝟒.𝟏𝟎
𝟏𝟎𝟎
=
𝟒𝟒𝟎
𝟏𝟎𝟎
= 𝟒. 𝟒
𝑷 𝟓𝟎 =
𝟓𝟎.(𝟗+𝟏)
𝟏𝟎𝟎
=
𝟓𝟎.𝟏𝟎
𝟏𝟎𝟎
=
𝟓𝟎𝟎
𝟏𝟎𝟎
= 𝟓
𝑷 𝟗𝟗 =
𝟗𝟗.(𝟗+𝟏)
𝟏𝟎𝟎
=
𝟗𝟗.𝟏𝟎
𝟏𝟎𝟎
=
𝟗𝟗𝟎
𝟏𝟎𝟎
= 𝟗. 𝟗
El cálculo de los percentiles es igual al de los cuartiles y los deciles, la diferencia
es que estos dividen los datos en 100 partes iguales.
MEDIDAS DE DISPERSIÓN
Son medidas que indican la dispersión y la variabilidad de los datos, son
parámetros estadísticos que indica cómo se alejan los datos según las medidas
aritméticas. Nos informan cómo se alejan del centro de la media, cuando los datos
están más cercas tienen más similitud.
Rango
Mide la dispersión de la totalidad de los datos. Es la más obvia de las mediadas ya
que es la distancia entre los valores máximo y mínimo. El rango o recorrido da alguna
idea del grado de variación que ocurre en la población, pero con frecuencia los
resultados pueden ser engañosos, pues este depende de los valores extremos e ignora
la variación de las demás observaciones. Está afectado por ocurrencias raras o
extraordinarias.
Para datos finitos o sin agrupar, el rango se define como la diferencia entre el valor
más alto y el más bajo en un conjunto de datos.
𝑿𝒊 = 𝐃𝐚𝐭𝐨
𝐑 = ( 𝐗 𝐢 𝐦á𝐱 − 𝐗 𝐢 𝐦í𝐧)
Dónde:
R: es el rango.
Máx: es el valor máximo de la muestra o población.
Mín: es el valor mínimo de la muestra o población estadística.
X: es la variable sobre la que se pretende calcular esta medida.
Cuanto más pequeño sea el rango menor dispersión
Ejemplo: En la tabla están una
cantidad de datos ya ordenados de
mayor a menor, el primer dato (08) el
Valor mínimo y el último dato (20)
es el Valor máximo.
Ejemplo de rango en estadística: Supongamos que tenemos una empresa que
produce microchips para luego venderlos a las principales marcas de computadoras.
Esta empresa encarga a un economista que realice un estudio sobre la evolución de
las ventas (últimos 4 años) para, posteriormente, ofrecer consejos que mejoren los
resultados empresariales. Entre otras muchas métricas, se pide que se calcule el rango
de producción de microchips. A continuación se muestra la siguiente tabla de datos:
Mese
Producciones
(Xi)
1 44.347
2 12.445
3 26.880
10 23.336
15 10.124
18 15.480
24 21.562
25 11.625
29 39.496
30 39.402
32 49.079
35 44.315
36 29.264
38 10.090
40 35.264
41 10.128
43 43.520
45 26.360
46 19.534
48 30.755
El mes que más microchips produjo la empresa (MÁXIMO) fue
el mes 32 con 49.079 microchips producidos. Por su parte, el
momento que menos microchips produjo tuvo lugar en el mes
38 con 10.124 microchips producidos. Por tanto, el rango
estadístico que es la diferencia (49.079-10.124) se sitúa en
38.955.
¿Cómo se interpreta esto? Esto quiere decir, que durante los
últimos 4 años la variación máxima que ha habido ha sido de
38.955 microchips producidos. Gráficamente podemos verlo del
siguiente modo:
Desviación Media:
La desviación Media o Desviación absoluta promedio, es la media aritmética de
las desviaciones absolutas de cada una de las variables con respecto a su valor central,
la media aritmética, o la mediana. Cuanto mayor es su valor, mayor es la dispersión
de los datos. Cuanta más alta sea una medida de dispersión, menos representativa será
la medida de centralización. La desviación media se representa por: 𝐷 𝑋̅ 𝑜 𝐷 𝑚
La desviación respecto a la media es la diferencia entre cada valor de la variable
estadística y la media aritmética. La desviación media es la media aritmética de
los valores absolutos de las desviaciones respecto a la media. Su formulación
matemática es la siguiente:
Sean los datos: 𝑋1, 𝑋2, 𝑋3, 𝑋,4,….., 𝑋 𝑛; relativos a una muestra, entonces, la desviación
media está dado por:
Para datos no agrupados:
𝐷 𝑚 =
∑[ 𝑋𝑖−𝑋̅]
N
Desglosamos la fórmula para entenderla mejor:
Entonces:
𝐷 𝑚 =
[ 𝑋1−𝑋̅]+[ 𝑋2−𝑋̅]+[ 𝑋3−𝑋̅]+⋯..+[ 𝑋 𝑛−𝑋̅]
N
Ejemplo: Halle las Desviación Media de los pesos de 8 niños (en Kg):
15 12 10 18 14 22 17 20
Solución:
Determinamos la media: 𝑿̅ =
𝟏𝟓+𝟏𝟐+𝟏𝟎+𝟏𝟒+𝟐𝟐+𝟏𝟕+𝟐𝟎
𝟖
=
𝟏𝟐𝟖
𝟖
= 𝟏𝟔
𝑫 𝒎 =
[ 𝟏𝟓 − 𝟏𝟔] + [ 𝟏𝟐 − 𝟏𝟔] + [ 𝟏𝟎 + 𝟏𝟔] + [ 𝟏𝟒 − 𝟏𝟔] + [ 𝟐𝟐 − 𝟏𝟔] + [ 𝟏𝟕 − 𝟏𝟔] + [ 𝟐𝟎 − 𝟏𝟔]
𝟖
Total de datos: N= 8
∑ = Sumatoria
𝑿𝒊= Datos
𝑿̅= Media aritmética de los datos
N= Total de los datos.
𝑫 𝒎 =
(−𝟏)+(−𝟒)+(−𝟔)+( 𝟐)+(−𝟐)+( 𝟔)+( 𝟏)+( 𝟒)
𝟖
Los valores negativos cambian a positivo
𝑫 𝒎 =
𝟏+𝟒+𝟔+𝟐+𝟔+𝟏+𝟒
𝟖
=
𝟐𝟔
𝟖
= 𝟑, 𝟐𝟓
Para datos agrupados:
𝐷 𝑚 =
∑[ 𝑋𝑖 − 𝑋̅]. 𝑓𝑖
N
Desglosamos la fórmula para entender la mejor:
Entonces:
𝐷 𝑚 =
[ 𝑋1−𝑋̅].𝑓1+[ 𝑋2−𝑋̅].𝑓2+[ 𝑋3−𝑋̅].𝑓3+⋯..+[ 𝑋 𝑛−𝑋̅].𝑓𝑛
N
Ejemplo: Calcular la Desviación Media de la distribución
Clase o Intervalos 𝑿𝒊 𝒇𝒊 𝑿𝒊. 𝒇𝒊 𝑿𝒊 − 𝑿̅ [ 𝑿𝒊 − 𝑿̅]. 𝒇𝒊
[10-15) 12.5 3 37.5 12.7 38.1
[15-20) 17.5 5 87.5 7.7 38.5
[20-25) 22.5 7 157.5 2.7 18.9
[25-30) 27.5 4 110 2.3 9.2
[30-35) 32.5 2 65 7.3 14.6
[35-40) 37.5 6 225 12.3 73.8
∑ 𝐓𝐨𝐭𝐚𝐥: 27 682.5 193.1
𝑿̅ =
∑ 𝑿 𝒊.𝒇𝒊
𝑵
𝑿̅ =
𝟔𝟖𝟐.𝟓
𝟐𝟕
= 𝟐𝟓. 𝟐
∑ = Sumatoria
𝑿𝒊= Marca de Clase
𝑿̅= Media aritmética de los datos
𝑓𝑖= Frecuencia absoluta
N= Total de los datos.
𝐷 𝑚 =
∑[ 𝑋𝑖−𝑋̅].𝑓𝑖
N
Entonces el resultado sería:
𝑫 𝒎 =
𝟏𝟗𝟑.𝟏
𝟐𝟕
= 𝟕. 𝟏𝟓
Varianza
La varianza es la media aritmética de las desviaciones al cuadrado. La varianza se
define como el cociente entre la suma de los cuadrados de las desviaciones de los
valores de la variable y el número de datos del estudio. E s una medida de dispersión
que representa la variabilidad de una serie de datos respecto a su media, es decir, es la
media de la distancia entre los datos y la media. Se representa con:
𝑺 𝟐
Para la muestra
Para datos no agrupados:
𝑺 𝟐
=
∑( 𝑿𝒊 − 𝑿̅) 𝟐
𝑵 − 𝟏
Desglosamos la fórmula para entender la mejor:
Entonces:
𝑺 𝟐
=
∑( 𝑿 𝟏−𝑿̅) 𝟐+( 𝑿 𝟐−𝑿̅) 𝟐+( 𝑿 𝟑−𝑿̅) 𝟐+⋯+( 𝑿 𝒏−𝑿̅) 𝟐
𝑵−𝟏
Ejemplo: Calcular la varianza de la distribución:
Solución:
Determinamos la media: 𝑿̅ =
𝟗+𝟑+𝟖+𝟖+𝟗+𝟖+𝟗+𝟏𝟖
𝟖
=
𝟕𝟐
𝟖
= 𝟗
𝑺 𝟐
=
( 𝟗 − 𝟗) 𝟐
+ ( 𝟑 − 𝟗) 𝟐
+ ( 𝟖 − 𝟗) 𝟐
+ ( 𝟖 − 𝟗) 𝟐
+ ( 𝟗 − 𝟗) 𝟐
+( 𝟖 − 𝟗) 𝟐
+ ( 𝟗 − 𝟗) 𝟐
+ ( 𝟏𝟖 − 𝟗) 𝟐
𝟖 − 𝟏
𝑺 𝟐
=
( 𝟎) 𝟐+(−𝟔) 𝟐+(−𝟏) 𝟐+(−𝟏) 𝟐+( 𝟎) 𝟐+(−𝟏) 𝟐+( 𝟎) 𝟐+( 𝟗) 𝟐
𝟖−𝟏
Los valores negativos cambian a
positivo
𝑺 𝟐
=
( 𝟎) 𝟐
+( 𝟔) 𝟐
+( 𝟏) 𝟐
+( 𝟏) 𝟐
+( 𝟎) 𝟐
+( 𝟏) 𝟐
+( 𝟎) 𝟐
+( 𝟗) 𝟐
𝟖−𝟏
Calculamos la raíz cuadrada de cada dato
𝑺 𝟐
=
𝟑𝟔+𝟏+𝟏+𝟏+𝟖𝟏
𝟕
9 3 8 8 9 8 9 18
∑ = Sumatoria
𝑿𝒊= Datos
𝑿̅= Media aritmética de los datos
N= Total de los datos.
Total de datos: N= 8
𝑺 𝟐 =
𝟏𝟐𝟎
𝟕
𝑺 𝟐 = 𝟏𝟕. 𝟏𝟒𝟐𝟖
Para datos agrupados
𝑺 𝟐
=
∑( 𝑿𝒊 − 𝑿̅) 𝟐
. 𝒇𝒊
𝑵 − 𝟏
Desglosamos la fórmula para entender la mejor:
Entonces:
𝐒 𝟐 =
∑( 𝐗 𝟏 − 𝐗̅) 𝟐.𝐟𝟏+( 𝐗 𝟐 − 𝐗̅) 𝟐. 𝐟𝟐 + ( 𝐗 𝟑 − 𝐗̅) 𝟐. 𝐟𝟑 + ⋯+ ( 𝐗 𝐧 − 𝐗̅) 𝟐. 𝐟𝐧
𝐍 − 𝟏
Ejemplo: Calcular la varianza de la distribución de la tabla:
𝑿̅ =
∑ 𝑿 𝒊.𝒇𝒊
𝑵
𝑿̅ =
𝟔𝟖𝟐.𝟓
𝟐𝟕
= 𝟐𝟓. 𝟐
Clase o Intervalos 𝑿𝒊 𝒇𝒊 𝑿𝒊. 𝒇𝒊 𝑿𝒊 − 𝑿̅ [ 𝑿𝒊 − 𝑿̅]. 𝒇𝒊 [ 𝑿𝒊 − 𝑿̅] 𝟐 [ 𝑿𝒊 − 𝑿̅] 𝟐
. 𝒇𝒊
[10-15) 12.5 3 37.5 12.7 38.1 161.29 483.87
[15-20) 17.5 5 87.5 7.7 38.5 59.29 296.46
[20-25) 22.5 7 157.5 2.7 18.9 7.29 37.03
[25-30) 27.5 4 110 2.3 9.2 5.29 21.16
[30-35) 32.5 2 65 7.3 14.6 53.29 106.58
[35-40) 37.5 6 225 12.3 73.8 151.29 907.74
∑ 𝐓𝐨𝐭𝐚𝐥: 27 682.5 193.1 1.852.84
∑ = Sumatoria
𝑿𝒊= Marca de Clase
𝑿̅= Media aritmética de los datos
𝑓𝑖= Frecuencia absoluta
N= Total de los datos.
𝑺 𝟐
=
∑( 𝑿 𝒊−𝑿̅) 𝟐.𝒇𝒊
𝑵−𝟏
𝑺 𝟐
=
𝟏.𝟖𝟓𝟐.𝟖𝟒
𝟐𝟕−𝟏
𝑺 𝟐
=
𝟏.𝟖𝟓𝟐.𝟖𝟒
𝟐𝟔
𝑺 𝟐
= 𝟕. 𝟏𝟐𝟔. 𝟑𝟎𝟕𝟔𝟗𝟐
Desviación Estándar o Típica
La desviación típica es la raíz cuadrada de la varianza La desviación estándar
o desviación típica es una medida que ofrece información sobre la dispersión media
de una variable. La desviación estándar es siempre mayor o igual que cero. Es
simplemente la raíz cuadrada positiva de la varianza. Observad que la varianza se
calcula en unidades que son los cuadrados de las unidades de los datos originales. Por
tanto, tomando la raíz cuadrada de la varianza para obtener la desviación estándar, la
medida de extensión vuelve a las unidades originales. La desviación estándar nos
permite determinar, con un buen grado de precisión, dónde están localizados los
valores de una distribución de frecuencias con relación a la media. La desviación
típica se denota con la letra: S sin elevación al cuadrado.
Para datos no agrupados:
(Utilizando el ejemplo anterior)
𝑺 = √
∑( 𝑿 𝒊−𝑿̅) 𝟐
𝑵−𝟏
Desglosamos la fórmula para entender la mejor:
Entonces:
𝑺 = √
∑( 𝑿 𝟏−𝑿̅) 𝟐+( 𝑿 𝟐−𝑿̅) 𝟐+( 𝑿 𝟑−𝑿̅) 𝟐+⋯+( 𝑿 𝒏−𝑿̅) 𝟐
𝑵−𝟏
Ejemplo: Calcular la varianza de la distribución:
Solución:
Determinamos la media: 𝑿̅ =
𝟗+𝟑+𝟖+𝟖+𝟗+𝟖+𝟗+𝟏𝟖
𝟖
=
𝟕𝟐
𝟖
= 𝟗
𝑺 = √
( 𝟗−𝟗) 𝟐+( 𝟑−𝟗) 𝟐+( 𝟖−𝟗) 𝟐+( 𝟖−𝟗) 𝟐+( 𝟗−𝟗) 𝟐+( 𝟖−𝟗) 𝟐+( 𝟗−𝟗) 𝟐+( 𝟏𝟖−𝟗) 𝟐
𝟖−𝟏
9 3 8 8 9 8 9 18
∑ = Sumatoria
𝑿𝒊= Datos
𝑿̅= Media aritmética de los datos
N= Total de los datos.
Total de datos: N= 8
𝑺 = √
( 𝟎) 𝟐+(−𝟔) 𝟐+(−𝟏) 𝟐+(−𝟏) 𝟐+( 𝟎) 𝟐+(−𝟏) 𝟐+( 𝟎) 𝟐+( 𝟗) 𝟐
𝟖−𝟏
Los valores negativos cambian a
positivo
𝑺 = √
( 𝟎) 𝟐+( 𝟔) 𝟐+( 𝟏) 𝟐+( 𝟏) 𝟐+( 𝟎) 𝟐+( 𝟏) 𝟐+( 𝟎) 𝟐+( 𝟗) 𝟐
𝟖−𝟏
𝑺 = √
𝟑𝟔+𝟏+𝟏+𝟏+𝟖𝟏
𝟕
𝑺 = √
𝟏𝟐𝟎
𝟕
= 𝑺 = √ 𝟏𝟕. 𝟏𝟒𝟐𝟖 = 𝟑. 𝟕𝟔𝟎𝟔
RESUMEN: La desviación típica es totalmente lo mismo a la varianza, la
diferencia es que la desviación típica se calcula en base a la raíz cuadrada. Tanto
en datos agrupados y no agrupados se calculan de la misma manera, ya que la
desviación típica es el resultado final de la varianza al cuadrado.
La relación de la desviación estándar con la varianza
En definitiva la varianza no es más que la desviación estándar al cuadrado. O lo
que viene a ser lo mismo, la desviación típica es la raíz cuadrada de la varianza. Se
relacionan de la siguiente forma:
Tras esta imagen, queda claro que toda la
fórmula que está dentro de la raíz cuadrada
es la varianza. La razón por la que es
necesario entender que esa parte se conoce
como varianza es que se utiliza en otras
fórmulas para calcular otras medidas. Así
pues aunque la desviación típica sea más
intuitiva para interpretar resultados, es
imperativo cómo se calcula la varianza.
Coeficiente de Variación
Las medidas de dispersión anteriores son todas medidas de variación absolutas.
Una medida de dispersión relativa de los datos, que toma en cuenta su magnitud, está
dada por el coeficiente de variación. El coeficiente de variación es una medida
relativa de dispersión que expresa a la desviación estándar como un porcentaje de la
media. Su cálculo se obtiene al dividir la desviación típica entre el valor absoluto de
la media del conjunto y por lo general se expresa en porcentaje para su mejor
comprensión. Se lo utiliza en la comparación de variación de dos o más grupos, su
fórmula es:
𝑪𝑽 =
𝑺
𝑿̅
. ( 𝟏𝟎𝟎%)
Ejemplo: Se pretende comparar el desempeño en ventas de 3 vendedores. Los
resultados siguientes dan los promedios de puntajes obtenidos en los cinco años
pasados por la concreción de los objetivos.
𝐗̅ 𝐀 = 𝟖𝟖
𝐗̅ 𝐁 = 𝟖𝟑, 𝟖
𝐗̅ 𝐂 = 𝟏𝟎𝟒, 𝟐
𝑺 𝑨 = 𝟏𝟐, 𝟔𝟕
𝑺 𝑩 = 𝟔, 𝟎𝟐
𝑺 𝑪 = 𝟏𝟔, 𝟑𝟓
𝐀 − 𝑪𝑽 =
𝟏𝟐. 𝟔𝟕
𝟖𝟖
. 𝟏𝟎𝟎% = 𝟏𝟒, 𝟒%
𝐁 − 𝑪𝑽 =
𝟔, 𝟎𝟐
𝟖𝟖
. 𝟏𝟎𝟎% = 𝟕, 𝟏𝟖%
𝐂 − 𝑪𝑽 =
𝟏𝟐. 𝟔𝟕
𝟖𝟖
. 𝟏𝟎𝟎% = 𝟏𝟓, 𝟔𝟗%
Vemos que el vendedor C tiene la mayor variabilidad,
mientras que el B tiene la menor. El desempeño de C
parece ser mejor si analizamos la media, pero hay que
tener en cuenta que también tiene la mayor variabilidad
en la concreción de los objetivos.

Medidas de tedencia_central_posicion_y_dispersion.pdf

  • 1.
    UNIVERSIDAD NACIONAL EXPERIMENTALDE GUAYANA VICE-RECTORADO ACADÉMICO COORDINACIÓN GENERAL DE PREGRADO PROYECTO DE CARRERA: CIENCIAS FISCALES ASIGNATURA: ESTADISTICA Y PROBABILIDAD SEMESTRE: II SECCIÓN I MEDIDAS DE TENDENCIA CENTRAL, MEDIDAS DE POSICIÓN Y DISPERSIÓN FACILITADOR (A): LCD. Francis Tenia RESPONSABLE: Br. De Caires José CI: V-28.273.184 Caicara del Orino, 04 Octubre 2020
  • 2.
    MEDIDAS DE TENDENCIACENTRAL Son parámetros estadísticos que informan sobre el centro de la distribución de la muestra o población estadística. Corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos. Las medidas estadísticas pretenden "resumir" la información de la "muestra" para poder tener así un mejor conocimiento de la Población. Ellas permiten analizar los datos en torno a un valor central. Entre éstas están la media aritmética, la moda y la mediana y ayudan a entender cómo se comportan los datos, siempre y cuando su distribución sea relativamente normal, es decir, que los datos que más se repiten estén más al centro. Si los graficáramos según su frecuencia, se verían más o menos como en la imagen. Entre las medidas de tendencia central podemos encontrarnos con las siguientes: La Media (Promedio): Es el valor promedio de un conjunto de datos numéricos, calculada como la suma del conjunto de valores dividida entre el número total de valores, es decir, en pocas palabras se suman todos los datos y se divide entre el número de datos. Es una medida matemática, un número individual que representa razonablemente el comportamiento de todos los datos. Para datos no agrupados X = S xi / n 𝐗̅ = ∑ 𝑿 𝒊 𝐍 Para datos agrupados X = S fi.Xi / S fi 𝐗̅ = ∑ 𝑿𝒊.𝒇𝒊 ∑ 𝒇𝒊
  • 3.
    Donde (Xi) esla marca de clase para cada intervalo y (fi) es la frecuencia de clase. No es indispensable acomodar los datos en orden para calcularla, pero si se hace, puede multiplicarse cada dato por su frecuencia, para hacer más rápido la suma. Los datos recabados como cera no modifican la suma, pero sí cuentan para determinar el número entre el que se divide, por lo que sí modifican el promedio. La media se puede considerar el centro de gravedad de toda la distribución, pues en ella se representa todos los valores observados. La media puede servir para representar un conjunto de datos. Por ejemplo, si en un grupo las personas tienen una estatura cuya media es de 1.50 n, representa la estatura de todos, aunque puede no ser la estatura de ninguna en particular. Conocer la media de un grupo es bueno para saber si un dato está por encima o por debajo de ella y qué tanto. Por ejemplo, con el dato de que la media de estatura de un niño de 2 años es 88 cm, podemos saber si nuestro hijo de esa edad está muy por debajo o muy por arriba de esa medida y pensar si es necesario consultar al pediatra a ese respecto. También facilita la comparación de dos grupos mediante un solo datos. Si la altura promedio de los hombres de 15 años es mayor que la altura promedio de las mujeres de 15 años, se puede conjeturar a partir de solo esos dos datos que, los hombres de 15 años son más altos que las mujeres de esa edad. ¿Cómo calcular la media aritmética en tablas de frecuencias para datos no agrupados en intervalos? Ejemplo: En estos casos, tenemos un número más alto de datos no agrupados y además, estos datos pueden repetirse. Podríamos calcular la media sumando todos los valores y dividiendo entre el número total, pero sería una operación muy larga. En su lugar, construimos una tabla de frecuencias con los datos, donde añadiremos una columna para multiplicar cada valor por su frecuencia absoluta.
  • 4.
    La media serála suma de cada dato por su frecuencia absoluta, dividida entre el número de datos: 𝐗̅ = ∑ 𝑿𝒊.𝒇𝒊 ∑ 𝒇𝒊 Vamos a verlo más despacio: Tenemos los siguientes datos no agrupados y nos piden calcular la media aritmética: 1 1 3 3 1 4 5 5 2 4 2 3 2 4 2 Colocamos los datos en la primera columna de la tabla de frecuencias ordenadamente de menor a mayor y su frecuencia absoluta en la segunda columna: Datos Xi Frecuencia absoluta 𝒇𝒊 1 3 2 4 3 3 4 3 5 2 Total: 15 Ahora añadimos una tercera columna, donde iremos añadiendo la multiplicación de cada dato por su frecuencia absoluta: Datos Xi Frecuencia absoluta fi xi.fi 1 3 2 4 3 3 4 3
  • 5.
    5 2 Total: 15 Datos Xi Frecuenciaabsoluta fi xi.fi 1 3 3 2 4 8 3 3 9 4 3 12 5 2 10 Total: 15 42 Una vez tenemos esta tabla, aplicamos la fórmula de la media aritmética: X̅ = 𝑓1. 𝑥1 + 𝑓2. 𝑥2 + 𝑓3. 𝑥3….. n Donde el numerador es igual a la suma de cada elemento por su frecuencia, que es 42 y lo tenemos calculado en la última fila de la tercera columna y el denominador en la suma de las frecuencias absolutas, calculada en la última fila de la segunda columna y que es igual a 15: X̅ = ∑ 𝑋𝑖 𝑛 = 𝑋̅ = 3 + 8 + 9 + 12 + 10 15 = 42 15 = 2,8 ¿Cómo calcular la media aritmética para datos agrupados en intervalos? Ejemplo: Cuando tengamos variables de tipo continuo, expresadas en intervalos, la media aritmética también la calcularemos con la siguiente fórmula: X̅ = 𝑓1. 𝑥1 + 𝑓2. 𝑥2 + 𝑓3. 𝑥3….. n Pero en este caso, la X corresponde a la marca de clase de cada intervalo, es decir, al punto medio de cada intervalo.
  • 6.
    Vamos a verlocon un ejemplo: Tenemos los siguientes datos y nos piden calcular la media aritmética: Analicemos las notas que obtuvo un alumno hasta el 4to año. ¿Cuál es su promedio de notas en esta presentación de datos continuos? 6,4 6,2 8,4 7,5 9,4 9,9 6,1 7,1 6,8 7,3 6,8 7,1 8,2 8,1 7,2 8,4 8,3 7,4 7,1 6,8 Ordenamos los datos: 6.1 6.2 6.4 6.8 6.8 6.8 7.1 7.1 7.1 7.2 7.3 7.4 7.5 8.1 8.2 8.3 8.4 8.4 9.4 9.9
  • 7.
    Construimos la tablade frecuencias, en la primera columna colocamos los intervalos y en la segunda columna (xi) primero vamos a buscar el ancho de clase de la siguiente manera: Hallar el Rango: Valor máximo-Valor mínimo 9.9-6.1= 3.8≃ 4 Hallar en número de intervalos: K= 1+3,33.log (n) K= log (20).3, 33+1= 5.3 Hallar la amplitud o ancho de clase: 𝐶 = 𝑅 𝐾 𝐶 = 4 5,3 = 0.75 ≃ 0.8 Intervalos Marca de clase Xi [6.1-6.9) 6.5 [6.9-7.7) [7.7-8.5) [8.5-9.3) [9.3-10.1) La marca de clase de cada intervalo la obtenemos calculando su punto medio, dividiendo entre 2 la suma del límite inferior más límite superior: 𝑿𝒊 = 𝑳𝒊𝒎𝒊𝒏𝒇 + 𝑳𝒊𝒎 𝒔𝒖𝒑 𝟐 Por ejemplo, para el primer intervalo sería:
  • 8.
    𝑿𝒊 = 𝟔. 𝟏+ 𝟔. 𝟗 𝟐 = 𝟔. 𝟓 Haciendo lo mismo para el resto de intervalos, la tabla nos queda: Intervalos Marca de clase xi [6.1-6.9) 6.5 [6.9-7.7) 7.3 [7.7-8.5) 8.1 [8.5-9.3) 8.9 [9.3-10.1) 9.7 Seguidamente colocamos otra columna con los valores que pertenecen a cada intervalo para obtener su frecuencia absoluta. La última fila la dejamos para la suma total: Intervalos Marca de clase xi Frecuencia absoluta fi [6.1-6.9) 6.5 6 [6.9-7.7) 7.3 7 [7.7-8.5) 8.1 5 [8.5-9.3) 8.9 1 [9.3-10.1) 9.7 2 Total: 20 Ahora, añadimos otra columna más, en la que multiplicaremos la marca de clase (xi) de cada intervalo por su frecuencia absoluta: Intervalos Marca de clase xi Frecuencia absoluta fi xi.fi [6.1-6.9) 6.5 6 [6.9-7.7) 7.3 7
  • 9.
    [7.7-8.5) 8.1 5 [8.5-9.3)8.9 1 [9.3-10.1) 9.7 2 Total: 20 Añadimos el resultado de cada multiplicación en su fila correspondiente y en la última fila realizamos la suma de toda la columna: Intervalos Marca de clase xi Frecuencia absoluta fi xi.fi [6.1-6.9) 6.5 6 39 [6.9-7.7) 7.3 7 51.1 [7.7-8.5) 8.1 5 40.5 [8.5-9.3) 8.9 1 8.9 [9.3-10.1) 9.7 2 19.4 Total: 20 158.9 Ahora ya podemos aplicar la fórmula de la media aritmética: X̅ = 𝑓1. 𝑥1 + 𝑓2. 𝑥2 + 𝑓3. 𝑥3….. n X̅ = 39 + 51.1 + 40.5 + 8.9 + 19.4 20 Donde el numerador es igual a la suma de cada marca de clase por su frecuencia, que es 158,9, calculado en la última fila de la cuarta columna y el denominador es la suma de las frecuencias absolutas, calculada en la última fila de la tercera columna y que es igual a 20: X̅ = 158,9 20 = 7,94 Es decir, el promedio de notas del alumno es de 7,94
  • 10.
    La Mediana (Me): Lasegunda medida de tendencia central que analizaremos es la mediana, en ocasiones se le llama media posicional, porque queda exactamente en la mitad de un grupo de datos, luego de que los datos se han colocado de forma ordenada. En este caso la mitad (50%) de los datos estará por encima de la mediana y la otra mitad (50%) estará por debajo de ella. La mediana es el valor intermedio cuando los valores de los datos se han ordenado. La mediana de un conjunto ordenado de menor a mayor de datos, es el valor que está en el medio, es decir, tiene los mismos datos delante que detrás. Si el número de datos es par y por tanto, no hay ningún valor que se quede en el medio, la mediana se le asigna el valor medio de los dos datos centrales. Es el valor (único) que ocupa el propio centro de dichos datos. Según el número de valores que se tengan se pueden presentar dos casos:  Si el número de valores es impar: la Mediana corresponderá al valor central de dicho conjunto de datos. Si N es impar, la mediana ocupa la posición (n +1) / 2 de los datos. Ejemplo: Se tienen los siguientes datos: 5, 4, 8, 10, 9, 1, 2. Total de datos: n=7 (n+1) 2 Sustituimos los valores: (7 + 1) 2 = 4 Al ordenarlos en forma creciente, es decir de menor a mayor, se tiene: 1, 2, 4, 5, 8, 9, 10 → 1,2,4 𝟓 ← 8,9,10 El 5 corresponde a la Media, porque es el valor central en este conjunto de datos impares.  Si el número de valores es par: la Mediana corresponderá al Promedio de los dos valores centrales (los valores centrales se suman y se dividen por 2), sí N es par, entonces la mediana se encuentra entre los datos que ocupan las posiciones (n/2) y (n +1)/2. Ejemplo:
  • 11.
    El siguiente conjuntode datos está ordenado en forma decreciente, de mayor a menor, y corresponde a un conjunto de valores pares, por lo tanto, la Mediana será el promedio de los valores centrales: 21 19 18 15 13 11 10 9 5 3 Total de datos: n= 10 n 2 = 10 2 = 5 21 19 18 15 13 11 10 9 5 3 1 2 3 4 5 5 4 3 2 1 Mediana = 13+11 = 24 = 12 2 2 ¿Cómo calcular la mediana en tablas de frecuencias? Si tenemos muchos valores, la mediana la obtenemos ordenando los datos previamente en una tabla de frecuencias, utilizando la columna de frecuencia absoluta acumulada. Ejemplo: Los siguientes datos corresponden a preguntarle a un grupo de 180 estudiantes cuantas horas al día navegan por internet: 5 5 2 5 1 1 1 1 1 3 2 4 5 5 5 5 4 4 3 3 2 2 1 1 3 1 0 3 1 1 1 0 0 3 2 4 3 4 5 5 3 4 4 2 2 2 2 2 3 3 1 4 2 1 2 3 4 5 5 4 3 2 1 0 0 0 0 0 4 3 3 3 1 1 2 3 4 3 4 5 4 3 2 1 2 3 4 5 4 0 3 2 1 2 5 1 2 1 2 3 3 4 4 5 5 3 4 2 3 1 2 1 3 2 4 3 5 3 4 2
  • 12.
    3 1 51 4 2 3 3 1 3 3 1 4 5 1 2 1 3 2 5 3 4 0 2 4 3 5 2 3 3 2 2 3 1 5 4 2 3 1 3 2 4 3 5 2 4 1 2 1 2 3 2 4 2 4 2 4 2 5 3 Ordenamos los datos de menor a mayor: 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 Buscamos el ancho de clase: Hallar el Rango: R= Valor máximo-Valor mínimo R= 5-0= 5 Hallar en número de intervalos: K= 1+3,33.log (n) K= log (180).3, 33+1= 8,5 ≃ 9 Hallar la amplitud o ancho de clase: 𝑪 = 𝑹 𝑲
  • 13.
    𝑪 = 𝟓 𝟗 = 𝟎.𝟓𝟓 ≃ 𝟏 Calculamos la frecuencia absoluta que son los números de datos que se repiten: Tiempo en hora (Intervalo o Clase) Cantidad de estudiantes (fi) [0-1) 10 [1-2) 32 [2-3) 40 [3-4) 43 [4-5) 31 [5-6) 24 Total: 180 Seguidamente calculamos la marca de clase (xi) con la fórmula: 𝑿𝒊 = 𝑳𝒊𝒎𝒊𝒏𝒇 + 𝑳𝒊𝒎 𝒔𝒖𝒑 𝟐 Tiempo en hora (Intervalo o Clase) Marca de clase xi Cantidad de estudiantes (fi) [0-1) 0,5 10 [1-2) 1,5 32 [2-3) 2,5 40 [3-4) 3,4 43 [4-5) 4,5 31 [5-6) 5,5 24 Total: 180
  • 14.
    Posteriormente para podercalcular la Mediana necesitamos calcular la frecuencia absoluta acumulada (Fi) que consiste en sumar la frecuencia absoluta: Tiempo en hora (Intervalo o Clase) Marca de clase xi Cantidad de estudiantes (fi) (Fi) [0-1) 0,5 10 10 [1-2) 1,5 32 42 [2-3) 2,5 40 82 [3-4) 3,4 43 125 [4-5) 4,5 31 156 [5-6) 5,5 24 180 Total: 180 Para saber en qué posición debe caer la clase mediana, dividimos el número total de elementos entre 2: 𝒏 𝟐 = 𝟏𝟖𝟎 𝟐 = 𝟗𝟎 La mediana es el valor, cuya frecuencia absoluta acumulada esté inmediatamente por encima a la mitad del número de datos. La mitad del número de datos es 90. El valor que tiene una frecuencia absoluta acumulada inmediatamente por encima es el [3-4), que tiene una frecuencia absoluta acumulada de 125. Por lo tanto la clase mediana es de 3-4 horas, es decir, los estudiantes se conectan de 3 a 4 horas en internet por día. Pero no obstante a eso buscamos el tiempo exacto de los estudiantes que navegan en internet, para conseguirlo tenemos que calcular de la clase mediana “la mediana” es decir entre [3-4) horas. Y hay una fórmula para calcularla que es la siguiente:
  • 15.
    𝑴𝒆𝒅 = 𝑳𝒊𝒏𝒇+ 𝑨. 𝑵 𝟐 − 𝑭𝒊 − 𝟏 𝒇𝒊 𝐋𝐢𝐧𝐟 Límite inferior de la clase que contiene la mediana A Ancho de clase 𝐧 𝟐 Intervalo que contiene la mediana Fi-1 Frecuencia absoluta acumulada anterior al intervalo que tiene la mediana fi Frecuencia absoluta del intervalo que contiene la mediana Sustituimos los valores: 1.- 180 2 = 90 2.- 𝑀𝑒𝑑 = 3 + 1. [ 90−82 43 ] 3.- Med= 3 + 1. 8 43 4.- Med= 3 + 8 43 5.- Med= 3 + 0,186 6.- Med= 3,18 Según el resultado obtenido de la Media, los alumnos se conectan aproximadamente 3 horas con y 18 minutos por días. La Moda: La moda es el dato que más se repite o el dato que ocurre con mayor frecuencia. Un grupo de datos puede no tener moda, tener una moda (unimodal), dos modas (bimodal) o más de dos modas (multimodal). De lo anterior se infiere que en una muestra para que haya moda, tiene que existir por lo menos un dato que se repita una cantidad de veces mayor que la que aparecen los demás. Por tanto, en una muestra la moda puede o no existir, y si existe puede ser única o no. Se puede calcular para cualquier escala de medición de la variable que se estudia. Para denotar la moda de una variable X, se usará la notación Mo.
  • 16.
    Por ejemplo, lamoda se utiliza para indicar el número más frecuente de veces que un árbitro muestra tarjeta amarilla a un jugador en un partido de voleibol para penalizar sus faltas, para indicar la nota más frecuente que un grupo de alumnos obtuvo en la prueba de Matemática, para identificar el horario preferido por los pobladores de una ciudad en una encuesta sobre el tránsito de una línea de ómnibus. Otro ejemplo, ¿cuál es la moda de la siguiente tabla de salarios? Trabajador Salario 1 Bs 1.250 2 Bs 1.250 3 Bs 854 4 Bs 550 5 Bs 1.536 6 Bs 1.536 7 Bs 1.621 8 Bs 978 9 Bs 1.250 10 Bs 768 La moda sería 1.250Bs. Si vemos los salarios de los 10 trabajadores, veríamos que 1.250Bs se repite en tres ocasiones. Ejemplo: Determinar la moda en el siguiente conjunto de datos que corresponden a las edades de niñas de un Jardín Infantil: 5 7 3 3 7 8 3 5 9 5 3 4 3 La edad que más se repite es 3, por lo tanto, la Moda es 3 (Mo= 3) Ejemplo: 20 12 14 23 78 56 96 En este conjunto de datos no existe ningún valor que se repita, por lo tanto, este conjunto de valores no tiene Moda. Veamos los siguientes ejemplos: a) Se tiene una muestra con valores 20, 23, 24, 25, 25, 26 y 30. Mo = 25 es unimodal b) Se tiene una muestra con valores 20, 20, 23, 24, 25, 25, 26 y 30. Mo= 20 y 25, se dice que es bimodal. c) Se tiene una muestra con valores 20, 23, 24, 25, 25, 26, 30 y 30.
  • 17.
    Mo= 20, 25y 30, se dice que es multimodal. ¿Cómo calcular la Moda en una tabla de distribución de frecuencia? A continuación tenemos una tabla de distribución de frecuencia que contiene el número de horas trabajas por 130 empleados de una empresa. Para ello solo necesitaremos la expresión de frecuencia absoluta (fi). La fórmula: 𝑀𝑜 = 𝐿𝑖𝑚𝑖𝑛𝑓 + 𝐶. ( 𝑓𝑖 − 𝑓𝑖−1) ( 𝑓𝑖 − 𝑓𝑖−1) + ( 𝑓𝑖 − 𝑓𝑖+1) Entonces la Moda es igual al límite inferior del intervalo modal el cual necesitamos encontrar cuál es ese intervalo modal y se consigue de la siguiente manera; tienes que mirar la columna de la frecuencia absoluta (fi) y en ella buscas aquella frecuencia que es mayor, el cual podrás aprecias que la mayor frecuencia absoluta es 50, por lo tanto ese será nuestro intervalo, es decir, aquel que posee mayor frecuencia. Entonces el intervalo modal para el ejemplo es: [70-75) Seguidamente se sustituyen los valores de la fórmula: Horas (Intervalo o Clase) fi [55-60) 5 [60-65) 18 [65-70) 20 [70-75) 50 [75-80) 17 [80-85) 16 [85-90) 4 130 Horas (Intervalo o Clase) fi [55-60) 5 [60-65) 18 [65-70) 20 [70-75) 50 [75-80) 17 [80-85) 16 [85-90) 4 130 𝐋𝐢𝐦 𝐢𝐧𝐟 = 𝟕𝟎 Límite inferior del intervalo modal C= 5 Ancho de clase 𝒇𝒊 = 𝟓𝟎 Frecuencia absoluta que posee el intervalo modal 𝒇𝒊−𝟏 = 𝟐𝟎 Frecuencia absoluta anterior a la frecuencia absoluta del intervalo modal 𝒇𝒊+𝟏 = 𝟏𝟕 Frecuencia absoluta después de la frecuencia absoluta del intervalo modal 𝑴𝒐 = 𝟕𝟎 + 𝟓. (𝟓𝟎 − 𝟐𝟎) ( 𝟓𝟎 − 𝟐𝟎) + ( 𝟓𝟎 − 𝟏𝟕) 𝑴𝒐 = 𝟕𝟎 + 𝟓. ( 𝟑𝟎) 𝟑𝟎 + 𝟑𝟑 𝑴𝒐 = 𝟕𝟎 + 𝟏𝟓𝟎 𝟔𝟑 𝐌𝐨 = 𝟕𝟎 + 𝟐, 𝟑𝟖 𝐌𝐨 = 𝟕𝟐, 𝟑𝟖 El número de horas trabajadas con más frecuencia por los trabajadores fue de 72,38.
  • 18.
    MEDIDAS DE POSICIÓN(Cuantiles) Las medidas o índices de posición, también llamados cuantiles, informan acerca de la posición relativa de un sujeto con respecto a su grupo de referencia, dentro de la distribución de frecuencias de la variable. Para ello debemos dividir la distribución en un número de partes o secciones iguales entre sí en cuanto al número de observaciones. Los cuantiles son los valores de la distribución que la dividen en partes iguales, es decir, en intervalos que comprenden el mismo número de valores. Cuando la distribución contiene un número alto de intervalos o de marcas de clases y se requiere obtener un promedio de una parte de ella, se puede dividir la distribución en cuatro, en diez o en cien partes. Las medidas de posición son indicadores estadísticos que muestran la frecuencia acumulada hasta un valor k cualquiera. Nos dividen el conjunto de datos en k partes, donde en cada parte hay el mismo número de elementos. Si por ejemplo: Tenemos diez datos (N=10), y si queremos hacer cuatro partes (k=4), necesitamos tres marcas ( 𝑸 𝟏, 𝑸 𝟐 𝒚 𝑸 𝟑) Cuando k=4, se llaman CUARTILES; cuando k=10, DECILES; y cuando k=100, PERCENTILES Trataremos tres medidas de posición o cuantiles: los cuartiles, los deciles y los percentiles.
  • 19.
    Los cuartiles Son medidasposicionales que dividen la distribución de frecuencia en cuatro partes iguales. Los tres cuartiles suelen designarse con los símbolos: 𝑸 𝟏, 𝑸 𝟐 𝒚 𝑸 𝟑 Determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. 𝑸 𝟐 Coincide con la mediana. Los cuartiles son tres que dividen a la muestra en 4 partes iguales, el cuartil inferior o primer cuartil 𝑸 𝟏 cuyo valor de X es mayor de que ¼ de las mediciones, y menor que los ¾, el segundo cuartil es la mediana 𝑸 𝟐 y el tercer superior o cuartil 3 𝑸 𝟑 es aquel valor de X que es mayor a los ¾ de las mediciones y menor que el ¼ restante. Representación gráfica a continuación: El cuartil uno 𝑸 𝟏 está representado por aquellos valores menores al 25% de la medida y mayores que el 75%. El cuartil dos 𝑸 𝟐 coincide con la mediana, ya que es el centro de la muestra, entonces son aquellos valores menores al 50% y mayores al 50%. El cuartil tres 𝑸 𝟑 está representado por aquellas observaciones menores al 75% y mayores al 25% restante.
  • 20.
    Como se calculanlos cuartiles: Para datos simples: Sean las siguientes notas de un grupo de estudiantes ordenadas de mayor a menor: 10 12 14 15 15 15 16 17 18 1 2 3 4 5 6 7 8 9 Total de Datos: 9 Determinamos la posición del cuartil (1.2 y 3) mediante la fórmula siguiente tomando en cuenta si los datos son pares o impares: 𝑸 𝒌 = 𝒌.𝑵 𝟒 (Para datos pares) 𝑸 𝒌 = 𝒌.(𝑵+𝟏) 𝟒 (Para datos impares) Dónde: k = Cuartil N = Cantidad de datos Con los datos anteriores podemos determinar el cuartil 1 𝑸 𝟏 = 𝟏.(𝟗+𝟏) 𝟒 𝑸 𝟏 = 𝟏.(𝟏𝟎) 𝟒 𝑸 𝟏 = 𝟏𝟎 𝟒 𝑸 𝟏 = 𝟐, 𝟓 ≃ 𝟑 El resultado obtenido es la cantidad de estudiantes ubicados en el primer cuartil, tenemos que las notas que se ubican en la posición 3 es hasta 14 puntos. Interpretación: El 25% de los estudiantes, tienen notas menores o iguales a 14 puntos, y el 75% mayor a 14 puntos. 75% 25%
  • 21.
    Para datos noagrupados: Tenemos las siguientes notas de estadística de un grupo de estudiantes: Xi fi Fi 02 2 2 03 2 4 04 3 7 05 2 9 06 1 10 07 3 13 08 1 14 09 2 16 10 2 18 11 3 21 12 1 22 13 5 27 14 2 29 15 1 30 17 1 31 18 1 32 19 1 33 20 1 34 Total:34 Determinar la posición del cuartil (1,2 o 3) mediante la fórmula: 1.-Posición: 𝑸 𝒌 = 𝒌.∑ 𝐟𝐢 𝟒 Datos no agrupados: (Números de datos pares) 2-.Posición: 𝑸 𝒌 = 𝒌.∑(𝐟𝐢+𝟏) 𝟒 Datos no agrupados: (Números de datos impares) 3.-Posición: 𝑸 𝒌 = 𝑳𝒊+ ( 𝒌.∑ 𝐟𝐢 𝟒 −𝑭𝒊−𝟏).𝑰𝑪 𝐟𝐢 Datos agrupados: (Números de datos pares) 4.-Posición: 𝑸 𝒌 = 𝑳𝒊+ ( 𝒌.∑(𝐟𝐢+𝟏) 𝟒 −𝑭𝒊−𝟏).𝑰𝑪 𝐟𝐢 Datos agrupados: (Números de datos impares)
  • 22.
    Dónde: 𝑳𝒊= Límiteinferior de la posición, calculado de la siguiente forma: ( 𝑿 𝒊+𝑿 𝒊) 𝟐 C = Intervalo o ancho de clase 𝑭𝒊 − 𝟏= Frecuencia absoluta anterior 𝒇𝒊 = Frecuencia absoluta de la posición Con la tabla anterior determinar el cuartil 1: 1.-Primero ubicamos la posición del cuartil en la tabla con la siguiente fórmula porque el total de datos es par: 𝑸 𝒌 = 𝒌.𝑵 𝟒 –> 𝑸 𝟏 = 𝟏.𝟑𝟒 𝟒 –> 𝑸 𝟏 = 𝟑𝟒 𝟒 –> 𝑸 𝟏 = 𝟖, 𝟓 : La posición 8,5 está en la cuarta fila de la frecuencia absoluta acumulada, es decir entre (7 y 9) tomando en cuenta esta, procedemos a calcular el cuartil 1 con la siguiente fórmula para datos pares: 𝑸 𝒌 = 𝑳𝒊+ ( 𝒌. ∑ 𝐟𝐢 𝟒 − 𝑭𝒊 − 𝟏) . 𝑰𝑪 𝐟𝐢 𝑸 𝒌 = 𝟒, 𝟓 + ( 𝟖, 𝟓 − 𝟕). 𝟏 𝟐 𝑸 𝒌 = 𝟒, 𝟓 + ( 𝟏, 𝟓). 𝟏 𝟐 𝑸 𝒌 = 𝟒, 𝟓 + 𝟏, 𝟓 𝟐 𝑸 𝒌 = 𝟒, 𝟓 + 𝟎, 𝟕𝟓 𝑸 𝒌 = 𝟓, 𝟐𝟓 ≃ 𝟓 Ubicamos los valores 𝑳𝒊= Entre 04-05 de la posición en Xi: 𝑳 𝒔𝒖𝒑+𝑳𝒊𝒏𝒇 𝟐 = 𝟎𝟓+𝟎𝟒 𝟐 = 𝟗 𝟐 = 𝟒. 𝟓 𝒌.∑ 𝐟𝐢 𝟒 =Es la posición ya encontrada 𝑭 𝒊−𝟏 = 7 Está antes de 8,5 (posición) 𝒇𝒊 = 2 Está en la frecuencia absoluta 𝑰𝑪 = ( 𝑋𝑖 − 𝑋𝑖) = 05 − 04 = 1 Interpretación: El25% de los estudiantes tiene una nota menor e igual a 5 puntos. El otro 75% mayor a 5 puntos.
  • 23.
    Los Deciles Los decilesson medidas de posición que dividen la distribución de frecuencia en diez partes iguales y estas van de desde el número uno hasta el número nueve. Ciertos números dividen la sucesión de datos ordenados en diez partes porcentualmente iguales. Son también un caso particular de los percentiles. Los deciles se denotan y se leen: 𝑫 𝟏: Primer decil 𝑫 𝟐 : Segundo decil 𝑫 𝟑: Tercer decil 𝑫 𝟒..., 𝑫 𝟗 Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos. 𝑫 𝟓 Coincide con la mediana. El primer decil, deja por debajo de sí al 10% de los datos, el segundo el 20% y así hasta el 90%; pudiendo emplear nuevamente los percentiles correspondientes para su cálculo. Representación gráfica de los deciles: Como se calculan los deciles: Sean las siguientes notas: Para datos Simples: 𝑫 𝒌 = 𝒌.(𝐍+𝟏) 𝟏𝟎 Cálculo del primer decil: 𝑫 𝟏 = 𝟏.(𝟐𝟓+𝟏) 𝟏𝟎 = 𝟏.𝟐𝟔 𝟏𝟎 = 𝟐𝟔 𝟏𝟎 = 𝟐. 𝟔 El 10% de las notas son menores e iguales a 09, y el 90% mayor a 9. Total de datos: N= 25 𝐃 𝟏 𝐃 𝟐 𝐃 𝟑 𝐃 𝟒 𝐃 𝟓 𝐃 𝟔 𝐃 𝟕 𝐃 𝟖 𝐃 𝟗 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
  • 24.
    Cálculo del segundodecil: 𝑫 𝟐 = 𝟐.(𝟐𝟓+𝟏) 𝟏𝟎 = 𝟐.𝟐𝟔 𝟏𝟎 = 𝟓𝟐 𝟏𝟎 = 𝟓. 𝟐 Cálculo del tercer decil: 𝑫 𝟑 = 𝟑.(𝟐𝟓+𝟏) 𝟏𝟎 = 𝟑.𝟐𝟔 𝟏𝟎 = 𝟕𝟖 𝟏𝟎 = 𝟕. 𝟖 Las formulas son las misma que la del cuartil, lo único que cambia es el 4 por el 10, puesto que el decil divide los datos por 10 y el cuartil por 4. Los Percentiles Un percentil es una de las llamadas medidas de posición no central (cuartiles, deciles, quintiles, percentiles, etc.) que se puede describir como una forma de comparación de resultados, por ello es un concepto ampliamente utilizado en campos como la estadística o el análisis de datos. El percentil es un número de 0 a 100 que está muy relacionado con el porcentaje pero que no es el porcentaje en sí. Para un conjunto de datos, el percentil para un valor dado indica el porcentaje de datos que son igual o menores que dicho valor; en otras palabras, nos dice dónde se posiciona una muestra respecto al total. Los deciles se denotan y se leen: 𝑷 𝟏: Primer Percentil 𝑷 𝟐 : Segundo Percentil 𝑷 𝟑𝟑: Percentil 33 𝑷 𝟔𝟔..., 𝑷 𝟗𝟗 Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales. Los percentiles dan los valores correspondientes al 1%, al 2%, 3%, 15%, 25%, 67%... y al 99% de los datos. 𝑷 𝟓𝟎 Coincide con la mediana.
  • 25.
    Como se calculanlos percentiles: Datos simples: 𝑷 𝒌 = 𝒌. (𝐍 + 𝟏) 𝟏𝟎𝟎 𝑷 𝟏 = 𝟏.(𝟗+𝟏) 𝟏𝟎𝟎 = 𝟏.𝟏𝟎 𝟏𝟎𝟎 = 𝟏𝟎 𝟏𝟎𝟎 = 𝟎. 𝟏 𝑷 𝟒𝟒 = 𝟒𝟒.(𝟗+𝟏) 𝟏𝟎𝟎 = 𝟒𝟒.𝟏𝟎 𝟏𝟎𝟎 = 𝟒𝟒𝟎 𝟏𝟎𝟎 = 𝟒. 𝟒 𝑷 𝟓𝟎 = 𝟓𝟎.(𝟗+𝟏) 𝟏𝟎𝟎 = 𝟓𝟎.𝟏𝟎 𝟏𝟎𝟎 = 𝟓𝟎𝟎 𝟏𝟎𝟎 = 𝟓 𝑷 𝟗𝟗 = 𝟗𝟗.(𝟗+𝟏) 𝟏𝟎𝟎 = 𝟗𝟗.𝟏𝟎 𝟏𝟎𝟎 = 𝟗𝟗𝟎 𝟏𝟎𝟎 = 𝟗. 𝟗 El cálculo de los percentiles es igual al de los cuartiles y los deciles, la diferencia es que estos dividen los datos en 100 partes iguales.
  • 26.
    MEDIDAS DE DISPERSIÓN Sonmedidas que indican la dispersión y la variabilidad de los datos, son parámetros estadísticos que indica cómo se alejan los datos según las medidas aritméticas. Nos informan cómo se alejan del centro de la media, cuando los datos están más cercas tienen más similitud. Rango Mide la dispersión de la totalidad de los datos. Es la más obvia de las mediadas ya que es la distancia entre los valores máximo y mínimo. El rango o recorrido da alguna idea del grado de variación que ocurre en la población, pero con frecuencia los resultados pueden ser engañosos, pues este depende de los valores extremos e ignora la variación de las demás observaciones. Está afectado por ocurrencias raras o extraordinarias. Para datos finitos o sin agrupar, el rango se define como la diferencia entre el valor más alto y el más bajo en un conjunto de datos. 𝑿𝒊 = 𝐃𝐚𝐭𝐨 𝐑 = ( 𝐗 𝐢 𝐦á𝐱 − 𝐗 𝐢 𝐦í𝐧) Dónde: R: es el rango. Máx: es el valor máximo de la muestra o población. Mín: es el valor mínimo de la muestra o población estadística. X: es la variable sobre la que se pretende calcular esta medida. Cuanto más pequeño sea el rango menor dispersión Ejemplo: En la tabla están una cantidad de datos ya ordenados de mayor a menor, el primer dato (08) el Valor mínimo y el último dato (20) es el Valor máximo.
  • 27.
    Ejemplo de rangoen estadística: Supongamos que tenemos una empresa que produce microchips para luego venderlos a las principales marcas de computadoras. Esta empresa encarga a un economista que realice un estudio sobre la evolución de las ventas (últimos 4 años) para, posteriormente, ofrecer consejos que mejoren los resultados empresariales. Entre otras muchas métricas, se pide que se calcule el rango de producción de microchips. A continuación se muestra la siguiente tabla de datos: Mese Producciones (Xi) 1 44.347 2 12.445 3 26.880 10 23.336 15 10.124 18 15.480 24 21.562 25 11.625 29 39.496 30 39.402 32 49.079 35 44.315 36 29.264 38 10.090 40 35.264 41 10.128 43 43.520 45 26.360 46 19.534 48 30.755 El mes que más microchips produjo la empresa (MÁXIMO) fue el mes 32 con 49.079 microchips producidos. Por su parte, el momento que menos microchips produjo tuvo lugar en el mes 38 con 10.124 microchips producidos. Por tanto, el rango estadístico que es la diferencia (49.079-10.124) se sitúa en 38.955. ¿Cómo se interpreta esto? Esto quiere decir, que durante los últimos 4 años la variación máxima que ha habido ha sido de 38.955 microchips producidos. Gráficamente podemos verlo del siguiente modo:
  • 28.
    Desviación Media: La desviaciónMedia o Desviación absoluta promedio, es la media aritmética de las desviaciones absolutas de cada una de las variables con respecto a su valor central, la media aritmética, o la mediana. Cuanto mayor es su valor, mayor es la dispersión de los datos. Cuanta más alta sea una medida de dispersión, menos representativa será la medida de centralización. La desviación media se representa por: 𝐷 𝑋̅ 𝑜 𝐷 𝑚 La desviación respecto a la media es la diferencia entre cada valor de la variable estadística y la media aritmética. La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media. Su formulación matemática es la siguiente: Sean los datos: 𝑋1, 𝑋2, 𝑋3, 𝑋,4,….., 𝑋 𝑛; relativos a una muestra, entonces, la desviación media está dado por: Para datos no agrupados: 𝐷 𝑚 = ∑[ 𝑋𝑖−𝑋̅] N Desglosamos la fórmula para entenderla mejor: Entonces: 𝐷 𝑚 = [ 𝑋1−𝑋̅]+[ 𝑋2−𝑋̅]+[ 𝑋3−𝑋̅]+⋯..+[ 𝑋 𝑛−𝑋̅] N Ejemplo: Halle las Desviación Media de los pesos de 8 niños (en Kg): 15 12 10 18 14 22 17 20 Solución: Determinamos la media: 𝑿̅ = 𝟏𝟓+𝟏𝟐+𝟏𝟎+𝟏𝟒+𝟐𝟐+𝟏𝟕+𝟐𝟎 𝟖 = 𝟏𝟐𝟖 𝟖 = 𝟏𝟔 𝑫 𝒎 = [ 𝟏𝟓 − 𝟏𝟔] + [ 𝟏𝟐 − 𝟏𝟔] + [ 𝟏𝟎 + 𝟏𝟔] + [ 𝟏𝟒 − 𝟏𝟔] + [ 𝟐𝟐 − 𝟏𝟔] + [ 𝟏𝟕 − 𝟏𝟔] + [ 𝟐𝟎 − 𝟏𝟔] 𝟖 Total de datos: N= 8 ∑ = Sumatoria 𝑿𝒊= Datos 𝑿̅= Media aritmética de los datos N= Total de los datos.
  • 29.
    𝑫 𝒎 = (−𝟏)+(−𝟒)+(−𝟔)+(𝟐)+(−𝟐)+( 𝟔)+( 𝟏)+( 𝟒) 𝟖 Los valores negativos cambian a positivo 𝑫 𝒎 = 𝟏+𝟒+𝟔+𝟐+𝟔+𝟏+𝟒 𝟖 = 𝟐𝟔 𝟖 = 𝟑, 𝟐𝟓 Para datos agrupados: 𝐷 𝑚 = ∑[ 𝑋𝑖 − 𝑋̅]. 𝑓𝑖 N Desglosamos la fórmula para entender la mejor: Entonces: 𝐷 𝑚 = [ 𝑋1−𝑋̅].𝑓1+[ 𝑋2−𝑋̅].𝑓2+[ 𝑋3−𝑋̅].𝑓3+⋯..+[ 𝑋 𝑛−𝑋̅].𝑓𝑛 N Ejemplo: Calcular la Desviación Media de la distribución Clase o Intervalos 𝑿𝒊 𝒇𝒊 𝑿𝒊. 𝒇𝒊 𝑿𝒊 − 𝑿̅ [ 𝑿𝒊 − 𝑿̅]. 𝒇𝒊 [10-15) 12.5 3 37.5 12.7 38.1 [15-20) 17.5 5 87.5 7.7 38.5 [20-25) 22.5 7 157.5 2.7 18.9 [25-30) 27.5 4 110 2.3 9.2 [30-35) 32.5 2 65 7.3 14.6 [35-40) 37.5 6 225 12.3 73.8 ∑ 𝐓𝐨𝐭𝐚𝐥: 27 682.5 193.1 𝑿̅ = ∑ 𝑿 𝒊.𝒇𝒊 𝑵 𝑿̅ = 𝟔𝟖𝟐.𝟓 𝟐𝟕 = 𝟐𝟓. 𝟐 ∑ = Sumatoria 𝑿𝒊= Marca de Clase 𝑿̅= Media aritmética de los datos 𝑓𝑖= Frecuencia absoluta N= Total de los datos. 𝐷 𝑚 = ∑[ 𝑋𝑖−𝑋̅].𝑓𝑖 N Entonces el resultado sería: 𝑫 𝒎 = 𝟏𝟗𝟑.𝟏 𝟐𝟕 = 𝟕. 𝟏𝟓
  • 30.
    Varianza La varianza esla media aritmética de las desviaciones al cuadrado. La varianza se define como el cociente entre la suma de los cuadrados de las desviaciones de los valores de la variable y el número de datos del estudio. E s una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media, es decir, es la media de la distancia entre los datos y la media. Se representa con: 𝑺 𝟐 Para la muestra Para datos no agrupados: 𝑺 𝟐 = ∑( 𝑿𝒊 − 𝑿̅) 𝟐 𝑵 − 𝟏 Desglosamos la fórmula para entender la mejor: Entonces: 𝑺 𝟐 = ∑( 𝑿 𝟏−𝑿̅) 𝟐+( 𝑿 𝟐−𝑿̅) 𝟐+( 𝑿 𝟑−𝑿̅) 𝟐+⋯+( 𝑿 𝒏−𝑿̅) 𝟐 𝑵−𝟏 Ejemplo: Calcular la varianza de la distribución: Solución: Determinamos la media: 𝑿̅ = 𝟗+𝟑+𝟖+𝟖+𝟗+𝟖+𝟗+𝟏𝟖 𝟖 = 𝟕𝟐 𝟖 = 𝟗 𝑺 𝟐 = ( 𝟗 − 𝟗) 𝟐 + ( 𝟑 − 𝟗) 𝟐 + ( 𝟖 − 𝟗) 𝟐 + ( 𝟖 − 𝟗) 𝟐 + ( 𝟗 − 𝟗) 𝟐 +( 𝟖 − 𝟗) 𝟐 + ( 𝟗 − 𝟗) 𝟐 + ( 𝟏𝟖 − 𝟗) 𝟐 𝟖 − 𝟏 𝑺 𝟐 = ( 𝟎) 𝟐+(−𝟔) 𝟐+(−𝟏) 𝟐+(−𝟏) 𝟐+( 𝟎) 𝟐+(−𝟏) 𝟐+( 𝟎) 𝟐+( 𝟗) 𝟐 𝟖−𝟏 Los valores negativos cambian a positivo 𝑺 𝟐 = ( 𝟎) 𝟐 +( 𝟔) 𝟐 +( 𝟏) 𝟐 +( 𝟏) 𝟐 +( 𝟎) 𝟐 +( 𝟏) 𝟐 +( 𝟎) 𝟐 +( 𝟗) 𝟐 𝟖−𝟏 Calculamos la raíz cuadrada de cada dato 𝑺 𝟐 = 𝟑𝟔+𝟏+𝟏+𝟏+𝟖𝟏 𝟕 9 3 8 8 9 8 9 18 ∑ = Sumatoria 𝑿𝒊= Datos 𝑿̅= Media aritmética de los datos N= Total de los datos. Total de datos: N= 8 𝑺 𝟐 = 𝟏𝟐𝟎 𝟕 𝑺 𝟐 = 𝟏𝟕. 𝟏𝟒𝟐𝟖
  • 31.
    Para datos agrupados 𝑺𝟐 = ∑( 𝑿𝒊 − 𝑿̅) 𝟐 . 𝒇𝒊 𝑵 − 𝟏 Desglosamos la fórmula para entender la mejor: Entonces: 𝐒 𝟐 = ∑( 𝐗 𝟏 − 𝐗̅) 𝟐.𝐟𝟏+( 𝐗 𝟐 − 𝐗̅) 𝟐. 𝐟𝟐 + ( 𝐗 𝟑 − 𝐗̅) 𝟐. 𝐟𝟑 + ⋯+ ( 𝐗 𝐧 − 𝐗̅) 𝟐. 𝐟𝐧 𝐍 − 𝟏 Ejemplo: Calcular la varianza de la distribución de la tabla: 𝑿̅ = ∑ 𝑿 𝒊.𝒇𝒊 𝑵 𝑿̅ = 𝟔𝟖𝟐.𝟓 𝟐𝟕 = 𝟐𝟓. 𝟐 Clase o Intervalos 𝑿𝒊 𝒇𝒊 𝑿𝒊. 𝒇𝒊 𝑿𝒊 − 𝑿̅ [ 𝑿𝒊 − 𝑿̅]. 𝒇𝒊 [ 𝑿𝒊 − 𝑿̅] 𝟐 [ 𝑿𝒊 − 𝑿̅] 𝟐 . 𝒇𝒊 [10-15) 12.5 3 37.5 12.7 38.1 161.29 483.87 [15-20) 17.5 5 87.5 7.7 38.5 59.29 296.46 [20-25) 22.5 7 157.5 2.7 18.9 7.29 37.03 [25-30) 27.5 4 110 2.3 9.2 5.29 21.16 [30-35) 32.5 2 65 7.3 14.6 53.29 106.58 [35-40) 37.5 6 225 12.3 73.8 151.29 907.74 ∑ 𝐓𝐨𝐭𝐚𝐥: 27 682.5 193.1 1.852.84 ∑ = Sumatoria 𝑿𝒊= Marca de Clase 𝑿̅= Media aritmética de los datos 𝑓𝑖= Frecuencia absoluta N= Total de los datos. 𝑺 𝟐 = ∑( 𝑿 𝒊−𝑿̅) 𝟐.𝒇𝒊 𝑵−𝟏 𝑺 𝟐 = 𝟏.𝟖𝟓𝟐.𝟖𝟒 𝟐𝟕−𝟏 𝑺 𝟐 = 𝟏.𝟖𝟓𝟐.𝟖𝟒 𝟐𝟔 𝑺 𝟐 = 𝟕. 𝟏𝟐𝟔. 𝟑𝟎𝟕𝟔𝟗𝟐
  • 32.
    Desviación Estándar oTípica La desviación típica es la raíz cuadrada de la varianza La desviación estándar o desviación típica es una medida que ofrece información sobre la dispersión media de una variable. La desviación estándar es siempre mayor o igual que cero. Es simplemente la raíz cuadrada positiva de la varianza. Observad que la varianza se calcula en unidades que son los cuadrados de las unidades de los datos originales. Por tanto, tomando la raíz cuadrada de la varianza para obtener la desviación estándar, la medida de extensión vuelve a las unidades originales. La desviación estándar nos permite determinar, con un buen grado de precisión, dónde están localizados los valores de una distribución de frecuencias con relación a la media. La desviación típica se denota con la letra: S sin elevación al cuadrado. Para datos no agrupados: (Utilizando el ejemplo anterior) 𝑺 = √ ∑( 𝑿 𝒊−𝑿̅) 𝟐 𝑵−𝟏 Desglosamos la fórmula para entender la mejor: Entonces: 𝑺 = √ ∑( 𝑿 𝟏−𝑿̅) 𝟐+( 𝑿 𝟐−𝑿̅) 𝟐+( 𝑿 𝟑−𝑿̅) 𝟐+⋯+( 𝑿 𝒏−𝑿̅) 𝟐 𝑵−𝟏 Ejemplo: Calcular la varianza de la distribución: Solución: Determinamos la media: 𝑿̅ = 𝟗+𝟑+𝟖+𝟖+𝟗+𝟖+𝟗+𝟏𝟖 𝟖 = 𝟕𝟐 𝟖 = 𝟗 𝑺 = √ ( 𝟗−𝟗) 𝟐+( 𝟑−𝟗) 𝟐+( 𝟖−𝟗) 𝟐+( 𝟖−𝟗) 𝟐+( 𝟗−𝟗) 𝟐+( 𝟖−𝟗) 𝟐+( 𝟗−𝟗) 𝟐+( 𝟏𝟖−𝟗) 𝟐 𝟖−𝟏 9 3 8 8 9 8 9 18 ∑ = Sumatoria 𝑿𝒊= Datos 𝑿̅= Media aritmética de los datos N= Total de los datos. Total de datos: N= 8
  • 33.
    𝑺 = √ (𝟎) 𝟐+(−𝟔) 𝟐+(−𝟏) 𝟐+(−𝟏) 𝟐+( 𝟎) 𝟐+(−𝟏) 𝟐+( 𝟎) 𝟐+( 𝟗) 𝟐 𝟖−𝟏 Los valores negativos cambian a positivo 𝑺 = √ ( 𝟎) 𝟐+( 𝟔) 𝟐+( 𝟏) 𝟐+( 𝟏) 𝟐+( 𝟎) 𝟐+( 𝟏) 𝟐+( 𝟎) 𝟐+( 𝟗) 𝟐 𝟖−𝟏 𝑺 = √ 𝟑𝟔+𝟏+𝟏+𝟏+𝟖𝟏 𝟕 𝑺 = √ 𝟏𝟐𝟎 𝟕 = 𝑺 = √ 𝟏𝟕. 𝟏𝟒𝟐𝟖 = 𝟑. 𝟕𝟔𝟎𝟔 RESUMEN: La desviación típica es totalmente lo mismo a la varianza, la diferencia es que la desviación típica se calcula en base a la raíz cuadrada. Tanto en datos agrupados y no agrupados se calculan de la misma manera, ya que la desviación típica es el resultado final de la varianza al cuadrado. La relación de la desviación estándar con la varianza En definitiva la varianza no es más que la desviación estándar al cuadrado. O lo que viene a ser lo mismo, la desviación típica es la raíz cuadrada de la varianza. Se relacionan de la siguiente forma: Tras esta imagen, queda claro que toda la fórmula que está dentro de la raíz cuadrada es la varianza. La razón por la que es necesario entender que esa parte se conoce como varianza es que se utiliza en otras fórmulas para calcular otras medidas. Así pues aunque la desviación típica sea más intuitiva para interpretar resultados, es imperativo cómo se calcula la varianza.
  • 34.
    Coeficiente de Variación Lasmedidas de dispersión anteriores son todas medidas de variación absolutas. Una medida de dispersión relativa de los datos, que toma en cuenta su magnitud, está dada por el coeficiente de variación. El coeficiente de variación es una medida relativa de dispersión que expresa a la desviación estándar como un porcentaje de la media. Su cálculo se obtiene al dividir la desviación típica entre el valor absoluto de la media del conjunto y por lo general se expresa en porcentaje para su mejor comprensión. Se lo utiliza en la comparación de variación de dos o más grupos, su fórmula es: 𝑪𝑽 = 𝑺 𝑿̅ . ( 𝟏𝟎𝟎%) Ejemplo: Se pretende comparar el desempeño en ventas de 3 vendedores. Los resultados siguientes dan los promedios de puntajes obtenidos en los cinco años pasados por la concreción de los objetivos. 𝐗̅ 𝐀 = 𝟖𝟖 𝐗̅ 𝐁 = 𝟖𝟑, 𝟖 𝐗̅ 𝐂 = 𝟏𝟎𝟒, 𝟐 𝑺 𝑨 = 𝟏𝟐, 𝟔𝟕 𝑺 𝑩 = 𝟔, 𝟎𝟐 𝑺 𝑪 = 𝟏𝟔, 𝟑𝟓 𝐀 − 𝑪𝑽 = 𝟏𝟐. 𝟔𝟕 𝟖𝟖 . 𝟏𝟎𝟎% = 𝟏𝟒, 𝟒% 𝐁 − 𝑪𝑽 = 𝟔, 𝟎𝟐 𝟖𝟖 . 𝟏𝟎𝟎% = 𝟕, 𝟏𝟖% 𝐂 − 𝑪𝑽 = 𝟏𝟐. 𝟔𝟕 𝟖𝟖 . 𝟏𝟎𝟎% = 𝟏𝟓, 𝟔𝟗% Vemos que el vendedor C tiene la mayor variabilidad, mientras que el B tiene la menor. El desempeño de C parece ser mejor si analizamos la media, pero hay que tener en cuenta que también tiene la mayor variabilidad en la concreción de los objetivos.