Contiene las diferentes medidas para datos no agrupados, como las de tendencia central, dispersión, ubicación, simetría, curtosis y teorema de Chevyshev
2. Datos sin agrupar
Como su nombre lo dice, es un conjunto de elementos o valores, que se tienen con o sin una
clasificación, por ejemplo, pueden ser edades, alturas, temperaturas, etc.
Para hacer un resumen de todos los datos que se tienen, generalmente recolectados para realizar un
estudio, y de los cuales se quiere hacer una interpretación se utilizan los parámetros estadísticos o las
gráficas.
De los parámetros estadísticos, se tienen las medidas de:
Tendencia central (Media, Mediana y Moda)
Posición (Cuantiles: Cuartil, Quintil, Decil y Percentil)
Dispersión (Desviación típica, coeficiente de variación, rango, varianza, …)
Forma (Asimetría y curtosis)
3. De las gráficas, se tienen las de:
Barras
Diagramas de segmentos
Diagrama de árbol
Diagrama de cajas
Diagrama de tallo y hojas
Diagrama de dispersión
Gráfico de puntos
Histograma
Polígono de frecuencias
Ojiva
Tabulación cruzada
Datos sin agrupar
4. Medidas de tendencia central
Media, Media aritmética o promedio (X)
Valor que se obtiene, al sumar todos los datos y dividir el resultado entre el número total de
datos (n).
La formula es:
o
Mediana (Me)
El valor que ocupa el lugar central de todos los datos cuantos están ordenados. Hay dos
consideraciones, cuando “n” es par o impar. Recuerde siempre se deben ordenar los datos.
Cuando “n” es impar, simplemente se selecciona el dato de en medio y
listo
Cuando “n” es par, se debe se obtener el promedio de los dos datos
centrales
Nota :
Se ve alterado por
datos atípicos
5. Medidas de tendencia central
Moda (Mo)
El o los valores que más se repiten, dentro un conjunto. Se puede tener un conjunto de datos
que no tenga moda o que existan dos valores que tengan la misma frecuencia, se le
denomina BIMODAL y cuando se da que tres o más valores tienen la misma frecuencias,
siempre y cuando sea mayor a 1, se denomina MULTIMODAL.
Se tienen los siguientes valores: 3,6,9,5,9, 7,11,8
Obtener: Media, Mediana y Moda
Ejemplo
Ordeno los datos : 3,5,6,7,8,9,9,11
n = 8, es par,
se obtienen los dos valores centrales, deben
quedar el mismo número de valores a la
izquierda que a la derecha.
Me = (7+8)/2 = 7.5
Para indicar la Mo, se debe ver el valor con mayor frecuencia, en este caso es el 9 el cual se
repite 2 veces, como se puede observar, por lo tanto
Mo = 9
6. Medidas de ubicación
Las medidas de posición relativa se llaman en general cuantiles y se pueden clasificar
en tres grandes grupos: Cuartiles, quintiles, deciles, percentiles.
Las medidas de posición como los cuartiles, quintiles, deciles y percentiles dividen a
una distribución ordenada en partes iguales. Para calcular las medidas de posición
es necesario que los datos estén ordenados de menor a mayor.
Cuartil (Q)
Son los tres valores de la variable de una distribución que la dividen en
cuatro partes iguales, es decir, al 25%, 50% y 75%. Para calcular el valor de uno de
los cuatro Cuartiles, se utiliza la formula:
Qm = Cuartil número m=1, 2, 3 ó 4
n = total de datos de la distribución.
Qm = m (n/4)
7. Medidas de ubicación
Corresponden a los 4 valores que dividen a estos en 5 partes iguales es decir, al
20%, al 40%... y al 80%. Los Quintiles se designan por K1, K2,,..., K9
Decil (D)
Corresponden a los 9 valores que dividen a estos en 10 partes iguales es decir, al
10%, al 20%... y al 90%. Los Deciles se designan por D1, D2,..., D9.
Quintil (K)
Km = m (n/5)
Dm = m (n/10)
Percentil (P)
Corresponden a los 99 valores que dividen a estos en 100 partes iguales es decir, al
1%, al 2%... y al 99%. Los Percentiles se designan por P1, P2,..., P9.
Pm = m (n/100)
8. Medidas de ubicación
Ejemplo
Se tienen los siguientes datos: 3,5,6,6,7,7,7,8,9,13,15,15 n = 12
Calcular : Q3, K2, D7 y P70
Qm = m (n/4) Q3 = 3 (12/4)= 9 {3,5,6,6,7,7,7,8,9}
Km = m (n/5) K2 = 2 (12/5)=4.8≈ 5 {3,5,6,6,7}
Dm = m (n/10) D7 = 7 (12/10)=8.4≈ 8 {3,5,6,6,7,7,7,8}
Pm = m (n/100) P70 = 70 (12/100)=8.4≈ 8 {3,5,6,6,7,7,7,8}
Los datos que
están del primero a
la posición
obtenida.
Cuando el resultado da fracción
se redondea al valor entero
próximo.
9. Medidas de dispersión
El rango es la diferencia entre el valor más grande de un conjunto de datos y el valor
más pequeño. Su utilidad, es poco práctica, ya que solo establece como una medida
de control.
Rango intercuartil
El rango intercuartil es el rango de valores entre el primero y tercer cuartiles. En
esencia, es el rango de 50% central de los datos y se determina al calcular el valor
de Q3 – Q1.
El rango intercuartil se utiliza en la construcción de graficas de caja y alambres,
también conocido como caja y bigotes.
Rango
10. Medidas de dispersión
La varianza mide qué tan dispersos están los datos alrededor de la media. La
varianza es igual a la desviación estándar elevada al cuadrado.
Desviación media (MDA)
La desviación media absoluta (MAD) es el promedio de los valores absolutos de las
desviaciones alrededor de la media para un conjunto de números. Es de muy poco
utilidad.
Varianza (S2)
11. Medidas de dispersión
El coeficiente de variación, también denominado como coeficiente de variación de
Spearman, es una medida estadística que nos informa acerca de la dispersión relativa
de un conjunto de datos.
Desviación estándar o típica (S)
es la medida de dispersión más común, que indica qué tan dispersos están los datos
con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la
dispersión de los datos.
Coeficiente de variación (CV)
Nota :
Si CV>25% los datos son
heterogéneos
Si CV <= 25% los datos son
homogéneos
12. Medidas de forma
Asimetría
Nos da una noción sobre la uniformidad de la distribución de los datos, alrededor
del punto central, en nuestro caso de la media o promedio.
Coeficiente de asimetría de Pearson (Ca)
La estimación de la asimetría, se determina a través del calculo del Ca.
13. Medidas de forma
El resultado del Ca, nos puede indicar las tres tipos de curvas que se pueden tener.
14. Medidas de forma
Curtosis
Nos da una noción sobre la concentración de los datos, en la región central de la
distribución de los mismos datos.
Coeficiente de curtosis (Ck)
La estimación de la curtosis, se obtiene de la siguiente formula.
15. Medidas de forma
El resultado del Ck, nos puede indicar las tres tipos de curvas que se pueden tener.
16. Diagramas
Tallo y hojas
El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultáneamente una
distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar
en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes
(que formará el tallo).
Se tienen las siguientes edades :
18, 17, 20, 18, 19, 22, 19, 19, 18, 19, 21, 20, 20
El diagrama queda de la siguiente forma:
Se ordenan los datos para ver las frecuencias con mayor facilidad
17, 18, 18, 18, 19, 19, 19, 19 , 20, 20, 20, 21, 22
17. Diagramas
Sectores y segmentos
Los datos se representan en un círculo dividido en partes, de modo que el ángulo de
cada porción es proporcional a la frecuencia absoluta correspondiente. La formula para calcular el
ángulo de cada sector es :
Se realiza una tabla de frecuencia de cada valor:
Se tienen los siguientes datos, se recomienda ordenarlos siempre:
17, 18, 18, 18, 19, 19, 19, 19 , 20, 20, 20, 21, 22
18. Diagramas
Una vez, que se tiene la tabla de frecuencias y los ángulos, se realiza la gráfica.
Sectores y segmentos
1, 7%
3, 23%
4, 31%
3, 23%
1, 8%
1, 8%
Gráfico de sectores
17 18 19 20 21 22
Datos
19. Diagramas
Llamado también árbol de probabilidad, es una representación gráfica de los posibles
resultados del experimento, el cual consta de una serie de pasos, donde cada uno de estos
tiene un número infinito de maneras de ser llevado a cabo. Se utiliza en los problemas de
conteo y probabilidad.
Para la construcción de un diagrama en árbol se partirá poniendo una rama para cada una de
las posibilidades, acompañada de su probabilidad. Cada una de estas ramas se conoce como
rama de primera generación.
Ejemplo. Si se lanza una moneda al aire, se pueden obtener dos posibles resultados {águila,
sol}, por lo cual el árbol quedaría:
de árbol
20. Diagramas
Los gráficos de puntos son útiles para mostrar datos cuantitativos de una forma organizada.
Los gráficos de puntos usan varios puntos para trazar datos a lo largo de un eje ordinal. Un
gráfico de puntos es similar a un gráfico de líneas, pero sin las líneas. Solamente se muestran
los puntos de datos.
Gráfica de puntos
Se realiza una tabla de frecuencia de cada valor:
Se tienen los siguientes datos, se recomienda ordenarlos siempre:
17, 18, 18, 18, 19, 19, 19, 19 , 20, 20, 20, 21, 22
21. Diagramas
Una vez, que se tiene la tabla de frecuencias y los ángulos, se realiza la gráfica.
Gráfica de puntos
22. Diagramas
Los histogramas son gráficos que indican la frecuencia de un hecho mediante una
distribución de los datos.
Es una representación gráfica de una variable en forma de barras, donde la superficie de cada
barra es proporcional a la frecuencia de los valores representados. En el eje vertical se
representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente
señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los
datos.
Histograma
Se tienen los siguientes datos, se recomienda ordenarlos siempre:
17, 18, 18, 18, 19, 19, 19, 19 , 20, 20, 20, 21, 22
23. Diagramas
Una vez, que se tiene la tabla de frecuencias, se genera una barra por cada valor en el
eje “x” y se utiliza la frecuencia, para establecer la altura de cada barra, quedando.
Histograma
Se realiza una tabla de frecuencia de cada valor:
0
1
2
3
4
5
17 18 19 20 21 22
histograma
24. Diagramas
es el nombre que recibe una clase de gráfico que se crea a partir de un histograma de
frecuencia. Estos histogramas emplean columnas verticales para reflejar frecuencias, el
polígono de frecuencia es realizado uniendo los puntos de mayor altura de estas columnas.
Este tipo de gráfica, se utiliza en datos agrupados
Polígono de frecuencias
Como se puede observar en la imagen, se tienen varios intervalos con su frecuencia y su marca de clase
(es el valor medio de cada intervalo), con las frecuencias se forman las columnas y con la marca de clase
se establece los puntos que se unen con una línea recta.
25. Diagramas
tipo especial de gráfica de barras donde los valores graficados están organizados de mayor a
menor. Utilice un diagrama de Pareto para identificar los defectos que se producen con
mayor frecuencia, las causas más comunes de los defectos o las causas más frecuentes de
quejas de los clientes.
Diagrama de Pareto
El diagrama de Pareto debe su nombre a Vilfredo Pareto y su principio de la "regla 80/20". Es decir, el
20% de las personas controlan el 80% de la riqueza; o el 20% de la línea de producto puede generar el
80% de los desechos; o el 20% de los clientes puede generar el 80% de las quejas, etc.
26. Teorema de Chevyshev
La desigualdad de Chebyshev es un teorema utilizado en estadística que proporciona una
estimación conservadora (intervalo de confianza) de la probabilidad de que una variable
aleatoria con varianza finita, se sitúe a una cierta distancia de su esperanza matemática o de su
media.
Sea X una variable aleatoria de media µ y varianza finita s². Entonces, para todo número real k >
0. La formula es la siguiente:
Donde K es el número de desviaciones , con respecto a la media.
S S
27. Teorema de Chevyshev
Ejemplo
Una variable aleatoria X tiene una media 8, una varianza S2 = 9. Calcule
a) P(−4 < X < 20),
Recordemos
Por lo tanto
a) 8 - 3k = -4 y 8 + 3k = 20
3k = -4 -8 y 3k = 20 -8
k = -12/3 y k = 12/3
k = -4 y k = 4 por lo tanto k = 4
P(−4 < X < 20) = P[8−(4)(3) < X < 8+(4)(3)] ≥ 15/16
= .9375 en % = 93.75%
Nota. Recuerden que el símbolo “μ” es para la media de población,
en nuestro caso es media muestral.
28. Temas relacionados
Como, se menciono en lo que respecta a las medidas de dispersion, son tratadas en base a la
media aritmética, pero existen calculos similares que se basan en la mediana o moda.
Son calculos similares a los visto, solo que en lugar de utilizar la media, se utilizará la mediana y
moda, en el caso del Teorema de Chevysev se hará el reemplazo correspondiente.
Donde K es el número de desviaciones , con respecto a la media.
29. Fuentes de apoyo
https://www.youtube.com/watch?v=VswXsizTuk8, duración 17.02 minutos, tema:
estadística descriptiva
https://www.um.es/docencia/pguardio/documentos/Tec2.pdf, 12 hojas, tema:
Tipos de estadísticos
https://www.youtube.com/watch?v=fOuRqk1nzgY&t=466s, 12.29 minutos, tema:
Datos no agrupados, medidas de tendencia central
https://www.youtube.com/watch?v=sXeAB2QNBOw, 1.47 minutos, tema: Rango
intercuartil
https://www.youtube.com/watch?v=YBEKojF4E94, duración 6.56 minutos, tema:
desviación media
https://www.youtube.com/watch?v=mJarWjefrV4, duración 3.21 minutos, tema:
varianza y desviación estándar.
30. Fuentes de apoyo
https://www.youtube.com/watch?v=WxRCo39yq5E , duración 14.18 minutos, tema:
medidas de dispersión
https://www.youtube.com/watch?v=iU16OnACSqg , duración 9.51 minutos, tema:
Cuartil, Decil y Percentil
https://www.youtube.com/watch?v=WfhyfPkB3EA , duración 7.06 minutos tema:
asimetría y curtosis
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/quality-and-
process-improvement/quality-tools/supporting-topics/pareto-chart-basics/ , página
web, tema: Diagrama de Pareto
https://www.youtube.com/watch?v=R_z5VG2dgdY , duración: 4.47 minutos, tema:
construir un diagrama de Pareto
31. Fuentes de apoyo
https://www.youtube.com/watch?v=SXGSEssbnN0 , duración 2.32 minutos, tema:
teorema de Chebyshev
https://www.youtube.com/watch?v=EdwfGsRxEPg , duración 5.59 minutos, tema:
Teorema de Chevyshev, solo ver los minutos indicados, el resto es un tema posterior
Probabilidad y Estadística, para ingeniería en ciencias, Walpol, Ronald E. Editorial:
Pearson. Tema: Teorema de Chebyshev, página 135-137.
32. Valores atípicos
¿Qué es un valor atípico?
Un valor atípico es una observación extrañamente grande o pequeña. Los valores
atípicos pueden tener un efecto desproporcionado en los resultados estadísticos,
como la media, lo que puede conducir a interpretaciones engañosas. Por ejemplo, un
conjunto de datos incluye los valores: 1, 2, 3, y 34.
33. Valores atípicos
Como determinar los valores atípicos
Un valor atípico es una observación extrañamente grande o pequeña. Los valores
atípicos pueden tener un efecto desproporcionado en los resultados estadísticos,
como la media, lo que puede conducir a interpretaciones engañosas. Por ejemplo, un
conjunto de datos incluye los valores: 1, 2, 3, y 34.
Se tienen los siguientes datos:
Para determinar los valores atípicos, se debe primeramente ordenar los datos, en segundo lugar
calculara la Me, Q1 y Q3, una vez realizado, se calcula
18, 19, 19, 20, 20, 21, 52 n = 7
Me = 20 ( posición = 7/2 = 3.5 ≈ 4 )
Q1 = n/4 = 7/4 = 1.75 ≈ 2 tomamos el valor que está en esa posición = 19
Q3 = 3*7/4 = 5.25 ≈ 5 tomamos el valor de está posición = 20
34. Valores atípicos
Como determinar los valores atípicos
Ahora calculamos el valor del Rango Intercuartil (RI), valores atípicos leves inferior y
superior ( f1 y f2)
Se genera el diagrama de cajas y alambres (cajas y bigotes)
RI = Q3 – Q1 = 20 – 19 = 1
f1 = 19 – 1.5 RI = 19 – 1.5 = 17.5 ≈ 18
f2 = 20 + 1.5 RI = 20 + 1.5 = 21.5 ≈ 22
18 19 20 21 22 52
35. Fuentes de apoyo
https://www.youtube.com/watch?v=Kj9g-BC2YSg, duración 13.03 minutos, tema:
diagrama de cajas y bigotes
https://www.youtube.com/watch?v=8nphIQCnsqo , duración 5.35 minutos, tema:
diagrama de cajas
https://www.youtube.com/watch?v=1X5MVG_4X_w , duración 7.03 minutos, tema:
como construir un diagrama de cajas con excel.
https://www.youtube.com/watch?v=HBJqIjMssb8 , duración 6.21 minutos, tema:
construer un diagram de cajas con excel