data lista de ingresantes de la universidad de ucayali 2024.pdf
Medidas de centralización
1. REPUBLICA BOLIVARIANA DE VENEZUELA
MINISTERIO DE EDUCACION SUPERIOR
I.U.T ANTONIO JOSE DE SUCRE
PTO LA CRUZ EDO ANZOATEGUI
Medidas de centralización
Docente:
Ranielina Rondon
Bachiller:
Renán Urbano
2. son valores "intermedios" que se sitúan alrededor del centro de la
distribución. Se trata de la media, la moda y la mediana.
Medidas de centralización
Media aritmética:
Para calcular la media se suman todos
los valores de los datos y se divide por
el número total.
Cuando los datos se repiten, es más
fácil formar la tabla de frecuencias y
sumar los productos de cada valor por
las veces que se repite, después
dividimos por el nº total de datos.
En el caso de variables agrupadas en
intervalos, como en el ejemplo que
vemos aquí, xi es la marca de clase o
punto medio de cada intervalo.
• Si sumamos a todos los valores un
mismo número, la media aumenta
en esa cantidad.
• Si multiplicamos todos los valores
por un mismo número la media
queda multiplicada por el mismo
número.
Moda:
La moda de una variable estadística es
el valor más repetido, el que tiene
mayor frecuencia absoluta.
Si la variable es discreta se busca el
valor de mayor frecuencia.
Si los datos están agrupados, la clase
de mayor frecuencia se llama clase
modal. A veces se toma la marca de
clase de la clase modal como valor de
la moda, pero es más preciso utilizar la
fórmula:
Donde:
i es la clase modal,
i-1 e i+1 la anterior y posterior
respectivamente,
ai es el extremo inferior,
ci la amplitud del intervalo,
ni la frecuencia absoluta.
Mediana:
Suponiendo que todos los datos están
ordenados la mediana es el valor que
ocupa la posición central, de modo que la
mitad de los datos son menores y la otra
mitad son mayores.
Cuando la variable es discreta la mediana
es el primer valor cuya frecuencia
acumulada es mayor que n/2.
Cuando los datos están agrupados,
buscaremos la clase mediana que es la
que su frecuencia absoluta acumulada
sobrepasa la mitad de los datos (n/2). En
ocasiones basta tomar como valor de la
mediana la marca de clase de ésta pero
obtenemos más precisión calculando:
Así como la mediana divide la distribución
en dos partes con el mismo número de
datos, los cuartiles son los valores de la
variable que la dividen en cuatro partes. El
primer cuartil, Q1, deja a la izquierda el
25% de los datos, el segundo es la
mediana y el tercero, Q3, deja el 75% de
los datos a la izquierda.
El cálculo se hace de forma
análoga al de la mediana:
3. Procedimientos estadísticos referido al
uso y cálculo de las medidas de
centralización.
Los procedimientos para obtener las medidas estadísticas difieren levemente dependiendo de la forma en que se encuentren los datos. Si los datos se
encuentran ordenados en una tabla estadística diremos que se encuentran “agrupados” y si los datos no están en una tabla hablaremos de datos “no
agrupados”.
Según este criterio, haremos primero el estudio de las medidas estadísticas para datos no agrupados y luego para datos agrupados.
Medidas estadísticas en datos no agrupado
Medidas de tendencia central
Promedio o media
La medida de tendencia central más conocida y utilizada es la media aritmética o promedio aritmético. Se representa por la letra griega µ cuando se trata
del promedio del universo o población y por Ȳ (léase Y barra) cuando se trata del promedio de la muestra. Es importante destacar que µ es una cantidad
fija mientras que el promedio de la muestra es variable puesto que diferentes muestras extraídas de la misma población tienden a tener diferentes medias.
La media se expresa en la misma unidad que los datos originales: centímetros, horas, gramos, etc.
Si una muestra tiene cuatro observaciones: 3, 5, 2 y 2, por definición el estadígrafo será:
Estos cálculos se pueden simbolizar:
Donde Y1 es el valor de la variable en la primera observación, Y2 es el valor de la segunda observación y así sucesivamente. En general, con “n”
observaciones, YI representa el valor de la I-ésima observación. En este caso el promedio está dado por
De aquí se desprende la fórmula definitiva del promedio:
4. Ejemplo de desviaciones:
Una propiedad interesante de la media aritmética es que la suma de las desviaciones es cero.
Mediana
Otra medida de tendencia central es la mediana. La mediana es el valor de la variable que ocupa la posición central, cuando los datos se disponen en orden de
magnitud. Es decir, el 50% de las observaciones tiene valores iguales o inferiores a la mediana y el otro 50% tiene valores iguales o superiores a la mediana.
Si el número de observaciones es par, la mediana corresponde al promedio de los dos valores centrales. Por ejemplo, en la muestra 3, 9, 11, 15, la mediana es
(9+11)/2=10.
Moda
La moda de una distribución se define como el valor de la variable que más se repite. En un polígono de frecuencia la moda corresponde al valor de la variable
que está bajo el punto más alto del gráfico. Una muestra puede tener más de una moda.
Medidas de dispersión
Las medidas de dispersión entregan información sobre la variación de la variable. Pretenden resumir en un solo valor la dispersión que tiene un conjunto de
datos. Las medidas de dispersión más utilizadas son: Rango de variación, Varianza, Desviación estándar, Coeficiente de variación.
Rango de variación
Se define como la diferencia entre el mayor valor de la variable y el menor valor de la variable.
La mejor medida de dispersión, y la más generalizada es la varianza, o su raíz cuadrada, la desviación estándar. La varianza se representa con el símbolo σ²
(sigma cuadrado) para el universo o población y con el símbolo s2 (s cuadrado), cuando se trata de la muestra. La desviación estándar, que es la raíz cuadrada
de la varianza, se representa por σ (sigma) cuando pertenece al universo o población y por “s”, cuando pertenece a la muestra. σ² y σ son parámetros,
constantes para una población particular; s2 y s son estadígrafos, valores que cambian de muestra en muestra dentro de una misma población. La varianza se
expresa en unidades de variable al cuadrado y la desviación estándar simplemente en unidades de variable.
5. Formulas
Donde µ es el promedio de la población.
Donde Ȳ es el promedio de la muestra.
Consideremos a modo de ejemplo una muestra de 4 observaciones
Según la fórmula el promedio calculado es 7, veamos ahora el cálculo de las medidas de dispersión:
s2 = 34 / 3 = 11,33 Varianza de la muestra
La desviación estándar de la muestra (s) será la raíz cuadrada de 11,33 = 3,4.
Interpretación de la varianza (válida también para la desviación estándar): un alto valor de la varianza indica que los datos están alejados del promedio. Es difícil
hacer una interpretación de la varianza teniendo un solo valor de ella. La situación es más clara si se comparan las varianzas de dos muestras, por ejemplo
varianza de la muestra igual 18 y varianza de la muestra b igual 25. En este caso diremos que los datos de la muestra b tienen mayor dispersión que los datos
de la muestra a. esto significa que en la muestra a los datos están más cerca del promedio y en cambio en la muestra b los datos están más alejados del
promedio.
Coeficiente de variación
Es una medida de la dispersión relativa de los datos. Se define como la desviación estándar de la muestra expresada como porcentaje de la media muestral.
Es de particular utilidad para comparar la dispersión entre variables con distintas unidades de medida. Esto porque el coeficiente de variación, a diferencia de la
desviación estándar, es independiente de la unidad de medida de la variable de estudio.
6. Medidas de tendencia central y de dispersión en
datos agrupados.
Se identifica como datos agrupados a los datos dispuestos en una distribución de frecuencia. En tal caso las fórmulas para el cálculo de promedio,
mediana, modo, varianza y desviación estándar deben incluir una leve modificación. A continuación se entregan los detalles para cada una de las
medidas.
Promedio en datos agrupados
La fórmula es la siguiente:
Donde ni representa cada una de las
frecuencias correspondientes a los diferentes
valores de Yi.
Consideremos como ejemplo una distribución
de frecuencia de madres que asisten a un
programa de lactancia materna, clasificadas
según el número de partos. Por tratarse de una
variable en escala discreta, las clases o
categorías asumen sólo ciertos valores: 1, 2, 3,
4, 5.
Entonces las 42 madres han tenido, en
promedio, 2,78 partos.
Si la variable de interés es de tipo continuo será
necesario determinar, para cada intervalo, un
valor medio que lo represente. Este valor se
llama marca de clase (Yc) y se calcula
dividiendo por 2 la suma de los límites reales
del intervalo de clase. De ahí en adelante se
procede del mismo modo que en el ejercicio
anterior, reemplazando, en la formula de
promedio, Yi por Yc.
Mediana en datos agrupados
Si la variable es de tipo discreto la mediana
será el valor de la variable que corresponda a
la frecuencia acumulada que supere
inmediatamente a n/2. En los datos de la
tabla 1 Me=3, ya que 42/2 es igual a 21 y la
frecuencia acumulada que supera
inmediatamente a 21 es 33, que corresponde
a un valor de variable (Yi) igual a 3.
Si la variable es de tipo continuo es
necesario, primero, identificar la frecuencia
acumulada que supere en forma inmediata a
n/2, y luego aplicar la siguiente fórmula:
Donde:
Moda en datos agrupados
Si la variable es de tipo discreto la moda o
modo será al valor de la variable (Yi) que
tenga la mayor frecuencia absoluta ( ). En los
datos de la tabla 1 el valor de la moda es 3 ya
que este valor de variable corresponde a la
mayor frecuencia absoluta =16.
7. Medidas de posición
Son indicadores usados para señalar que porcentaje de datos dentro de una distribución de
frecuencias superan estas expresiones, cuyo valor representa el valor del dato que se encuentra en
el centro de la distribución de frecuencia, por lo que también se les llama " Medidas de Tendencia
Central ".
Pero estas medidas de posición de una distribución de frecuencias han de cumplir determinadas
condiciones para que lean verdaderamente representativas de la variable a la que resumen. Toda
síntesis de una distribución se considerara como operativa si intervienen en su determinación todos y
cada uno de los valores de la distribución, siendo única para cada distribución de frecuencias y
siendo siempre calculable y de fácil obtención. A continuación se describen las medidas de posición
más comunes utilizadas en estadística, como lo son:
Cuartiles: Hay 3 cuartiles que dividen a una distribución en 4 partes iguales: primero, segundo y
tercer cuartil.
Deciles: Hay 9 deciles que la dividen en 10 partes iguales: (primero al noveno decil).
Percentiles: Hay 99 percentiles que dividen a una serie en 100 partes iguales: (primero al noventa
y nueve percentil).
8. Cuartiles
Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales.
Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos.
Q2 coincide con la mediana.
Cálculo de los cuartiles
1 Ordenamos los datos de menor a mayor.
2 Buscamos el lugar que ocupa cada cuartil mediante la expresión Cálculo de los cuartiles
Número impar de datos
2, 5, 3, 6, 7, 4, 9
Número par de datos
2, 5, 3, 4, 6, 7, 1, 9
9. Ejercicio de cuartiles
Calcular los cuartiles de la distribución de la tabla: Cálculo del primer cuartil
primer cuartil
cuartiles
fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Cálculo del segundo cuartil
Cálculo del tercer cuartil
10. Deciles
Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.
Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.
D5 coincide con la mediana.
Cálculo de los deciles
En primer lugar buscamos la clase donde se encuentra Cálculo de los cuartiles, en la tabla de las frecuencias acumuladas.
Li es el límite inferior de la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
11. Percentiles
Un percentil es una de las llamadas medidas de posición no central (cuartiles, deciles, quintiles, percentiles, etc) que se puede describir como una
forma de comparación de resultados, por ello es un concepto ampliamente utilizado en campos como la estadística o el análisis de datos. El percentil
es un número de 0 a 100 que está muy relacionado con el porcentaje pero que no es el porcentaje en sí. Para un conjunto de datos, el percentil para un
valor dado indica el porcentaje de datos que son igual o menores que dicho valor; en otras palabras, nos dice dónde se posiciona una muestra respecto
al total.
Principales características
Las distancias entre Centiles, expresadas en términos de las puntuaciones directas, NO son constantes, pero las áreas entre Centiles sí lo son.
En distribuciones simétricas, las distancias entre Centiles son menores en la parte central de la distribución que en los extremos.
Uso de los percentiles
Ejemplo 1: Tenemos un conjunto de datos consistente en la nota de cada uno de los alumnos de una clase. Si un alumno tiene un 9,5 y está en el P85
(percentil 85), significa que el 85% de los alumnos tiene un 9,5 o menos.
Ejemplo 2: Tenemos unas muestra con los sueldos de 10.000 trabajadores. ¿Cuál sería el percentil 60? El P60 sería aquel sueldo por debajo del cuál
estaría el 60% de los trabajadores, es decir, si ordenamos los trabajadores desde el que cobra menos hasta el cobra más, el P60 sería el sueldo del
trabajador número 6.000 (60% de 10.000).
12. Medidas de dispersión
Nos permiten reconocer que tanto se dispersan los datos alrededor del punto central; es decir, nos indican cuanto se desvían las observaciones
alrededor de su promedio aritmético (Media).
Características:
Las medidas de dispersión nos sirven para cuantificar la separación de los valores de una distribución.
Llamaremos dispersión o variabilidad a la mayor o menor separación de los valores de la muestra, respecto de las medidas de
centralización que hayamos calculado.
Al calcular una medida de centralización como es la medida aritmética, resulta necesario acompañarla de otra medida que indique el
grado de dispersión, del resto de valores de la distribución, respecto a esta medida.
A estas cantidades o coeficientes, les llamamos: MEDIDAS DE DISPERSIÓN, pudiendo ser absolutas o relativas.
Usos:
Puede utilizarse para evaluar la confiabilidad de dos o más promedios.
Nos informan sobre cuánto se alejan del centro los valores de la distribución.
13. Rango:
Es la diferencia entre el menor y el mayor valor. En {4, 6, 9, 3, 7} el menor valor es 3, y el mayor es 9, entonces el rango es 9-3
igual a 6. Rango puede significar también todos los valores de resultado de una función.
DESVIACIONES TIPICAS:
Se denota con el símbolo σ o s, dependiendo de la procedencia del conjunto de datos) es una medida de dispersión para variables de
razón (variables cuantitativas o cantidades racionales) y de intervalo.
VARIANZA:
Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las diferencias al cuadrado entre cada
valor y la media, multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamaño de
la muestra La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie
alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están.
CARACTERISTICAS DE LA VARIANZA
Si a todos los valores de la variable se les suma un número la varianza no varía.
Si todos los valores de la variable se multiplican por un número la varianza queda multiplicada por el cuadrado de dicho número.
Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total.
UTILIDAD DE LA VARIANZA:
sirve para identificar a la media de las desviaciones cuadráticas de una variable de carácter aleatorio, considerando el valor medio de
ésta.