Este documento proporciona una introducción a conceptos estadísticos básicos como medidas de posición, dispersión, centralización y forma. Explica medidas de posición como cuartiles, deciles y percentiles y cómo calcularlos. También define medidas de dispersión como rango, desviación media y varianza. Además, describe medidas de centralización como la media, mediana y moda y medidas de forma como asimetría y curtosis.
1. UNIVERSIDAD FERMIN TORO
VICERECTORADO ACADEMICO
FACULTAD DE CIENCIAS SOCIALES
ESCUELA DE COMUNICACIÓN SOCIAL
Conceptos Básicos
Estadísticos
Alumna: María Pérez
C.I:24712508
Sección: M-742
Barquisimeto, Junio de 2013
2. Introducción:
El propósito de este trabajo es dar a conocer y enseñar un conocimiento básico de:
Medidas de Posición,
Medidas de Dispersión
Medidas de Centralización,
Medidas de Forma
Entre otras
Es importante tener un conocimiento respecto cada uno de ellos ya que la estadística la
vemos cada día en nuestra vida
3. Medidas de Posición:
Las medidas de posición dividen un conjunto de datos en grupos con el mismo número de
individuos.
Para calcular las medidas de posición es necesario que los datos estén ordenados de
menor a mayor
Cuartiles: Hay 3 cuartiles que dividen a una distribución en 4 partes iguales:
primero, segundo y tercer cuartil.
Ejemplo: Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75%
de los datos. Q2 coincide con la mediana.
Cálculo de los cuartiles
1 Ordenamos los datos de menor a mayor.
2 Buscamos el lugar que ocupa cada cuartil mediante la expresión .
Deciles: Hay 9 deciles que la dividen en 10 partes iguales: (primero al noveno decil).
Ejemplo: Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los
datos.
D5 coincide con la mediana.
Cálculo de los deciles
En primer lugar buscamos la clase donde se encuentra , en la tabla
de las frecuencias acumuladas
4. Li es el límite inferior de la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase
Percentiles: Los percentiles son los 99 valores que dividen la serie de datos en 100
partes iguales.
Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.
P50 coincide con la mediana.
Cálculo de los percentiles
En primer lugar buscamos la clase donde se encuentra , en la
tabla de las frecuencias acumuladas.
Li es el límite inferior de la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
Medidas de Dispersión:
También llamadas medidas de variabilidad, muestran la variabilidad de una distribución,
indicando por medio de un número, si las diferentes puntuaciones de una variable están
muy alejadas de la mediana media. Cuanto mayor sea ese valor, mayor será la
variabilidad, cuanto menor sea, más homogénea será a la mediana media. Así se sabe si
todos los casos son parecidos o varían mucho entre ellos.
Rango o Recorrido: Se llama recorrido de una distribución a la diferencia entre el mayor y el
menor valor de la variable estadística.
Ejemplo: Supóngase que en un hospital el pulso de cada paciente se mide tres veces al
día y que cierto día los registros de dos pacientes muestran:
5. Paciente 1: 73 77 74
Paciente 2: 64 90 73
¿Cuál es la Amplitud en pulsaciones para cada paciente?
Para calcular la amplitud de los datos necesario identificar el valor más grande y el valor
más pequeño del conjunto de datos de cada uno de los pacientes.
Para el Paciente 1:
A = 77 - 73 = 4
Para el Paciente 2:
A = 90 - 64 = 26
Desviación Media: En teoría, la desviación puede referirse a cada una de las medidas
de tendencia central: media, mediana o moda; pero el interés se suele centrar en la
medida de la desviación con respecto a la media, que llamaremos desviación media.
Puede definirse como la media aritmética de las desviaciones de cada uno de los valores
con respecto a la media aritmética de la distribución, y de indica así:
N
xx
DM
Ejemplo: Se tiene los valores 2, 2, 4, 4, 5, 6, 7, 8, 8. Averiguar la desviación media de
estos valores.
x xx x
2 -3 3
2 3 3
4 -1 1
4 -1 1
4 -1 1
5 0 0
6 1 1
7 2 2
8 3 3
8 3 3
DM = 1,8
6. Desviación media para datos agrupados: Veamos ahora cómo se calcula la desviación
media en el caso de datos agrupados en intervalos.
N
xn
DM
i
Donde observamos que ahora las desviaciones van multiplicadas por las frecuencias de
los intervalos correspondientes.
Además, las desviaciones son de cada centro, o marca de clase, a la media aritmética. Es
decir,
N
xxn
DM
mi
)(
Ejemplo: Para hallar la desviación media de la siguiente tabla referida a las edades de los
100 empleados de una cierta empresa:
Clase ni
16-20 2
20-24 8
24-28 8
28-32 18
32-36 20
36-40 18
40-44 15
44-48 8
48-52 3
Veamos cómo se procede:
Clase ni xm ni xm xx ni xx
16-20 2 18 36 16,72 33,44
20-24 8 22 176
24-28 8
28-32 18
32-36 20
36-40 18
40-44 18
44-48 8
48-52 3
100
DM = 6,09
7. Varianza: La varianza es una medida de dispersión relativa a algún punto de referencia.
Ese punto de referencia es la media aritmética de la distribución. Más específicamente, la
varianza es una medida de que tan cerca, o que tan lejos están los diferentes valores de
su propia media aritmética. Cuando más lejos están las Xi de su propia media aritmética,
mayor es la varianza; cuando más cerca estén las Xi a su medida menos es la varianza.
Varianza para datos no agrupados: Dado un conjunto de observaciones, tales como X1,
X2, … , Xn, la varianza denotada usualmente por la letra minúscula griega δ (sigma)
elevada al cuadrado (δ2)y en otros casos S2 según otros analistas, se define como: el
cuadrado medio de las desviaciones con respecto a su media aritmética"
Matemáticamente, se expresa como:
Ejemplo: Se tienen las edades de cinco estudiantes universitarios de Ier año, a saber:
18,23, 25, 27, y 34. Al calcular la media aritmética (promedio de las edades, se obtuvo
25.4 años, encontrar la varianza de las edades de estos estudiantes:
Para calcular se utiliza una tabla estadística de trabajo de la siguiente manera:
Xi ( Xi -
( Xi -
18 (18 – 25.5)=-7.4 (-7.4)2=54.76
23 (23 – 25.5)=-2.4 (-2.4)2= 5.76
25 (25 – 25.5)=-0.4 (-0.4)2= 0.16
27 (27 – 25.5)= 1.6 ( 1.64)2= 2.16
34 (34 – 25.5)= 8.6 ( 8.6)2 =73.96
Total Xxxx 137.20
Respuesta: la varianza de las edades es de 27.4 años
8. Medidas de Centralización:
Al describir grupos de observaciones, con frecuencia es conveniente resumir la
información con un solo número. Este número que, para tal fin, suele situarse hacia el
centro de la distribución de datos se denomina medida o parámetro de tendencia central o
de centralización. Cuando se hace referencia únicamente a la posición de estos
parámetros dentro de la distribución, independientemente de que ésta esté más o menos
centrada, se habla de estas medidas como medidas de posición.1
En este caso se
incluyen también los cuantiles entre estas medidas.
Entre las medidas de tendencia central tenemos:
Media .
Media ponderada.
Media geométrica.
Media armónica.
Mediana.
Moda.
Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo
que las medidas de posición o medidas de tendencia se usan de acuerdo al tipo de
variable que se está observando, en este caso se observan variables cuantitativas
9. Medidas de Forma: Las medidas de forma caracterizan la forma de la gráfica de una
distribución de datos estadísticos. La mayoría de estos parámetros tiene un valor que
suele compararse con la campana de Gauss, esto es, la gráfica de la distribución normal,
una de las que con más frecuencia se ajusta a fenómenos reales
Medidas de Asimetría: Se dice que una distribución de datos estadísticos es simétrica
cuando la línea vertical que pasa por su media, divide a su representación gráfica en dos
partes simétricas. Ello equivale a decir que los valores equidistantes de la media, a uno u
otro lado, presentan la misma frecuencia.
En las distribuciones simétricas los parámetros media, mediana y moda coinciden,
mientras que si una distribución presenta cierta asimetría, de un tipo o de otro, los
parámetros se sitúan como muestra el siguiente gráfico:
Ello puede demostrarse fácilmente si se tiene en cuenta la atracción que la media
aritmética siente por los valores extremos, que ya se ha comentado más arriba y las
definiciones de mediana (justo en el centro de la distribución, tomando el eje de abscisas
como referencia) y moda (valor que presenta una ordenada más alta).
Por consiguiente, la posición relativa de los parámetros de centralización puede servir
como una primera medida de la simetría de una distribución. Otras medidas más precisas
son el coeficiente de asimetría de Fisher, el coeficiente de asimetría de Bowley y el
coeficiente de asimetría de Pearson.
10. Medidas de Curtosis o Apuntamiento: La curtosis mide el grado de agudeza o
achatamiento de una distribución con relación a la distribución normal, es decir, mide cuán
puntiaguda es una distribución
Tipos de Curtosis: La curtosis determina el grado de concentración que presentan los
valores en la región central de la distribución. Así puede ser:
Leptocúrtica.- Existe una gran concentración.
Mesocúrtica.- Existe una concentración normal.
Platicúrtica.- Existe una baja concentración.
Mediana:
Es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un
50% de valores son inferiores y otro 50% son superiores).
No presentan el problema de estar influido por los valores extremos, pero en cambio no
utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el
número de veces que se ha repetido).
Media:
La media aritmética (también llamada promedio o simplemente media) de un
conjunto finito de números es el valor característico de una serie de datos
cuantitativos objeto de estudio que parte del principio de la esperanza matemática
11. o valor esperado, se obtiene a partir de la suma de todos sus valores dividida
entre el número de sumandos. Cuando el conjunto es una muestra aleatoria recibe
el nombre de media muestral siendo uno de los principales estadísticos
muestrales.
Expresada de forma más intuitiva, podemos decir que la media (aritmética) es la
cantidad total de la variable distribuida a partes iguales entre cada observación. La
media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado
entre el número total de datos.
Media Aritmética x : Es el promedio de los datos, y su objetivo principal es encontrar el
valor que debería de estar en el centro. Su ventaja principal es que es la única medida en
la que 0 xx , su inconveniente es que se ve influida por valores extremos.
Datos No Agrupados:
X =
X
n
i
i 1
n
Ejemplo: Calcular la media aritmética de los números 10,12,36,25,58
2.24
5
121
5
5825361210
x
Media Geométrica: Con cierto tipo de datos, la media aritmética no da el valor promedio
correcto. La media geométrica sirve para promediar los crecimientos geométricos de una
variable.
Si suponemos que Y representa el factor de crecimiento geométrico de la variable X, es
decir: Y
X
X
i
i
i 1
,entonces el factor de crecimiento geométrico promedio de la variable X
será:
Datos No Agrupados:
n
n21 Y**Y*YG
Ejemplo:
Si los precios de la acción “Anáhuac” en los últimos cuatro días fueron; 4.75, 5.23, 4.78 y
6.32 calcula el factor de crecimiento promedio y el crecimiento porcentual promedio
Existen dos formas de resolverlo:
X= cualquier dato
Número total de datos
12. a) De la forma más ortodoxa, es decir:
099869493.1330526316.1
78.4
32.6
*
23.5
78.4
*
75.4
23.5
Y**Y*YG 33n
n21
Lo que acabamos de obtener es factor de crecimiento promedio y para obtener el
crecimiento se aplica la siguiente formula:
%9869.9100*)099869493.11(100*)1( Gocrecimient
b) Otra forma es 099869493.1330526316.1
75.4
32.6
primero
último 331-datosdenúmero G
Datos Agrupados:
n f
k
f
2
f
1
k21
Y**Y*YG
Dónde: k = última clase
Nota: Se puede demostrar que X G .
También puede calcularse la media geométrica ponderada.
Moda:
Es el valor que más se repite en la muestra.
La medida modal nos indica el valor que más veces se repite dentro de los datos; es
decir, si tenemos la serie ordenada (2, 2, 5 y 7), el valor que más veces se repite es el
número 2 quien sería la moda de los datos. Es posible que en algunas ocasiones se
presente dos valores con la mayor frecuencia, lo cual se denomina
Bimodal o en otros casos más de dos valores, lo que se conoce como multimodal.
En conclusión las Medidas de tendencia central, nos permiten identificar los valores más
representativos de los datos, de acuerdo a la manera como se tienden a concentrar. La
Media nos indica el promedio de los datos; es decir, nos informa el valor que obtendría
cada uno de los individuos si se distribuyeran los valores en partes iguales. La Mediana
por el contrario nos informa el valor que separa los datos en dos partes iguales, cada una
de las cuales cuenta con el cincuenta porciento de los datos. Por último la Moda nos
indica el valor que más se repite dentro de los datos.
Moda Xˆ : Es el valor más frecuente, el que se observa mayor número de veces.
Datos No Agrupados: Después de ordenar los datos buscamos el valor que más se
repite.
Ejemplo: Encontrar la moda de; 47, 48, 49, 49, 49, 51, 51, 52. Podemos observar que el
número que más se repite es el 49. Si ningún valor se repite, no existe moda
13. Datos Agrupados:
Se localiza la clase modal buscando la frecuencia más alta y después se aplica la
siguiente fórmula:
Nota: La distribución puede ser: amodal, unimodal, bimodal, trimodal,...., polimodal.
Ejemplo: Calcular el salario que más se repite en:
Fronteras($) Salario
(X)
No. De emp.
(F)
12,500-
17,500
$15,00
0
18
17,500-
22,500
$20,00
0
35
22,500-
27,500
$25,00
0
29
Observamos las frecuencias (No. de empleados) y decimos que la clase modal es la
segunda, porque 35 es la frecuencia más grande y aplicamos:
62935ff
171835ff:donde
65.195,21$5000*
617
17
17500i*+FI=Xˆ
posterior2
anterior1
21
1
Amplitud:
Se obtiene restando el valor más bajo del más alto en un conjunto de observaciones. La
amplitud tiene la ventaja de que es fácil de calcular y sus unidades son las mismas que
las de la variable que se mide. La amplitud no toma en consideración el número de
observaciones de la muestra estadística, sino solamente la observación del valor máximo
y la del valor mínimo. Sería deseable utilizar también los valores intermedios del conjunto
de observaciones.
posterior2
anterior1
21
1
ff
ff:donde
i*+FI=X
ˆ
14. Rango Intercuartilico:
Es una medida de variabilidad adecuada cuando la medida de posición central
empleada ha sido la mediana. Se define como la diferencia entre el tercer
cuartil (Q3) y el primer cuartil (Q1), es decir: RQ = Q3-Q1. A la mitad del rango
intercuartil se le conoce como desviación cuartil (DQ): DQ = RQ/2= (Q3-Q1)/2.Se
usa para construir los diagramas de caja y bigote (boxplots) que sirven para
visualizar la variabilidad de una variable y comparar distribuciones de la misma
variable; además de ubicar valores extremos
15. Conclusión:
.
Las medidas estadísticas son técnicas que permiten resumir la información de alguna
población. Dividen un conjunto de datos en grupos con el mismo número de individuos
(medidas de posición), determinan los valores centrales o medios de la distribución de los
datos (medidas de centralización), analizan la distribución de los valores de la serie
(medidas de distribución) y muestran la forma que presentan esos datos ( medidas de
forma)
Por eso en el trabajo ya culminado se pudo dar una pequeña explicación conceptualizada
y práctica de cada término estadístico de gran importancia tanto en la vida cotidiana como
en problemas matemáticos aún más grandes