2. Contenidos
Medidas de Posici´on
– Medias, Mediana, Moda, Cuartiles y Percentiles.
Medidas de Dispersi´on.
– Absoluta y Relativa.
Medidas de Forma.
– Asimetr´ıa y Curtosis.
Las Medidas Estad´ısticas tienen como objetivo sustituir toda la informaci´on, por
unos pocos valores que la caractericen.
Medidas de Posici´on 3 / 29
Introducci´on
Las Medidas de Posici´on tienen por objetivo proporcionar valores en torno al los cuales se
encuentran las observaciones.
Algunas de ellas se denominan “Medidas de Tendencia Central”, porque suelen situarse en torno
al centro de los datos.
Media: Aritm´etica, Ponderada, Geom´etrica, Arm´onica.
Mediana.
Moda.
Cuartiles y Percentiles.
2
3. Media Aritm´etica
Se define como la suma de los datos dividida por el n´umero de ellos.
x =
n
i xi
n
=
1
n
m
i
ni · xi =
m
i
fi · xi
La media es muy sensible a los valores extremos.
Es la medida m´as utilizada, muchos procedimientos estad´ısticos se basan en ella.
La Media Aritm´etica representa el centro de gravedad del histograma.
Media Aritm´etica con R
> library(UsingR)
> ingresos<-cfb$INCOME[1:15]
> mean(ingresos)
> hist(ingresos,breaks=seq(0,100000,by=10000),freq=FALSE,
+ main="Histograma de Ingresos",ylab="Densidad de Frecuencia")
> points(mean(ingresos),-0.0000005,pch=24,cex=2.8)
Histograma de Ingresos
ingresos
DensidaddeFrecuencia
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
0.0e+001.0e−052.0e−05
3
4. Media Ponderada
La media ponderada se utiliza en los casos en los que no todas las observaciones tienen la misma
importancia.
Para tener en cuenta la importancia se asigna a cada observaci´on un peso, wi.
xw =
n
i wi · xi
n
i wi
Media Geom´etrica
Cuando trabajamos con valores observados positivos:
xG = n
n
i
xi
Tiene una aplicaci´on menos frecuente que la Media Aritm´etica, pero importante:
A˜no Capital Tasa de Factor de Capital
Inicial Crecimiento Expansi´on Final
1 10000 0.05 1.05 10500
2 10500 0.20 1.20 12600
3 12600 0.50 1.50 18900
Factor de Expansi´on = 1, 25 Factor de Expansi´onG = 1, 2364
4
5. Media Arm´onica
Se define:
xA =
1
1
n
m
i
ni
xi
Se toman los inversos de los datos, se promedian y por ´ultimo se toma el inverso de ese promedio.
Si un coche recorre una distancia d a 100km/h y deshace el camino a una velocidad de 120km/h,
la velocidad media a la que ha realizado el viaje es:
velocidadA =
1
1
2( 1
100 + 1
120)
= 109.1km/h
velocidad media =
Distancia Recorrida
Tiempo Empleado
=
2d
d
100 + d
120
5
6. Mediana
Es el valor de la variable estad´ıstica que deja igual n´umero de observaciones a su derecha que a su
izquierda. Ordenando los datos de menor a mayor, la mediana ser´a el dato central o el promedio
de los centrales (tama˜no par).
1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
0 2 4 6 8
0.00.20.40.60.81.0
FrecuenciaAcumulada
1/2
1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
0 2 4 6 8
0.00.20.40.60.81.0
FrecuenciaAcumulada
1/2
En el caso de datos agrupados, lo m´as adecuado es hablar del intervalo mediano. Gr´aficamente la
mediana se obtendr´ıa:
0 2 4 6 8 10
0.00.20.40.60.81.0
FrecuenciaAcumulada
1/2
Fi
Fi+1
Mebi bi+1
Mediante semejanza de tri´angulos:
Me = bi +
1/2 − Fi
Fi+1 − Fi
· (bi+1 − bi).
6
7. Moda
Es el valor de la variable estad´ıstica que se presenta con mayor frecuencia. No tiene por qu´e ser
´unica y puede no poderse calcular.
Ejemplo:
1, 1, 2, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
Moda = 2
Ejemplo:
1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
Moda = 2 y 6
En el caso de datos agrupados, se suele hablar de intervalo modal, aqu´el de mayor frecuencia.
Histograma de Ingresos
Ingresos
DensidaddeFrecuencia
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
0.0e+005.0e−061.0e−051.5e−05
Md
Cuartiles
Qk para k = 1, 2, 3, se define Cuartil k−´esimo como el valor de la variable que deja inferiores o
iguales a ´el las k/4 partes de las observaciones.
Q2 = Me
Ejemplo:
1, 1, 2, 2, 2, 3, 3, 4,4, 5, 5, 5, 6, 6, 6, 8
n = 16
Q1 deja inferiores o iguales a ´el, 1/4 de las observaciones, 4.
Q2 deja inferiores o iguales a ´el, 1/2 de las observaciones, 8.
Q3 deja inferiores o iguales a ´el, 3/4 de las observaciones,12.
7
8. Percentiles
El k−´esimo Percentil Pk, se define como el valor de la variable estad´ıstica que deja inferiores o
iguales a ´el las k/100 observaciones.
P25 = Q1, P50 = Q2 = Me, P75 = Q3.
Para datos agrupados el c´alculo es an´alogo al de la mediana:
Pk = bi +
k/100 − Fi
Fi+1 − Fi
· (bi+1 − bi) = bi +
nk
100 − Ni
Ni+1 − Ni
· (bi+1 − bi).
Siendo (bi, bi+1) el intervalo de clase que contiene Pk.
The kth percentile is that value of X, say xk, which corresponds to a cumulative frequency of nk
100 ,
where n is the sample size.
Observaciones
La Mediana es un estad´ıstico basado en propiedades ordinales. Valor de la variable que
ocupa el orden (n + 1)/2.
La Mediana divide al histograma en dos partes de ´areas iguales.
La Moda es el valor con mayor frecuencia de aparici´on.
La Moda corresponde a la mayor altura del histograma.
Cuando trabajemos con distribuciones con valores at´ıpicos o asim´etricas, trabajaremos con
la Mediana en lugar de con la Media. Los valores extremos influyen gravemente en la Media.
Si la distribuci´on es sim´etrica y unimodal, los tres puntos coinciden, Media, Mediana y
Moda.
8
9. Medidas de Posici´on con R
> library(UsingR)
> ingresos<-cfb$INCOME[1:15]
> summary(ingresos)
Min. 1st Qu. Median Mean 3rd Qu. Max.
7195 14900 35980 35130 47800 78120
> quantile(ingresos,c(0.1,0.25,0.5,0.6,0.75,0.90))
10% 25% 50% 60% 75% 90%
10854.74 14904.70 35976.87 37210.37 47797.85 64758.37
> X<-c(1,1,2,2,2,3,3,4,5,5,6,6,6,8)
> summary(X)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 2.000 3.500 3.857 5.750 8.000
Medidas de Dispersi´on 16 / 29
Introducci´on
Las Medidas de Dispersi´on tienen como objetivo cuantificar la variabilidad de los datos.
Recorrido, Recorrido Intercuart´ılico, Recorrido Semiintercuartilico.
Varianza, Desviaci´on T´ıpica, Cuasivarianza.
Coeficiente de Variaci´on.
9
10. Recorrido
Recorrido: es la diferencia entre el m´aximo y el m´ınimo de los valores de la variable
aleatoria.
R = m´ax(X) − m´ın(X).
Recorrido Intercuart´ılico: Longitud de un intervalo central que contiene el 50% de las
observaciones. Anchura de la caja en un diagrama Box Plot.
RI = Q3 − Q1.
Recorrido Semiintercuart´ılico: Corresponde con la mitad del anterior.
RSI = RI/2.
Momentos
Definiremos la expresi´on general de un Momento respecto del punto v y de orden r:
Mr(v) =
1
n
m
i
ni(xi − v)r
Momentos Respecto al Origen, Raw Moment, v = 0:
ar =
1
n
m
i
ni · xr
i
Casos particulares:
a1 =
1
n
m
i
ni · xi = x Media Muestral.
a2 =
1
n
m
i
ni · x2
i = x2 Media Muestral de Cuadrados.
Momentos Centrales, Central Moment,v = x:
mr =
1
n
m
i
ni(xi − x)r
Casos particulares:
m1 =
1
n
m
i
ni(xi − x) = 0
m2 =
1
n
m
i
ni(xi − x)2
= s2
Varianza.
10
11. Momentos con R
> library(UsingR)
> ingresos<-cfb$INCOME[1:15]
> sum(ingresos)/length(ingresos)
[1] 35127.13
> mean(ingresos)
[1] 35127.13
> library(e1071)
> moment(ingresos,order=1,center=FALSE)
[1] 35127.13
> moment(ingresos,order=1,center=TRUE)
[1] 3.395447e-12
Varianza y Desviaci´on T´ıpica
La Varianza, es una de las medidas de dispersi´on m´as usadas.
s2
=
1
n
m
i
ni(xi − x)2
= x2 − x2
= a2 − a2
1.
El problema es que sus unidades son el cuadrado de las unidades de los datos. Por eso
habitualmente se trabaja con su ra´ız cuadrada, la Desviaci´on T´ıpica:
s =
√
s2.
En estad´ıstica se usa con frecuencia la Cuasivarianza muestral:
s2
c =
1
n − 1
m
i
ni(xi − x)2
=
n
n − 1
s2
.
11
12. Varianza con R
> library(UsingR,e1071)
> ingresos<-cfb$INCOME[1:15]
> sum((ingresos-mean(ingresos))^2)/length(ingresos)
[1] 456585857
> moment(ingresos,order=2,center=TRUE)
[1] 456585857
> var(ingresos)
[1] 489199132
> var(ingresos)*(length(ingresos)-1)/length(ingresos)
[1] 456585857
Coeficiente de Variaci´on
Las medidas de dispersi´on que hemos visto hasta ahora dependen de las unidades de medida de la
variable.
Para comparar la variabilidad de grupos o de valores de una misma variable en conjuntos
diferentes se utilizan medidas de dispersi´on relativas.
Coeficiente de Variaci´on:
CV =
s
|x|
.
Es una cantidad adimensional que mide la dispersi´on respecto a la media.
Tambi´en se denomina Variabilidad Relativa y puede expresarse en porcentaje.
12
13. Medidas de Forma 24 / 29
Asimetr´ıa
Definiremos Asimetr´ıa Positiva cuando Md≤Me≤ x.
Esto queda reflejado en el diagrama de barras o en un histograma presentando la distribuci´on de
los datos una cola a la derecha.
Definiremos Asimetr´ıa Negativa cuando x ≤Me≤Md.
Esto queda reflejado en el diagrama de barras o en un histograma presentando la distribuci´on de
los datos una cola a la izquierda.
El coeficiente de Asimetr´ıa (de Fisher) se define:
g1 =
m3
s3
=
1
n
m
i ni(xi − x)3
s3
.
Asimetría Positiva
g1 =1.85
Asimetría Negativa
g1=−1.66
Simétrica
g1 = 0.028
13
14. Curtosis, Kurtosis
Tomando como origen de coordenadas la media x, y como unidad de medida la desviaci´on t´ıpica,
aparecen diferentes tipos de distribuciones de frecuencias de los datos.
Definiendo el coeficiente muestral de exceso:
g2 =
m4
s4
− 3 =
1
n
m
i ni(xi − x)4
s4
− 3.
Platic´urtica g2 < 0.
Mesoc´urtica g2 = 0.
Leptoc´urtica g2 > 0.
Platicurtica
−10 −5 0 5 10
0.000.050.100.150.200.25
g2 =−1.06
Leptocurtica
−10 −5 0 5 10
0.000.050.100.150.200.25
g2 =2.32
Mesocurtica
−10 −5 0 5 10
0.000.050.100.150.200.25
g2 =0.056
14
15. Asimetr´ıa y Curtosis con R
> library(UsingR,e1071)
> ingresos<-cfb$INCOME
> moment(ingresos,order=3,center=TRUE)/moment(ingresos,
+ order=2,center=TRUE)^(3/2)
[1] 8.083549
> skewness(ingresos,type=1)
[1] 8.083549
> help(skewness)
> kurtosis(ingresos,type=1)
[1] 82.83009
Histograma de Ingresos
Histograma de Ingresos
ingresos
DensidaddeFrecuencia
0 500000 1000000 1500000
0.0e+004.0e−068.0e−061.2e−05
15