Estadistica descriptivamedidas

ESTADISTICA DESCRIPTIVA.
MEDIDAS
Por: Prof. Elena Coba
Para el Curso Est. 108
Medicina Veterinaria
Facultad de Medicina Veterinaria
Universidad de Panamá

Medidas de Tendencia Central
Cuando se estudia una variable, habitualmente
interesa saber en qué lugar se encuentran ubicados
sus valores. Es el conocimiento primario acerca de
sus características. Esta noción de un valor que
represente una característica de 'centro' de una
población, es uno de los primeros elementos de
información que se busca establecer para describirla.
Sus principales funciones son:
- Resumir información
- Ayudar a comparar grupos
Las principales medidas de este tipo son la media o
promedio aritmético, la mediana y la moda.

Medidas de Posición Central: La media
La media aritmética (también llamada la media) es el
promedio o medición de tendencia central de uso más
común. Se calcula sumando todas las observaciones de
una serie de datos y luego dividiendo el total entre el número
de elementos involucrados.
n
x...xx
n
n21
n
1o
i_ x
x



 Para datos no agrupados y
Cuando son agrupados




f
xf
x
i
n
1x
i_ i
Siendo:
fi= Frecuencia observada
xi=Pto. medio del intervalo
Σfi=n

 Es la medida más utilizada. Representa al puntaje que equilibra los valores
positivos con los negativos de una distribución. puede ser denominada como cde
una distribución, el cual no es necesariamente la mitad.
Ntro de
Es fácil de calcular y, como incluye a toda la distribución, puede ser transformada
algebraicamente.
Soporta variantes: promedio ponderado, agrupaciones de promedios
No es una medida resistente, porque esta afectada por cada valor del
conjunto de datos, principalmente por los valores extremos.
Cuando los datos están agrupados no se puede calcular en intervalos
abiertos, lo que constituye una desventaja.
 Su valor puede que no coincida con ninguno de los valores de la muestra
Características

Propiedades
1. La suma de las desviaciones a partir de la media
aritmética es cero:
0)(
_
 xxi
i
2. , si k es una constantekk 
_
3. Si Y = KXi entonces , si k es una constanteXY K
__

1
4. Si , entoncesYi  Xi  k Y  Xk
5. Propiedad Media ponderada
XT 
n1 X1  n 2 X2  .... nk Xk
n1  n 2  .... nk

Medidas de Posición Central: la media
EJEMPLO DATOS AGRUPADOS
5,15
8
124
n
x...xx
n
n21
n
1i
i_ x
x







Se tienen los siguientes datos: 17, 16, 21,
18, 13, 16, 12, 11.

Medidas de Posición Central: la media
EJEMPLO AGRUPADOS
71,6
40
268,52
40
)175,7(6...5(6,295)2(6,075)
f
xf
x
i
n
1x
i_ i








LI LS Frecuencia Marcade
clase
Límitereal
inferior
Límitereal
superior
Frecuencia
relativa
Frecuencia
Relativa
acumulada
5.97–6.18 2 6.075 5.965 6.185 2/40= 0.05 0.05
6.19–6.40 5 6.295 6.185 6.405 5/40=0.125 0.175
6.41–6.62 7 6.515 6.405 6.625 0.175 0.350
6.63–6.84 13 6.735 6.625 6.845 0.325 0.675
6.85–7.06 7 6.955 6.845 7.065 0.175 0.850
7.07–7.28 6 7.175 7.065 7.285 0.15 1.000
Total 40 1.000
Se tienen los siguientes
datos.

OTROS TIPOS DE MEDIA
• Media aritmética ponderada: se utiliza cuando a cada valor de la variable (xi) se
le otorga una ponderación o peso distinto de la frecuencia o repetición. Ej. Cálculo
de las notas en la universidad.
• Media geométrica: Corresponde al valor representativo central de observaciones
secuenciales y estrechamente relacionadas entre sí tales como tasas de: interés,
inflación, devaluación, variación, crecimiento, disminución..
• Media armónica: Esta media no es aconsejable en distribuciones de variables con
valores pequeños. Suele utilizarse cuando los valores “extremos” no afecten al
valor del promedio; ejemplo: para promediar variables tales como
productividades, velocidades, tiempos, rendimientos, cambios, etc.

Medidas de Posición Central: La mediana
La mediana es el “valor central” de un histograma. Se trata de la
puntuación que deja por debajo al 50% de las observaciones, y al 50%
por arriba; esto no la hace sensible a valores extremos (es robusta).
Para hallar la mediana de una distribución (datos no agrupados)
debemos ordenar las observaciones en orden ascendente y:
Mientras que para datos agrupados es:
  
   
1 2
2 ( 2) 1
2
n
n n
x si n es impar
Me x x
si n es par




  


Am
)x(f
)x(F
2
n
LmMd
m
1m

Donde:
Lm: límite inferior de la clase mediana.
F(xm-1): frecuencia acumulada de la clase
anterior a la clase mediana.
f(xm): frecuencia absoluta de la clase
mediana.
Am: amplitud de la clase mediana.

Características
1. No se ve afectada por los valores extremos
2. Se puede calcular en intervalos abiertos.
3. En distribuciones muy asimétricas es una
medida de centralidad más representativa que
la media.
4. Tiene la desventaja de no prestarse a
manipulaciones algebraicas y no tomar en
consideración, para su cálculo, toda la
información disponible.

Propiedades
1. Es única. Al igual que la media, existe
solamente una mediana para un conjunto de
datos.
2. Simplicidad. Es muy sencilla calcularla.
3. Los valores extremos no tienen efectos
importantes sobre la mediana, lo que si ocurre
con la media.

Medidas de Posición Central: la mediana
EJEMPLO PARA DATOS NO AGRUPADOS
Nro. de observaciones es impar
26,26,28,29,30,32,60
valores : 28, 60, 26, 32, 30, 26,
29. ¿Cuál es la mediana?
Supongamos que se agrega al
grupo el valor 31. ¿Cuál es la
mediana?
Nro. de observaciones es par
26,26,28,29,30,31,32,60
Primero, ordenar los salarios.
Luego, localizar el valor en el
medio.
26,26,28,29,30,32,60
Primero, ordenar los salarios.
Luego, localizar el valor en el
medio. Hay dos valores en el
medio!
5,29
2
3029



Medidas de Posición Central: la mediana
EJEMPLO PARA DATOS AGRUPADOS
73,6
)22,0(
13
14
2
40
6,625
Am
)x(f
)x(F
2
n
LmMd
m
1m









 





LI LS Frecuencia Marca de
clase
Límite real
inferior
Límite real
superior
Frecuencia
relativa
Frecuencia
acumulada
5.97 – 6.18 2 6.075 5.965 6.185 2/40 = 0.05 2
6.19 – 6.40 5 6.295 6.185 6.405 5/40=0.125 7
6.41 – 6.62 7 6.515 6.405 6.625 0.175 14
6.63 – 6.84 13 6.735 6.625 6.845 0.325 27
6.85 – 7.06 7 6.955 6.845 7.065 0.175 34
7.07 – 7.28 6 7.175 7.065 7.285 0.15 40
Total 40 1.000

Medidas de Posición Central: La moda
El modo es el valor que ocurre con mayor frecuencia en un
grupo de observaciones.
En datos agrupados la formula es :
m
21
1
mo A
dd
d
LM 







Donde:
Lm: límite inferior de la clase que contiene a la moda.
d1: Diferencia entre la frecuencia de la clase modal y la frecuencia
de la clase contigua inferior
d2: Diferencia entre la frecuencia de la clase modal y la frecuencia
de la clase contigua superior.
Am: amplitud del intervalo que contiene la moda.

Medidas de Posición Central: La moda
Características
En un conjunto de observaciones puede haber más de
un modo o puede no existir y cuando existe no es
necesariamente única. Si hay más de dos valores con
la mayor frecuencia se dice que no tiene moda.
La moda se puede utilizar para describir datos
cualitativos
Permite planificar, organizar y producir para satisfacer
las necesidades de la mayoría.
No tiene sentido en muestras pequeñas en las que la
aparición de coincidencias en los valores es con gran
frecuencia más producto del azar que de otra cosa.

Medidas de Posición Central: la moda
EJEMPLO
1.Datos no agrupados:
datos:
17, 16, 21, 18, 13, 16, 12,
11.
Entre los 8 valores el 16
se repite 2 veces por lo
tanto representa la moda
para los mismos.
2. Datos agrupados
6,74
(0,22)
66
6
6,625
A
dd
d
LM m
21
1
mo

















clase
Límitereal
inferior
Límitereal
superior
Frecuencia
relativa
Frecuencia
acumulada
5.97–6.18 2 6.075 5.965 6.185 2/40=0.05 2
6.19–6.40 5 6.295 6.185 6.405 5/40=0.125 7
6.41–6.62 7 6.515 6.405 6.625 0.175 14
6.63–6.84 13 6.735 6.625 6.845 0.325 27
6.85–7.06 7 6.955 6.845 7.065 0.175 34
7.07–7.28 6 7.175 7.065 7.285 0.15 40
Total 40 1.000

Medidas de Posición Central: Comparación
entre la media y la mediana
• La media es sensible a observaciones extremas y a
outliers.
• La mediana solo es sensible a cambios en su
entorno que la cruzan. Por ello, se dice que la
mediana es un estimador robusto de la tendencia
central.
• La media y la mediana de una distribución simétrica
se encuentran muy cerca. Si la distribución es
exactamente simétrica, la media y la mediana
coinciden.
• Si la distribución es asimétrica, la media queda
desplazada hacia la cola más larga del histograma
de la distribución.

¿CUANDO ELEGIR MEDIA, MEDIANA O MODA?
Norma General:
1° Media
2° Mediana
3° Moda
RAZONES PARA PREFERIR LA
MEDIA:
1. En ella se basan otros
estadísticos.
2. Las medias muestrales son
mejores estimadores de los
parámetros poblacionales.
RAZONES PARA PREFERIR LA MEDIANA:
1.Cuando la variable este medida es una
escala ordinal.
2.Cuando haya valores extremos, pues estos
distorsionan la interpretación de la media.
EJEMPLO: 3,4,8,5,6,124 Media=25
3.Cuando haya intervalos abiertos, ya que
estos carecen de punto medio.
RAZONES PARA PREFERIR LA MODA:
1.Cuando la variable este medida es una
escala nominal
2.Cuando haya intervalos abiertos y la mediana
pertenezca a uno de ellos.
Las tres medidas coinciden cuando la distribución de los datos es unimodal y
simétrica. Ejemplo: La distribución normal
Cuanto más asimétrica, más diferencia entre ellas.

Medidas de dispersión
Ejemplo de dos conjuntos de datos con igual media
Datos con baja dispersión Datos con alta dispersión
Las «medidas de dispersión» Las medidas de dispersión
indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización

Medidas de dispersión: El Rango
Una manera de medir la dispersión es calcular el
recorrido (amplitud o rango) de la distribución
empírica, es decir, la diferencia entre las
observaciones máxima y mínima.
Es una medida de dispersión absoluta, ya que
depende solamente de los datos y permite conocer
la máxima dispersión.
Su mayor ventaja es que se puede calcular
fácilmente, sin embargo, no brinda información
sobre la dispersión existente entre ambos valores
extremos porque no toma en consideraciones el
número de observaciones de la muestra.

Medidas de dispersión: El Rango
El rango ignora cómo los datos se distribuyen
Rango  X Xmayor menor
7 8 9 10 7 8 9 10
2, 3, 5, 7, 11, 13, 17, 19, 23,29,31
31 - 2 = 29

Medidas de dispersión: La Varianza
La varianza s2 de un conjunto de observaciones es el promedio
de los cuadrados de la desviaciones de las observaciones
respecto a su media. Es una medida robusta que da una idea del
grado de concentración de los datos con respecto a la media. Se
calcula para variables de razón (ratio o cociente) y de intervalo.
Formalmente:
2
2
i
22
i
2
i2
x
n
x
n
xnx
n
)xx(
s 





Para datos no agrupados
Para datos agrupados
2
iii
2
i2i
2
i2
22
ii
2
ii2
n
fx
n
fx
x
n
fx
s
1n
xnxf
1n
)xx(f
s
















Propiedades
Siempre es mayor o igual a cero y menor que infinito.
La varianza de una constante es cero.
Si a una variable X la sometemos a Y=a+bX, la varianza
de Y será Var(Y) = b2Var(X)
Ventajas:
Es útil cuando se compara la variabilidad de dos o más
conjuntos de datos.
Utiliza toda la información disponible.
Desventajas:
No proporciona ayuda inmediata cuando se estudia la
dispersión de un solo conjunto de datos.
Difícil de interpretar por tener sus unidades elevadas al
cuadrado.

Ejemplo
14,11
7
78
1-8
(8)(15,5)-2000
1n
xnx
s
2
22
i2







 

2000x
5,15
2
i
_
x
1. Datos no agrupados:
datos:
17, 16, 21, 18, 13, 16, 12, 11.
2. Datos agrupados
713,6
f
xf
x
i
n
1x
i_ i




clase
5.97 – 6.18 2 6,075 -0,638 0,407 0,814
6.19 – 6.40 5 6,295 -0,418 0,175 0,874
6.41 – 6.62 7 6,515 -0,198 0,039 0,274
6.63 – 6.84 13 6,735 0,022 0,000 0,006
6.85 – 7.06 7 6,955 0,242 0,059 0,410
7.07 – 7.28 6 7,175 0,462 0,213 1,281
Total 40 3,659
xxi  2
)xx(  i
2
f)xx( 
=
140
)6()713,6175,7(...)5()713,6295,6()2()713,6075,6( 222



1n
)xx(f
s
2
ii2




39
281,1...874,0814,0 

93,0

Medidas de dispersión: La Desviación
estándar
 

 2
i )xx(
1n
1
s
La varianza muestral está medida en el cuadrado de las
unidades observadas al hacer las mediciones contenidas en la
muestra. Para devolverse a una estadística que use las mismas
unidades que las observaciones, es necesario calcular su raíz
cuadrada.
Lo anterior conduce a la definición de la estadística denominada
desviación estándar, desviación tipo, desviación típica o
desvío típico muestral', que no es otra cosa que la raíz cuadrada
de la varianza.
tiene la ventaja que está en las mismas unidades de medida que
los datos :

Medidas de dispersión: La Desviación estándar
Propiedades
• La desviación estándar es siempre un valor no negativo.
• Es la medida de dispersión óptima por ser la más
pequeña.
• s mide la dispersión respecto a la media. Debe emplearse
solo cuando se escoge la media como medida central de
la distribución.
• s = 0 solo ocurre cuando no hay dispersión: todas las
observaciones toman el mismo valor. De lo contrario s >
0.
• Cuanto más dispersión hay entre las observaciones,
mayor es s.
• s, al igual que la media, se encuentra fuertemente
influenciadas por las observaciones extremas.

Medidas de dispersión: La Desviación estándar
Ventajas y Desventajas
Ventajas:
Esta expresada en las mismas
unidades que la variable en estudio.
Utiliza todas las observaciones en su
cálculo.
Fácil de interpretar.
Desventajas:
No tiene.

Medidas de dispersión: Desviación Estándar
Ejemplo
datos:
17, 16, 21, 18, 13, 16, 12, 11.
2. Datos agrupados
clase
5.97 – 6.18 2 6,075 -0,638 0,407 0,814
6.19 – 6.40 5 6,295 -0,418 0,175 0,874
6.41 – 6.62 7 6,515 -0,198 0,039 0,274
6.63 – 6.84 13 6,735 0,022 0,000 0,006
6.85 – 7.06 7 6,955 0,242 0,059 0,410
7.07 – 7.28 6 7,175 0,462 0,213 1,281
Total 40 3,659
xxi  2
)xx(  i
2
f)xx( 
3,34s
143,11
1n
xnx
s
22
i2






96,0s
93,0
1n
)xx(f
s
2
ii2







Medidas de Dispersión: El
Coeficiente de Variación
Es una medida de dispersión relativa, pues está exenta de
unidades y se expresa en porcentaje
Se utiliza para comparar la homogeneidad de dos series de
datos, aún cuando estén expresados en distintas unidades de
medida en escala de razón (metros, kilos, etc.) o que corresponden
a poblaciones extremadamente desiguales.
100_

x
s
CV
Se debe destacar que a medida que el CV disminuye, se observa
una mayor homogeneidad en los datos; en caso contrario, cuanto
mayor es CV mayor es la dispersión y menor la representatividad
de la media.

Medidas de Dispersión: El
Coeficiente de Variación
Ventajas:
• Es la única MD que permite comparar el nivel de
dispersión de dos muestras de variables
diferentes.
• Emplea toda la información disponible en su
cálculo.
• Fácil de calcular.
Desventaja:
• No es una MD con respecto al centro de la
distribución de los datos.

Medidas de Localización o Posición
Además de las mediciones de tendencia central
y dispersión, también existen algunas mediciones
útiles de ubicación no centrales.
La descripción de un conjunto de datos, incluye
como un elemento de importancia la ubicación de
éstos dentro de un contexto de valores posibles
Estas mediciones no nos dicen alrededor de qué
valor tienden a estar los datos, sino, por ejemplo,
qué dato del conjunto de datos, tiene el 25% de
los datos menores a él, o el 70%, el 90%, etc.

Medidas de Localización: Los
Cuartiles
Son 3 valores que distribuyen la serie de datos, ordenada de forma
creciente o decreciente, en cuatro tramos iguales, en los que cada uno de
ellos concentra el 25% de los resultados
• Los cuartiles son medidas de tendencia no central de una distribución.
• Dividen los datos ordenados en 4 cuartos iguales:
• El segundo cuartil de una distribución es su mediana.
• La formula para su cálculo es:
siendo Qp el cuartil de orden p
c
f
F
np
LQ
i
i
ip 














1
4
25% 25% 25% 25%
Q1 Q2 Q3

Medidas de Localización: Los
Cuartiles
Reglas para obtener los valores de cuartiles:
1. Si el punto de posicionamiento resultante es un entero, se
elige la observación que está en esa posició
2. Si el punto de posicionamiento está a la mitad del camino
entre dos enteros, se selecciona el promedio de sus
valores correspondientes.
3. Si el punto de posicionamiento resultante no es ni un
entero ni un valor a la mitad del camino entre dos
enteros, se redondea al punto de posicionamiento entero
más cercano y se selecciona el valor numérico de la
observación correspondiente

Medidas de Localización: Los Cuartiles
Ejemplo datos no agrupados
entoncespar,esncomo,
4
np
Qp 
27Q
25,6
4
)124(1
Q
1
1




5,28
4
)2829(2
28Q
5,12
4
)124(2
Q
2
2






Se tienen los siguientes datos de temperatura:
Ordenados
25, 25, 25, 26, 26, 27, 27, 28, 28, 28, 28, 28, 29, 30, 30,
30, 31, 31, 31, 31, 31, 32, 32, 35
31Q
75,18
4
)124(3
Q
3
3





Medidas de Localización: Los Cuartiles
Ejemplo datos agrupados
73,6
)22,0(
13
14
4
2*40
6,625Q2









 

a*
f
F
4
np
LQ
i
1i
ip













50,6
)22,0(
7
7
4
1*40
6,405Q1









 

clase
Límite real
inferior
Límite real
superior
Frecuencia
relativa
Frecuencia
acumulada
5.97 – 6.18 2 6.075 5.965 6.185 2/40 = 0.05 2
6.19 – 6.40 5 6.295 6.185 6.405 5/40=0.125 7
6.41 – 6.62 7 6.515 6.405 6.625 0.175 14
6.63 – 6.84 13 6.735 6.625 6.845 0.325 27
6.85 – 7.06 7 6.955 6.845 7.065 0.175 34
7.07 – 7.28 6 7.175 7.065 7.285 0.15 40
Total 40 1.000
94,6
)22,0(
7
27
4
3*40
6,845Q3









 


Otras Medidas de Localización
Los Deciles: Son 9 valores que distribuyen la serie de datos, ordenada
de forma creciente o decreciente, en diez tramos iguales, en los que
cada uno de ellos concentra el 10% de los resultados. Su formula es:
siendo Dp el decil de orden p
Los Percentiles: Son 99 valores que distribuyen la serie de datos,
ordenada de forma creciente o decreciente, en cien partes iguales, en
los que cada uno de ellos concentra el 1% de los resultados..
siendo Pp el percentil de orden p
c
f
F
np
LD
i
i
ip 














1
10
c
f
F
np
LP
i
i
ip 














1
100

Relación entre los Cuartiles
El Rango Intercuartil:
Es un medida de dispersión, más resistente que el desviación estándar.
Su cálculo toma en cuenta el porcentaje de todas las observaciones que
son menores o iguales que ese valor, representando la distancia entre el
tercer y el primer cuartil, cuando han sido calculados.
Esta medida sólo considera la dispersión en el 50% de los datos del
medio por lo que no es influenciada por posibles valores extremos.
Esta estadística cumple una función similar a la desviación estándar,
pero es mucho más resistente al efecto de valores extremos en los datos
RI= Q3 – Q1
El Rango Semi-intercuartílico:
RI= P75 – P25

Interpretación del Rango Intercuartil
Un valor pequeño del recorrido intercuartílico indica poca
dispersión. Sin embargo, un valor grande puede indicar
mucha dispersión o la existencia de valores extremos.
Como los cuartiles están poco afectados por la existencia
de valores extremos, un recorrido intercuartílico pequeño
frente a un recorrido grande indicará la existencia de
valores extremos. Si ambos son grandes, podemos
asegurar que existe dispersión.
42731QQRI
102535R
atemperaturladeEjemplo
13 

44,050,694,6QQRI
25,100,625,7R
engranajedepulgadasdeEjemplo
13 


Diagrama de Caja
A partir de este gráfico podemos puede apreciarse los siguientes aspectos
de la distribución de un conjunto de datos:
posición
dispersión
asimetría
longitud de las colas
puntos anómalos o outliers.
Los diagramas de caja son especialmente útiles para comparar varios
conjuntos de datos, pues nos dan una rápida impresión visual de sus
características.
El gráfico de caja (o box-plots) es una representación que describe la
información contenida en una muestra basándose en cinco estadísticas:
Max - Observación máxima
Q3 - Tercer cuartil
Q2 - Mediana
Q1 - Primer cuartil
Min - Observación mínima

Interpretación del diagrama de
Caja y Bigote
El sesgo positivo surge cuando la media se incrementa en algunos valores
inusualmente altos; el sesgo negativo ocurre cuando la media se reduce
en algunos valores extremadamente bajos. Los datos son simétricos
cuando no existen valores extremos reales en una dirección particular de
forma tal que los valores bajos y altos se compensan entre sí.
Sesgo positivoSesgo negativo Simétrica
Q1
Mediana Q3
Q1
Mediana Q3 Q1
Mediana Q3

Interpretación del diagrama de Caja y Bigote

Interpretación del diagrama de Caja y Bigote
En este gráfico, cada zona está representada por una caja que muestra los niveles
de ph. Se puede observar diferencias en cuanto la situación de la mediana y a la
dispersión. Por ejemplo, se observa que en la zona C los niveles de ph son
superiores a los de la zona B y que presentan una ligera mayor dispersión. Los
casos extremos si los hay se representan por símbolos especiales a cuyo lado
aparece el número de caso.
También nos da idea de la simetría de los datos, por ejemplo una mediana
descentrada dentro del rectángulo nos indicaría una asimetría. En este ejemplo
podemos decir que las distribuciones no son lo suficientemente simétricas.

Medidas de Forma
•Las medidas de forma permiten comprobar si una
distribución de frecuencia tiene características
especiales como simetría, asimetría, nivel de
concentración de datos y nivel de apuntamiento que
la clasifiquen en un tipo particular de distribución.
•Las medidas de forma son necesarias para
determinar el comportamiento de los datos y así,
poder adaptar herramientas para el análisis
probabilístico.
Medidas
de forma
-Asimetría
-Kurtosis o apuntamiento
Coeficiente de Pearson
Coeficiente de Fisher

Medidas de Forma:
Asimetría
El concepto de asimetría se refiere
a la forma de la curva, dependiendo
de cómo se agrupan los datos. Esto
es si la curva que forman los valores
de la serie presenta la misma forma
a izquierda y derecha de un valor
central (media aritmética)

Medidas de Forma: Asimetría
Coeficiente de Asimetría de Pearson
• Fácil de calcular e interpretar.
• Cálculo:
 
s
MdX
ASP


3
o Interpretación:
ASP
= 0, X=Md Simétrica
> 0, X>Md Asimétrica Positiva
< 0, X<Md Asimétrica Negativa

Coeficiente de Asimetría de Pearson
Ejemplo
45,0
34,3
)165,15(3
CAP
34,3sy16Md,5,15x
1:Ejemplo




19,0
31,0
)73,671,6(3
CAP
31,0sy6,73Md,71,6x
2:Ejemplo





Coeficiente de Asimetría de Fisher
• No es de fácil cálculo, pero si su interpretación.
 
 
n
fxM
m
n
Xx
m
k
1i
i
3
i
3
n
1i
3
i
3








Datos NO agrupados
Datos Agrupados
3
3
s
m
ASF 
siendo:
Interpretación:
ASF
= 0, Simétrica
> 0, Asimétrica Positiva
< 0, Asimétrica Negativa

Coeficiente de Asimetría de Fisher. Ejemplo
 
006,0
40
248,0
n
fxM
m
k
1i
i
3
i
3 






21,0
)31,0(
006,0
ASF 3



31,0s 
datos: 17, 16, 21, 18, 13, 16, 12,
11.
2. Datos agrupados
clase
Límitereal
inferior
Límitereal
superior
5.97–6.18 2 6,075 5.965 6.185 -0,638 -0,260 -0,519
6.19–6.40 5 6,295 6.185 6.405 -0,418 -0,073 -0,365
6.41–6.62 7 6,515 6.405 6.625 -0,198 -0,008 -0,054
6.63–6.84 13 6,735 6.625 6.845 0,022 0,000 0,000
6.85–7.06 7 6,955 6.845 7.065 0,242 0,014 0,099
7.07–7.28 6 7,175 7.065 7.285 0,462 0,099 0,592
Total 40 -0,248
)xx(  3
)xx(  i
3
f)xx( 
 
28
8
36
n
Xx
m
n
1i
3
i
3 




34,3s 
75,0
)34,3(
28
ASF 3

Xi
16 0,5 0,125
17 1,5 3,375
21 5,5 166,375
18 2,5 15,625
13 -2,5 -15,625
16 0,5 0,125
12 -3,5 -42,875
11 -4,5 -91,125
8 36
)xx(  4
)xx( 

Medidas de Forma: Asimetría.
Expresión en Excel
En el software Excel, la función
=COEFICIENTE.ASIMETRIA(A3:A14) se basa en la
siguiente expresión:
Si la distribución es simétrica As será 0
Si la distribución es asimétrica positiva, As será mayor que 0
Si la distribución es asimétrica negativa, As será menor que 0
Desventaja: Muy influida por puntuaciones atípicas.
s
A
x
i
s
Xx
nn
n
3
3
__
)(
)2()1(
 




As = 0 (distribución simétrica;
existe la misma concentración
de valores a la derecha y a la
izquierda de la media)
As > 0 (distribución asimétrica
positiva; existe mayor
concentración de valores a la
derecha de la media que a su
izquierda)
As < 0 (distribución asimétrica
negativa; existe mayor
concentración de valores a la
izquierda de la media que a su
derecha)

• Si una distribución es simétrica, la media,
mediana y modo coinciden
• Si una distribución no es simétrica, las tres
medidas difieren.
Asimetría hacia la derecha
(asimetría positiva)
Media
Mediana
Modo
Media
Mediana
Modo
Asimetría hacia la izquierda
(asimetría negativa)

Medidas de Forma: Curtosis
• El Coeficiente de Curtosis analiza el grado
de concentración que presentan los valores
alrededor de la zona central (media) de la
distribución.
• Su fórmula es:
4
4
s
m
Ap  siendo:
 
 
3
n
fXM
m
3
n
Xx
m
k
1i
i
4
i
4
n
1i
4
i
4









 Datos No Agrupados
Datos Agrupados

Ejemplo
datos: 17, 16, 21, 18, 13, 16, 12,
11.
2. Datos agrupados
clase
Límitereal
inferior
Límitereal
superior
5.97–6.18 2 6,075 5.965 6.185 -0,638 0,166 0,331
6.19–6.40 5 6,295 6.185 6.405 -0,418 0,031 0,153
6.41–6.62 7 6,515 6.405 6.625 -0,198 0,002 0,011
6.63–6.84 13 6,735 6.625 6.845 0,022 0,000 0,000
6.85–7.06 7 6,955 6.845 7.065 0,242 0,003 0,024
7.07–7.28 6 7,175 7.065 7.285 0,462 0,046 0,273
Total 40 0,792
)xx(  4
)xx(  i
4
f)xx( 
 
980,23
40
792,0
3
n
fxM
m
k
1i
i
4
i
3 




70,322
)31,0(
980,2
Ap 4



31,0s 
Xi
16 0,5 0,0625
17 1,5 5,0625
21 5,5 915,0625
18 2,5 39,0625
13 -2,5 39,0625
16 0,5 0,0625
12 -3,5 150,0625
11 -4,5 410,0625
8 1558,5
)xx(  4
)xx( 
 
81.1913
8
5,1558
3
n
Xx
m
n
1i
3
i
3 




34,3s 
54,1
)34,3(
81,191
Ap 4


Expresión en Excel
Si la distribución es normal (mesocúrtica), el índice vale 0
Si la distribución es leptocúrtica, el índice es superior a 0
Si la distribución es platicúrtica, el índice es inferior a 0
)3)(2(
)1(3)(
)3)(2)(1(
)1( 2
4
4
__



















nn
nXx
nnn
nn
s
C
x
i
r
En el software Excel, la función =CURTOSIS(A3:A14)
se basa en la siguiente expresión:

Se definen 3 tipos de distribuciones según su grado de curtosis:
Distribución mesocúrtica: presenta un
grado de concentración medio alrededor
de los valores centrales de la variable (el
mismo que presenta una distribución
normal). Ap = 0
Distribución leptocúrtica: presenta
un elevado grado de concentración
alrededor de los valores centrales de
la variable. Ap > 0
Distribución platicúrtica: presenta
un reducido grado de concentración
alrededor de los valores centrales de
la variable. Ap < 0

TIPIFICACIÓN DE LOS VALORES DE UNA
VARIABLE ALEATORIA
Se conoce por tipificación al proceso de restar la media y dividir por su
desviación típica a una variable X. De este modo se obtiene una nueva variable,
conocida como variable tipificada.
Esta nueva variable carece de unidades y permite hacer comparables dos
medidas que en un principio no lo son, por aludir a conceptos diferentes. Así por
ejemplo nos podemos preguntar si un elefante es más grueso que una hormiga
determinada, cada uno en relación a su población.
También es aplicable al caso en que se quieran comparar individuos semejantes
de poblaciones diferentes. Por ejemplo si deseamos comparar el nivel académico
de dos estudiantes de diferentes Universidades para la concesión de una beca de
estudios, en principio sería injusto concederla directamente al que posea una nota
media más elevada, ya que la dificultad para conseguir una buena calificación
puede ser mucho mayor en un centro que en el otro, lo que limita las posibilidades
de uno de los estudiante y favorece al otro. En este caso, lo más correcto es
comparar las calificaciones de ambos estudiantes, pero tipificadas cada una de
ellas por las medias y desviaciones típicas respectivas de las notas de los alumnos
de cada Universidad.

Datos
Media 15,5
Error típico 1,18019369
Mediana 16
Moda 16
Desviación estándar 3,33809184
Varianza de la muestra 11,1428571
Curtosis -0,5964497
Coeficiente de asimetría 0,18435221
Rango 10
Mínimo 11
Máximo 21
Suma 124
Cuenta 8
Estadística Descriptiva con Excel

Utilizando una macro para construir el diagrama de caja

Diametro engranaje
Media 6,705
Error típico 0,05225063
Mediana 6,75
Moda 6,75
Desviación estándar 0,33046199
Varianza de la muestra 0,10920513
Curtosis -0,5434832
Coeficiente de asimetría -0,32058259
Rango 1,25
Mínimo 6
Máximo 7,25
Suma 268,2
Cuenta 40
Intervalos Frecuencia % acumulado
6,18 2 5,00%
6,4 5 17,50%
6,62 7 35,00%
6,84 13 67,50%
7,06 7 85,00%
7,28 6 100,00%
y mayor... 0 100,00%
Histograma
0
2
4
6
8
10
12
14
6,18
6,4
6,62
6,84
7,06
7,28ymayor...
Intervalos
Frecuencia 0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
120,00%
Frecuencia
% acumulado

Estadistica descriptivamedidas

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Estadistica descriptivamedidas

Similar a Estadistica descriptivamedidas (20)

Más de ElenaCoba1

Más de ElenaCoba1 (7)

Último

Último (20)

Estadistica descriptivamedidas