Esta di stica descriptiva

• La estadística tiene que ver con la
recopilación, presentación, análisis y uso
de datos para tomar decisiones y resolver
problemas.

• Cualquier persona recibe información en
forma de datos a través de los periódicos,
la televisión u otros medios; y a menudo
es necesario obtener alguna conclusión a
partir de la información contenida en los
datos.

• Los métodos empleados para resumir y
organizar datos se denominan
estadística descriptiva; mientras que los
métodos para tomar decisiones se
denominan inferencia estadística.

• El término población se refiere a los
elementos del universo respecto al cual se
quieren obtener conclusiones o tomar
decisiones. A cada elemento se le puede
asociar una medición que bien puede ser
numérica o cualitativa dependiendo de la
característica que se quiera estudiar. El
término muestra se refiere al subconjunto
de observaciones seleccionadas de la
población de interés

Variables:
• A cada característica de los elementos de una
población se le llama variables. Nos
encontraremos con varios tipos de variables:
cualitativas y cuantitativas.
• Las variables cualitativas son aquellas que se
refieren a categorías o atributos de los
elementos (individuos) estudiados. Las variables
cuantitativas son aquellas cuyos datos son de
tipo numérico.

• TIPOS DE VARIABLES CUALITATIVAS
• Dicotómicas: Sólo hay dos categoría, que son
excluyentes una de la otra
• Ejemplo: enfermo-sano, muerto-vivo, mujer-
hombre
• Nominal: tiene mas de dos categorías y no hay
orden entre ellas.
• Ejemplo: color de los ojos, grupo sanguíneo
• Ordinal: tiene varias categorías y hay orden
entre ellas.
• Ejemplo: grado tumoral, calificación del riesgo
en anestesia.

• TIPOS DE VARIABLES CUANTITATIVAS
• Continuas: números infinito no numerables de
elementos. Tiene asociado el concepto de
medida
• Ejemplo: Presión arterial, Edad, peso.
• Discretas: números finitos o infinitos
numerables de elementos. Se asocia con el
concepto de conteo.
• Ejemplo: N° de hijos, N° de casos de
tuberculosis por estado.

• Hay ocasiones en las que las medidas
cuantitativas continuas son transformadas
en ordinales mediante la utilización de uno
o varios puntos de corte.
• Ejemplo: La variable peso es codificada
en varias categorías y se utiliza en
términos como: Bajo-peso, peso-normal,
Sobrepeso, Obesidad

• Las descripciones numéricas de datos suelen
ser importantes. Dado un conjunto de n
observaciones x1 , x2 ,....., xn
• La estadística descriptiva nos puede ayudar
mediante resúmenes numéricos, que son
medidas de tendencia central, o también
llamadas de posición y medidas de dispersión

• Las medidas descriptivas más comunes
de tendencia central o localización son:
la media aritmética y la mediana (existen
otras medidas de tendencia central que
en ocasiones pueden resultar de interés:
la moda, los cuartiles, los deciles, los
percentiles, la media armónica, la media
geométrica y la media ponderada.)

• La media aritmética o simplemente promedio
(también llamada media muestral ya que
generalmente se calcula en relación a una
muestra) se calcula de la siguiente forma: si las
observaciones de una muestra de tamaño n son
x1, x2,…,xn entonces
n

∑x
x 1 + x 2 + ... + x n i = 1
i

X= =
n n

• Característica de la Media
• Es intuitiva y fácil de calcular.
• Su valor puede que no coincida con ninguno de los
valores de la muestra
• La suma de las diferencias de cada valor de la muestra
con la media su resultado es cero, es decir,
n

∑ (x − x) = 0
i =1
i

• La mediana se suele definir como el valor
“más intermedio” una vez que los datos
han sido ordenados en forma creciente.
Se suele denotar por Me. La forma más
general de calcular la mediana es la
siguiente:
 x ( ( n + 1) 2) si n es impar

Me =  x
( n 2 ) + x ( ( n 2) +1)
 si n es par
 2

• La mediana es aquel valor que deja el
cincuenta por ciento de los datos por
debajo y otro cincuenta por encima.
• Cabe destacar que es preferible el uso de
la mediana como medida descriptiva del
centro cuando se quiere reducir o eliminar
el efecto de valores extremos en un
conjunto de datos (muy grandes o muy
pequeños).

• Moda:
• Es una medida de tendencia central que
se puede utilizar sea cual sea el tipo de
variable a estudiar. La moda de un
conjunto de observaciones es el valor que
más se repite, aquel cuya frecuencia
absoluta es máxima. Puede ser única, que
haya más de una, o que no exista.

• Media Geométrica:
• Se define como la raíz n-ésima del producto
de todos los valores numéricos, es decir,
• n
X G = n x1.x2 ....xn = n ∏( xi )
i =1

• La media armónica:
• Se define como el número de
observaciones de la muestra dividido por la
suma del inverso de cada una de las
observaciones, es decir,

n
XA = n

∑ /x)
(1
i=1
i

• La localización o tendencia central de un
conjunto de datos no necesariamente
proporciona información suficiente para
describirlos adecuadamente. Debido a que no
todos los valores son semejantes, la variación
entre ellos se considera importante. Se puede
decir que un conjunto de datos tiene una
dispersión reducida si los mismos se aglomeran
estrechamente en torno a alguna medida de
localización de interés y se dice que tiene una
dispersión grande si se esparcen ampliamente
alrededor de alguna medida de localización de
interés.

• Las medidas descriptivas más comunes
de dispersión son: el rango, la varianza,
la desviación estándar y el rango
intercuartílico.

• El rango de la muestra es la medida de
variabilidad más sencilla entre todas las
mencionadas; y se define como la diferencia
entre la observación más grande y la más
pequeña : r = xmax − xmin

• Aunque es una medida muy fácil de
calcular, ignora toda la información de la
muestra entre las observaciones más
grande y más pequeña. Sin embargo, vale
la pena resaltar que el rango se utiliza
mucho en aplicaciones estadísticas al
control de calidad, donde lo común es
emplear muestras con tamaños n = 4 o
• n = 5 ya que en estos casos la pérdida de
información no se considera relevante.

• En general, se desea una medida de
variabilidad que dependa de todas las
observaciones y no sólo de unas pocas;
así que parece razonable medir la
variación en términos de las desviaciones
relativas a alguna medida de localización
(generalmente esta medida es la media)

Para el conjunto de datos x1, x2,….,xn
Las diferencias ( x1 − x ), ( x2 − x ),....., ( xn − x )
Determinan las desviaciones de la media.
Dado que la suma de estas desviaciones es
cero, se utiliza como medida de variabilidad
el promedio de los cuadrados de tales
desviaciones.

n

∑ (x − x)
i
2

s =
2 i =1
n
Sin embargo, como sólo hay n-1
desviaciones independiente se
conviene en dividir entre n-1, es
decir,

n

∑x
( i −x ) 2

S 2
= i=1

n−1

Esta última será la fórmula que
emplearemos.

• Esta medida de variabilidad se denomina
varianza. Como S2 no tiene las mismas
unidades que los datos, se define la
desviación estándar como la raíz
cuadrada (positiva) de la varianza a fin de
tener una medida en las mismas unidades
de los datos; La desviación estándar es
útil para comparar dispersión entre dos
poblaciones, pero también lo es para
calcular el porcentaje de la población que
pueden localizarse a menos de una
distancia específica de la media.

• Cuartiles, deciles y percentiles
• Los cuatiles dividen a un conjunto de
datos en cuatro partes iguales.
• Para explicarlo un poco mejor, piense en
un conjunto de datos ordenados de menor
a mayor. Al valor de en medio es la
mediana. Esto es, 50 por ciento de los
datos son mayores que la mediana y 50
por ciento son menores. De manera
similar los cuartiles dividen a un conjunto
de datos en cuatro partes igueles.

• El primer cuartil, al que se le llama Q1, es
el valor por debajo del cual se encuentra
el 25% de los datos, y el tercer cuartil
usualmente llamado Q3, es el valor por
debajo de el se encuentra el 75% de los
datos. Q2 es la mediana. Los valores Q1, Q2
y Q3 dividen al conjunto de datos
ordenados en cuatro partes iguales. Q 1 se
puede entender como la mediana de la
mitad inferior de los datos ordenados y Q 3
como la mediana de la mitad superior de
los datos ordenado.

• Procedimiento para el calculo de los
percentiles
• Sea Lp la posición del percentil deseado.
p
• Entonces L p = ( n)
100
• donde n es el numero de datos y p el percentil
• Ejemplo: el percentil 33 P33, el percentil 50 es el
P50, que es también la mediana ó el Q2. El
percentil 25 es el P25=Q1 y el percentil 75 es el
P75=Q3

• Calculo del p-ésimo percentil
• Paso 1: Ordenar los datos de manera
ascendente.
p
• Paso 2: Calculamos el Lp ( pL = ( n)
100 )
%

• Paso 3: a) Si Lp no es entero, se redondea. El
valor entero inmediato mayor que Lp indica la
posición del p-ésimo percentil.
• b) Si Lp es entero, el p-ésimo persentil es el
promedio de los valores de los datos ubicados
en los lugares i e i+1

• Por Ejemplo:
• Si tenemos 15 datos ordenados y que-
remos localizar el primer cuartil (percentil
25) según la formula este estará ubicado
en la posición 4 (por redondeo) y el tercer
cuartil (percentil 75) estará ubicado en la
posición 12 (por redondeo)
• Si tenemos 20 datos ordenados el primer
cuartil estara en la posición intermedia
entre el 5° y el 6° dato es decir si el 5°
dato fuese 36 y el 6° 41 el P25=Q1=38,5

• Asimetría
• Si los valores de la serie de datos presenta la
misma forma a izquierda y derecha de un valor
central (media aritmética) se dice que es
simétrica de lo contrario será asimétrica.
• Para medir el nivel de asimetría se utiliza el
llamado Coeficiente de Asimetría de Fisher,
que viene definido:
n
(1 / n)(∑ ( xi − x ) 3
g1 = i =1
s3

• Los resultados pueden ser los siguientes:
• g1 = 0 (distribución simétrica; existe la misma
concentración de valores a la derecha y a la
izquierda de la media)
• g1 > 0 (distribución asimétrica positiva; existe
mayor concentración de valores a la derecha de
la media que a su izquierda)
• g1 < 0 (distribución asimétrica negativa; existe
mayor concentración de valores a la izquierda
de la media que a su derecha)

• Curtosis
• El Coeficiente de Curtosis analiza el
grado de concentración que presentan los
valores alrededor de la zona central de la
distribución.
• Se definen 3 tipos de distribuciones según
su grado de curtosis:

• Distribución mesocúrtica: presenta un grado
de concentración medio alrededor de los valores
centrales de la variable (el mismo que presenta
una distribución normal).
• Distribución leptocúrtica: presenta un elevado
grado de concentración alrededor de los valores
centrales de la variable.
• Distribución platicúrtica: presenta un reducido
grado de concentración alrededor de los valores
centrales de la variable.

• El Coeficiente de Curtosis viene definido
por la siguiente fórmula:
n
(1 / n)(∑ ( xi − x ) 4
g2 = i =1
4
−3
s

• Los resultados pueden ser los siguientes:
• g2 = 0 (distribución mesocúrtica).
• g2 > 0 (distribución leptocúrtica).
• g2 < 0 (distribución platicúrtica).

Esta di stica descriptiva

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Esta di stica descriptiva

Similar a Esta di stica descriptiva (20)

Esta di stica descriptiva