Distribuciones Muestrales y Estimación de los Parámetros de una Población
Interpretar intervalos
1. E D 800 Estimados y
Estadísticas Tamaños de
Dr. Edgardo J. Avilés
Muestras
En la estadística inferencial usamos datos de la muestra para hacer inferencias (o
generalizaciones) acerca de la población. Las dos mayores aplicaciones de la estadística
inferencial involucran el uso de datos de la muestra para (1) estimar el valor del
parámetro de la población, y (2) probar algunos reclamos (o hipótesis) acerca de la
población.
Estimando la Media de la Población: Muestras Grandes
El objetivo principal de esta sección es: Dada una colección de más de 30 valores en una
muestra, desarrollar un estimado del valor de la media de la población µ.
SUPOSICIONES
1. n > 30 (La muestra tiene más de 30 valores.
2. La muestra es una muestra simple aleatoria. (Todas las muestras del mismo
tamaño tienen la misma oportunidad de ser seleccionadas).
PUNTO IMPORTANTE
Los datos recogidos negligentemente pueden ser absolutamente sin valor, incluso si la
muestra es absolutamente grande.
DEFINICIONES IMPORTANTES
Un estimador es una fórmula o proceso usando datos de la muestra para estimar un
parámetro de la población.
Un estimado es un valor específico o rango de valores usados para aproximar un
parámetro de la población.
Un punto estimado es un valor simple (o punto) usado para aproximar un parámetro de
la población.
La media de la muestra x es el mejor punto estimado de la media de la población µ.
Aunque se pueden usar otros estadísticos tales como la mediana de la muestra, el rango
medio, o la moda como un estimado de la media poblacional µ, estudios han demostrado
que la media muestral x usualmente provee el mejor estimado, por dos razones.
1. Para muchas poblaciones, la distribución de medias de la muestra x tiende a ser
más consistente (con menos variación) que las distribuciones de otros estadísticos
2. 2
de la muestra. (Esto es, si se usan medias muestrales para estimar la media de la
población µ, esas medias muestrales tendrán una desviación estándar pequeña,
que otros estadísticos de la muestra, como la mediana o la moda. Las diferencias
entre x y µ por lo tanto, tienden a ser menores que las diferencias obtenidas por
otros estadísticos, como la mediana).
2. Para todas las poblaciones, la media muestral x es un estimador imparcial de la
media poblacional µ, significando que la distribución de medias de la muestra
tienden a centrar alrededor del valor de la media poblacional µ. (Esto es, medias
muestrales no tienden sistemáticamente a sobreestimar el valor de µ, ni tampoco
tiende sistemáticamente a subestimar µ. En vez, tienden a apuntar el valor mismo
de µ.
DEFINICIÓN DE INTERVALOS DE CONFIANZA
Un intervalo de confianza (o intervalo de estimado) es un rango (o intervalo) de
valores usados para estimar el valor verdadero del parámetro de la población.
Un intervalo de confianza es asociado con unos grados de confianza, como 0.95 (o 95%).
El grado de confianza nos dice el porciento de veces que el intervalo de confianza
actualmente contiene el parámetro de la población, presumiendo que el proceso de
estimación es repetido un número grande de veces.
DEFINICIÓN DE GRADOS DE CONFIANZA
Los grados de confianza es la probabilidad 1 – α (frecuentemente expresada como el
valor del porciento equivalente) que es la frecuencia relativa de veces que el intervalo de
confianza actualmente contiene el parámetro de la población, presumiendo que el proceso
de estimación es repetido un número grande de veces. (El grado de confianza es también
llamado el nivel de confianza o el coeficiente de confianza.)
Los más comunes selecciones para el nivel de confianza son 90% (con α = 0.10), 95%
(con α = 0.05) y 99% (con α = 0.01). La alternativa más usada es la de 95% porque
provee un buen balance entre precisión (según reflejado en el ancho del intervalo de
confianza) y confiabilidad (según expresado en el grado de confianza).
INTERPRETANDO UN INTERVALO DE CONFIANZA
Debemos tener cuidado en interpretar intervalos de confianza correctamente. Hay una
interpretación correcta y una incorrecta acerca del siguiente intervalo de confianza:
98.08o F < µ < 98.32o F.
Interpretación correcta:
Estamos 95% confiados de que el intervalo de 98.08 hasta 98.32 actualmente
contiene el valor verdadero de µ. Esto significa que si tuviéramos que seleccionar
muchas muestras diferentes de tamaño 106 y construir el intervalo de confianza,
95% de ellas realmente contienen el valor de la media poblacional µ. (Nótese que
3. 3
en esta interpretación correcta, el nivel de 95% se refiere al proceso siendo usado
para estimar la media, y no se refiere a la media poblacional en sí.
Interpretación incorrecta:
Hay un 95% de oportunidad de que el verdadero valor de µ esté entre 98.08 y
98.32.
Valores Críticos:
Construyendo un intervalo de confianza requiere que se encuentre un valor estándar z que
pueda ser usado para distinguir estadísticos de muestras que son probables para ocurrir de
aquéllos que son no probables. Tal valor z es llamado un valor crítico (definido abajo) y
está basado en las siguientes observaciones:
1. Sabemos por el teorema del límite central que las medias de la muestra tienden a
ser normalmente distribuidas.
2. Las medias de la muestra tienen una oportunidad pequeña relativa (con
probabilidad denotada por α de caer en uno de los colas extremas.
3. Denotando cada área de la cola sombreada como α/2, vemos que hay una
probabilidad total α de que una media muestral esté en cualesquiera de las dos
colas.
4. Por la regla de los complementos, hay una probabilidad de 1 – α de que una media
muestral esté en la región no crítica.
5. La puntuación z separando la cola derecha de la curva es comúnmente denotada
por zα 2 y es referido como el valor crítico porque está en la línea borde
separando medias muestrales que son probables de que ocurran de aquéllas que no
lo son.
DEFINICIÓN DE VALOR CRÍTICO
Un valor crítico es el número en la línea borde separando estadísticos de muestra que
son probables que ocurran de aquellos que no son probables que ocurran. El número
zα 2 es un valor crítico que es una puntuación z con la propiedad que separa un área de
α/2 en la cola derecha de la distribución normal estándar.
Estos son los valores críticos más usados, y han sido listados con otros dos valores
comunes en la tabla que sigue:
Grado de confianza α Valor crítico, zα 2
90% 0.10 1.645
95% 0.05 1.96
99% 0.01 2.575
4. 4
Margen de error:
Definición:
Cuando la data de una variable aleatoria simple es usada para estimar la media de una
población µ, el margen de error, denotado por E es la máxima diferencia posible (con
probabilidad 1 – α) entre la media muestral observada x y el verdadero valor de la media
poblacional µ. El margen de error E es también llamado el máximo error del estimado, y
puede ser calculado multiplicando el valor crítico y la desviación estándar de las medias
muestrales.
σ
E = Zα •
2 n
Calculando E cuando σ es desconocida:
Si n > 30, se puede reemplazar σ en la fórmula anterior por la desviación estándar de la
muestra s.
Si n ≤ 30, la población debe tener una distribución normal y se tiene que saber el valor de
σ para usar la fórmula anterior.
Intervalo de confianza (o intervalo de estimación) para la media poblacional µ
(Basado en muestras grandes: n > 30)
x−E < µ < x+E
o bien,
µ = x±E
o bien,
(x − E , x + E )
Definición:
Los dos valores x − E y x + E son llamados los límites del intervalo de confianza.
Procedimiento para construir un intervalo de confianza para µ (Basados en
muestras grandes: n > 30)
5. 5
1. Encontrar el valor crítico Z α que corresponde al grado de confianza deseado.
2
(Por ejemplo, si el grado de confianza es 95%, el valor crítico Z α = 1.96).
2
2. Evaluar el margen de error E. Si la desviación estándar de la población σ es
desconocida, usar el valor de la desviación estándar de la muestra s, provisto que
n > 30.
3. Usando el valor calculado del margen de error E y el valor de la media muestral
x , encontrar los valores de x − E y x + E . Sustituir esos valores en el intervalo
de confianza, presentado arriba.
Estimando la media poblacional: Muestras Pequeñas
Suposiciones:
n ≤ 30
La muestra es una muestra simple aleatoria.
La muestra es de una población normalmente distribuida.
En el desarrollo de intervalos de confianza para estimaciones de µ, hay dos casos: (1)
cuando la desviación estándar de la población σ es conocida; y (2) cuando σ es
desconocida.
Caso 1 (σ es conocida): Este primer caso es grandemente irreal, porque si no se conoce
el valor de la media poblacional µ y se está tratando de estimar ese valor, se puede
apostar seguramente que no se sabrá el valor de la desviación estándar de la población σ.
Caso 2 (σ es desconocida): El segundo caso, donde σ es desconocida es más realista y
práctico. Ahora, en vez de usar la distribución normal, se usará la distribución t
(“Student t distribution”) desarrollada por Gosset (1876-1937).
Distribución t
Si la distribución de una población es esencialmente normal (aproximadamente en forma
de campana), entonces la distribución de
x−µ
t=
s
n
es esencialmente una distribución t para todas las muestras de tamaño n. La
distribución t es usada para encontrar valores críticos denotados por:
tα
2
6. 6
DEFINICIÓN DE GRADOS DE LIBERTAD
El número de grados de libertad para un conjunto de data simple es el número de valores
muestrales que pueden variar después de que ciertas restricciones hayan sido impuestas a
todos los valores de la data.
grados de libertad = n – 1
Margen de error E para una estimación de µ:
[Basados en una σ desconocida y una muestra aleatoria pequeña simple (n ≤ 30) de
una población normalmente distribuida]
s
E = tα •
2 n
donde tα/2 tiene n – 1 grados de libertad.
Intervalo de confianza para la estimación de µ:
[Basados en una σ desconocida y una muestra aleatoria pequeña simple (n ≤ 30) de
una población normalmente distribuida]
x−E < µ < x+E
donde
s
E = tα •
2 n
Propiedades importantes de la Distribución t:
1. La distribución t (su gráfica) es diferente para tamaños de muestras diferentes.
2. La distribución t tiene la misma simetría general de campana como la distribución
normal estándar, pero esta refleja la variabilidad mayor que es esperado con
muestras pequeñas.
3. La distribución t tiene una media de t = 0 (como la distribución normal estándar
que tiene una media de z = 0).
4. La desviación estándar de la distribución t varía con el tamaño de la muestra, pero
es mayor que 1, poco semejante a la distribución normal estándar que tiene σ = 1.
5. Según el tamaño de la muestra n aumenta, la distribución t se acerca a la
distribución normal estándar. Para valores de (n > 30), las diferencias son muy
pequeñas, que se puede usar los valores críticos z en vez de desarrollar una tabla
mucho más grande de valores críticos t.
7. 7
Condiciones para usar la Distribución t:
1. La muestra es pequeña (n ≤ 30); y
2. la desviación estándar σ es desconocida; y
3. la población principal tiene una distribución que es esencialmente normal.
Tomado de:
Triola, M. F. (2001). Elementary Statistics. Boston, MA: Addison-Wesley
.