1. Escuela Naval de Cadetes
“Almirante Padilla”
Departamento de Ciencias Básicas
Distribuciones muestrales
MSc. Willian Caballero Guardo
Curso de Estadística Inferencial
2. INFERENCIA ESTADÍSTICA
El objetivo de la inferencia estadística es hacer
afirmaciones validas acerca de la población o proceso
con base en la información contenida en una
muestra.
3. POBLACIÓN
La población consiste en la totalidad de individuos u
objetos que estamos interesados en estudiar.
Son ejemplos de Poblaciones:
Población de los estudiantes de la Escuela Naval de
Cadetes “Almirante Padilla”
Población de Celulares de la empresa Samsung
Población de Pollos en una finca.
Población de personas que viven en Cartagena.
Personal de un Banco.
4. Clasificación de las POBLACIONES
Las poblaciones puede clasificarse como finitas o infinitas.
Son ejemplos de Poblaciones finitas:
Los números de las cartas de una baraja.
Las alturas de los residentes de cierta ciudad.
Las longitudes de los peces en un lago particular.
Son ejemplos de Poblaciones infinitas:
Las observaciones que se obtienen al medir la presión
atmosférica del pasado al futuro.
Las observaciones que se obtienen al estimar lo que gana un
vendedor en comisión.
5. MUESTRA
Cualquier subconjunto de una población es una muestra.
Son ejemplos de Muestras:
En un día de producción la empresa Samsung produce 50
mil celulares de los cuales a fin de llevar a cabo un proceso
de control de calidad se extrae una muestra de 200.
Se observa la temperatura media en la Estación CIOH
durante el mes de marzo del año 2018.
Se observa la agilidad de recaudo de los cajeros de un banco
que llevan menos de 3 años laborando.
6. MUESTRA ALEATORIA
Cualquier procedimiento de muestreo que produzca inferencias
que sobreestimen o subestimen de forma consistente
alguna característica de la población se dice que está
sesgado.
Supóngase que se desea seleccionar una muestra de tamaño n
de una población Ω. Sea
𝑿𝒊, 𝒊 = 𝟏, 𝟐, 𝟑, … , 𝒏
Una variable aleatoria con distribución f(x) que representa la
i-ésima medición o valor de la muestra que observemos.
7. MUESTRA ALEATORIA
Dicha muestra se dice aleatoria si:
Las mediciones 𝑋1, 𝑋2, … , 𝑋 𝑛 provienen de la misma
distribución f(x), lo cual significa que están
idénticamente distribuidas.
Los valores observados 𝑥1, 𝑥2, … , 𝑥 𝑛 de manera
correspondiente surgen de repetir el experimento n
veces bajo las mismas condiciones, lo cual significa
que las variables aleatorias son independientes.
8. MUESTRA ALEATORIA
Sean 𝑋1, 𝑋2, … , 𝑋 𝑛 variables aleatorias independientes, cada
una con la misma distribución de probabilidad f(x).
Definimos a 𝑋1, 𝑋2, … , 𝑋 𝑛 como una muestra aleatoria de
tamaño n de la población f(x) y escribimos su distribución
conjunta como
𝑓 𝑥1, 𝑥2, … , 𝑥 𝑛 = 𝑓 𝑥1 ∗ 𝑓 𝑥2 ∗ ⋯ ∗ 𝑓 𝑥 𝑛 .
9. MUESTRA ALEATORIA
Ejemplo 1.
Población: Fabrica productora de varillas de hierro
galvanizado.
Variable aleatoria X: “Cuenta el número de
imperfecciones en varillas de 1 metro”.
Muestra Aleatoria: Tamaño 5.
10. ALGUNAS ESTADÍSTICAS IMPORTANTES
Definición: Cualquier función de las variables aleatorias
que forman una muestra aleatoria se llama estadística.
Medidas de tendencia
central: Media, mediana y
moda.
Medidas de dispersión:
Rango, Varianza Muestral
y desviación estándar.
11. Media Muestral
Si 𝑋1, 𝑋2, … , 𝑋 𝑛 representa una muestra aleatoria de
tamaño n, entonces la media de la muestra se define
mediante la estadística
𝑿 =
𝑿 𝒊
𝒏
𝒊=𝟏
𝒏
.
El valor calculado para una muestra se denota por 𝑥.
Nota: Puesto que la suma de variables aleatorias
es una nueva variable aleatoria se tiene que 𝑿 es
una variable aleatoria.
12. Mediana Muestral
Si 𝑋1, 𝑋2, … , 𝑋 𝑛 representa una muestra aleatoria de
tamaño n, acomodada en orden creciente de magnitud,
entonces la mediana de la muestra se define mediante
la estadística
𝑿 =
𝑿(𝒏+𝟏) 𝟐 𝒔𝒊 𝒏 𝒆𝒔 𝒊𝒎𝒑𝒂𝒓
𝑿 𝒏 𝟐 + 𝑿 𝒏 𝟐 +𝟏
𝟐
𝒔𝒊 𝒏 𝒆𝒔 𝒑𝒂𝒓
Nota: La mediana de la muestra 𝑿 resulta ser una variable
aleatoria puesto que queda determinada a partir de la
variable aleatoria original.
13. Moda Muestral
Si 𝑋1, 𝑋2, … , 𝑋 𝑛, no necesariamente
diferentes, representan una muestra
aleatoria de tamaño n, entonces la moda
M es aquel valor de la muestra que ocurre
más a menudo o con la mayor frecuencia.
La moda puede no existir y cuando existe
no necesariamente es única.
14. Ejemplo 2: Estadísticas de tendencia
central
El número de barcos extranjeros que llegan a un puerto
de la costa en siete días seleccionados al azar son 8, 5, 9,
5, 8, 9 y 5. Encuentre la media, mediana y moda
muestral.
Solución. Puesto que se considera una sola muestra de
tamaño 7 los valores adoptados por los estadísticos
muestrales media, mediana y moda son:
𝑥 =
8 + 5 + 9 + 5 + 8 + 9 + 5
7
=
49
7
= 7
𝑥 = 8
𝑀𝑜𝑑𝑎 = 5
15. Rango, varianza y desviación estándar
muestral
El rango de una muestra aleatoria 𝑋1, 𝑋2, … , 𝑋 𝑛, se
define como la estadística 𝑋 𝑛 − 𝑋 1 , donde 𝑋 𝑛 y 𝑋 1
son, respectivamente, las observaciones más grande y
más pequeña de la muestra.
Si 𝑋1, 𝑋2, … , 𝑋 𝑛 representan una muestra aleatoria de
tamaño n, entonces la varianza de la muestra se define
como la estadística
𝑆2
=
𝑋 𝑖−𝑋 2𝑛
𝑖=1
𝑛−1
.
El valor calculado para una muestra se denota por 𝑠2
.
16. Rango, varianza y desviación estándar
muestral
La desviación estándar de la muestra, que se denota por
S, es la raíz cuadrada positiva de la varianza de la muestra.
Ejemplo 3. Una comparación de precios de café en cuatro
tiendas de abarrotes seleccionadas al azar en San Diego
muestra aumentos en comparación con el mes anterior de 12,
15, 17, y 20 centavos de dólar para una bolsa de una libra,
encuentre las medidas de dispersión muestrales.
Solución.
Rango muestral=20-12=8
𝑠2
=
34
3
𝑠 = 34
3 .
17. Ejemplo 4. Número de mojarras seleccionadas
al azar por 5 pescadores en 6 días diferentes
del mes febrero seleccionados al azar.
Cobran vida las distribuciones muestrales
18. DISTRIBUCIONES MUESTRALES
La distribución de probabilidad de una estadística se llama
distribución muestral. La distribución muestral de 𝑿, se
denomina distribución muestral de la media.
19. Teorema del límite Central
Si 𝑿 es la media de una muestra aleatoria de tamaño n tomada
de una población con media 𝜇 y varianza finita 𝜎2, entonces la
forma límite de la distribución definida por
𝒁 =
𝑿 − 𝝁
𝝈 𝒏
Conforme 𝑛 → ∞, es la distribución normal estándar n(z; 0, 1).
Observación: La aproximación normal para 𝑿 por lo general
será buena si 𝒏 ≥ 𝟑𝟎 sin importar la forma de la población. Si
n<30 , la aproximación es buena sólo si la población no es
muy diferente de una normal y, como fue planteado en la
diapositiva anterior, si se sabe que la población es normal la
distribución de 𝑿 será normal exacta.
20. Problemas de aplicación distribución
muestral de la media
Problema 1. Suponga que X : “peso de carga de camionetas
en kilos”, tiene distribución normal con media = 300 k y
varianza = 25. Se toma una muestra aleatoria de 25
camionetas cargadas y se calcula la media muestral.
Encuentre:
a. La distribución de 𝑿.
b. La probabilidad de que el peso promedio sea menor de
299,5 k
c. La probabilidad de que el peso promedio sea mayor de 300
k
d. La probabilidad de que el peso promedio este comprendido
entre 298 y 301,5 kilos.
21. Problemas de aplicación distribución
muestral de la media
Problema 2. Suponga que X : “la edad de las madres en
los nacimientos en Chile el año 1995”, tiene distribución
normal con media = 26,5 años y desviación estándar 6,3
años.
a. Describa la distribución de la edad de la madre.
b. ¿Cuál es la probabilidad de que una madre elegida al
azar tenga más de 30 años?
c. Suponga que tomamos una muestra aleatoria de n=25
madres ¿cuál es la probabilidad de que la media muestral
sea mayor a 30?
d. ¿porqué las respuestas en (b) y (c) son distintas?
22. Criterio del p-valor para ser inferencia
sobre la parámetros poblacionales.
Se entiende por p-valor a la probabilidad correspondiente al
nivel (de significancia) más bajo en el que el valor observado
de la estadística de prueba es significativo.
𝑃 − 𝑉𝑎𝑙𝑜𝑟 = 𝑃𝑟𝑜𝑏 𝑋 > 𝐸𝑠𝑡. 𝑝𝑟𝑢𝑒𝑏𝑎 .
23. Criterio del p-valor para ser inferencia
sobre la parámetros poblacionales.
El p-valor es una medida directa de lo verosímil que resulta
obtener una muestra como la actual bajo la consideración de
que cierta hipótesis se consideré verdadera. Los valores
pequeños indican que es muy infrecuente obtener una muestra
como la actual, en cambio, los valores altos que es frecuente.
El p-valor se emplea para indicar cuánto (o cuán
poco) contradice la muestra actual la hipótesis
complementaria a la fijada como verdadera.
24. Criterio del p-valor para ser inferencia
sobre la parámetros poblacionales.
Ejemplo. Supongamos que un ingeniero ambiental considera que la
contaminación media por monóxido de Carbono en un sitio es de
𝜇 = 25 𝑝𝑝𝑚. Para verificar esta creencia del ingeniero se monitorea
50 días el sitio, obteniéndose una media muestral 𝑥 = 26,5 𝑝𝑝𝑚. y
una desviación estándar 𝑠 = 2,8 𝑝𝑝𝑚. ¿Puede el ingeniero sostener
su creencia?
Al aplicar el criterio del P-Valor se obtiene
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 𝑃𝑟𝑜𝑏 𝑇 > 3,78 = 0,000415
Este resultado de 0,000415 indica que si el experimento se repite
1000000 de veces en igualdad de condiciones, sólo en 415 de los
casos se obtendrían valores similares a 26,5 ppm. Este resultado no
sostiene la creencia del Ingeniero.
25. Problemas de aplicación distribución
muestral de la media
Problema 3. Un importante proceso de fabricación produce
partes de componentes cilíndricos para la industria automotriz.
Es importante que el proceso produzca partes que tengan una
media de 5 milímetros. El ingeniero involucrado hace la
conjetura de que la media de la población es de 5.0 milímetros.
Se lleva a cabo un experimento en el que 100 partes
elaboradas por el proceso se seleccionan al azar y se mide el
diámetro de cada una de ellas. Se sabe que la desviación
estándar de la población 𝜎 = 0.1. El experimento indica un
diámetro promedio de la muestra 𝑥 = 5.027 milímetros. ¿Esta
información de la muestra parece apoyar o refutar la conjetura
del ingeniero? Tomado de Walpole pag. 218.
26. Problemas de aplicación distribución
muestral de la media
Problema 4.
The Paper House vende invitaciones, sorpresas y otros
productos de papelería para ocasiones festivas. Se asume que
las horas semanales promedio que trabajan los empleados en
la tienda es de 𝜇 = 36.7, con una desviación estándar de
𝜎 = 3.5. Jill Ramsey, propietario de The Paper House, desea
por los menos un 90% de confiabilidad en que su estimado de
las horas promedio trabajadas por empleado cada semana esté
dentro de 1 hora de la media poblacional real. Se selecciona
una muestra de tamaño n=36 semanas. ¿Cuál es la
probabilidad de que Ramsey no esté desilusionada con el
estimado?
27. Distribución muestral de la
diferencia entre dos promedios.
El problema a resolver consiste en establecer si existen
diferencias entre las dos poblaciones.
28. Distribución muestral de la
diferencia entre dos promedios.
Si se extraen al azar muestras independientes de tamaño 𝑛1 y 𝑛2 de
dos poblaciones, discretas o continuas, con medias 𝜇1 y 𝜇2 y
varianzas 𝜎1
2
y 𝜎2
2
, respectivamente, entonces la distribución
muestral de las diferencias de las medias, 𝑋1 − 𝑋2, está distribuida
aproximadamente de forma normal con medias y varianzas dadas por
𝜇 𝑋1− 𝑋2
= 𝜇1 − 𝜇2 y 𝜎2
𝑋1− 𝑋2
=
𝜎1
2
𝑛1
+
𝜎2
2
𝑛2
.
De aquí
𝑍 =
𝑋1 − 𝑋2 − 𝜇1 − 𝜇2
𝜎1
2
𝑛1
+
𝜎2
2
𝑛2
es aproximadamente una variable normal estándar.
29. Problema 5: Distribución muestral de la
diferencia entre dos promedios.
Se hizo un estudio en dos distritos de la capital acerca
del consumo promedio diario de carne. Supongamos
que los valores de consumo de carne en los dos
distritos están distribuidos normalmente con
promedios de 350 y 400 gramos, respectivamente, y
con desviaciones estándar de 95 y 90
respectivamente. ¿Cuál es la probabilidad de que la
diferencia del consumo promedio en dos muestras
aleatorias de tamaño 36 cada una tomadas en
cada distrito, sea de 30 gramos o menos?
30. Problema 6: Distribución muestral de la
diferencia entre dos promedios.
El rendimiento en km/L de 2 tipos de gasolina, tiene una
desviación estándar de 1.23km/L para la primera gasolina y
una desviación estándar de 1.37km/L para la segunda
gasolina; si se prueba la primera gasolina en 35 autos y
la segunda en 42 autos. ¿Cuál es la probabilidad de que en
estas muestras, la primera gasolina de un rendimiento
promedio mayor de 0.45km/L más que la
segunda gasolina?¿Cuál es la probabilidad de que en estas
muestras, la diferencia en rendimientos promedio se
encuentre entre 0.65 y 0.83km/L a favor de la gasolina 1?
31. Problema 7: Distribución muestral de la
diferencia entre dos promedios.
Se llevan a cabo dos experimentos independientes en los
que se comparan dos tipos diferentes de pintura. Se pintan
18 especímenes con el tipo A y en cada uno se registra el
tiempo de secado en horas. Lo mismo se hace con el tipo B.
Se sabe que las desviaciones estándar de la población son
ambas 1.0. Suponga que el tiempo medio de secado es
igual para los dos tipos de pintura. Encuentre la
probabilidad de que la diferencia en media de los tiempos
de secado sea de una hora en favor de la temperatura tipo
A.
32. DISTRIBUCIÓN MUESTRAL DE LA
VARIANZA
Si 𝑆2
es la varianza de una muestra aleatoria de tamaño n
que se toma de una población normal que tiene la varianza
𝜎2, entonces la estadística
𝜒2 =
𝑛 − 1 𝑆2
𝜎2
=
𝑋𝑖 − 𝑋 2
𝜎2
𝑛
𝑖=1
Tiene una distribución ji-cuadrada con v=n-1 grados de
libertad.
Los valores de la variable aleatoria 𝜒2
se calculan de cada muestra
mediante la formula
𝝌 𝟐
=
𝒏 − 𝟏 𝒔 𝟐
𝝈 𝟐
.
34. Problema 8. DISTRIBUCIÓN MUESTRAL
DE LA VARIANZA.
Un fabricante de baterías para auto garantiza que
sus baterías durarán, en promedio, tres años con
una desviación estándar de un año. Si cinco de
estás baterías tienen duraciones de 1.9, 2.4, 3.0,
3.5, y 4.2 años, ¿el fabricante aun está convencido
de que sus baterías tienen una desviación estándar
de un año? Suponga que la duración de la baterías
es normal.
35. Problema 9. DISTRIBUCIÓN MUESTRAL
DE LA VARIANZA.
Las calificaciones de un examen de clasificación que
se aplico a estudiantes de primer año de licenciatura
durante los últimos cinco años están
aproximadamente distribuidas de forma normal con
una media 𝜇 = 74 y una varianza de 𝜎2 = 8.
¿Consideraría aún que 𝜎2 = 8 es un valor válido de la
varianza si una muestra aleatoria de 20 estudiantes
que realizan este examen de clasificación este año
obtienen un valor de 𝑠2 = 20?
36. DISTRIBUCIÓN T-STUDENT
Esta distribución permite hacer
inferencia con respecto a la media
muestral cuando la varianza poblacional
se desconoce.
La distribución t-Student surge de dividir
una distribución normal estándar entre la
raíz cuadrada de una ji-cuadrado dividida
por su número de grados de libertad.
38. Inferencia sobre la media muestral con
𝝈 𝟐
desconocida
Sean 𝑋1, 𝑋2, … , 𝑋 𝑛 variables aleatorias independientes
las cuales son todas normales con media 𝜇 y
desviación estándar 𝜎. Entonces la variable aleatoria
𝑇 =
𝑋 − 𝜇
𝑆
𝑛
Tiene distribución t-Student con n-1 grados de
libertad.
El uso de la distribución T y la consideración del tamaño de muestra
no se relaciona con el TLC. El uso de la distribución normal estándar
en lugar de T para 𝒏 ≥ 𝟑𝟎 solamente implica que S es un estimador
suficientemente bueno para 𝝈.
40. Problema 10: Inferencia en media
muestral
Un ingeniero químico afirma que el rendimiento medio
de la población de cierto proceso en lotes es 500
gramos por milímetros de materia prima. Para verificar
está afirmación muestrea 25 lotes cada mes. Si el valor t
calculado cae entre −𝑡0.05 y 𝑡0.05, queda satisfecho con
su afirmación. ¿ Qué conclusión extraería de una
muestra que tiene una media 𝑥 = 518 gramos por
milímetro y una desviación estándar muestral 𝑠 = 40
gramos ? Suponga que la distribución de rendimientos es
aproximadamente normal.
41. Problema 11: Inferencia en media
muestral
Se supone que la contaminación en un determinado sitio
de la ciudad es de 16 ppm. En un día sin carro se
tomaron 25 medidas con promedio de 14.8 ppm y
desviación estándar muestral de 0.8 ppm. Para verificar
si realmente se produjo una disminución en la
contaminación aun 95% de confianza se requiere que el
valor t calculado caiga fuera del intervalo que generan
los cuantiles −𝑡0.025 y 𝑡0.025. ¿Disminuyó realmente la
contaminación? o ¿Es producto del azar?
42. Distribución de probabilidad F
Esta distribución permite hacer inferencia cuando se
desea hacer comparación en términos de variabilidad
de dos o más procesos independientes.
Ejemplos.
1. Se desea observar que tanta variabilidad existe entre las
medidas de los tiempos de secado de dos tipos de
catalizadores.
2. Se desea analizar que tanta variabilidad existe entre las
ganancias en comisión que ganan los promotores de
ventas de pólizas de dos compañías de seguros.
43. Distribución de probabilidad F
La estadística F se define como la razón de dos
variables aleatorias Ji-Cuadradas independientes,
divididas cada una entre sus grados de libertad.
De acuerdo a lo anterior,
𝐹 =
𝑈
𝑣1
𝑉
𝑣2
,
donde U y V son variables aleatorias independientes
que tienen distribución Ji-Cuadrado con 𝑣1 y 𝑣2
grados de libertad, respectivamente.
44. Inferencia respecto a las varianzas
muestrales de dos poblaciones
Si 𝑆1
2
y 𝑆2
2
son las varianzas de dos muestras
independientes de tamaño 𝑛1 y 𝑛2 tomadas de
poblaciones normales con varianzas 𝜎1
2 y 𝜎2
2 ,
respectivamente, entonces
𝐹 =
𝑆1
2
𝜎1
2
𝑆2
2
𝜎2
2
=
𝜎2
2 𝑆1
2
𝜎1
2 𝑆2
2
tiene una distribución F con 𝑣1 = 𝑛1 − 1 y 𝑣2 = 𝑛2 −
1 grados de libertad.
45. Problema 12: Inferencia sobre las
diferencias en varianzas poblacionales
Pruebas de resistencia a la tracción sobre 10 cables conductores
soldados para un dispositivo semi-conductor dan los siguientes
resultados en libras fuerza requeridas para romper la unión:
19.8 12.7 13.2 16.9 10.6 18.8 11.1 14.3 17.0 12.5
Otro conjunto de ocho cables conductores se probó después del
encapsulado para determinar si la resistencia a la tracción había
aumentado debido al encapsulado del dispositivo, con los siguiente
resultados:
24.9 22.8 23.6 22.1 20.4 21.6 21.8 22.5
Haga comentarios sobre la evidencia disponible con respecto a la
igualdad de las dos varianzas de la población a un 95% de confianza.
46. DISTRIBUCIÓN MUESTRAL DE LA
PROPORCIÓN
Los bancos en su búsqueda de adquirir nuevos clientes para
ofrecerles planes y productos suelen seleccionar a empleados de
diversos sectores a los cuales llaman durante ciertos días del mes.
Varias asesoras seleccionan al azar a 36 personas durante 6 días
diferentes del mes de febrero. La tabla a continuación muestra la
proporción de clientes que manifestaron que si tomaban uno de los
productos ofrecidos.
47. DISTRIBUCIÓN MUESTRAL DE LA
PROPORCIÓN
La distribución muestral de la proporción muestral es la
distribución de los valores de las proporciones muestrales de
todas las posibles muestras del mismo tamaño n tomadas de la
misma población.
51. DISTRIBUCIÓN MUESTRAL DE LA
PROPORCIÓN
Si X es una variable aleatoria Binomial con
media 𝜇 = 𝑛𝑝 y varianza 𝜎2 = 𝑛𝑝 1 − 𝑝 ,
entonces la forma limitante de la
distribución de
𝑍 =
𝑋−𝑛𝑝
𝑛𝑝(1−𝑝)
,
conforme 𝑛 → ∞, es la distribución normal
estándar 𝑛 𝑧; 0, 1 .
52. DISTRIBUCIÓN MUESTRAL DE LA
PROPORCIÓN
Sea p la probabilidad de éxito de un experimento consistente en n
ensayos de Bernoulli. Si X representa la variable aleatoria Binomial,
entonces 𝑃 =
𝑋
𝑛
representa la estadística de la proporción, siendo X el
número de éxitos en n pruebas.
𝜇 𝑃 = 𝐸
𝑋
𝑛
=
𝑛𝑝
𝑛
= 𝑝 y 𝜎 𝑃
2
=
𝜎 𝑋
2
𝑛2 =
𝑛𝑝(1−𝑝)
𝑛2 =
𝑝(1−𝑝)
𝑛
entonces la forma limitante de la distribución de
𝑍 =
𝑃 − 𝑝
𝑝(1 − 𝑝)
𝑛
conforme 𝑛 → ∞, es la distribución normal estándar 𝑛 𝑧; 0, 1 .
55. Problema 14: DISTRIBUCIÓN MUESTRAL
DE LA PROPORCIÓN
Una prueba de opción múltiple tiene 200
preguntas cada una con cuatro respuestas
posibles de las que sólo una es la correcta.
¿ Cuál es la probabilidad de que con puras
conjeturas se obtengan de 25 a 30
respuestas correctas para 80 de los 200
problemas acerca de los que el estudiante
no tiene conocimiento?