Edificio residencial Tarsia de AEDAS Homes Granada
INFERENCIA ESTADÍSTICA Y MUESTREO
1. INTRODUCCIÓN
Generalmente las poblaciones son demasiado grandes
como para ser estudiadas en su totalidad. Es necesario
seleccionar una muestra representativa de un tamaño
más manejable. Esta muestra se utiliza luego para
sacar conclusiones sobre la población. Por ejemplo, se
puede calcular la media muestral, el estadístico 𝑋, y
utilizarlo como un estimado de la media poblacional μ.
El estadístico se utiliza como estimador del parámetro.
Al confiar en una muestra para sacar alguna
conclusión o inferencia sobre la población, se está en
la estadística inferencial.
2. INFERENCIA ESTADÍSTICA
PARTE DE LA ESTADÍSTICA CUYAS TECNICAS
PERMITEN GENERALIZAR LOS RESULTADOS
OBSERVADOS EN UNA MUESTRA A LA POBLACIÓN
CORRESPONDIENTE.
EN BASE A UNA MUESTRA SE ESTIMA UN PARAMETRO
POBLACIONAL CON CIERTO MARGEN DE
CONFIABILIDAD Y/O ERROR.
LOS PARAMETROS MAS USADOS SON: LA MEDIA, LA
VARIANZA, LA PROPORCIÓN, µ, , Δμ, Y ΔP.
BASE PARA UNA BUENA INFERENCIA ES LA MUESTRA
Y ESTA SERÁ REPRESENTATIVA EN FUNCIÓN DEL
METODO DE MUESTREO.
3. MUESTREO. PROCEDIMIENTO
UTILIZADO PARA SELECCIONAR
UNA MUESTRA REPRESENTATIVA DE
UNA POBLACIÓN
MUESTRA REPRESENTATIVA. ES
AQUELLA QUE DIVERGE DE LA
POBLACIÓN EN TAMAÑO, PERO
MANTIENE SU ESTRUCTURA.
MUESTREO
6. ROL DEL MUESTREO EN LA
INFERENCIA ESTADÍSTICA
Mundo Real: POBLACIÖN
Características verdaderas: Desconocidas
Variable Muestreo
Aleatoria: X {Experimento:
Observaciones}
Modelo Línea Real - < x < + Muestra { x1, x2, . . ., xn}
Teórico Con distribución: fX (x)
fX(x) Inferencia
Sobre fX(x)
Media: x Estimación Estadística
i
x
n
x
1
Varianza: 2
S2
s2
=
2
)
(
1
1
x
x
n
i
Fig 01. Rol del Muestreo en la Inferencia Estadística
7. RAZONES PARA USAR EL MUESTREO
Las razones para practicar el muestreo son
entre otras:
Económicas como:
Costos, tiempo, oportunidad;
Técnicas como:
Poblaciones infinitas y homogéneas
Pruebas destructivas
Calidad y eficiencia,
Exactitud y precisión.
9. DEFINICIÓN DE TÉRMINOS
Unidad de Análisis.
Población o Universo
Marco de Muestreo (Marco Muestral)
Unidad de muestreo
Probabilidad de selección
Error
El error de muestreo
El error no muestral
10. Unidad de Análisis. Denominada también elemento de
la población. Es la unidad indivisible de la cual se
obtiene el dato estadístico. Ejemplo, puede ser una
persona, una vivienda, una escuela, etc
Población o Universo
Se define también como el conjunto de todas las
unidades de análisis cuyas características o atributos se
van a estudiar en un lugar o período establecido
Según el tamaño de la población puede ser finita o
infinita.
Marco de Muestreo (Marco Muestral).
Es la lista de unidades de la población. Esta lista es
llamada marco de muestreo, población de trabajo o
población muestreada. Es la población que puede ser
muestreada realmente.
11. En contraste, la población originalmente definida o la
que se pretende muestrear se conoce como
población objetivo (blanco)
El éxito o el fracaso de un estudio estadístico
depende de la población de trabajo disponible.
Si el marco es diferente de la población objetivo,
pero puede juzgarse que el primero contiene
información adecuada, el estudio puede continuarse.
Pero debe recordarse que las inferencias
estadísticas se relacionan con la población marco.
Es decir, procedimientos estadísticos pueden ser
aplicados para formular conclusiones acerca de la
población marco, pero estas conclusiones no son
válidas para la población objetivo, a menos que las
dos poblaciones sean iguales o similares
12. Términos técnicos en el
Muestreo 3
• Marco de muestreo
Base de datos
(Registros)
Mapas
13. Unidad de muestreo.
Es la unidad seleccionada del marco de muestreo.
Puede ser la unidad de análisis aunque no
necesariamente. Pueden ser de dos clases: elementales
y primarias. Unidades de muestreo elementales, son
todas las unidades contenidas en la población cuyas
características han de ser medidas. Unidades de
muestreo primarias pueden ser las unidades
elementales mismas o los grupos de unidades
elementales.
Probabilidad de selección.
Es la probabilidad que tiene cada unidad de la población
de ser incluida en la muestra
14. Términos técnicos en el
Muestreo
Unidad de
muestreo
Unidad
elemental
Unidad reportante
15. DEFINICIÓN DE TÉRMINOS
Error total = Error no muestral + Error de muestreo
En un censo: mayor grande no estimable
En un muestreo: menor pequeño estimable
El error no muestral : puede presentarse:
Errores de observación.
Errores de calibración de los instrumentos.
Errores de anotación o registro de datos.
Errores de cálculo
El error de muestreo. es la diferencia entre el
parámetro poblacional y la estimación estadística:
Ejemplo. Si P es la proporción poblacional y p es la
proporción muestral, entonces el error de muestreo
sería:
E = | P - p |
16. Errores en la Encuesta por
Muestreo
• Errores de Muestreo
. Se controla, se formula y se estima
mediante el diseño de la muestra
• Errores de No Muestreo
. Sólo se controla mediante un sistema
de prevención, capacitación e inspección
en todo el proceso de la encuesta.
19. Proceso de selección de una muestra donde cada uno de los
elementos de la población tienen igual probabilidad de ser
incluidos en la muestra.
Teóricamente el muestreo aleatorio puede ser practicado en una
población finita o infinita y puede ser con o sin reemplazo.
En la práctica, el muestreo siempre se realiza sin reemplazo..
Restricción.
Para aplicar el M.A.S. es necesario de que la población sea
altamente homogénea respecto a la característica de mayor
interés de estudio, y además que las unidades se encuentren
concentradas.
Muestreo Aleatorio Simple
20. 1.Se confecciona una lista de todos los elementos de
la población (Marco muestral) y se les asigna
números de 1 hasta N (tamaño poblacional)
2.La unidad de base de la muestra debe ser la misma.
3.Se determina el tamaño de la muestra (n)
4.Se extraen al azar los n elementos. Se pueden
utilizar los procedimientos:
* Tabla de números aleatorios.
* Sistema de la lotería
* Cualquier otro procedimiento al azar
La muestra queda constituida por los n elementos
que hemos obtenido de la población
Procedimiento para seleccionar una muestra
al Azar
21. Ejemplo 1:
• Se tiene un listado de 450 abonados de Telefónica del Perú.
Supongamos que los 450 usuarios constituyen un universo de N =
450 elementos. Se desea seleccionar una MAS de n=35 usuarios,
utilizando la tabla de números aleatorios. Los 35 números aleatorios
son:
041,450, 066, 253, 002, 208, 259, 183, 170, 257
244, 045, 419, 091, 167, 229, 035, 164, 086, 138
067, 0.59, 346, 267, 081, 172, 169, 135, 446, 119
375, 022, 095, 065, 139.
• La muestra irrestricta aleatoria seleccionada, tiene como propósito
estimar los siguientes parámetros:
= Gasto promedio por usuario en el mes.
= Proporción de usuarios que poseen adicionalmente el
servicio de telefonia móvil celular.
22. = 133.93
Margen de error = S/. 11.36
Error de muestreo = 8.482%
= 0.2857 = 28.57%
Margen de error = 0.141
Error de muestreo = 49.352%
No Teléfono Gasto Neto
(Mes anterior:
S/.)
¿Posee celular?
Celular?
1 271-0934 165.07 NO
2 328-0446 81.79 NO
3 537-0692 125.48 NO
4 470-9334 119.98 NO
5 476-8125 186.88 SI
6 426-1763 134.23 NO
7 451-3603 62.34 NO
8 440-8504 99.11 NO
9 421-6940 65.73 SI
10 265-2126 131.03 NO
11 258-1515 114.99 NO
12 574-4628 132.12 NO
13 525-1425 155.21 NO
14 463-2201 85.56 NO
15 536-2160 132.70 SI
16 387-2504 181.44 NO
17 354-4145 133.41 NO
18 263-5709 132.53 SI
19 471-8682 95.94 NO
20 564-4347 133.22 NO
21 459-0541 128.10 SI
22 482-6913 98.37 SI
23 449-0796 107.37 NO
24 368-2955 203.51 NO
25 264-0851 141.84 NO
26 441-7002 216.44 SI
27 359-0864 133.61 NO
28 351-2242 176.88 SI
29 485-3816 87.64 NO
30 275-2749 163.13 NO
31 466-3403 156.16 NO
32 420-6445 127.14 SI
33 360-1643 146.91 NO
34 359-2286 167.22 NO
35 251-9977 164.49 SI
35
1
i
i
x
35
1
X
n
n
P 0
23. TAMAÑO MÍNIMO DE MUESTRA
Hasta ahora se ha supuesto un tamaño de muestra dado,
interesa analizar brevemente cuáles son los factores
determinantes de la magnitud de “n”.
Fundamentalmente hay cuatro factores condicionantes del
tamaño de muestra:
Variabilidad de la población: ( σ2 )
Error máximo tolerable en la estimación (Precisión de las
estimaciones) : E
Nivel de confianza: Zα/2 , (Coeficiente de 1-α de confianza)
Tamaño de la población. (N)
Además hay un quinto elemento de extraordinaria importancia
práctica: los recursos financieros y recursos humanos y
materiales.
Del equilibrio de todas estas condicionantes se determina la
magnitud del tamaño mínimo de muestra de muestra.
24. TAMAÑO DE MUESTRA PARA LA ESTIMACIÓN DE LA MEDIA
POBLACIONAL ( )
Cuando no se conoce el tamaño de población.
Z2
/2 2
n -------------
E2
Donde:
n= Tamaño mínimo de muestra
Z/2= Coeficiente de (1-α)% de confiabilidad
= Desviación estándar poblacional.
E = Error máximo tolerable en la
estimación de la media .
25. Ejemplo
Se sabe que el contenido de fructosa de cierto alimento sigue una
distribución normal, cuya varianza es conocida, teniendo un
valor de 0,25. Se desea estimar el valor de la media
poblacional mediante el valor de la media de una muestra,
admitiendose un error máximo de 0,2 con una confianza del
95%. ¿Cuál ha de ser el tamaño de la muestra?
Solución
Como la varianza es 0.25, σ = 0.5
Zα/2 = 1.96.
E = 0.2
( 1.962 )* (0.5)2
n≥ --------------------- = 24.01, Por tanto n = 25
( 0.2 )2
26. Ejemplo: 2
Se desea estimar el peso promedio de los sacos que son
llenados por un nuevo instrumento en una industria. Se conoce
que el peso de un saco que se llena con este instrumento es
una variable aleatoria con distribución normal. Si se supone
que la desviación típica del peso es de 0,5 kg. Determine el
tamaño de muestra aleatoria necesaria para determinar una
probabilidad igual a 0,95 de que el estimado y el parámetro se
diferencien modularmente en menos de 0,1 kg.
27. TAMAÑO DE MUESTRA PARA LA ESTIMACIÓN DE LA MEDIA
POBLACIONAL ( )
Cuando se conoce el tamaño de una población (N)
N Z2
/2 2
n --------------------------
(N-1)E2 + Z2
/2 2
Donde:
n= Tamaño mínimo de muestra
Z/2= Coeficiente de (1-α)% de confiabilidad
= desviación estándar poblacional.
E = Error máximo tolerable en la estimación de la media .
N = Tamaño de la población
28. EJEMPLO
Es necesario estimar entre 10.000 establos, el número de vacas lecheras
por establo con un error de estimación de 4 y un nivel de confianza del
95%. Sabemos que la varianza es 1.000. ¿Cuántos establos deben
visitarse para satisfacer estos requerimientos?
Solución
Datos: N= 10000, E= 4 2= 1000, Z0.975=1.96
Sustituyendo datos en fórmula:
10000x 1.962 x1000
n ------------------------------------------ = 235
9999x4 + 1000x1.962
29. EJEMPLO: 3
Considere una población de 1000 fincas en la que la
varianza del número de vacunos por finca es de 250.
Se desea estimar el número promedio de vacunos por
finca mediante una muestra, de tal manera que la
estimación no difiera del parámetro en más de 1(Un
vacuno) con una confianza del 95%. Cuál debe ser el
tamaño mínimo de muestra?.
Solución
Datos: N= 1000, E=1 2= 250, Z0.975=1.96
Sustituyendo datos en fórmula:
1000x250x1.962
n ------------------------------------------ = 490
999x1 + 250x1.962
30. TAMAÑO DE MUESTRA PARA LA ESTIMACIÓN DE LA
PROPORCIÓN POBLACIONAL (P )
Cuando no se conoce el tamaño poblacional
Z2
/2 P Q
n -----------------
E2
Donde:
n = Tamaño mínimo de muestra
Z/2= Coeficiente de (1-α)% de confiabilidad
P = Proporción de casos que en la población tienen cierta
característica de interés.
Q = Proporción de casos que en la población no tienen la
característica de interés.
E = Error máximo tolerable en la estimación
de la proporción P
31. Ejemplo: 4
Se desea hacer una encuesta para determinar la proporción de
familias que carecen de medios económicos para atender los
problemas de salud. Existe la impresión de que esta
proporción está próxima a 0´35. Se desea determinar un
intervalo de confianza del 99% con un error de estimación de
0´05. ¿De qué tamaño debe tomarse la muestra?
Solución
Zα/2 = 1.96.
E = 0.2
P = 0.35, Q = 0.65
( 1.962 )* (0.35* 0.65)
n≥ ------------------------------- = 349.5 = 350.
( 0.05 )2
32. TAMAÑO DE MUESTRA PARA LA ESTIMACIÓN DE LA
PROPORCIÓN POBLACIONAL (P )
Cuando se conoce el tamaño poblacional (N)
N Z2
/2 P Q
n ----------------------------
(N-1)E2 + Z2
/2 P Q
Donde:
n = Tamaño mínimo de muestra
Z/2 = Coeficiente de (1-α)% de confiabilidad
P = Proporción de casos que en la población tienen cierta
característica de interés.
Q = Proporción de casos que en la población no tienen la
característica de interés.
E = Error máximo tolerable en estimación de la proporc. P.
N = Tamaño de la población.
33. EJEMPLO: 5
En un pueblo joven de 1500 viviendas, determinar el
tamaño mínimo de muestra para estimar la verdadera
proporción de viviendas sin servicio de desague con
un error relativo no superior a 0.08 y un nivel de
significancia de 5%. Se sabe por un sondeo previo
que aprox. el 60% de viviendas no tienen servicios de
desague
Solución
Datos: N=1500; E=0.08; Z0.975=1.96; P=0.6;Q=0.4
Que sustituyendo en fórmula correspondiente, tenemos:
N Z2
0.975xPxQ 1500x1.962x0.6x0.4
n---------------------------------= ---------------------------------------=132
(N-1)xE2+ Z2
0.975xPxQ 1499x0.082+1.962x0.6x0.4
34. Ejercicios.
1. Se desea conocer el peso promedio de una determinada clase de
pescado con un error de estimación de 0´02 y con un nivel de
confianza del 99%. Por datos anteriores se sabe que el peso mínimo
es 1´48 libras y el máximo es de 2´47 libras.¿De qué tamaño debe
escoger la muestra? Suponga que los pesos de estos pescados se
distribuyen normalmente
2. Una máquina llena cajas con cierto cereal. El supervisor desea
conocer con un error de estimación de máximo 0´1 y un nivel de
confianza del 90%, una media estimada del peso. Como la varianza era
desconocida se procedió a escoger una muestra piloto. Los
resultados fueron los siguientes: 11´02, 11´14, 10´78, 11´59, 11´58,
11´19, 11´71, 11´27, 10´93, 10´94. ¿Cuántas cajas debe escoger para
que se cumplan los requisitos propuestos?
3. Queremos ajustar una máquina de refrescos de modo que el promedio
del líquido dispensado quede dentro de cierto rango. La cantidad de
liquido vertido por la máquina sigue una distribución normal con
desviación estándar 0´15 decilitros. Deseamos que el valor estimado
que se vaya a obtener comparado con el verdadero no sea superior a
0´2 decilitros con una confianza del 95%.¿De qué tamaño debemos
escoger la muestra?
35. • Este procedimiento de selección es el
indicado para poblaciones heterogéneas y
considera la variabilidad dentro de la
población para extraer una muestra más
precisa y eficiente que la que se obtendría
al aplicar directamente el muestreo
aleatorio simple.
• Restricción. Este procedimiento se debe
aplicar cuando es posible dividir la
población en estratos con gran variabilidad
entre estratos y pequeña variabilidad
dentro de ellos
Muestreo Estratificado
36. HOMOGENEIDAD:
Entre elementos de un
mismo estrato
HETEROGENEIDAD:
Entre estratos
INDEPENDENCIA:
Entre estratos al seleccionar
la muestra
Restricciones
39. Procedimiento de selección de la muestra
1º. La población de tamaño N se divide en L estratos.
Cuidando que la variabilidad entre estratos sea grande y
que sea pequeña la variabilidad dentro de los estratos. La
estratificación aumenta la precisión de las estimaciones,
haciendo que el error de muestreo sea menor.
2º. De cada estrato se toma una muestra aleatoria de
tamaño nh .
3º. La suma de las muestras de los estratos conforman la
muestra total “n”.
4º. De la muestra de cada estrato se obtienen los diferentes
indicadores estadísticos. Estos valores, convenientemente
ponderados y sumados a los de los demás estratos, nos
permiten obtener los valores generales para la muestra
total.
Para distribuir el tamaño de la muestra entre los L
estratos se utiliza la afijación
40. NOTACIONES
El subíndice h indica el estrato y el subíndice i indica
el elemento del estrato.
Para el estrato h tenemos las siguientes notaciones:
Nh: Total de elementos del estrato h
nh: Nº de elementos de la muestra (estrato h)
Wh=(Nh/N): Ponderación del estrato
fh= (nh/n): Fracción de muestreo del estrato
h
2: Varianza del estrato
S2
h: Varianza de la muestra del estrato h
Ph: Proporción de casos de interés en estrato h
Qh = 1-Ph
42. Tamaño de muestra para afijación
proporcional (Estimación de )
n: Tamaño de muestra
Wh: Ponderación del estrato
E: Error máximo tolerable
Z: Coeficiente del (1-)% de confiabilidad
h
2: Varianza del estrato h.
43. Tamaño de muestra para afijación optima
(Estimación de )
n: Tamaño de muestra
Wh: Ponderación del estrato
E: Error máximo tolerable
Z: Coeficiente del (1-)% de confiabilidad
h
2: Varianza del estrato h.
44. Tamaño de muestra para afijación
proporcional (Estimación de P )
n: Tamaño de muestra
Wh: Ponderación del estrato
E: Error máximo tolerable
Z: Coeficiente del (1-)% de confiabilidad
Ph: Proporción de casos con caract. de interés en estrato h.
Qh=1-Ph
45. Tamaño de muestra para afijación óptima
(Estimación de P )
n: Tamaño de muestra
Wh: Ponderación del estrato
E: Error máximo tolerable
Z: Coeficiente del (1-)% de confiabilidad
Ph: Proporción de casos cn caract. de interés en estrato h.
Qh=1-Ph
46. AFIJACION
Se denomina afijación a la distribución del tamaño
de la muestra n entre los L estratos. Esto es,
determinar los valores de nh tal que verifique: n1 +
n2 + ... +nL = n.
Tipos de afijación.
Afijación igual
Cada valor de nh = n/L
a. Afijación proporcional.
Consiste en distribuir una cantidad de elementos
en cada estrato en forma proporcional al tamaño
del estrato respecto de la población.
El tamaño de la muestra en cada estrato estará
dado por: nh = (Nh/N)*n ; h=1,2,…,L
47. AFIJACION OPTIMA. Estimación de µ
La afijación óptima distribuye la muestra total (n)
entre los estratos, considerando simultáneamente
el tamaño (Nh) y el grado de variabilidad (h) del
estrato.
Fórmula para afijar óptimamente una muestra:
Nh h
nh = -----------* n; h=1,2,…,L
Nh h
Si h no es conocida, puede ser reemplazada por
el valor muestral correspondiente: sh
48. AFIJACION OPTIMA. Estimación de P
La afijación óptima distribuye la muestra total (n)
entre los estratos, considerando simultáneamente
el tamaño (Nh) y el grado de variabilidad del
estrato.
Fórmula para afijar óptimamente una muestra:
Si Ph no es conocida, puede ser reemplazada por
el valor muestral correspondiente: ph
49. EJEMPLO
Una población de 10000 elementos se ha dividido
en 3 estratos: N1= 3000, N2=2000, N3=5000;
siendo las varianzas de los estratos: 2
1= 100,
2
2= 400, 2
3= 900
a. Calcular el tamaño de muestra estratificada para
estimar la media con un error de 1.5 y un nivel
de confianza de 95%.
b. Efectuar la afijación proporcional y la óptima.
c. Estimar el error de muestreo.(Error estándar de la
media muestral)
50. Solución
Estrato Nh Wh
2
h
h
h
W Nh?h nh
1 3000 0.3 100 3.00 30 112
2 2000 0.2 400 4.00 40 150
3 5000 0.5 900 15.00 150 561
Total 10000 22
.00 220 823
a. Usando la fó
rmula adecuada:
N
W
Z
E
W
n l
h
h
l
h
h
+
1
2
2
2
1
= 823
10000
0
.
22
96
.
1
5
.
1
)
0
.
22
(
2
2
2
+
51. Continúa solución:
b. Usando la fórmula correspondiente, se distribuye la muestra en los 3 estratos:
3
,...
1
;
*
1
h
n
N
N
n L
h
h
h
h
h
; resultando: n1=112; n2=150; n3=561.
c. Error de muestreo =
2
1
2
1
2
)
(
1
N
N
N
W
n
L
h
h
h
h
h
y
;
Que sustituyendo datos se tiene