SlideShare una empresa de Scribd logo
1 de 38
5. Inferencia Estadística: Estimación
• Objetivo: Cómo podemos utilizar la muestra para
estimar valores de los parámetros poblacionales?
• Estimación puntual: Una única estadística que es la
mejor supocisión para el valor del parámetro
• Estimación por intervalos: Un intervalo de números
alrededor de la estimación puntual, que tiene un“nivel
de confianza” fijo de contener el valor del parámetro,
llamado intevalo de confianza.
(Basado en las distribuciones muestrales del estimador
puntual)
Estimadores puntuales
• Estimadores puntuales – uso más común de
valores muestrales
• Media muestral estima la media poblacional m
• Desviación estándar muestral estima la
desviación estándar poblacional s
• Proporción muestral estima la proporción
poblacional 
ˆ i
y
y
n
m  

2
( )
ˆ
1
i
y y
s
n
s

 


ˆ

Propiedades de buenos estimadores
• Insesgado: Distribuciones muestrales del estimador se
centra alrededor del valor del parámetro
• Ej. Estimador sesgado: rango muestral. No puede ser
más grande que el rango poblacional.
• Eficiente: El error estándar más pequeño posible,
comparado con otros estimadores
• Ej. Si la población es simétrica y con forma aprox.
normal, la media muestral es más eficiente que la
mediana muestral para estimar la media y mediana
poblacionales. (Puede verificar esto con el applet
“sampling distribution” en www.prenhall.com/agresti)
Intervalos de confianza
• Un intervalo de confianza (IC) es un intervalo de
números que se cree contienen el valor del parámetro.
• La probabilidad que el método produzca un intervalo
que contenga el parámetro se llama nivel de confianza.
Es común usar números cercanos a 1, tales como 0.95
ó 0.99.
• La mayoría de los ICs tiene la forma
estimación puntual ± margen de error
con el margen de error basado en la dispersión de la
distribución muestral del estimador puntual;
p.ej., margen de error  2(error estándar) para 95% confianza
IC para una propoción
(en una determinada categoría)
• Recuerda que la proporción muestral es una media
para variables binarias , donde y = 1 para una observ
en la categoría de interés, y = 0 de lo contrario
• Recuerda que la propoción poblacional es la media µ
de la distribución de probabilidad que tiene
• La desviación estándar de la dist. de probabilidad es
• El error estándar de la proporción muestral es
ˆ

(1) and (0) 1
P P
 
  
(1 ) (e.g., 0.50 when 0.50)
s   
  
ˆ / (1 )/
n n

s s  
  
• Recuerda que la distribución muestral de una proporción
muestral para muestras aleatorias grandes es
aproximadamente normal (por el TCL)
• Así, con probabilidad 0.95, proporción muestral cae a
1.96 errores estándar de la propoción poblacional 
– 0.95 probabilidad que
– Una vez que la muestra es selccionada, tenemos una
confianza del 95%
• Este es el IC de la proporción poblacional  (casi)
ˆ

ˆ ˆ
ˆ falls between 1.96 and 1.96
 
  s  s
 
ˆ ˆ
ˆ ˆ
1.96 to 1.96 contains
 
 s  s 
 
Encontrar un IC en la práctica
• Complicación: El verdadero error estándar
depende del parámetro que desconocemos!
• En la práctica, estimamos
y entonces encontramos el IC del 95% CI utilizando la
fórmula
ˆ / (1 )/
n n

s s  
  
ˆ
ˆ ˆ
1
(1 )
by se
n n

 
 
s
 

 
  
 
ˆ ˆ
1.96( ) to 1.96( )
se se
 
 
Ejemplo
¿Qué porcentaje de Americanos de 18-22 años reportan ser “very
happy”?
• Datos 2006 GSS: 35 de n = 164 dicen ser “very happy”
(otros reportan ser “pretty happy” o “not too happy”)
• 95% CI is 0.213 ± 1.96(0.032), or 0.213 ± 0.063,
(p.ej., “margen de error” = 0.063)
lo que resulta en (0.15, 0.28).
• Tenemos una confianza del 95% que la proporción poblacional
de quienes son “very happy” está entre 0.15 y 0.28.
ˆ 35/164 .213 (.31 for all ages),
ˆ ˆ
(1 )/ 0.213(0.787)/164 0.032
se n

 
 
   
Ejercicio
Encuentra un IC del 99% con estos datos
• 0.99 probabilidad central, 0.01 en dos colas
• 0.005 en cada cola
• Valor-z es 2.58
• IC del 99% es 0.213 ± 2.58(0.032),
ó 0.213 ± 0.083, lo que resulta en (0.13, 0.30)
• Mayor confianza requiere IC más anchos
• Recuerda que un IC del 95% era (0.15, 0.28)
Ejemplo
• Asume que la proporción muestal de 0.213 está basada en
n = 656 (en lugar de 164)
IC del 95% es 0.213 ± 1.96(0.016), o 0.213 ± 0.031, lo que es
(0.18, 0.24)
• Recuerda que IC del 95% CI con n = 164 era (0.15, 0.28)
• Un tamaño de muestra más grande resulta en un IC más
angosto (Se necesita aumentar la muestra 4 veces para
reducir la longitud del IC a la mitad)
• Estas fórmulas de error estándar tratan al tamaño de la
población como infinito (ve el Ejercicio 4.57 para una
correción por tener una población finita)
ˆ ˆ
(1 )/ 0.213(0.787)/656 0.016 (instead of 0.032)
se n
 
   
Algunos comentarios sobre los ICs
• Si repetidamente tomamos muestras aleatorias de
un tamaño fijo n y cada vez calculamos un IC del
95%, a la larga alrededor del 95% de los IC
contendrán la proporción poblacional .
(CI applet at www.prenhall.com/agresti)
• La probabilidad que un IC no contenga  se llama
error de probabilidad, y se denota por .
•  = 1 – coeficiente de confianza
(1-)100%  /2 z/2
90% .10 .050 1.645
95% .05 .025 1.96
99% .01 .005 2.58
• Fórmula general par IC para proporciones es
• El valor-z es tal que, asumiendo una distribución normal, la
probabilidad de estar a z errores estándar de la media es igual al
nivel de confianza
(p.ej., z = 1.96 para una confianza del 95%,
z = 2.58 para una confianza del 99%)
• Con n para la mayoría de encuestas de opinión (aprox. 1000), el
margen de error usualmente alrededor de ±0.03 (idealmente)
• El método requiere una “n grande” para que la distribución
muestral de la proporción muestral sea aprox. normal (TCL) y
que la estimación del verdadero error estándar verdadero sea
decente
• En la práctica, ok si se tiene al menos 15 observaciones en cada
categoría
Ejemplo: n=164, 35 “very happy”, 164-35 = 129 no “very happy”
ˆ ˆ ˆ
( ) with (1 )/
z se se n
  
  
• De lo contrario, la distribución muestral es asimétrica,
(se puede verificar esto con el applet “sampling
distribution” en www.prenhall.com/agresti, p.ej., para n
= 30, pero  = 0.1 ó 0.9)
• y la proporción muestral puede ser una mala estimación
de ,y el error estándar puede ser una mala estimación
del verdadero error estándar
Ejemplo: Estimar la proporción de vegetarianos (p. 129)
n = 20, 0 vegetarianos, = 0/20 = 0.0,
IC del 95% CI para  es 0.0 ± 1.96(0.0), or (0.0, 0.0)
• Mejor IC método (por Edwin Wilson en Harvard en 1927,
pero no en la mayoría de libros de estadística):
No estimar el error estándar, sino encontrar los valores
de  tales que
ˆ ˆ
(1 )/ 0.0(1.0)/ 20 0.000
se n
 
   
• Ejemplo: Para n = 20 resolver la ecuación cuadrática para ,
las soluciones son 0 y 0.16, así que un IC del 95% es (0, 0.16)
• Agresti and Coull (1998) sugiriero utilizar la forma usual de
calculara un IC
estimación ± z(se)
después de añadir 2 observaciones de cada tipo. Este
método más simple funciona bien incluso para n muy
pequeñas (95% IC tiene el mismo punto medio que el IC de
Wilson)
• Ejemplo: 0 vegetarianos, 20 no-veg
cambia a 2 vegetarianos, 22 no-veg, y entonces
IC del 95% CI es 0.08 ± 1.96(0.056) = 0.08 ± 0.11
= (-0.03, 0.19) entonces (0.0, 0.19).
ˆ
| | 1.96 (1 )/ n
   
  
Intervalo de confianza para la media
• En muestras grandres, la media muestral tiene
aprox. una distribución normal con media m
and error estándar
• Entonces
• Podemos tener la confianza del 95% que la
media muestral cae a 1.96 errores estándar de
la media poblacional (desconocida)
y
n
s
s 
( 1.96 1.96 ) .95
y y
P y
m s m s
    
Un problema
• Se desconoce el error estándar (s también es un
parámetro). Se estima reemplazando s con su
estimación puntual de la muestra:
• IC del 95% confidence interval for m :
• Esto funciona ok para “n grande”, porque
entonces s es una buena estimación de σ (y aplica
el TCL). Pero para n pequeña, reemplazar σ por
su estimación s introduce un error extra, y el IC
no es lo suficientemente ancho a menos que se
reemplace el valor-z por otro ligeramente más
grande el “valor-t”
s
se
n

1.96( ), which is 1.96
s
y se y
n
 
La distribución t (t de Student)
• Forma de campana, simétrica alrededor de 0
• Desviación estándar un poco más grande que 1 (colas
ligeramente más anchas que la distribución normal
estándar, que tiene media = 0 y desv. estándar = 1)
• La forma precisa depende de los grados de libertad
(df). Para inferencia sobre la media,
df = n – 1
• Se vuelve más angosta y se parece más a la distribución
normal estándar a medida que los df aumentan
(casi idénticas cuando df > 30)
• IC para la media tiene un margen de error t(se),
(en lugar de z(se) como el IC para la proporción)
Parte de la tabla t
Nivel de confianza
90% 95% 98% 99%
df t.050 t.025 t.010 t.005
1 6.314 12.706 31.821 63.657
10 1.812 2.228 2.764 3.169
30 1.697 2.042 2.457 2.750
100 1.660 1.984 2.364 2.626
infinity 1.645 1.960 2.326 2.576
df =  corresponde a la distribución normal estándar
IC para la media poblacional
• Para una muesta de una población con distribución
normal, un IC del 95% para µ es
donde df = n - 1 para el valor-t
• El supuesto de una población normal asegura que la
distribución muestral tenga forma de campana para
cualquier n
(Recuerda la imagen en p.93 del libro de texto y la
siguiente).
Veremos más de este supuesto más adelante.
.025( ), with /
y t se se s n
 
Ejemplo: Estudio sobre anorexia (p. 120)
• El peso medido antes y después del
tratamiento
y = peso al final – peso al inicio
• Ejemplo en p.120 muestra resultados para el
tratamiento de comportamiento cognitivo.
Para n = 17 niñas recibiendo terapia familiar
(p.396).
y = 11.4, 11.0, 5.5, 9.4, 13.6, -2.9, -0.1, 7.4, 21.5, -5.3, -
3.8, 13.4, 13.1, 9.0, 3.9, 5.7, 10.7
• Resultados del software
---------------------------------------------------------------------------------------
Variable N Mean Std.Dev. Std. Error Mean
weight_change 17 7.265 7.157 1.736
----------------------------------------------------------------------------------------
• Error estándar (se) se obtuvo con
• Ya que n = 17, df = 16, valor-t para un IC del 95% es 2.12
• Un IC del 95% para la cambio en peso promedio (pob.) es
• Podemos predecir que el cambio en el peso promedio
poblacional µ es positivo (es decir, el tratamiento es
efectivo, en promedio), con un valor de µ entre 4 y 11
libras.
/ 7.157/ 17 1.736
se s n
  
( ), which is 7.265 2.12(1.736), or (3.6, 10.9)
y t se
 
Ejemplo: Ver TV en EU
Ejemplo: GSS pregunta “On average day, how many
hours do you personally watch TV?”
n = 899, = 2.865, s = 2.617
• Cuál es un IC del 95% CI para la media
poblacional?
• df = n-1 = 898 son muchos, así que el valor-t
(1.9626) es prácticamente igual a z = 1.96
• Demuestra que se = 0.0873,
• IC del 95% es 2.865 ± 0.171, ó (2.69, 3.04)
• Interpretación?
y
Opción múltiple
a. Tenemos una confianza del 95% que la media muestral
está entre 2.69 y 3.04 horas.
b. 95% de la población ve tele entre 2.69 y 3.04 horas al
día
c. Tenemos una confianza del 95% que la media
poblacional está entre 2.69 y 3.04
d. Si se repiten muestras de tamaño 899, a la larga 95%
de ellas contendrían = 2.865
Nota: El método t para IC asume una distribución
poblacional normal. Crees que es válido el supuesto?
y
Comentarios sobre IC para la media
poblacional µ
• El método es robusto a violaciones del supuesto
de distribución normal poblacional
(Pero, hay que ser cuidadosos si la distribución de
la muestra es muy asimétrica o se tiene outliers
severos. Siempre debe uno revisar los datos.)
• Mayor confianza requiere IC más anchos
• Una n más grande genera IC más angostos
• Métodos t desarrollados por el estadístico
William Gosset de Guinness Breweries, Dublín
(1908)
t de Student
• Debido a que las reglas de la compañía prohibían la
publicación de trabajo de la empresa con el nombre
de uno, Gosset usó el pseudónimo “Student” en los
artículos que escribió sobre sus descubrimientos (a
veces llamada distribución t de Student
• A él le dieron sólo muestras pequeñas
de cerveza para probar (por qué?), y
de dió cuenta que no podía utilizar los
valores-z de la normal después de
sustituir s en la fórmula del error
estándar
• A la larga, 95% de los IC del
95% para la media
poblacional μ realmente
incluyen μ
• En la gráfica, cada línea
muestra un IC para una
muestra en particular con su
propia media muestral,
tomada de la distribución
muestral de posibles valores
de las medias muestrales
Escoger el tamaño de muestra
• Ejemplo: Qué tan grande debe ser una muestra
para estimar la proporción poblacional (p.ej.,
“very happy”) ± 0.03, con una probabilidad de
0.95?
• Es decir, Qué n resulta en un margen de error de
0.03 en un intervalo de confianza del 95%?
• Igualamos 0.03 = margen de error y despejamos
para n
ˆ
0.03 1.96 1.96 (1 )/ n

s  
  
Solución
• El valor más grande de n ocurre para  = 0.50, así
que somos “conservadores” al seleccionar
n = 4268(0.50)(0.50) = 1067
• Si sólo se necesita un margen de error de 0.06, se
requiere
(Para duplicar la precisión, se necesita aumentar
n 4 veces)
2
(1 )(1.96/0.03) 4268 (1 )
n    
   
2
(1 )(1.96/ 0.06) 1067 (1 )
n    
   
• Qué tal si hacemos una supocisión informada acerca del
valor de la proporción?
• Si estudios previos sugieren que la proporción
poblacional es aprox. 0.20, entonces para obtener el
margen de error 0.03 para un IC del 95%,
• Es “más facil” estimar la propoción poblacional cuando
la proporción se acerca a 0 a 1 (elecciones competidas
son difíciles)
• Es mejor usar utilizar valores aproximados de  en lugar
de 0.50, a menos que no tengamos idea de su valor
2
(1 )(1.96/ 0.03) 4268 (1 )
4268(0.20)(0.80) 683
n    
   
 
Seleccionar el tamaño de muestra
• Determinar el parámetro de interés (media
poblacional o proporción poblacional)
• Seleccionar un margen de error (M) y un nivel de
confianza (determina el valor-z)
• Proporción (siendo “conservadores”, p = 0.50)
• Media (necesita que supongamos un valor de s):
2
(1 )
z
n
M
 
 
   
 
2
2 z
n
M
s
 
  
 
Ejemplo: n para estimar la media
• Estudio futuro en anorexia: Queremos n para
estimar el cambio promedio en peso ± 2 libras,
con probabilidad 0.95.
• Con base en el estudio pasado, asumimos σ = 7
• Nota: No se preocupen en memorizar como las
del tamaño de muestra. En examenes daré hoja
con fórmulas.
2 2
2 2 1.96
7 47
2
z
n
M
s
   
  
   
   
Algunos comentarios sobre IC y el
tamaño de muestra
• Hemos visto que n depende del nivel de confianza
(mayor confianza requiere una n más grande) y la
variabilidad poblacional (más variabilidad require una n
más grande)
• En la práctica, determinar n no es tan fácil porque:
(1) hay que estimar muchos parámetros
(2) recursos pueden ser escasos y tendremos que
ajustarmos
• Se pueden construir IC para cualquier parámetro
(p.ej., ver pp. 130-131 para IC para la mediana)
• Usando n-1 (en lugar de n) en s reduce sesgo en la
estimación de la desv. est. poblacional Σ
• Example: Una probabilidad binaria con n = 2
y P(y)
0 ½ µ = 1, so σ = 1
2 ½
Posibles muestras
(igualmente probables)
(0, 0) 0 0 1
(0, 2) 1 2 1
(2, 0) 1 2 1
(2, 2) 0 0 1
Media de estimaciones 0.5 1.0 1.0
2 2 2
( ) ( ) ( )
1
i i i
y y y y y
n n n
m
     

2 2
( ) ( ) 1
y P y
s m
  

( )
yP y
 
• Métodos de IC fueron desarrollados en 1930s por Jerzy
Neyman (U. California, Berkeley) y Egon Pearson (University
College, London)
• El método de estimación puntual utilizado actualmente,
desarrollado por Ronald Fisher (UK) en 1920s, se llama
máxima verosimilitud. La estimación es el valor del
parámetro para el cual los datos observados tendrían la
mayor posibilidad de ocurrir, comparado con otro valor
(imagen)
• Bootstrap es un método moderno (Brad Efron) para
generar IC sin utilizar métodos matemáticos para derivar
una distribución muestral que asuma una distribución de la
población en particular. Se basa en tomar muestras
repetidas de tamaño n (con reemplazo) de la distribución
de los datos de la muestra.
Utilizar IC en la práctica (o tareas)
• Cuál es la variable de interés?
– cuantitativa – inferencia sobre la media
– categórica – inferencia sobre la proporción
• Se satisfacen las condiciones?
– Aleatorización (por qué? Se necesita para que la dist.
muestral y su error estándar sean los que se suponen)
– Otras condiciones?
Media: Ver los datos para asegurarse que la distribuión de
los datos no es tal que la media sea irrelevante o no la
mejor opción
Proporción: Se necesitan al menos 15 observ. en la
categoría y no en la categoría de interés, o se utiliza una
fórmula diferente (p.ej., añadir 2 observ. a cada categoría)

Más contenido relacionado

Similar a Estimación estadística e intervalos de confianza

Estimadores puntuales intervalos de confianza.
Estimadores puntuales   intervalos de confianza.Estimadores puntuales   intervalos de confianza.
Estimadores puntuales intervalos de confianza.maryanbalmaceda
 
Estimadores puntuales intervalos de confianza.
Estimadores puntuales   intervalos de confianza.Estimadores puntuales   intervalos de confianza.
Estimadores puntuales intervalos de confianza.maryanbalmaceda
 
Estimadores puntuales intervalos de confianza.
Estimadores puntuales   intervalos de confianza.Estimadores puntuales   intervalos de confianza.
Estimadores puntuales intervalos de confianza.maryanbalmaceda
 
Interpretar intervalos
Interpretar intervalosInterpretar intervalos
Interpretar intervalosIsrael Arroyo
 
Intervalos de confianza para la media poblacional con: muestras pequeñas.
Intervalos de confianza para la media poblacional con: muestras pequeñas. Intervalos de confianza para la media poblacional con: muestras pequeñas.
Intervalos de confianza para la media poblacional con: muestras pequeñas. Leonel Rangel
 
Intervalos De Confianza
Intervalos De ConfianzaIntervalos De Confianza
Intervalos De Confianzaalerioz
 
5.2 estimacion puntual y por intervalos
5.2 estimacion puntual y por intervalos5.2 estimacion puntual y por intervalos
5.2 estimacion puntual y por intervalosivanmmrmoca
 
4. estadistica inferencial
4.  estadistica inferencial4.  estadistica inferencial
4. estadistica inferencialrbarriosm
 
L%80%A0%A0%Cdmites De Tolerancia
L%80%A0%A0%Cdmites De ToleranciaL%80%A0%A0%Cdmites De Tolerancia
L%80%A0%A0%Cdmites De Toleranciaalejandro
 
Intervalo de confianza
Intervalo de confianzaIntervalo de confianza
Intervalo de confianzalaura ochoa
 
Intervalo de confianza, equipo
Intervalo de confianza, equipoIntervalo de confianza, equipo
Intervalo de confianza, equipogueste5eaac
 

Similar a Estimación estadística e intervalos de confianza (20)

S12-Cap9-intervalos de confianza.pptx
S12-Cap9-intervalos de confianza.pptxS12-Cap9-intervalos de confianza.pptx
S12-Cap9-intervalos de confianza.pptx
 
Estimadores puntuales intervalos de confianza.
Estimadores puntuales   intervalos de confianza.Estimadores puntuales   intervalos de confianza.
Estimadores puntuales intervalos de confianza.
 
Estimadores puntuales intervalos de confianza.
Estimadores puntuales   intervalos de confianza.Estimadores puntuales   intervalos de confianza.
Estimadores puntuales intervalos de confianza.
 
Estimadores puntuales intervalos de confianza.
Estimadores puntuales   intervalos de confianza.Estimadores puntuales   intervalos de confianza.
Estimadores puntuales intervalos de confianza.
 
Daihrj grados de libertad
Daihrj grados de libertadDaihrj grados de libertad
Daihrj grados de libertad
 
tema 4.pdf
tema 4.pdftema 4.pdf
tema 4.pdf
 
Mic sesión 6
Mic sesión 6Mic sesión 6
Mic sesión 6
 
Distribución Muestral
Distribución MuestralDistribución Muestral
Distribución Muestral
 
Interpretar intervalos
Interpretar intervalosInterpretar intervalos
Interpretar intervalos
 
Intervalos de confianza para la media poblacional con: muestras pequeñas.
Intervalos de confianza para la media poblacional con: muestras pequeñas. Intervalos de confianza para la media poblacional con: muestras pequeñas.
Intervalos de confianza para la media poblacional con: muestras pequeñas.
 
Estadistica ii crc 4
Estadistica ii crc 4Estadistica ii crc 4
Estadistica ii crc 4
 
Intervalos De Confianza
Intervalos De ConfianzaIntervalos De Confianza
Intervalos De Confianza
 
Blog teoria intervalo de confianza
Blog teoria intervalo de confianzaBlog teoria intervalo de confianza
Blog teoria intervalo de confianza
 
Estimación estadística
Estimación estadísticaEstimación estadística
Estimación estadística
 
5.2 estimacion puntual y por intervalos
5.2 estimacion puntual y por intervalos5.2 estimacion puntual y por intervalos
5.2 estimacion puntual y por intervalos
 
4. estadistica inferencial
4.  estadistica inferencial4.  estadistica inferencial
4. estadistica inferencial
 
L%80%A0%A0%Cdmites De Tolerancia
L%80%A0%A0%Cdmites De ToleranciaL%80%A0%A0%Cdmites De Tolerancia
L%80%A0%A0%Cdmites De Tolerancia
 
000000p
000000p000000p
000000p
 
Intervalo de confianza
Intervalo de confianzaIntervalo de confianza
Intervalo de confianza
 
Intervalo de confianza, equipo
Intervalo de confianza, equipoIntervalo de confianza, equipo
Intervalo de confianza, equipo
 

Último

Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleJonathanCovena1
 
30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdfgimenanahuel
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIACarlos Campaña Montenegro
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadAlejandrino Halire Ccahuana
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxlclcarmen
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptELENA GALLARDO PAÚLS
 
Herramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdfHerramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdfMARIAPAULAMAHECHAMOR
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzprofefilete
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para eventoDiegoMtsS
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptxFelicitasAsuncionDia
 
EXPECTATIVAS vs PERSPECTIVA en la vida.
EXPECTATIVAS vs PERSPECTIVA  en la vida.EXPECTATIVAS vs PERSPECTIVA  en la vida.
EXPECTATIVAS vs PERSPECTIVA en la vida.DaluiMonasterio
 
GLOSAS Y PALABRAS ACTO 2 DE ABRIL 2024.docx
GLOSAS  Y PALABRAS ACTO 2 DE ABRIL 2024.docxGLOSAS  Y PALABRAS ACTO 2 DE ABRIL 2024.docx
GLOSAS Y PALABRAS ACTO 2 DE ABRIL 2024.docxAleParedes11
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptxJunkotantik
 
texto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticostexto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticosisabeltrejoros
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxzulyvero07
 
2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdfBaker Publishing Company
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADOJosé Luis Palma
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuaDANNYISAACCARVAJALGA
 

Último (20)

Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo Sostenible
 
30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdad
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
 
Herramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdfHerramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdf
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para evento
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptx
 
EXPECTATIVAS vs PERSPECTIVA en la vida.
EXPECTATIVAS vs PERSPECTIVA  en la vida.EXPECTATIVAS vs PERSPECTIVA  en la vida.
EXPECTATIVAS vs PERSPECTIVA en la vida.
 
GLOSAS Y PALABRAS ACTO 2 DE ABRIL 2024.docx
GLOSAS  Y PALABRAS ACTO 2 DE ABRIL 2024.docxGLOSAS  Y PALABRAS ACTO 2 DE ABRIL 2024.docx
GLOSAS Y PALABRAS ACTO 2 DE ABRIL 2024.docx
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptx
 
Repaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia GeneralRepaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia General
 
texto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticostexto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticos
 
Sesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdfSesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdf
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
 
2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahua
 

Estimación estadística e intervalos de confianza

  • 1. 5. Inferencia Estadística: Estimación • Objetivo: Cómo podemos utilizar la muestra para estimar valores de los parámetros poblacionales? • Estimación puntual: Una única estadística que es la mejor supocisión para el valor del parámetro • Estimación por intervalos: Un intervalo de números alrededor de la estimación puntual, que tiene un“nivel de confianza” fijo de contener el valor del parámetro, llamado intevalo de confianza. (Basado en las distribuciones muestrales del estimador puntual)
  • 2. Estimadores puntuales • Estimadores puntuales – uso más común de valores muestrales • Media muestral estima la media poblacional m • Desviación estándar muestral estima la desviación estándar poblacional s • Proporción muestral estima la proporción poblacional  ˆ i y y n m    2 ( ) ˆ 1 i y y s n s      ˆ 
  • 3. Propiedades de buenos estimadores • Insesgado: Distribuciones muestrales del estimador se centra alrededor del valor del parámetro • Ej. Estimador sesgado: rango muestral. No puede ser más grande que el rango poblacional. • Eficiente: El error estándar más pequeño posible, comparado con otros estimadores • Ej. Si la población es simétrica y con forma aprox. normal, la media muestral es más eficiente que la mediana muestral para estimar la media y mediana poblacionales. (Puede verificar esto con el applet “sampling distribution” en www.prenhall.com/agresti)
  • 4. Intervalos de confianza • Un intervalo de confianza (IC) es un intervalo de números que se cree contienen el valor del parámetro. • La probabilidad que el método produzca un intervalo que contenga el parámetro se llama nivel de confianza. Es común usar números cercanos a 1, tales como 0.95 ó 0.99. • La mayoría de los ICs tiene la forma estimación puntual ± margen de error con el margen de error basado en la dispersión de la distribución muestral del estimador puntual; p.ej., margen de error  2(error estándar) para 95% confianza
  • 5. IC para una propoción (en una determinada categoría) • Recuerda que la proporción muestral es una media para variables binarias , donde y = 1 para una observ en la categoría de interés, y = 0 de lo contrario • Recuerda que la propoción poblacional es la media µ de la distribución de probabilidad que tiene • La desviación estándar de la dist. de probabilidad es • El error estándar de la proporción muestral es ˆ  (1) and (0) 1 P P      (1 ) (e.g., 0.50 when 0.50) s       ˆ / (1 )/ n n  s s     
  • 6. • Recuerda que la distribución muestral de una proporción muestral para muestras aleatorias grandes es aproximadamente normal (por el TCL) • Así, con probabilidad 0.95, proporción muestral cae a 1.96 errores estándar de la propoción poblacional  – 0.95 probabilidad que – Una vez que la muestra es selccionada, tenemos una confianza del 95% • Este es el IC de la proporción poblacional  (casi) ˆ  ˆ ˆ ˆ falls between 1.96 and 1.96     s  s   ˆ ˆ ˆ ˆ 1.96 to 1.96 contains    s  s   
  • 7. Encontrar un IC en la práctica • Complicación: El verdadero error estándar depende del parámetro que desconocemos! • En la práctica, estimamos y entonces encontramos el IC del 95% CI utilizando la fórmula ˆ / (1 )/ n n  s s      ˆ ˆ ˆ 1 (1 ) by se n n      s           ˆ ˆ 1.96( ) to 1.96( ) se se    
  • 8. Ejemplo ¿Qué porcentaje de Americanos de 18-22 años reportan ser “very happy”? • Datos 2006 GSS: 35 de n = 164 dicen ser “very happy” (otros reportan ser “pretty happy” o “not too happy”) • 95% CI is 0.213 ± 1.96(0.032), or 0.213 ± 0.063, (p.ej., “margen de error” = 0.063) lo que resulta en (0.15, 0.28). • Tenemos una confianza del 95% que la proporción poblacional de quienes son “very happy” está entre 0.15 y 0.28. ˆ 35/164 .213 (.31 for all ages), ˆ ˆ (1 )/ 0.213(0.787)/164 0.032 se n         
  • 9. Ejercicio Encuentra un IC del 99% con estos datos • 0.99 probabilidad central, 0.01 en dos colas • 0.005 en cada cola • Valor-z es 2.58 • IC del 99% es 0.213 ± 2.58(0.032), ó 0.213 ± 0.083, lo que resulta en (0.13, 0.30) • Mayor confianza requiere IC más anchos • Recuerda que un IC del 95% era (0.15, 0.28)
  • 10. Ejemplo • Asume que la proporción muestal de 0.213 está basada en n = 656 (en lugar de 164) IC del 95% es 0.213 ± 1.96(0.016), o 0.213 ± 0.031, lo que es (0.18, 0.24) • Recuerda que IC del 95% CI con n = 164 era (0.15, 0.28) • Un tamaño de muestra más grande resulta en un IC más angosto (Se necesita aumentar la muestra 4 veces para reducir la longitud del IC a la mitad) • Estas fórmulas de error estándar tratan al tamaño de la población como infinito (ve el Ejercicio 4.57 para una correción por tener una población finita) ˆ ˆ (1 )/ 0.213(0.787)/656 0.016 (instead of 0.032) se n      
  • 11. Algunos comentarios sobre los ICs • Si repetidamente tomamos muestras aleatorias de un tamaño fijo n y cada vez calculamos un IC del 95%, a la larga alrededor del 95% de los IC contendrán la proporción poblacional . (CI applet at www.prenhall.com/agresti) • La probabilidad que un IC no contenga  se llama error de probabilidad, y se denota por . •  = 1 – coeficiente de confianza (1-)100%  /2 z/2 90% .10 .050 1.645 95% .05 .025 1.96 99% .01 .005 2.58
  • 12. • Fórmula general par IC para proporciones es • El valor-z es tal que, asumiendo una distribución normal, la probabilidad de estar a z errores estándar de la media es igual al nivel de confianza (p.ej., z = 1.96 para una confianza del 95%, z = 2.58 para una confianza del 99%) • Con n para la mayoría de encuestas de opinión (aprox. 1000), el margen de error usualmente alrededor de ±0.03 (idealmente) • El método requiere una “n grande” para que la distribución muestral de la proporción muestral sea aprox. normal (TCL) y que la estimación del verdadero error estándar verdadero sea decente • En la práctica, ok si se tiene al menos 15 observaciones en cada categoría Ejemplo: n=164, 35 “very happy”, 164-35 = 129 no “very happy” ˆ ˆ ˆ ( ) with (1 )/ z se se n      
  • 13. • De lo contrario, la distribución muestral es asimétrica, (se puede verificar esto con el applet “sampling distribution” en www.prenhall.com/agresti, p.ej., para n = 30, pero  = 0.1 ó 0.9) • y la proporción muestral puede ser una mala estimación de ,y el error estándar puede ser una mala estimación del verdadero error estándar Ejemplo: Estimar la proporción de vegetarianos (p. 129) n = 20, 0 vegetarianos, = 0/20 = 0.0, IC del 95% CI para  es 0.0 ± 1.96(0.0), or (0.0, 0.0) • Mejor IC método (por Edwin Wilson en Harvard en 1927, pero no en la mayoría de libros de estadística): No estimar el error estándar, sino encontrar los valores de  tales que ˆ ˆ (1 )/ 0.0(1.0)/ 20 0.000 se n      
  • 14. • Ejemplo: Para n = 20 resolver la ecuación cuadrática para , las soluciones son 0 y 0.16, así que un IC del 95% es (0, 0.16) • Agresti and Coull (1998) sugiriero utilizar la forma usual de calculara un IC estimación ± z(se) después de añadir 2 observaciones de cada tipo. Este método más simple funciona bien incluso para n muy pequeñas (95% IC tiene el mismo punto medio que el IC de Wilson) • Ejemplo: 0 vegetarianos, 20 no-veg cambia a 2 vegetarianos, 22 no-veg, y entonces IC del 95% CI es 0.08 ± 1.96(0.056) = 0.08 ± 0.11 = (-0.03, 0.19) entonces (0.0, 0.19). ˆ | | 1.96 (1 )/ n       
  • 15. Intervalo de confianza para la media • En muestras grandres, la media muestral tiene aprox. una distribución normal con media m and error estándar • Entonces • Podemos tener la confianza del 95% que la media muestral cae a 1.96 errores estándar de la media poblacional (desconocida) y n s s  ( 1.96 1.96 ) .95 y y P y m s m s     
  • 16. Un problema • Se desconoce el error estándar (s también es un parámetro). Se estima reemplazando s con su estimación puntual de la muestra: • IC del 95% confidence interval for m : • Esto funciona ok para “n grande”, porque entonces s es una buena estimación de σ (y aplica el TCL). Pero para n pequeña, reemplazar σ por su estimación s introduce un error extra, y el IC no es lo suficientemente ancho a menos que se reemplace el valor-z por otro ligeramente más grande el “valor-t” s se n  1.96( ), which is 1.96 s y se y n  
  • 17. La distribución t (t de Student) • Forma de campana, simétrica alrededor de 0 • Desviación estándar un poco más grande que 1 (colas ligeramente más anchas que la distribución normal estándar, que tiene media = 0 y desv. estándar = 1) • La forma precisa depende de los grados de libertad (df). Para inferencia sobre la media, df = n – 1 • Se vuelve más angosta y se parece más a la distribución normal estándar a medida que los df aumentan (casi idénticas cuando df > 30) • IC para la media tiene un margen de error t(se), (en lugar de z(se) como el IC para la proporción)
  • 18. Parte de la tabla t Nivel de confianza 90% 95% 98% 99% df t.050 t.025 t.010 t.005 1 6.314 12.706 31.821 63.657 10 1.812 2.228 2.764 3.169 30 1.697 2.042 2.457 2.750 100 1.660 1.984 2.364 2.626 infinity 1.645 1.960 2.326 2.576 df =  corresponde a la distribución normal estándar
  • 19. IC para la media poblacional • Para una muesta de una población con distribución normal, un IC del 95% para µ es donde df = n - 1 para el valor-t • El supuesto de una población normal asegura que la distribución muestral tenga forma de campana para cualquier n (Recuerda la imagen en p.93 del libro de texto y la siguiente). Veremos más de este supuesto más adelante. .025( ), with / y t se se s n  
  • 20.
  • 21. Ejemplo: Estudio sobre anorexia (p. 120) • El peso medido antes y después del tratamiento y = peso al final – peso al inicio • Ejemplo en p.120 muestra resultados para el tratamiento de comportamiento cognitivo. Para n = 17 niñas recibiendo terapia familiar (p.396). y = 11.4, 11.0, 5.5, 9.4, 13.6, -2.9, -0.1, 7.4, 21.5, -5.3, - 3.8, 13.4, 13.1, 9.0, 3.9, 5.7, 10.7
  • 22.
  • 23. • Resultados del software --------------------------------------------------------------------------------------- Variable N Mean Std.Dev. Std. Error Mean weight_change 17 7.265 7.157 1.736 ---------------------------------------------------------------------------------------- • Error estándar (se) se obtuvo con • Ya que n = 17, df = 16, valor-t para un IC del 95% es 2.12 • Un IC del 95% para la cambio en peso promedio (pob.) es • Podemos predecir que el cambio en el peso promedio poblacional µ es positivo (es decir, el tratamiento es efectivo, en promedio), con un valor de µ entre 4 y 11 libras. / 7.157/ 17 1.736 se s n    ( ), which is 7.265 2.12(1.736), or (3.6, 10.9) y t se  
  • 24. Ejemplo: Ver TV en EU Ejemplo: GSS pregunta “On average day, how many hours do you personally watch TV?” n = 899, = 2.865, s = 2.617 • Cuál es un IC del 95% CI para la media poblacional? • df = n-1 = 898 son muchos, así que el valor-t (1.9626) es prácticamente igual a z = 1.96 • Demuestra que se = 0.0873, • IC del 95% es 2.865 ± 0.171, ó (2.69, 3.04) • Interpretación? y
  • 25. Opción múltiple a. Tenemos una confianza del 95% que la media muestral está entre 2.69 y 3.04 horas. b. 95% de la población ve tele entre 2.69 y 3.04 horas al día c. Tenemos una confianza del 95% que la media poblacional está entre 2.69 y 3.04 d. Si se repiten muestras de tamaño 899, a la larga 95% de ellas contendrían = 2.865 Nota: El método t para IC asume una distribución poblacional normal. Crees que es válido el supuesto? y
  • 26.
  • 27. Comentarios sobre IC para la media poblacional µ • El método es robusto a violaciones del supuesto de distribución normal poblacional (Pero, hay que ser cuidadosos si la distribución de la muestra es muy asimétrica o se tiene outliers severos. Siempre debe uno revisar los datos.) • Mayor confianza requiere IC más anchos • Una n más grande genera IC más angostos • Métodos t desarrollados por el estadístico William Gosset de Guinness Breweries, Dublín (1908)
  • 28. t de Student • Debido a que las reglas de la compañía prohibían la publicación de trabajo de la empresa con el nombre de uno, Gosset usó el pseudónimo “Student” en los artículos que escribió sobre sus descubrimientos (a veces llamada distribución t de Student • A él le dieron sólo muestras pequeñas de cerveza para probar (por qué?), y de dió cuenta que no podía utilizar los valores-z de la normal después de sustituir s en la fórmula del error estándar
  • 29. • A la larga, 95% de los IC del 95% para la media poblacional μ realmente incluyen μ • En la gráfica, cada línea muestra un IC para una muestra en particular con su propia media muestral, tomada de la distribución muestral de posibles valores de las medias muestrales
  • 30. Escoger el tamaño de muestra • Ejemplo: Qué tan grande debe ser una muestra para estimar la proporción poblacional (p.ej., “very happy”) ± 0.03, con una probabilidad de 0.95? • Es decir, Qué n resulta en un margen de error de 0.03 en un intervalo de confianza del 95%? • Igualamos 0.03 = margen de error y despejamos para n ˆ 0.03 1.96 1.96 (1 )/ n  s     
  • 31. Solución • El valor más grande de n ocurre para  = 0.50, así que somos “conservadores” al seleccionar n = 4268(0.50)(0.50) = 1067 • Si sólo se necesita un margen de error de 0.06, se requiere (Para duplicar la precisión, se necesita aumentar n 4 veces) 2 (1 )(1.96/0.03) 4268 (1 ) n         2 (1 )(1.96/ 0.06) 1067 (1 ) n        
  • 32. • Qué tal si hacemos una supocisión informada acerca del valor de la proporción? • Si estudios previos sugieren que la proporción poblacional es aprox. 0.20, entonces para obtener el margen de error 0.03 para un IC del 95%, • Es “más facil” estimar la propoción poblacional cuando la proporción se acerca a 0 a 1 (elecciones competidas son difíciles) • Es mejor usar utilizar valores aproximados de  en lugar de 0.50, a menos que no tengamos idea de su valor 2 (1 )(1.96/ 0.03) 4268 (1 ) 4268(0.20)(0.80) 683 n          
  • 33. Seleccionar el tamaño de muestra • Determinar el parámetro de interés (media poblacional o proporción poblacional) • Seleccionar un margen de error (M) y un nivel de confianza (determina el valor-z) • Proporción (siendo “conservadores”, p = 0.50) • Media (necesita que supongamos un valor de s): 2 (1 ) z n M           2 2 z n M s       
  • 34. Ejemplo: n para estimar la media • Estudio futuro en anorexia: Queremos n para estimar el cambio promedio en peso ± 2 libras, con probabilidad 0.95. • Con base en el estudio pasado, asumimos σ = 7 • Nota: No se preocupen en memorizar como las del tamaño de muestra. En examenes daré hoja con fórmulas. 2 2 2 2 1.96 7 47 2 z n M s               
  • 35. Algunos comentarios sobre IC y el tamaño de muestra • Hemos visto que n depende del nivel de confianza (mayor confianza requiere una n más grande) y la variabilidad poblacional (más variabilidad require una n más grande) • En la práctica, determinar n no es tan fácil porque: (1) hay que estimar muchos parámetros (2) recursos pueden ser escasos y tendremos que ajustarmos • Se pueden construir IC para cualquier parámetro (p.ej., ver pp. 130-131 para IC para la mediana)
  • 36. • Usando n-1 (en lugar de n) en s reduce sesgo en la estimación de la desv. est. poblacional Σ • Example: Una probabilidad binaria con n = 2 y P(y) 0 ½ µ = 1, so σ = 1 2 ½ Posibles muestras (igualmente probables) (0, 0) 0 0 1 (0, 2) 1 2 1 (2, 0) 1 2 1 (2, 2) 0 0 1 Media de estimaciones 0.5 1.0 1.0 2 2 2 ( ) ( ) ( ) 1 i i i y y y y y n n n m        2 2 ( ) ( ) 1 y P y s m     ( ) yP y  
  • 37. • Métodos de IC fueron desarrollados en 1930s por Jerzy Neyman (U. California, Berkeley) y Egon Pearson (University College, London) • El método de estimación puntual utilizado actualmente, desarrollado por Ronald Fisher (UK) en 1920s, se llama máxima verosimilitud. La estimación es el valor del parámetro para el cual los datos observados tendrían la mayor posibilidad de ocurrir, comparado con otro valor (imagen) • Bootstrap es un método moderno (Brad Efron) para generar IC sin utilizar métodos matemáticos para derivar una distribución muestral que asuma una distribución de la población en particular. Se basa en tomar muestras repetidas de tamaño n (con reemplazo) de la distribución de los datos de la muestra.
  • 38. Utilizar IC en la práctica (o tareas) • Cuál es la variable de interés? – cuantitativa – inferencia sobre la media – categórica – inferencia sobre la proporción • Se satisfacen las condiciones? – Aleatorización (por qué? Se necesita para que la dist. muestral y su error estándar sean los que se suponen) – Otras condiciones? Media: Ver los datos para asegurarse que la distribuión de los datos no es tal que la media sea irrelevante o no la mejor opción Proporción: Se necesitan al menos 15 observ. en la categoría y no en la categoría de interés, o se utiliza una fórmula diferente (p.ej., añadir 2 observ. a cada categoría)