q 
Estimación 
Sea una característica, un parámetro poblacional 
cuyo valor se desea conocer a partir de una muestra. 
q ˆ 
Sea un estadístico ( función de la muestra ) que 
utilizamos para estimar el valor de q 
. 
Observa que el estadístico: 
ˆ ( , ,..., ) 1 2 n q = T X X X 
es una función que depende de la muestra y lo 
llamaremos estimador. El valor concreto de es la 
estimación. 
Hay dos tipos básicos de estimación: puntual y por 
intervalo de confianza. 
q ˆ
-Estimación puntual 
Provee un solo valor, un valor concreto para la estimación. 
Un estimador puntual es simplemente un estadístico 
(media aritmética, varianza, etc.) que se emplea para 
estimar parámetros (media poblacional, varianza 
poblacional, etc.). 
Por ejemplo, cuando obtenemos una media aritmética a 
partir de una muestra, tal valor puede ser empleado como 
un estimador para el valor de la media poblacional. 
Algunos autores comparan los estimadores con los 
lanzamientos en una diana: el círculo central sería el valor 
real del parámetro.
-Por intervalo 
Determina dos valores (límites de confianza) entre 
los que acepta puede estar el valor del estimador. 
Hablaremos de nivel de confianza 1-α cuando en el intervalo se 
encuentre el valor del estimador con probabilidad 1-α. 
– Observa que la probabilidad de error (no contener al parámetro) es α. 
– En general el tamaño del intervalo disminuye con el tamaño muestral y 
aumenta con 1-α. 
– En todo intervalo de confianza hay una noticia buena y otra mala: 
• La buena: hemos usado una técnica que en % alto de casos acierta. 
• La mala: no sabemos si ha acertado en nuestro caso.
Métodos de estimación puntual 
Hemos visto que un estimador de la media poblacional es 
la media muestral y de la varianza poblacional es la seudovarianza 
muestral. Pero, ¿cómo determinar un estimador cuando no 
se trata de la media o la varianza? 
Por ejemplo, supongamos una población con función densidad: 
= + q q 
q x 
( ) 1 ³ > 
0, 0 
+ 
x 
(1 ) 
Método de los momentos 
Método de máxima verosimilitud 
Método de mínimos cuadrados 
(Lo veremos más adelante en el tema 
de regresión) 
f x 
¿Cómo estimar 
el parámetro θ?
Método de los momentos 
Si una distribución tiene k parámetros, el procedimiento 
consiste en calcular los primeros k momentos muestrales de 
la distribución y usarlos como estimadores de los 
correspondientes momentos poblacionales. 
La media poblacional m es el primer momento de la 
distribución alrededor del origen. La media muestral x 
es el 
promedio aritmético de las observaciones muestrales x, x, ..., 
12x. El método de los momentos toma a la media muestral como 
nuna estimación de la media poblacional. 
De la misma manera, la varianza de una variable aleatoria es 
s2 y se denomina segundo momento alrededor de la media. La 
varianza muestral s2 se usa como un estimador de la varianza 
poblacional de la distribución.
Recordemos que el momento muestral centrado en el origen 
de orden r se define como: 
å= 
= 
n 
i 
r 
r i x 
n 
m 
1 
1 
Para el ejemplo anterior, los momentos de primer orden centrados 
en el origen de la población y la muestra son respectivamente: 
å 
+¥ 
-¥ + 
n i 
å 
ò 
= 
= 
= 
- 
Þ 
ü 
ï ïþ 
ï ïý 
= 
- 
= 
+ n 
i 
i 
i 
x 
n 
x 
n 
m 
dx 
x 
x 
1 
1 
1 
1 1 
1 
1 
1 
1 
1 
(1 ) 
q 
q 
q 
q 
ˆ = + 
1 
n 
å= 
1 
i 
i x 
q n Luego podemos usar como 
estimador: 
Igualando:
Método de máxima verosimilitud 
Sea X una variable aleatoria cuya distribución de 
probabilidad depende del parámetro desconocido q. 
Sea la función de densidad de probabilidad de la población 
f(x, q). Se toma una muestra aleatoria x1, x2, ..., xn de 
observaciones independientes y se calcula la densidad 
conjunta de la muestra: la función de verosimilitud y se 
expresa como: 
L(x ,...,x , θ = f(x , θ × f(x , θ × ... × 
f(x , θ 
) ) ) ) 
n n 
1 1 2 
( ) Õ= 
L(x ,...,x , θ = 
f x 
n 
n i 
i 
1 
1 
q 
) ,
Si de una población cualquiera hemos obtenido una muestra 
particular, es razonable pensar que la muestra obtenida era 
la que mayor probabilidad tenía de ser escogida. 
MV q ˆ 
L 
q ˆ 
Valor del estimador máxima 
verosimilitud 
Función 
máxima 
verosimilitud
Si los valores posibles de q son discretos, el procedimiento es 
evaluar L(x,q) para cada valor posible y elegir el valor de q 
para el cual L alcanza su máximo. 
Por otro lado, si L(x,q) es diferenciable se puede maximizar L 
sobre el rango de valores posibles de q obteniéndose 
condiciones de primer y segundo orden. 
En la práctica es más fácil maximizar el logaritmo de la función 
de verosimilitud. Como la función logaritmo es una 
transformación monótona, maximizar L(x,q) es equivalente a 
maximizar Ln(L(x,q)).
Ejemplo: Sea una urna con bolas rojas y blancas en proporciones 
desconocidas. Extraemos 10 bolas con reemplazo (n = 10) y 
obtenemos 3R y 7B. Llamemos p a la proporción de R en la urna. 
( ) (1 ) 10 3 (1 )7 10! 
3!7! 
L p = p3 - p 7 PR = p - p 
3,7 
0 
L p 
( ) = 2 (1- )6 (3-10 ) 10! = 
¶ 
3!7! 
¶ p p p 
p 
Soluciones: p = 0 p = 1 p = 3/10 
Imposible porque 
hemos extraído 3R 
Imposible porque 
hemos extraído 7B 
Que además 
hace máxima 
la función L(p) 
L p 
( ) 0 
3/10 
2 
2 
< 
¶ 
¶ 
p= p
= + q q 
q x 
( ) 1 ³ > 
0, 0 
+ 
x 
(1 ) 
Volvamos al ejemplo: f x 
q q 
( ) 
( ) 
å ( ) 
Õ 
Õ 
1 
n 
x 
L(x ,...,x , θ f x 
) , 
q q 
n i 
= 
= = 
= 
= 
+ 
+ 
= - + + 
i 
n 
i 
n 
i 
i 
n 
n i 
Ln L(x ,...,x , θ nLn Ln x 
1 
1 
1 
1 
1 
1 
) (1 ) 1 
q 
( ) 
Ln L(x ,...,x , θ 
n 
( ) 
ˆ 0 
) 
1 
ˆ 
) 1 0 
2 
ˆ 
Ln L(x ,...,x , θ 
2 
1 
2 
1 
1 
1 
= - < 
¶ 
¶ 
+ 
Þ = 
= - + = 
¶ 
¶ 
= 
= 
= 
å 
å 
q 
q 
q 
q q 
n 
θ 
Ln x 
n Ln x 
θ 
n 
n 
i 
i 
n 
i 
i 
n 
Construimos la función 
máxima verosimilitud 
Extraemos logaritmos 
a ambos lados 
Derivamos e igualamos 
a cero para encontrar 
el máximo de la función 
Observemos que no 
coincide con el estimador 
que nos propone el método 
de los momentos.
Propiedades deseables en los estimadores 
Los dos procedimientos que repasamos hace un momento 
(más el método de mínimos cuadrados que veremos luego) 
eligen a la media muestral como estimador del parámetro m. 
Sin embargo, otras veces obtenemos estimadores distintos 
para el mismo parámetro, como ocurre con s2. O como 
hemos visto para el caso del parámetro q del ejemplo. 
En esos casos, ¿cuál es el mejor estimador? 
1.Ausencia de sesgo 
2.Consistencia 
3.Eficiencia 
4.Suficiencia
q ) 
1. Estimador insesgado. Diremos que es un 
estimador insesgado de q 
si: 
[q]= [ ( )] =q n E ˆ E T X ,..., X 1 
Vimos que la media muestral es un estimador 
insesgado de la media poblacional. 
Vimos que la varianza muestral no es un estimador 
insesgado de la varianza poblacional, es sesgado. 
[ ] q q q - = ˆ ) ( E b se llama sesgo de qˆ 
Recuerda que construimos la cuasivarianza que sí es 
un estimador insesgado de la varianza poblacional.
Sea una población N(m, s) y construyamos los estimadores de 
varianza: varianza muestral y cuasivarianza muestral. 
å= 
2 2 
- 
2 * ( ) 
- 
= = 
n 
j 
j x x 
n 
s 
1 
1 
1 qˆ 1 ( ) 
n 
q å= 
ˆ 1 2 2 
= = - 
j 
j x x 
n 
s 
1 
Vimos que si la población es normal, entonces el estimador: 
n s c 
s 
2 
( 1) 2 
* 
2 se distribuye como - 
1 
- 
n 
q s c s 
2 ] 2 
1 
[ ˆ ] [ 2 
] 
E E s n 
= = - = 
[ 
1 
q = - q = - s = s - 
s 
n n 
  sesgo 
E n 
2 * 
n 
E n 
E 
n 
2 
2 2 
2 
[ ˆ ] 1 [ ˆ ] 1 
1 2 
-
Propiedades en muestras grandes 
Muchos estimadores no tienen buenas propiedades 
para muestras pequeñas, pero cuando el tamaño 
muestral aumenta, muchas de las propiedades 
deseables pueden cumplirse. En esta situación se 
habla de propiedades asintóticas de los estimadores. 
Como el estimador va a depender del tamaño de la 
muestra vamos a expresarlo utilizando el símbolo 
qˆn 
Por ejemplo, el sesgo puede depender del tamaño de 
la muestra. Si el sesgo tiende a cero cuando el tamaño 
de la muestra crece hasta infinito decimos que el 
estimador es asintóticamente insesgado.
Ausencia de sesgo asintótica 
Definición: Un estimador se dice que es 
asintóticamente insesgado si 
lim [ ˆ ] n n 
o equivalentemente: 
qˆn 
q =q 
®¥ 
E 
lim[ E 
[ ˆ ]- ] = 0 
®¥ 
q q n n
2. Consistencia. Se dice que un estimador es 
consistente si se cumple que 
n 
lim ( ˆ - q £ e )=1 
®¥ 
qn 
P 
lim ( ˆ - > )=1 o 
®¥ 
[qˆ ]®q n E [ ˆ ]®0 n Var q 
e q qn 
n 
P 
Es decir, a medida que se incrementa el tamaño muestral, el 
estimador se acerca más y más al valor del parámetro. La 
“consistencia” es una propiedad asintótica. 
Tanto la media muestral como la cuasivarianza son 
estimadores consistentes. La varianza muestral es un 
estimador consistente de la varianza poblacional, dado que 
a medida que el tamaño muestral se incrementa, el sesgo 
disminuye.
Ejemplo: supongamos que la población es no normal y de media 
desconocida. Construyamos estadísticos media muestral: 
å= 
= = 
x 
n n i n 
i 
n 
T X x 
1 
( ) 1 
Para cada tamaño muestral n tenemos: 
( ) =m n E x 
n 
Var xn 
2 
( ) =s 
Por el teorema de Chebychev: 
( - ( ) £ ( ) ) 
³ 1 - 
1 
n n n 
( m e ) s 
2 
( ) 
- £ ³ - Þ - £ = 
e 
s 
m e 
e 
k n 
P x 
n 
P x 
k 
P x E x k Var x 
n n n 
= 
®¥ 
con 
1 lim 1 
2 
2 
La media muestral es un estimador 
consistente de la media poblacional.
3. Eficiencia. Utilizar las varianzas de los estimadores 
insesgados como una forma de elegir entre ellos. 
La varianza de una variable aleatoria mide la dispersión 
alrededor de la media. Menor varianza para una variable 
aleatoria significa que, en promedio, sus valores fluctúan poco 
alrededor de la media comparados con los valores de otra 
variable aleatoria con la misma media y mayor varianza. Menor 
varianza implica mayor precisión y entonces el estimador que 
tenga menor varianza es claramente más deseable porque, en 
promedio, está mas cerca del verdadero valor de q. 
[ ] q q = ˆ E qˆ 
Si , decimos que es un estimador insesgado 
eficiente o de varianza mínima para q , si cualquier otro 
estimador insesgado de q , digamos , verifica que: 
q ~ 
Var(qˆ) £Var(q~)
1 ˆ q 2 ˆ q 
Sean y dos estimadores insesgados del 
parámetro q. 
2 qˆ1 1 qˆ ˆ q 
Si Var ( ) < Var ( ) decimos que es más 
eficiente que . 
2 ˆ q 
2 1 qˆ ˆ q 
El cociente Var ( ) / Var ( ) se llama eficiencia 
relativa. 
Entre todos los estimadores insesgados de q, el que tenga 
menor varianza es el estimador insesgado de mínima 
varianza. Pero, ¿cómo podemos encontrarlo?
Cota de Cramér-Rao: 
Sea una población con densidad de probabilidad 
f(x, q), entonces se cumple que: 
[ ] ( ) 
ù 
úû 
Var ³ - + 
b 
ˆ 1 '( ) 
é 
êë 
¶ 
¶ 
2 
2 
2 
ln ( , ) 
q 
q 
q q 
nE f x 
Si un estimador tiene una varianza que coincide con la cota 
de Cramér-Rao se dice que es un estimador eficiente. 
Si además en insesgado, se dice que es un estimador de 
eficiencia absoluta o completa.
Ejemplo: Sea una población que se distribuye normalmente 
con desviación típica conocida y media desconocida. Como 
estimador utilizaremos la media muestral. Sabemos que 
la distribución del estimador es también una normal con 
la misma media m y varianza s 2 / n 
. Luego el estimador 
es insesgado: b(q) = 0. Calculemos la cota de Cramér-Rao (CCR). 
f ( x , ) 1 
exp ( x q 
) 
; Ln f ( x , ) Ln 1 
x 
q 
Ln ( , ) ; Ln ( , ) 1 
Ln ( , ) 1 1 
2 2 2 
q s s 
Var x CCR 
é 
E f x E 
= é- úû 
= - 
ù 
1 
f x n nE 
CCR 
f x x f x 
= = 
ù 
úû 
é 
êë 
¶ 
¶ 
- = úû 
êë 
ù 
êë 
¶ 
¶ 
= - 
¶ 
= - ¶ 
¶ 
¶ 
= - - 
þ ý ü 
î í ì 
= - - 
; ( ) 
ln ( , ) 
q 
( ) 
2 
2 
2 
2 
2 
2 
2 
2 
2 2 
2 
2 
2 
2 
2 
2 
s 
q 
q 
q 
q s 
s 
q 
q 
q 
s 
s p 
q 
s 
s p 
q
Eficiencia asintótica 
Cuando trabajamos con estimadores consistentes el 
rango de valores de q para el cual un estimador es más 
eficiente que otro disminuye a medida que n crece. En 
el límite cuando n tiene a infinito la distribución de 
todos los estimadores consistentes colapsa en el 
verdadero parámetro q. Entonces deberíamos preferir 
aquel estimador que se aproxime más rápidamente (es 
decir, aquel cuya varianza converge más rápido a 
cero)
En términos intuitivos, un estimador consistente es 
asintóticamente eficiente si para muestras grandes su 
varianza es menor que la de cualquier otro estimador 
consistente. 
1 ˆ q 
Definición: un estimador consistente se dice que es 
asintóticamente eficiente si para cualquier otro 
estimador el 
2 ˆ q 
ù 
(ˆ ) 
q > " 
q 
2 
q 
ú úû 
é 
ê êë 
®¥ 
1 
(ˆ ) 
1 
Var 
Var 
lim 
n
q ) q 
4. Suficiencia. Diremos que es un estimador 
suficiente del parámetro q 
si dicho estimador basta por 
sí solo para estimar . Si el conocimiento pormenorizado 
de los elementos la muestra no añade ninguna 
información sobre q. 
Ejemplo: Supongamos una población binomial de la que 
desconocemos la proporción q = p. Extraemos una muestra 
de tamaño n = 50. 
1 si es éxito 
0 si es fracaso 
x 
1 = = = = 
( ) 35; ( ) max{ } 1 
2 
50 
1 
î í ì 
= 
å= 
i 
i 
i 
i 
T X x T X x 
Estimador suficiente, p aprox. 35/50.
Error cuadrático medio (ECM) 
Consideremos dos estimadores, uno insesgado y el 
otro es sesgado pero con una varianza bastante menor, 
de modo que en promedio puede estar más cerca de la 
verdadera media que el estimador insesgado. 
En esta situación podríamos admitir algo de sesgo con 
la intención de obtener una mayor precisión en la 
estimación (menor varianza del estimador). 
Una medida que refleja este compromiso (“trade off”) 
entre ausencia de sesgo y varianza es el ECM.
El error cuadrático medio de un estimador se define como 
ECM ( qˆ 
) = E[( qˆ 
- q )2] . Esto es la esperanza de la desviación 
al cuadrado del estimador con respecto al parámetro de interés. 
Si q 
ˆ 1 , qˆson dos estimadores alternativos de q y ECM ( q 
ˆ ) < 
2 1 ECM ( qˆ ) entonces q 
ˆ 2 1 se dice que es eficiente en el sentido 
del ECM comparado con qˆ 
2 . Si los dos son insesgados, 
entonces q 
ˆ 1 es más eficiente. 
Entre todos los posibles estimadores de q, aquel que tenga el 
menor ECM es el llamado estimador de mínimo error 
cuadrático medio. 
ECM = Var( qˆ 
) + sesgo2. 
es decir que el ECM es igual a la suma de la varianza más el 
sesgo al cuadrado.
ECM(qˆ) = E[(qˆ - q )2 ] = E [( qˆ - E(q ) + E(qˆ) - qˆ ) 2 
]= 0 
( ) ( ) ( ) 
 
[ ˆ ( ˆ) ] [ ( ˆ) ] 2 ˆ ( ˆ) [ ( ˆ) ] 
E E E E E E E 
q - q + q - q + q - q q - 
q 
[ ]2 
2 2 
constante 
( ˆ) ( ˆ) 
Var b 
= + 
q q 
 
2 ˆq 
1 ˆq 
E(qˆ2 ) 
q = E(qˆ1) 
sesgo q2 
Compromiso 
entre varianza y 
sesgo de los 
estimadores. 
Variable aleatoria Constante
Ejemplos: Supongamos una población de la que conocemos 
la media y la varianza (= 100). Tomemos muestras n = 10. 
Consideremos los dos estimadores de la media siguientes: 
qˆ 1 ; qˆ 1 
å å 
= + = 
= = = 
n 
i 
i 
n 
1 1 
i 
i x 
n 
x 
n 
x 
1 
2 
1 
10 
ü 
[ ˆ ] 1 [ ] 2 
( ˆ ) 100 
10 
å 
q = = 
m 
1 
( ˆ ) 1 ( ˆ ) 
ï ï ý 
2 1 
1 
å 
1 
1 2 
1 
Þ = = = 
ï ï 
þ 
= = 
= 
= 
n 
ECM 
n 
Var 
n 
Var 
E x 
n 
E 
n 
i 
i 
n 
i q s 
q q s 
1000 
ü 
ï ï 
E x n 
q m 
2 = + 
121 
[ ˆ ] 1 2 2 
2 
ECM n 
= Þ q = m + 
s m 
( 1) 
( ˆ ) 
Var n 
q q s 
( 1) 
( ˆ ) 
( ˆ ) 1 
1 
( 1) 
1 
[ ] 
1 
2 
1 
2 
2 
1 
1 
2 2 
+ 
ý 
ï ï 
þ 
+ 
= 
+ 
= 
+ 
= 
+ 
= 
å 
å 
= 
n 
n 
n 
Var 
n 
n 
E 
n 
i 
i 
n 
i 
Dependiendo de la media de la población nos interesará tomar un estimador u otro.
Propiedades de los estimadores de máxima 
verosimilitud 
Los estimadores máximo verosímiles son: 
 Asintóticamente insesgados 
 Asintóticamente normales 
 Asintóticamente eficientes 
 Invariantes bajo transformaciones biunívocas 
 Si $ estimador suficiente, es suficiente MV qˆ

Estimacionpuntual1

  • 1.
    q Estimación Seauna característica, un parámetro poblacional cuyo valor se desea conocer a partir de una muestra. q ˆ Sea un estadístico ( función de la muestra ) que utilizamos para estimar el valor de q . Observa que el estadístico: ˆ ( , ,..., ) 1 2 n q = T X X X es una función que depende de la muestra y lo llamaremos estimador. El valor concreto de es la estimación. Hay dos tipos básicos de estimación: puntual y por intervalo de confianza. q ˆ
  • 2.
    -Estimación puntual Proveeun solo valor, un valor concreto para la estimación. Un estimador puntual es simplemente un estadístico (media aritmética, varianza, etc.) que se emplea para estimar parámetros (media poblacional, varianza poblacional, etc.). Por ejemplo, cuando obtenemos una media aritmética a partir de una muestra, tal valor puede ser empleado como un estimador para el valor de la media poblacional. Algunos autores comparan los estimadores con los lanzamientos en una diana: el círculo central sería el valor real del parámetro.
  • 3.
    -Por intervalo Determinados valores (límites de confianza) entre los que acepta puede estar el valor del estimador. Hablaremos de nivel de confianza 1-α cuando en el intervalo se encuentre el valor del estimador con probabilidad 1-α. – Observa que la probabilidad de error (no contener al parámetro) es α. – En general el tamaño del intervalo disminuye con el tamaño muestral y aumenta con 1-α. – En todo intervalo de confianza hay una noticia buena y otra mala: • La buena: hemos usado una técnica que en % alto de casos acierta. • La mala: no sabemos si ha acertado en nuestro caso.
  • 4.
    Métodos de estimaciónpuntual Hemos visto que un estimador de la media poblacional es la media muestral y de la varianza poblacional es la seudovarianza muestral. Pero, ¿cómo determinar un estimador cuando no se trata de la media o la varianza? Por ejemplo, supongamos una población con función densidad: = + q q q x ( ) 1 ³ > 0, 0 + x (1 ) Método de los momentos Método de máxima verosimilitud Método de mínimos cuadrados (Lo veremos más adelante en el tema de regresión) f x ¿Cómo estimar el parámetro θ?
  • 5.
    Método de losmomentos Si una distribución tiene k parámetros, el procedimiento consiste en calcular los primeros k momentos muestrales de la distribución y usarlos como estimadores de los correspondientes momentos poblacionales. La media poblacional m es el primer momento de la distribución alrededor del origen. La media muestral x es el promedio aritmético de las observaciones muestrales x, x, ..., 12x. El método de los momentos toma a la media muestral como nuna estimación de la media poblacional. De la misma manera, la varianza de una variable aleatoria es s2 y se denomina segundo momento alrededor de la media. La varianza muestral s2 se usa como un estimador de la varianza poblacional de la distribución.
  • 6.
    Recordemos que elmomento muestral centrado en el origen de orden r se define como: å= = n i r r i x n m 1 1 Para el ejemplo anterior, los momentos de primer orden centrados en el origen de la población y la muestra son respectivamente: å +¥ -¥ + n i å ò = = = - Þ ü ï ïþ ï ïý = - = + n i i i x n x n m dx x x 1 1 1 1 1 1 1 1 1 1 (1 ) q q q q ˆ = + 1 n å= 1 i i x q n Luego podemos usar como estimador: Igualando:
  • 7.
    Método de máximaverosimilitud Sea X una variable aleatoria cuya distribución de probabilidad depende del parámetro desconocido q. Sea la función de densidad de probabilidad de la población f(x, q). Se toma una muestra aleatoria x1, x2, ..., xn de observaciones independientes y se calcula la densidad conjunta de la muestra: la función de verosimilitud y se expresa como: L(x ,...,x , θ = f(x , θ × f(x , θ × ... × f(x , θ ) ) ) ) n n 1 1 2 ( ) Õ= L(x ,...,x , θ = f x n n i i 1 1 q ) ,
  • 8.
    Si de unapoblación cualquiera hemos obtenido una muestra particular, es razonable pensar que la muestra obtenida era la que mayor probabilidad tenía de ser escogida. MV q ˆ L q ˆ Valor del estimador máxima verosimilitud Función máxima verosimilitud
  • 9.
    Si los valoresposibles de q son discretos, el procedimiento es evaluar L(x,q) para cada valor posible y elegir el valor de q para el cual L alcanza su máximo. Por otro lado, si L(x,q) es diferenciable se puede maximizar L sobre el rango de valores posibles de q obteniéndose condiciones de primer y segundo orden. En la práctica es más fácil maximizar el logaritmo de la función de verosimilitud. Como la función logaritmo es una transformación monótona, maximizar L(x,q) es equivalente a maximizar Ln(L(x,q)).
  • 10.
    Ejemplo: Sea unaurna con bolas rojas y blancas en proporciones desconocidas. Extraemos 10 bolas con reemplazo (n = 10) y obtenemos 3R y 7B. Llamemos p a la proporción de R en la urna. ( ) (1 ) 10 3 (1 )7 10! 3!7! L p = p3 - p 7 PR = p - p 3,7 0 L p ( ) = 2 (1- )6 (3-10 ) 10! = ¶ 3!7! ¶ p p p p Soluciones: p = 0 p = 1 p = 3/10 Imposible porque hemos extraído 3R Imposible porque hemos extraído 7B Que además hace máxima la función L(p) L p ( ) 0 3/10 2 2 < ¶ ¶ p= p
  • 11.
    = + qq q x ( ) 1 ³ > 0, 0 + x (1 ) Volvamos al ejemplo: f x q q ( ) ( ) å ( ) Õ Õ 1 n x L(x ,...,x , θ f x ) , q q n i = = = = = + + = - + + i n i n i i n n i Ln L(x ,...,x , θ nLn Ln x 1 1 1 1 1 1 ) (1 ) 1 q ( ) Ln L(x ,...,x , θ n ( ) ˆ 0 ) 1 ˆ ) 1 0 2 ˆ Ln L(x ,...,x , θ 2 1 2 1 1 1 = - < ¶ ¶ + Þ = = - + = ¶ ¶ = = = å å q q q q q n θ Ln x n Ln x θ n n i i n i i n Construimos la función máxima verosimilitud Extraemos logaritmos a ambos lados Derivamos e igualamos a cero para encontrar el máximo de la función Observemos que no coincide con el estimador que nos propone el método de los momentos.
  • 12.
    Propiedades deseables enlos estimadores Los dos procedimientos que repasamos hace un momento (más el método de mínimos cuadrados que veremos luego) eligen a la media muestral como estimador del parámetro m. Sin embargo, otras veces obtenemos estimadores distintos para el mismo parámetro, como ocurre con s2. O como hemos visto para el caso del parámetro q del ejemplo. En esos casos, ¿cuál es el mejor estimador? 1.Ausencia de sesgo 2.Consistencia 3.Eficiencia 4.Suficiencia
  • 13.
    q ) 1.Estimador insesgado. Diremos que es un estimador insesgado de q si: [q]= [ ( )] =q n E ˆ E T X ,..., X 1 Vimos que la media muestral es un estimador insesgado de la media poblacional. Vimos que la varianza muestral no es un estimador insesgado de la varianza poblacional, es sesgado. [ ] q q q - = ˆ ) ( E b se llama sesgo de qˆ Recuerda que construimos la cuasivarianza que sí es un estimador insesgado de la varianza poblacional.
  • 14.
    Sea una poblaciónN(m, s) y construyamos los estimadores de varianza: varianza muestral y cuasivarianza muestral. å= 2 2 - 2 * ( ) - = = n j j x x n s 1 1 1 qˆ 1 ( ) n q å= ˆ 1 2 2 = = - j j x x n s 1 Vimos que si la población es normal, entonces el estimador: n s c s 2 ( 1) 2 * 2 se distribuye como - 1 - n q s c s 2 ] 2 1 [ ˆ ] [ 2 ] E E s n = = - = [ 1 q = - q = - s = s - s n n   sesgo E n 2 * n E n E n 2 2 2 2 [ ˆ ] 1 [ ˆ ] 1 1 2 -
  • 15.
    Propiedades en muestrasgrandes Muchos estimadores no tienen buenas propiedades para muestras pequeñas, pero cuando el tamaño muestral aumenta, muchas de las propiedades deseables pueden cumplirse. En esta situación se habla de propiedades asintóticas de los estimadores. Como el estimador va a depender del tamaño de la muestra vamos a expresarlo utilizando el símbolo qˆn Por ejemplo, el sesgo puede depender del tamaño de la muestra. Si el sesgo tiende a cero cuando el tamaño de la muestra crece hasta infinito decimos que el estimador es asintóticamente insesgado.
  • 16.
    Ausencia de sesgoasintótica Definición: Un estimador se dice que es asintóticamente insesgado si lim [ ˆ ] n n o equivalentemente: qˆn q =q ®¥ E lim[ E [ ˆ ]- ] = 0 ®¥ q q n n
  • 17.
    2. Consistencia. Sedice que un estimador es consistente si se cumple que n lim ( ˆ - q £ e )=1 ®¥ qn P lim ( ˆ - > )=1 o ®¥ [qˆ ]®q n E [ ˆ ]®0 n Var q e q qn n P Es decir, a medida que se incrementa el tamaño muestral, el estimador se acerca más y más al valor del parámetro. La “consistencia” es una propiedad asintótica. Tanto la media muestral como la cuasivarianza son estimadores consistentes. La varianza muestral es un estimador consistente de la varianza poblacional, dado que a medida que el tamaño muestral se incrementa, el sesgo disminuye.
  • 18.
    Ejemplo: supongamos quela población es no normal y de media desconocida. Construyamos estadísticos media muestral: å= = = x n n i n i n T X x 1 ( ) 1 Para cada tamaño muestral n tenemos: ( ) =m n E x n Var xn 2 ( ) =s Por el teorema de Chebychev: ( - ( ) £ ( ) ) ³ 1 - 1 n n n ( m e ) s 2 ( ) - £ ³ - Þ - £ = e s m e e k n P x n P x k P x E x k Var x n n n = ®¥ con 1 lim 1 2 2 La media muestral es un estimador consistente de la media poblacional.
  • 19.
    3. Eficiencia. Utilizarlas varianzas de los estimadores insesgados como una forma de elegir entre ellos. La varianza de una variable aleatoria mide la dispersión alrededor de la media. Menor varianza para una variable aleatoria significa que, en promedio, sus valores fluctúan poco alrededor de la media comparados con los valores de otra variable aleatoria con la misma media y mayor varianza. Menor varianza implica mayor precisión y entonces el estimador que tenga menor varianza es claramente más deseable porque, en promedio, está mas cerca del verdadero valor de q. [ ] q q = ˆ E qˆ Si , decimos que es un estimador insesgado eficiente o de varianza mínima para q , si cualquier otro estimador insesgado de q , digamos , verifica que: q ~ Var(qˆ) £Var(q~)
  • 20.
    1 ˆ q2 ˆ q Sean y dos estimadores insesgados del parámetro q. 2 qˆ1 1 qˆ ˆ q Si Var ( ) < Var ( ) decimos que es más eficiente que . 2 ˆ q 2 1 qˆ ˆ q El cociente Var ( ) / Var ( ) se llama eficiencia relativa. Entre todos los estimadores insesgados de q, el que tenga menor varianza es el estimador insesgado de mínima varianza. Pero, ¿cómo podemos encontrarlo?
  • 21.
    Cota de Cramér-Rao: Sea una población con densidad de probabilidad f(x, q), entonces se cumple que: [ ] ( ) ù úû Var ³ - + b ˆ 1 '( ) é êë ¶ ¶ 2 2 2 ln ( , ) q q q q nE f x Si un estimador tiene una varianza que coincide con la cota de Cramér-Rao se dice que es un estimador eficiente. Si además en insesgado, se dice que es un estimador de eficiencia absoluta o completa.
  • 22.
    Ejemplo: Sea unapoblación que se distribuye normalmente con desviación típica conocida y media desconocida. Como estimador utilizaremos la media muestral. Sabemos que la distribución del estimador es también una normal con la misma media m y varianza s 2 / n . Luego el estimador es insesgado: b(q) = 0. Calculemos la cota de Cramér-Rao (CCR). f ( x , ) 1 exp ( x q ) ; Ln f ( x , ) Ln 1 x q Ln ( , ) ; Ln ( , ) 1 Ln ( , ) 1 1 2 2 2 q s s Var x CCR é E f x E = é- úû = - ù 1 f x n nE CCR f x x f x = = ù úû é êë ¶ ¶ - = úû êë ù êë ¶ ¶ = - ¶ = - ¶ ¶ ¶ = - - þ ý ü î í ì = - - ; ( ) ln ( , ) q ( ) 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 s q q q q s s q q q s s p q s s p q
  • 23.
    Eficiencia asintótica Cuandotrabajamos con estimadores consistentes el rango de valores de q para el cual un estimador es más eficiente que otro disminuye a medida que n crece. En el límite cuando n tiene a infinito la distribución de todos los estimadores consistentes colapsa en el verdadero parámetro q. Entonces deberíamos preferir aquel estimador que se aproxime más rápidamente (es decir, aquel cuya varianza converge más rápido a cero)
  • 24.
    En términos intuitivos,un estimador consistente es asintóticamente eficiente si para muestras grandes su varianza es menor que la de cualquier otro estimador consistente. 1 ˆ q Definición: un estimador consistente se dice que es asintóticamente eficiente si para cualquier otro estimador el 2 ˆ q ù (ˆ ) q > " q 2 q ú úû é ê êë ®¥ 1 (ˆ ) 1 Var Var lim n
  • 25.
    q ) q 4. Suficiencia. Diremos que es un estimador suficiente del parámetro q si dicho estimador basta por sí solo para estimar . Si el conocimiento pormenorizado de los elementos la muestra no añade ninguna información sobre q. Ejemplo: Supongamos una población binomial de la que desconocemos la proporción q = p. Extraemos una muestra de tamaño n = 50. 1 si es éxito 0 si es fracaso x 1 = = = = ( ) 35; ( ) max{ } 1 2 50 1 î í ì = å= i i i i T X x T X x Estimador suficiente, p aprox. 35/50.
  • 26.
    Error cuadrático medio(ECM) Consideremos dos estimadores, uno insesgado y el otro es sesgado pero con una varianza bastante menor, de modo que en promedio puede estar más cerca de la verdadera media que el estimador insesgado. En esta situación podríamos admitir algo de sesgo con la intención de obtener una mayor precisión en la estimación (menor varianza del estimador). Una medida que refleja este compromiso (“trade off”) entre ausencia de sesgo y varianza es el ECM.
  • 27.
    El error cuadráticomedio de un estimador se define como ECM ( qˆ ) = E[( qˆ - q )2] . Esto es la esperanza de la desviación al cuadrado del estimador con respecto al parámetro de interés. Si q ˆ 1 , qˆson dos estimadores alternativos de q y ECM ( q ˆ ) < 2 1 ECM ( qˆ ) entonces q ˆ 2 1 se dice que es eficiente en el sentido del ECM comparado con qˆ 2 . Si los dos son insesgados, entonces q ˆ 1 es más eficiente. Entre todos los posibles estimadores de q, aquel que tenga el menor ECM es el llamado estimador de mínimo error cuadrático medio. ECM = Var( qˆ ) + sesgo2. es decir que el ECM es igual a la suma de la varianza más el sesgo al cuadrado.
  • 28.
    ECM(qˆ) = E[(qˆ- q )2 ] = E [( qˆ - E(q ) + E(qˆ) - qˆ ) 2 ]= 0 ( ) ( ) ( )  [ ˆ ( ˆ) ] [ ( ˆ) ] 2 ˆ ( ˆ) [ ( ˆ) ] E E E E E E E q - q + q - q + q - q q - q [ ]2 2 2 constante ( ˆ) ( ˆ) Var b = + q q  2 ˆq 1 ˆq E(qˆ2 ) q = E(qˆ1) sesgo q2 Compromiso entre varianza y sesgo de los estimadores. Variable aleatoria Constante
  • 29.
    Ejemplos: Supongamos unapoblación de la que conocemos la media y la varianza (= 100). Tomemos muestras n = 10. Consideremos los dos estimadores de la media siguientes: qˆ 1 ; qˆ 1 å å = + = = = = n i i n 1 1 i i x n x n x 1 2 1 10 ü [ ˆ ] 1 [ ] 2 ( ˆ ) 100 10 å q = = m 1 ( ˆ ) 1 ( ˆ ) ï ï ý 2 1 1 å 1 1 2 1 Þ = = = ï ï þ = = = = n ECM n Var n Var E x n E n i i n i q s q q s 1000 ü ï ï E x n q m 2 = + 121 [ ˆ ] 1 2 2 2 ECM n = Þ q = m + s m ( 1) ( ˆ ) Var n q q s ( 1) ( ˆ ) ( ˆ ) 1 1 ( 1) 1 [ ] 1 2 1 2 2 1 1 2 2 + ý ï ï þ + = + = + = + = å å = n n n Var n n E n i i n i Dependiendo de la media de la población nos interesará tomar un estimador u otro.
  • 30.
    Propiedades de losestimadores de máxima verosimilitud Los estimadores máximo verosímiles son: Asintóticamente insesgados Asintóticamente normales Asintóticamente eficientes Invariantes bajo transformaciones biunívocas Si $ estimador suficiente, es suficiente MV qˆ