SlideShare una empresa de Scribd logo
1 de 44
TEORIA DE ESTIMAÇÃO
MANUEL RAMÓN VARGAS AVILA
COPPE-UFRJ
ABRIL 2013
4.2 PROPRIEDADES DOS ESTIMADORES
A qualidade se baseia no erro de estimação.
erro de estimação se define como: 𝜃 = 𝜃 − 𝜃
Onde 𝜃 = vetor de parâmetros; 𝜃 = estimador.
Idealmente -> erro = 0, mas na vida real é impossível. Por esta razão,
usam-se critérios menos demandantes na estimação do erro.
1. Tendência e consistência: Tendência de um estimador = valor do
estimador - verdadeiro valor do parâmetro a estimar.
É desejável que um estimador seja não tendencioso ou centrado, isto é,
que sua tendência seja nula. O valor esperado do estimador coincide com
o parâmetro de interesse isto se mostra:
Introdução
1. Tendência e consistência
E 𝜃 = 𝐸 𝜃 − 𝐸 𝜃 = 0
E 𝜃 = 𝐸[𝜃]
Esta definição se aplica para parâmetros aleatórios. Em caso contrário
aplica-se
𝐸 𝜃|𝜃 = 𝜃
Vício: 𝑏 = 𝐸[𝜃] o b = 𝐸 𝜃|𝜃
1. Tendência e consistência
Consistência: um estimador é consistente se, na medida em que o tamanho da
amostra aumenta seu valor esperado, converge para o parâmetro de interesse e se
a variância converge a zero.
lim
𝑛→∞
𝐸 𝜃 = 𝜃
lim
𝑛→∞
𝑉𝑎𝑟(𝜃) = 0
Exemplo 4.3
Em efeito, si uma amostra X=(X1,X2,...,Xn)t
provem de una população de
média μ, isto é:
para qualquer i=1...n
A média aritmética é igual a:
1. Tendência e consistência
Por exemplo, caso se deseje estimar a média de uma população, a média
aritmética da amostra é um estimador não viciado da mesma, já que o seu
valor esperado é igual à média da população.
Agora ao calcular sua variância
𝐸[ 𝑋 − 𝜇 2
] =
1
𝑁2
𝐸{
𝑁
𝑗=1
[𝑥 𝑗 − 𝜇2
]} =
1
𝑁2
∗ 𝑁 ∗ 𝜎2
=
𝜎2
𝑁
Se N >> a infinito a variância se aproxima a 0.
2. Erro quadrático médio:
Tenta-se achar aquele estimador que possua em média o menor erro
de estimação.
Geralmente 𝐿 𝜃 = (𝜃 − 𝜃)2
O critério de erro está definido por 𝜀 = 𝐸{ 𝐿 𝜃 } para aleatórios ou
𝜀 = 𝐸 𝐿 𝜃 𝜃} para determinísticos.
𝜀 = 𝐸{(𝜃 − 𝜃)2
}
Esta se pode decompor da seguinte forma:
𝜀 = 𝐸 𝜃 − 𝜃
2
= 𝐸 𝜃2
− 2 ∗ 𝜃 ∗ 𝜃 + 𝜃2
= 𝐸 𝜃2
− 2 ∗ 𝜃 ∗ 𝐸 𝜃 + 𝜃2
𝜀 𝜃 = 𝐸 𝜃2
− 𝐸 𝜃
2
+ {𝐸 𝜃
2
− 2 ∗ 𝜃 ∗ 𝐸 𝜃 + 𝜃2
}
𝜀 𝜃 = 𝑉𝑎𝑟 𝜃 + 𝑏2
2. Erro quadrático médio:
Em termos da estimação do erro 𝜃
𝜀 𝜃 = 𝐸{ 𝜃 − 𝑏
2
} + 𝑏2
Primer termo é a variância da estimação do erro 𝜃. Por tanto o erro
quadrático médio mede tanto a variância, como o vicio de um estimador
𝜃. Se o estimador é não viciado (un-biesed) o erro quadrático médio
coincide com a variância do estimador.
Matriz de covariância da estimação do erro -> medida útil da qualidade de um
estimador. Aplica-se para medidas de erro de estimação de parâmetros individuais
𝐶 𝜃 = 𝐸 𝜃 ∗ 𝜃 𝑇
= 𝐸{ 𝜃 − 𝜃 ∗ 𝜃 − 𝜃
𝑇
}
O erro quadrático médio se aplica a toda medida do erro escalar para todos os
parâmetros estimados.
3. Eficiência
Sendo dois estimadores 𝜃1e 𝜃2, não viciados para um parâmetro 𝜃, se
diz que 𝜃1 é mais eficiente que 𝜃2 si 𝑉𝑎𝑟 𝜃1 < 𝑉𝑎𝑟(𝜃2).
Um estimador é chamado eficiente se usa otimamente a informação
contida nas medições.
IMPORTANTE: existe um limite inferior para a matriz de covariância de
erro de qualquer estimador baseado em medições disponíveis.
Este limite está dado pelo teorema de Cramer Rao do limite inferior, o
qual prove um limite inferior para um parâmetro determinístico
desconhecido.
3. Eficiência
Cramer Rao: se 𝜃 = qualquer estimador não viciado de 𝜃 baseado nos
dados de medições x, então a matriz covariância de erro no estimador
está delimitada inferiormente pela inversa da matriz de informação de
Fisher J.
𝐸{ 𝜃 − 𝜃 ∗ 𝜃 − 𝜃
𝑇
|𝜃} ≥ 𝐽−1
Onde 𝐽 = 𝐸
𝑑
𝑑𝜃
𝑙𝑛𝑝 𝑥 𝑇 𝜃
𝑑
𝑑𝜃
𝑙𝑛𝑝 𝑥 𝑇 𝜃
𝑇
𝜃
Assume-se que 𝐽−1
existe. As derivadas parciais devem existir e ser
absolutamente integráveis.
O estimador deve ser não viciado para que se cumpra o teorema
anterior.
Não pode ser aplicado a todas as distribuições.
Também pode acontecer que não exista nenhum estimador que
alcance o limite inferior.
4. Robustez
Insensibilidade a erros de medição, e aos erros na especificação dos
modelos paramétricos.
Quando os critérios de otimização crescem muito rápido, geralmente
tem pobre robustez, porque uns poucos grandes erros individuais
correspondentes aos valores atípicos nos dados podem quase
exclusivamente determinar o valor do critério do erro. No caso de
estimação da media, por exemplo, se pode utilizar a mediana das
medições em lugar da média. Isto corresponde a utilizar o valor
absoluto da função de otimização e resulta em um estimador
significativamente robusto: o valor atípico não tem nenhuma
influência.
4.3 Robustez
“O estimador é um estimador robusto do parâmetro se o não
cumprimento dos supostos de partida nos que se baseia a estimação
(normalmente, atribuir ao população um determinado tipo de função
de distribuição que, em realidade, no é a correta), não altera de
maneira significativa os resultados que este proporciona.”
4.3 MÉTODO DOS MOMENTOS
Método dos Momentos
Este método com frequência conduz a estimadores
computacionalmente simples, pero tem algumas debilidades teóricas.
Vamos supor agora que há medições escalares T estatisticamente
independentes ou amostras de dados x(1), x(2),….,x(T) com uma
distribuição de probabilidade comum p(x|ѳ) caracterizada pelo
parâmetro de vector 𝜃 = ( 𝜃1, 𝜃2, … . , 𝜃 𝑚 ) 𝑇
.
𝛼𝑗 = 𝐸 𝑥 𝑗
𝜃 = 𝑥 𝑗
𝑝 𝑥 𝜃 𝑑𝑥
∞
−∞
, 𝑗 = 1,2, … …
Onde 𝛼𝑗 é o momento no ponto j, os parâmetros 𝜃 são constantes
(desconhecidas). Os momentos 𝛼𝑗 são funções dos parâmetros 𝜃.
Método dos Momentos
Por outro lado, podem-se estimar os respectivos momentos diretamente
desde as medidas, isto se conhece como momento amostral:
𝑑𝑗 =
1
𝑇
[𝑥 𝑖 ] 𝑗
𝑇
𝑖=1
“A ideia básica por trás do método dos momentos é igualar os momentos
teóricos 𝛼𝑗 com os estimados 𝑑𝑗 .”
𝛼𝑗 𝜃 = 𝛼𝑗 𝜃1, 𝜃2, … . , 𝜃 𝑚 = 𝑑𝑗
Se a equação anterior tem uma solução aceitável, o respectivo estimador
é chamado estimador de momentos e é denotado por 𝜃 𝑀𝑀.
Alternativamente se pode utilizar a teoria central dos momentos
𝜇𝑗 = 𝐸{ 𝑥 − 𝛼1
𝑗
|𝜃}
Método dos Momentos
E a respectiva estimação amostral central de momentos
𝑠𝑗 =
1
𝑇 − 1
[𝑥
𝑇
𝑖=1
𝑖 − 𝑑1] 𝑗
𝜇𝑗 𝜃1, 𝜃2, … . , 𝜃 𝑚 = 𝑠𝑗 , 𝑗 = 1,2, … , 𝑚
Exemplo 4.4
Assuma agora que x(1),x(2),….,x(T) são amostras independentes e
identicamente distribuídas desde uma variável aleatória x tendo a pdf
𝑝 𝑥 𝜃 =
1
𝜃2
exp⁡[−
𝑥−𝜃1
𝜃2
]
Onde 𝜃1 < 𝑥 < ∞ y 𝜃2 > 0, desejamos estimar o vector de parâmetro
𝜃 = (𝜃1, 𝜃2) 𝑇
usando o método dos momentos.
Método dos Momentos
Para fazer isto primeiro se calculam os momentos teóricos
𝛼1 = 𝐸 𝑥 𝜃 =
𝑥
𝜃2
exp −
𝑥 − 𝜃1
𝜃2
𝑑𝑥 =
∞
𝜃1
𝜃1 + 𝜃2
𝛼2 = 𝐸 𝑥2
𝜃 =
𝑥2
𝜃2
exp −
𝑥 − 𝜃1
𝜃2
𝑑𝑥 =
∞
𝜃1
(𝜃1 + 𝜃2)2
+ 𝜃2
2
Para obter os estimadores igualamos a 𝑑1 y 𝑑2
𝜃1 + 𝜃2 = 𝑑1 e (𝜃1 + 𝜃2)2
+ 𝜃2
2
= 𝑑2
Resolvendo as duas equações:
𝜃1,𝑀𝑀 = 𝑑1 − (𝑑2 − 𝑑1
2
)
1
2
𝜃2,𝑀𝑀 = (𝑑2 − 𝑑1
2
)
1
2 o 𝜃2,𝑀𝑀 = −(𝑑2 − 𝑑1
2
)
1
2
A segunda solução é rejeitada por que 𝜃2deve ser positivo.
Método dos Momentos
“Os momentos da amostra 𝑑𝑗 são estimadores consistentes dos
respectivos momentos teóricos 𝛼𝑗 . De forma semelhante, os momentos
centrais da amostra 𝑠𝑗 são estimadores consistentes do verdadeiro
momento central 𝜇𝑗 .”
Uma desvantagem é que podem ser ineficientes. Não se podem fazer
afirmações sobre o vicio e a consistência das estimações dadas pelo
método de momentos.
4.4 MÉTODO DOS MÍNIMOS QUADRADOS
Método dos Mínimos Quadrados
Método linear de mínimos quadrados:
O vector de dados 𝑥 𝑇 é assumido como: 𝑥 𝑇 = 𝐻𝜃 + 𝑣 𝑇 4.35
𝜃 = vector de parâmetros, 𝑣 𝑇 = componentes são os erros de medição
desconhecidos 𝑣 𝑗 , 𝑗 = 1, … , 𝑇. A matriz de observação H é assumida
como conhecida. T é o número de medições e m número de parâmetros
desconhecidos, assuma 𝑇 ≥ 𝑚. Adicionalmente, a matriz H tem rango
máximo m.
Se m=T, 𝑣 𝑇 = 0 e tem uma única solução 𝑥 𝑇 𝐻−1
= 𝜃;
Se m > T tem soluções infinitas.
Medições são ruidosas ou contem erros -> recomenda-se T > m.
Se T > m a equação não tem solução para 𝑣 𝑇 = 0 (erros de medição 𝑣 𝑇
são desconhecidos), o que se pode fazer é escolher um estimador 𝜃 que
minimize os efeitos do erro.
Método dos Mínimos Quadrados
𝜀 𝐿𝑆 =
1
2
𝑣 𝑇
2
=
1
2
𝑥 𝑇 − 𝐻𝜃 𝑇
(𝑥 𝑇 − 𝐻𝜃) 4.36
𝜀 𝐿𝑆 tenta minimizar a medida de erro v e não diretamente a estimação do
erro 𝜃 − 𝜃
Minimizando 𝜀 𝐿𝑆 com relação à 𝜃, leva à chamada equação normal para
determinar a estimação de mínimos quadrados 𝜃 𝐿𝑆de 𝜃
𝐻 𝑇
𝐻 𝜃 𝐿𝑆 = 𝐻 𝑇
∗ 𝑥 𝑇
𝜃 𝐿𝑆 = 𝐻 𝑇
∗ 𝑥 𝑇 𝐻 𝑇
𝐻 −1
= 𝐻+
𝑥 𝑇 4.38
Por conveniência matemática, considerando o critério de os mínimos
quadrados.
𝐻+
= pseudo inversa de H
(assumindo H com máximo rango m,
e filas > colunas T>m)
Assumindo erro médio 𝐸 𝑣 𝑇 = 0 -> estimador de mínimos quadrados é
não viciado 𝐸 𝜃 𝐿𝑆 𝜃 = 𝜃
Método dos Mínimos Quadrados
Exemplo 4.5
Modelo linear para uma curva 𝑦 𝑡 = 𝑎𝑖∅𝑖(𝑡)𝑚
𝑖=1 + 𝑣(𝑡) ;
∅𝑖(𝑡), i=1,2,…,m,
Assuma que estão disponíveis as medidas 𝑦 𝑡1 , 𝑦 𝑡2 , … , 𝑦 𝑡 𝑇
Fazendo analogia com a equação de 𝑥 𝑇.
Onde o vector de parâmetros: 𝜃 = 𝑎1, 𝑎2, … , 𝑎 𝑚
𝑇
Vector de dados: 𝑥 𝑇 = [𝑦 𝑡1 , 𝑦 𝑡2 , … , 𝑦 𝑡 𝑇 ] 𝑇
Vector 𝑣 𝑇 = [𝑣 𝑡1 , 𝑣 𝑡2 , … , 𝑣 𝑡 𝑇 ] 𝑇
Matriz de observação: 𝐻 =
∅1(𝑡1) ∅2(𝑡1) ∅ 𝑚 (𝑡1)
∅1(𝑡2) ∅2(𝑡2) ∅ 𝑚 (𝑡2)
∅1(𝑡 𝑇) ∅2(𝑡 𝑇) ∅ 𝑚 (𝑡 𝑇)
Inserindo os valores numéricos em 𝑥 𝑇 e H e computando o método dos
mínimos quadrados estimar 𝑎𝑖𝐿𝑆
Método dos Mínimos Quadrados
As funções bases ∅𝑖 𝑡 são escolhidas para satisfazer as condiciones de
ortogonalidade
∅𝑗 (𝑡𝑖)∅ 𝑘(𝑡𝑖)
𝑇
𝑖=1
=
1, 𝑗 = 𝑘
0, 𝑗 ≠ 𝑘
Isto representa as condições dos elementos de H, agora 𝐻 𝑇
𝐻 = 𝐼. Isto
simplifica a equação a 𝜃 𝐿𝑆 = 𝐻 𝑇
∗ 𝑥 𝑇 . Escrevendo esta equação para
cada componente de 𝜃 𝐿𝑆 é obtida uma estimação mínima quadrada do
parâmetro 𝑎𝑖
𝑎𝑖,𝐿𝑠 = ∅𝑖 𝑡𝑗 𝑦 𝑡𝑗 , 𝑖 = 1, … , 𝑚
𝑇
𝑗=1
Método dos Mínimos Quadrados
Estimadores de mínimos quadrados não lineais y generalizados
Mínimos quadrados generalizados: os mínimos quadrados pode ser
generalizado + ao critério 4.36 uma matriz de ponderação W, simétrica e
positiva.
𝜀 𝑊𝐿𝑆 = 𝑥 𝑇 − 𝐻𝜃 𝑇
𝑊(𝑥 𝑇 − 𝐻𝜃). W = inversa da matriz pela covariância
𝑊 = 𝐶𝑣
−1
Generalizando 𝜃 𝑊𝐿𝑆 = 𝐻 𝑇
𝐶𝑣
−1
𝑥 𝑇 𝐻 𝑇
𝐶𝑣
−1
𝐻
−1
(4.46) Estimador
gauss-markov ou o melhor estimador linear no viciado (BLUE) .
Note que 4.46 reduz a solução norma dos mínimos quadrados 4.38 se
𝐶𝑣 = 𝜎2
𝐼.
Aplica quando a medida do erro v(j) tem média igual a zero e é
mutuamente independente e identicamente distribuída com a variância
𝜎2
ou também se não temos um conhecimento prévio da matriz de
covariância 𝐶𝑣.
Método dos Mínimos Quadrados
Mínimos quadrados não lineares: 4.35 não é adequada para descrever a
dependência entre 𝜃 y as medidas 𝑥 𝑇. Por conseguinte, considera-se o
seguinte modelo não linear: 𝑥 𝑇 = 𝑓 𝜃 + 𝑣 𝑇
Onde f é um vector de valores não linear. Cada componente 𝑓𝑖(𝜃) de 𝑓 𝜃
é assumido como uma função escalar conhecida pelos componentes de 𝜃.
O critério 𝜀 𝑁𝑊𝐿𝑆 é definido como :
𝜀 𝑁𝐿𝑆 = 𝑣 𝑇
2
= 𝑣(𝑗)2
𝑗 -> 𝜀 𝑁𝐿𝑆 = [𝑥 𝑇 − 𝑓 𝜃 ] 𝑇
[𝑥 𝑇 − 𝑓 𝜃 ]
Estimadores de mínimos quadrados não lineais y generalizados
O estimador não linear de mínimos quadrados 𝜃 𝑁𝐿𝑆 é o valor de 𝜃 que
minimiza 𝜀 𝑁𝐿𝑆. Estes problemas não se podem solucionar analiticamente,
então deve-se usar métodos numéricos iterativos para encontrar o
mínimo.
4.5 MÉTODO DE MÁXIMA VEROSIMILITUD
(LIKELIHOOD)
Método de máxima verosimilitud (likelihood)
O estimador de máxima verosimilitud (ML) assume que os parâmetros
desconhecidos 𝜃 são constantes ou não há informação previa disponível
sobre eles. O estimador ML tem muitas propriedades de optimização
assintóticas que fazem que seja uma opção desejável especialmente
quando o número de amostras é grande.
O estimador de máxima verosimilitud 𝜃 𝑀𝐿 do parâmetro de vector 𝜃 é
selecionado para ser o valor que maximize a função de verosimilitud
𝑝 𝑥 𝑇 𝜃 = 𝑝(𝑥 1 , 𝑥 2 , … , 𝑥 𝑇 |𝜃) das medidas x(1),x(2),…,x(T).
Devido a que muitas funções de densidade contem uma função
exponencial, é mais conveniente tratar com o log pela função de
verosimilitud ln⁡𝑝(𝑥 𝑇|𝜃).
Método de máxima verosimilitud (likelihood)
Equação de verosimilitud:
𝛿
𝛿𝜃
ln 𝑝 𝑥 𝑇 𝜃 | 𝜃=𝜃 𝑀𝐿
= 0 4.50.
Solução=> estimador de máxima verosimilitud
A equação entrega os valores de 𝜃 que maximizam (ou minimizam) a
função de verosimilitud. Se a função é complexa, são obtidos muitos
máximos y mínimos locais, se deve escolher o valor 𝜃 𝑀𝐿 que corresponde
ao máximo absoluto.
Geralmente o método ML se aplica a observações x estatisticamente
independentes. Logo, a função de verosimilitud é igual a:
𝑝 𝑥 𝑇 𝜃 = 𝑝(𝑥 𝑗 |𝜃)
𝑇
𝑗=1
Observe que tomando o logaritmo, o produto se desacopla na suma dos
logaritmos ln 𝑝(𝑥(𝑗)|𝜃)𝑗
Método de máxima verosimilitud (likelihood)
Na prática, a carga computacional pode ser proibitiva -> usar
aproximações para simplificar as equações de verosimilitud o de alguns
métodos de estimação subótimos.
Exemplo 4.6: Assumir T observações independentes x(1),…,x(T) de uma
variável escalar aleatória x com distribuição gaussiana com média µ e
variância 𝜎2
. Usando a função de verosimilitud pode ser escrita:
𝑝 𝑥 𝑇 𝜇, 𝜎2
= 2𝜋𝜎2 −𝑇
2exp⁡(−
1
2𝜎2
𝑥 𝑗 − 𝜇 2
)
𝑇
𝑗=1
Ou, ln 𝑝 𝑥 𝑇 𝜇, 𝜎2
= ln 2𝜋𝜎2 −𝑇
2exp⁡(−
1
2𝜎2 𝑥 𝑗 − 𝜇 2
)𝑇
𝑗=1
ln 𝑝 𝑥 𝑇 𝜇, 𝜎2
= −
𝑇
2
ln 2𝜋𝜎2
−
1
2𝜎2
𝑥 𝑗 − 𝜇 2
𝑇
𝑗 =1
Ao derivar a função o primeiro termo é zero por que não depende de 𝜇
𝛿
𝛿𝜇
ln 𝑝 𝑥 𝑇 𝜇 𝑀𝐿, 𝜎2
𝑀𝐿 =
1
𝜎2
𝑀𝐿
𝑥 𝑗 − 𝜇 𝑀𝐿
𝑇
𝑗=1
= 0
Método de máxima verosimilitud (likelihood)
𝑥 𝑗𝑇
𝑗=1 − 𝑇𝜇 𝑀𝐿 = 0 ; 𝜇 𝑀𝐿 =
1
𝑇
𝑥 𝑗𝑇
𝑗=1
Para calcular 𝜎2
𝑀𝐿
ln 𝑝 𝑥 𝑇 𝜇, 𝜎2
= −
𝑇
2
ln 2𝜋 −
𝑇
2
ln 𝜎2
−
1
2𝜎2
𝑥 𝑗 − 𝜇 2
𝑇
𝑗=1
Resolvendo a derivada o primeiro termo é 0
𝛿
𝛿𝜎2
ln 𝑝 𝑥 𝑇 𝜇 𝑀𝐿, 𝜎2
𝑀𝐿 = −
𝑇
2𝜎2
𝑀𝐿
+
1
2
1
𝜎2
𝑀𝐿
2
𝑥 𝑗 − 𝜇 2
𝑇
𝑗=1
= 0
Assim, 𝜎2
𝑀𝐿 =
1
𝑇
𝑥 𝑗 − 𝜇 2𝑇
𝑗=1
Este último é um estimador viciado pela variância 𝜎2
(assintoticamente
não viciado por ser pequeno), enquanto que a média amostral 𝜇 𝑀𝐿 é um
estimador não viciado pela média 𝜇.
Método de máxima verosimilitud (likelihood)
Propriedades do estimador de máxima verosimilitud:
1. Se existe um estimador que satisfaz o limite inferior Cramer-Rao
como uma igualdade, este se pode determinar utilizando o método
de máxima verosimilitud.
2. O estimador de máxima verosimilitud 𝜃 𝑀𝐿é consistente.
3. O estimador de máxima verosimilitud é assintoticamente eficiente.
Isto significa que se alcança assintóticamente o limite inferior de
Cramer-Rao para a estimação do erro
Método de máxima verosimilitud (likelihood)
Exemplo 4.7:
Determinar o limite inferior de Cramer-Rao para a média 𝜇 de una variável
aleatória Gaussiana a derivada do log de a função de verosimilitud foi
determinada anteriormente
𝛿
𝛿𝜇
ln 𝑝 𝑥 𝑇 𝜇, 𝜎2
=
1
𝜎2
𝑥 𝑗 − 𝜇
𝑇
𝑗 =1
Calculamos a informação Fisher
Considerando x(j) como independentes
Método de máxima verosimilitud (likelihood)
Partindo de 𝐸{ 𝜃 − 𝜃 |𝜃} ≥ 𝐼−1
O limite inferior de Cramer-Rao para o erro quadrado médio de qualquer
estimador não viciado 𝜇 pela média de densidade gausiana é:
𝐸 𝜇 − 𝜇 𝜇 ≥ 𝐼−1
=
𝜎2
𝑇
A média amostral satisfaz a desigualdade de Cramer-Rao e é um
estimador eficiente para medições gaussianas independentes.
Método de máxima verosimilitud (likelihood)
O algoritmo de máxima expectativa (EM) permite o tratamento de
problemas complexos de máxima verosimilitud que tem vários
parâmetros e funções de alta não linearidade.
A desvantagem do EM é que pode permanecer travado em um máximo
local ou sofrer de problemas de singularidade. Em contexto com métodos
ICA o algoritmo EM tem sido utilizado para estimar densidades
desconhecidas de fontes de sinales.
O algoritmo EM (Expectation Maximization) começa adivinhando os
parâmetros das distribuições e os usa para calcular as probabilidades de
que cada objeto pertença a um cluster e usa essas probabilidades para
calcular de novo os parâmetros das probabilidades, até convergir. O
cálculo das probabilidades é a parte de expectation. A etapa de calcular os
valores dos parâmetros das distribuições, é maximization.
4.6 ESTIMAÇÃO BAYESIANA
Estimação Bayesiana
Os métodos anteriores assumem 𝜃 = constantes determinísticas. Neste
método 𝜃 é assumido como um valor aleatório. Esta aleatoriedade é
modelada usando a função de densidade de probabilidade previa 𝑝 𝜃 (𝜃),
esta se assume como conhecida. Na prática não há nenhuma informação
importante do parâmetro, mas pode assumir alguma forma útil da
densidade previa.
A essência é a densidade posterior 𝑝 𝜃|𝑥(𝜃|𝑥 𝑇) dos parâmetros 𝜃
conhecendo os dados 𝑥 𝑇, basicamente a densidade posterior contem
toda a informação relevante dos parâmetros 𝜽.
Para escolher um parâmetro de estimação especifico 𝜃 se pode realizar
mediante dos métodos critério de erro quadrático médio ou escolher o
máximo da densidade posterior.
Estimação Bayesiana
Estimador de erro quadrático médio mínimo para parâmetros
aleatórios
𝜃 𝑀𝑆𝐸 é selecionado minimizando 𝜀 𝑀𝑆𝐸 = 𝐸 𝜃 − 𝜃
2
com respeito ao
estimador 𝜃.
Teorema 4.2:
Assumir que os parâmetros 𝜃 e as observações 𝑥 𝑇 tem um conjunto de
função de densidade de probabilidade 𝑝 𝜃,𝑥(𝜃, 𝑥 𝑇) .
𝜃 𝑀𝑆𝐸 = 𝐸 𝜃|𝑥 𝑇 4.67
𝜀 𝑀𝑆𝐸 pode ser calculado em 2 etapas. Primeiro o valor esperado é avaliado
só com respeito a 𝜃, e depois respeito à medição do vector x:
𝜀 𝑀𝑆𝐸 = 𝐸 𝜃 − 𝜃
2
= 𝐸𝑥 𝐸 𝜃 − 𝜃
2
|𝑥 𝑇
𝐸 𝜃 − 𝜃
2
|𝑥 𝑇 = 𝜃 𝑇
𝜃 − 2𝜃 𝑇
𝐸 𝜃|𝑥 𝑇 + 𝐸 𝜃 𝑇
𝜃|𝑥 𝑇
Estimação Bayesiana
Estimador de erro quadrático médio mínimo para parâmetros
aleatórios
Observando que 𝜃 é uma função das observações 𝑥 𝑇, de modo que ele
pode ser tratado como um vector não aleatório quando se calcula o valor
esperado condicional. Derivando a equação anterior em relação a 𝜃 o
resultado é
2𝜃 𝑀𝑆𝐸 − 2𝐸 𝜃|𝑥 𝑇 = 0
𝜃 𝑀𝑆𝐸 = 𝐸 𝜃|𝑥 𝑇
𝐸{𝜃 𝑀𝑆𝐸 } = 𝐸𝑥 𝐸 𝜃|𝑥 𝑇 = 𝐸{𝜃}
Este resultado é válido para todas as distribuições nas quais o conjunto de
distribuição 𝑝 𝜃|𝑥(𝜃|𝑥) existe, e mantém-se inalterada se uma matriz de
ponderação é adicionada ao critério.
Estimação Bayesiana
Estimador de erro quadrático médio mínimo para parâmetros
aleatórios
Na prática este cálculo é difícil de fazer devido a que só se conhece o se
assume a distribuição previa 𝑝 𝜃 (𝜃) e a distribuição condicional das
observações 𝑝 𝑥|𝜃 (𝑥|𝜃) dado el parâmetro 𝜃.
Na construção do estimador ótimo 4.67, primeiro se calculaa a densidade
posterior de Bayes: 𝑝 𝜃|𝑥 𝜃 𝑥 =
𝑝 𝑥|𝜃 (𝑥 𝑇|𝜃)𝑝 𝜃 (𝜃)
𝑝 𝑥 (𝑥 𝑇)
4.71
Onde 𝑝𝑥 𝑥 𝑇 = 𝑝 𝑥|𝜃 𝑥 𝑇 𝜃 𝑝 𝜃 𝜃 𝑑𝜃
∞
−∞
4.72
Só em casos especiais pode-se obter analiticamente o valor de 4.67, por
exemplo, se o estimador 𝜃 é restringido a ser uma função linear dos dados
𝜃 = 𝐿𝑥 𝑇 e quando o conjunto de densidade de probabilidade é gaussiana.
Estimação Bayesiana
Filtro Wiener
Considere o seguimento de um problema de filtro linear.
𝑧 = [𝑧1, 𝑧2, … , 𝑧 𝑚 ] 𝑇
𝑤 = [𝑤1, 𝑤2, … , 𝑤 𝑚 ] 𝑇
Um vector de peso m-dimensional com pesos ajustáveis 𝑤𝑖, 𝑖 = 1, … , 𝑚
operando linearmente em z, a saída do filtro é:
𝑦 = 𝑤 𝑇
𝑧
No filtro Wiener, a meta é determinar o filtro linear que minimize o erro
quadrático médio.
Estimação Bayesiana
Filtro Wiener
𝜀 𝑀𝑆𝐸 = 𝐸 𝑦 − 𝑑 2
Entre a resposta desejada d e a saída Y do filtro. Calculando:
𝜀 𝑀𝑆𝐸 = 𝐸 𝑤 𝑇
𝑧 − 𝑑 2
= 𝑤 𝑇
𝐸 𝑧𝑧 𝑇
𝑤 − 2𝑤 𝑇
𝐸{𝑧𝑑} + 𝐸{𝑑2
}
𝜀 𝑀𝑆𝐸 = 𝑤 𝑇
𝑅𝑧 𝑤 − 2𝑤 𝑇
𝑟𝑧𝑑 + 𝐸{𝑑2
}
Rz é a matriz de correlação de dados e 𝑟𝑧𝑑 é o vector correlação cruz entre
o vector dados z e a resposta desejada d. Minimizando o erro quadrático
médio com relação a w provê a solução ideal do filtro Wiener 𝑤 𝑀𝑆𝐸 =
𝑅 𝑧
−1
𝑟𝑧𝑑 . El filtro Wiener é usualmente calculado diretamente resolvendo
a equação linear.
𝑅 𝑧 𝑤 𝑀𝑆𝐸 = 𝑟𝑧𝑑
Na prática 𝑅 𝑧 e 𝑟𝑧𝑑 são desconhecidos.
Estimação Bayesiana
Estimador Máximo a posteriori (MAP)
O estimador MAP 𝜃 𝑀𝐴𝑃 é definido como o valor do parâmetro do vector 𝜃
que maximiza a densidade posterior 𝑝 𝜃|𝑥(𝜃|𝑥 𝑇) de 𝜃dadas las medidas
𝑥 𝑇. O estimador MAP pode ser interpretado como o valor mais provável
do vector de parâmetro 𝜃para los dados disponíveis 𝑥 𝑇. Partindo de 4.72
como não depende do parâmetro 𝜃 e normalizando 4.71
𝑝 𝜃|𝑥 𝜃 𝑥 = 𝑝 𝑥|𝜃 (𝑥 𝑇|𝜃)𝑝 𝜃 (𝜃)
Para encontrar o estimador MAP é suficiente com encontrar o valor de
𝜃 que maximiza 4.71. O estimador MAP 𝜃 𝑀𝐴𝑃se pode encontrar
resolvendo a equação logarítmica de verosimilitud
𝛿
𝛿𝜃
ln 𝑝(𝜃, 𝑥 𝑇) =
𝛿
𝛿𝜃
ln 𝑝( 𝑥 𝑇 𝜃 +
𝛿
𝛿𝜃
ln 𝑝(𝜃) = 0
Estimação Bayesiana
Se a densidade 𝑝 𝜃 é uniforme para valores de 𝜃 para os quais 𝑝(𝑥 𝑇|𝜃)
é >0, aqui o MAP e o estimador de máxima verosimilitud são os mesmos.
Isto acontece quando não se dispõe de informação preliminar dos
parâmetros 𝜃. Quando a densidade preliminar é não uniforme, o
estimador MAP e o ML são diferentes.
Exemplo 4.8
Assuma que tem T observações independentes x(1),…,x(T), sendo x uma
quantidade escalar aleatória com distribuição guassiana, tendo por média
𝜇 𝑥 e variância 𝜎2
𝑥. O 𝜇 𝑥 é uma variável aleatória gaussiana com média
igual a zero e variância 𝜎2
𝜇 . Se assume que as variâncias são conhecidas.
Da equação de verosimilitud para estimadores MAP :
𝜇 𝑀𝐴𝑃 =
𝜎2
𝜇
𝜎2
𝑥 + 𝑇𝜎2
𝜇
𝑥(𝑗)
𝑇
𝑗=1
Para o caso onde não se tem informação preliminar de 𝜇 se pode modelar
𝜎2
𝜇 tendendo a infinito, refletindo a incerteza de 𝜇
Estimação Bayesiana
𝜇 𝑀𝐴𝑃 =
1
𝑇
𝑥(𝑗)
𝑇
𝑗=1
O estimador MAP tende à média amostral, coincidindo com o ML. Se T
tende a infinito se obtêm o mesmo resultado, isto demostra que a
influencia da informação preliminar decresce com o aumento das
medições.
Se 𝜎2
𝑥 ≫ 𝜎2
𝜇 , o numero de amostras T cresceria muito até que o MAP se
aproxime ao valor limite. Em caso contrario o MAP convergiria
rapidamente.
O método de MAP tem vantagem sobre o método de ML devido a que
considera a informação previa dos parâmetros, porém é
computacionalmente mais difícil de determinar devido a um segundo
termo que aparece na equação de probabilidade. Por outra parte, tanto o
ML e o MAP se obtêm das equações de probabilidade, evitando as
integrações geralmente difíceis necessárias no cálculo da média mínima
do estimador quadrado. O MAP apresenta bons resultados na prática.

Más contenido relacionado

La actualidad más candente

60 Exercícios Resolvidos de Administração Financeira para Concursos
60 Exercícios Resolvidos de Administração Financeira para Concursos60 Exercícios Resolvidos de Administração Financeira para Concursos
60 Exercícios Resolvidos de Administração Financeira para ConcursosMilton Henrique do Couto Neto
 
Plano de ação - Modelo
Plano de ação - ModeloPlano de ação - Modelo
Plano de ação - ModeloDaniel Santos
 
Apresentação TCC - Plano de Negócios
Apresentação TCC - Plano de Negócios Apresentação TCC - Plano de Negócios
Apresentação TCC - Plano de Negócios Maxwendell Silva
 
Plano de trabalho para Gestão Escolar
Plano de trabalho para Gestão EscolarPlano de trabalho para Gestão Escolar
Plano de trabalho para Gestão EscolarBelister Paulino
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia centralrosania39
 
Como fazer um plano de negócios slides módulo i
Como fazer um plano de negócios   slides módulo iComo fazer um plano de negócios   slides módulo i
Como fazer um plano de negócios slides módulo iFdtensino
 
Questões de provas e simulados probabilidade e estatística junho 2014
Questões de provas e simulados probabilidade e estatística junho 2014Questões de provas e simulados probabilidade e estatística junho 2014
Questões de provas e simulados probabilidade e estatística junho 2014Nina Silva
 
ATPC Como Espaço de Formação - Gestão da Sala de Aula
ATPC Como Espaço de Formação - Gestão da Sala de AulaATPC Como Espaço de Formação - Gestão da Sala de Aula
ATPC Como Espaço de Formação - Gestão da Sala de AulaClaudia Elisabete Silva
 
1ª Lista de exercício de administração financeira completa com respostas
1ª Lista de exercício de administração financeira completa com respostas1ª Lista de exercício de administração financeira completa com respostas
1ª Lista de exercício de administração financeira completa com respostasFelipe Pontes
 
Aula 5 - Sistema Financeiro , Inflação e Desemprego
Aula 5 - Sistema Financeiro , Inflação e DesempregoAula 5 - Sistema Financeiro , Inflação e Desemprego
Aula 5 - Sistema Financeiro , Inflação e DesempregoCaio Roberto de Souza Filho
 
Trabalho de estatística
Trabalho de estatísticaTrabalho de estatística
Trabalho de estatística1721lab
 

La actualidad más candente (20)

Estatística básica
Estatística básicaEstatística básica
Estatística básica
 
Plano de Negócios - Slides facilitadores
Plano de Negócios - Slides facilitadoresPlano de Negócios - Slides facilitadores
Plano de Negócios - Slides facilitadores
 
60 Exercícios Resolvidos de Administração Financeira para Concursos
60 Exercícios Resolvidos de Administração Financeira para Concursos60 Exercícios Resolvidos de Administração Financeira para Concursos
60 Exercícios Resolvidos de Administração Financeira para Concursos
 
Programacao linear aula 3 metodo grafico
Programacao linear   aula 3 metodo graficoProgramacao linear   aula 3 metodo grafico
Programacao linear aula 3 metodo grafico
 
Plano de ação - Modelo
Plano de ação - ModeloPlano de ação - Modelo
Plano de ação - Modelo
 
Apresentação TCC - Plano de Negócios
Apresentação TCC - Plano de Negócios Apresentação TCC - Plano de Negócios
Apresentação TCC - Plano de Negócios
 
Plano de trabalho para Gestão Escolar
Plano de trabalho para Gestão EscolarPlano de trabalho para Gestão Escolar
Plano de trabalho para Gestão Escolar
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
Como fazer um plano de negócios slides módulo i
Como fazer um plano de negócios   slides módulo iComo fazer um plano de negócios   slides módulo i
Como fazer um plano de negócios slides módulo i
 
Observacao sala aula
Observacao sala aulaObservacao sala aula
Observacao sala aula
 
Osm Aula 2
Osm Aula 2Osm Aula 2
Osm Aula 2
 
7 - 2014 taxas de juros
7  - 2014 taxas de juros7  - 2014 taxas de juros
7 - 2014 taxas de juros
 
Questões de provas e simulados probabilidade e estatística junho 2014
Questões de provas e simulados probabilidade e estatística junho 2014Questões de provas e simulados probabilidade e estatística junho 2014
Questões de provas e simulados probabilidade e estatística junho 2014
 
Matematica Basica
Matematica BasicaMatematica Basica
Matematica Basica
 
ATPC Como Espaço de Formação - Gestão da Sala de Aula
ATPC Como Espaço de Formação - Gestão da Sala de AulaATPC Como Espaço de Formação - Gestão da Sala de Aula
ATPC Como Espaço de Formação - Gestão da Sala de Aula
 
1ª Lista de exercício de administração financeira completa com respostas
1ª Lista de exercício de administração financeira completa com respostas1ª Lista de exercício de administração financeira completa com respostas
1ª Lista de exercício de administração financeira completa com respostas
 
Gestao por Processos
Gestao por ProcessosGestao por Processos
Gestao por Processos
 
Aula 5 - Sistema Financeiro , Inflação e Desemprego
Aula 5 - Sistema Financeiro , Inflação e DesempregoAula 5 - Sistema Financeiro , Inflação e Desemprego
Aula 5 - Sistema Financeiro , Inflação e Desemprego
 
Trabalho de estatística
Trabalho de estatísticaTrabalho de estatística
Trabalho de estatística
 
Análise de regressão linear
Análise de regressão linearAnálise de regressão linear
Análise de regressão linear
 

Destacado

Aula distribuição amostral da média
Aula distribuição amostral da médiaAula distribuição amostral da média
Aula distribuição amostral da médiaGiselle Onuki
 
5 intervalo de confiança
5   intervalo de confiança5   intervalo de confiança
5 intervalo de confiançaFernando Lucas
 
Distribuição Amostral da Média
Distribuição Amostral da MédiaDistribuição Amostral da Média
Distribuição Amostral da MédiaAnderson Pinho
 
Funcao modular
Funcao modularFuncao modular
Funcao modularcon_seguir
 
Função modular
Função modularFunção modular
Função modularISJ
 
Probabilidade E Bioestatística
Probabilidade E BioestatísticaProbabilidade E Bioestatística
Probabilidade E BioestatísticaRodrigo Vianna
 
Bioestatistica basica completa-apresentacao
Bioestatistica basica completa-apresentacaoBioestatistica basica completa-apresentacao
Bioestatistica basica completa-apresentacaoFabiano Reis
 
Cálculo do tamanho de uma Amostra
Cálculo do tamanho de uma AmostraCálculo do tamanho de uma Amostra
Cálculo do tamanho de uma AmostraFlávia Salame
 
Exame mat6º revisões; preparação
Exame mat6º revisões; preparaçãoExame mat6º revisões; preparação
Exame mat6º revisões; preparaçãomarcommendes
 
Espectroscopia de UV-Vis e Fluorescência
Espectroscopia de UV-Vis e Fluorescência Espectroscopia de UV-Vis e Fluorescência
Espectroscopia de UV-Vis e Fluorescência Tamyris Paschoal
 
Aula1: Introdução á Bioestatística
Aula1: Introdução á BioestatísticaAula1: Introdução á Bioestatística
Aula1: Introdução á Bioestatísticaansansil
 

Destacado (14)

Aula 11 estimação
Aula 11   estimaçãoAula 11   estimação
Aula 11 estimação
 
Aula distribuição amostral da média
Aula distribuição amostral da médiaAula distribuição amostral da média
Aula distribuição amostral da média
 
5 intervalo de confiança
5   intervalo de confiança5   intervalo de confiança
5 intervalo de confiança
 
Distribuição Amostral da Média
Distribuição Amostral da MédiaDistribuição Amostral da Média
Distribuição Amostral da Média
 
Lista exercícios3bi2
Lista exercícios3bi2Lista exercícios3bi2
Lista exercícios3bi2
 
Funcao modular
Funcao modularFuncao modular
Funcao modular
 
1. intervalo de confiança parte i
1. intervalo de confiança   parte i1. intervalo de confiança   parte i
1. intervalo de confiança parte i
 
Função modular
Função modularFunção modular
Função modular
 
Probabilidade E Bioestatística
Probabilidade E BioestatísticaProbabilidade E Bioestatística
Probabilidade E Bioestatística
 
Bioestatistica basica completa-apresentacao
Bioestatistica basica completa-apresentacaoBioestatistica basica completa-apresentacao
Bioestatistica basica completa-apresentacao
 
Cálculo do tamanho de uma Amostra
Cálculo do tamanho de uma AmostraCálculo do tamanho de uma Amostra
Cálculo do tamanho de uma Amostra
 
Exame mat6º revisões; preparação
Exame mat6º revisões; preparaçãoExame mat6º revisões; preparação
Exame mat6º revisões; preparação
 
Espectroscopia de UV-Vis e Fluorescência
Espectroscopia de UV-Vis e Fluorescência Espectroscopia de UV-Vis e Fluorescência
Espectroscopia de UV-Vis e Fluorescência
 
Aula1: Introdução á Bioestatística
Aula1: Introdução á BioestatísticaAula1: Introdução á Bioestatística
Aula1: Introdução á Bioestatística
 

Similar a Estimadores: propriedades, métodos e robustez

MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS)
MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS)MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS)
MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS)Pedro Barata
 
14.3 derivadas parciais [pt. 1]
14.3 derivadas parciais [pt. 1]14.3 derivadas parciais [pt. 1]
14.3 derivadas parciais [pt. 1]Cristiano Miranda
 
Aula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdfAula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdfClioLima5
 
Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais Rodrigo Rodrigues
 
Aula a1 precisão, incertezas e erros em medidas
Aula a1   precisão, incertezas e erros em medidasAula a1   precisão, incertezas e erros em medidas
Aula a1 precisão, incertezas e erros em medidasJoão Marcos
 
Obtenção e tratamento de medições experimentais
Obtenção e tratamento de medições experimentaisObtenção e tratamento de medições experimentais
Obtenção e tratamento de medições experimentaiseduardocfl
 
Ajuste de Curvas - @professorenan
Ajuste de Curvas - @professorenanAjuste de Curvas - @professorenan
Ajuste de Curvas - @professorenanRenan Gustavo
 
Calculo Integral - Conceito de primitiva e técnicas de primitivação
Calculo Integral - Conceito de primitiva e técnicas de primitivaçãoCalculo Integral - Conceito de primitiva e técnicas de primitivação
Calculo Integral - Conceito de primitiva e técnicas de primitivaçãoMaths Tutoring
 
Implementação Currículo - módulo4 - Matrizes/Nºs Complexos
Implementação Currículo - módulo4 - Matrizes/Nºs ComplexosImplementação Currículo - módulo4 - Matrizes/Nºs Complexos
Implementação Currículo - módulo4 - Matrizes/Nºs Complexosinechidias
 
Implementação currículo- Módulo IV-Matrizes/Determinantes/Nºs Complexos
Implementação currículo- Módulo IV-Matrizes/Determinantes/Nºs ComplexosImplementação currículo- Módulo IV-Matrizes/Determinantes/Nºs Complexos
Implementação currículo- Módulo IV-Matrizes/Determinantes/Nºs Complexosinechidias
 

Similar a Estimadores: propriedades, métodos e robustez (20)

MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS)
MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS)MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS)
MODEL-REFERENCE ADAPTIVE SYSTEMS (MRAS)
 
Criterio chauvenet
Criterio chauvenetCriterio chauvenet
Criterio chauvenet
 
14.3 derivadas parciais [pt. 1]
14.3 derivadas parciais [pt. 1]14.3 derivadas parciais [pt. 1]
14.3 derivadas parciais [pt. 1]
 
Medição quimica
Medição quimicaMedição quimica
Medição quimica
 
Aula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdfAula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdf
 
Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais
 
Regressao linear multipla
Regressao linear multiplaRegressao linear multipla
Regressao linear multipla
 
Aula a1 precisão, incertezas e erros em medidas
Aula a1   precisão, incertezas e erros em medidasAula a1   precisão, incertezas e erros em medidas
Aula a1 precisão, incertezas e erros em medidas
 
Iteração de política
Iteração de políticaIteração de política
Iteração de política
 
Obtenção e tratamento de medições experimentais
Obtenção e tratamento de medições experimentaisObtenção e tratamento de medições experimentais
Obtenção e tratamento de medições experimentais
 
Ajuste de Curvas - @professorenan
Ajuste de Curvas - @professorenanAjuste de Curvas - @professorenan
Ajuste de Curvas - @professorenan
 
sistema.ppt
sistema.pptsistema.ppt
sistema.ppt
 
Calculo Integral - Conceito de primitiva e técnicas de primitivação
Calculo Integral - Conceito de primitiva e técnicas de primitivaçãoCalculo Integral - Conceito de primitiva e técnicas de primitivação
Calculo Integral - Conceito de primitiva e técnicas de primitivação
 
03 tópico 2 - regressão multipla
03   tópico 2 - regressão multipla03   tópico 2 - regressão multipla
03 tópico 2 - regressão multipla
 
Distribuição normal
Distribuição normalDistribuição normal
Distribuição normal
 
Implementação Currículo - módulo4 - Matrizes/Nºs Complexos
Implementação Currículo - módulo4 - Matrizes/Nºs ComplexosImplementação Currículo - módulo4 - Matrizes/Nºs Complexos
Implementação Currículo - módulo4 - Matrizes/Nºs Complexos
 
Implementação currículo- Módulo IV-Matrizes/Determinantes/Nºs Complexos
Implementação currículo- Módulo IV-Matrizes/Determinantes/Nºs ComplexosImplementação currículo- Módulo IV-Matrizes/Determinantes/Nºs Complexos
Implementação currículo- Módulo IV-Matrizes/Determinantes/Nºs Complexos
 
02 tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA
02   tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA02   tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA
02 tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA
 
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
02   tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA02   tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
 
Tópico 4 regressão linear simples 02
Tópico 4   regressão linear simples 02Tópico 4   regressão linear simples 02
Tópico 4 regressão linear simples 02
 

Estimadores: propriedades, métodos e robustez

  • 1. TEORIA DE ESTIMAÇÃO MANUEL RAMÓN VARGAS AVILA COPPE-UFRJ ABRIL 2013
  • 2. 4.2 PROPRIEDADES DOS ESTIMADORES
  • 3. A qualidade se baseia no erro de estimação. erro de estimação se define como: 𝜃 = 𝜃 − 𝜃 Onde 𝜃 = vetor de parâmetros; 𝜃 = estimador. Idealmente -> erro = 0, mas na vida real é impossível. Por esta razão, usam-se critérios menos demandantes na estimação do erro. 1. Tendência e consistência: Tendência de um estimador = valor do estimador - verdadeiro valor do parâmetro a estimar. É desejável que um estimador seja não tendencioso ou centrado, isto é, que sua tendência seja nula. O valor esperado do estimador coincide com o parâmetro de interesse isto se mostra: Introdução
  • 4. 1. Tendência e consistência E 𝜃 = 𝐸 𝜃 − 𝐸 𝜃 = 0 E 𝜃 = 𝐸[𝜃] Esta definição se aplica para parâmetros aleatórios. Em caso contrário aplica-se 𝐸 𝜃|𝜃 = 𝜃 Vício: 𝑏 = 𝐸[𝜃] o b = 𝐸 𝜃|𝜃
  • 5. 1. Tendência e consistência Consistência: um estimador é consistente se, na medida em que o tamanho da amostra aumenta seu valor esperado, converge para o parâmetro de interesse e se a variância converge a zero. lim 𝑛→∞ 𝐸 𝜃 = 𝜃 lim 𝑛→∞ 𝑉𝑎𝑟(𝜃) = 0 Exemplo 4.3 Em efeito, si uma amostra X=(X1,X2,...,Xn)t provem de una população de média μ, isto é: para qualquer i=1...n A média aritmética é igual a:
  • 6. 1. Tendência e consistência Por exemplo, caso se deseje estimar a média de uma população, a média aritmética da amostra é um estimador não viciado da mesma, já que o seu valor esperado é igual à média da população. Agora ao calcular sua variância 𝐸[ 𝑋 − 𝜇 2 ] = 1 𝑁2 𝐸{ 𝑁 𝑗=1 [𝑥 𝑗 − 𝜇2 ]} = 1 𝑁2 ∗ 𝑁 ∗ 𝜎2 = 𝜎2 𝑁 Se N >> a infinito a variância se aproxima a 0.
  • 7. 2. Erro quadrático médio: Tenta-se achar aquele estimador que possua em média o menor erro de estimação. Geralmente 𝐿 𝜃 = (𝜃 − 𝜃)2 O critério de erro está definido por 𝜀 = 𝐸{ 𝐿 𝜃 } para aleatórios ou 𝜀 = 𝐸 𝐿 𝜃 𝜃} para determinísticos. 𝜀 = 𝐸{(𝜃 − 𝜃)2 } Esta se pode decompor da seguinte forma: 𝜀 = 𝐸 𝜃 − 𝜃 2 = 𝐸 𝜃2 − 2 ∗ 𝜃 ∗ 𝜃 + 𝜃2 = 𝐸 𝜃2 − 2 ∗ 𝜃 ∗ 𝐸 𝜃 + 𝜃2 𝜀 𝜃 = 𝐸 𝜃2 − 𝐸 𝜃 2 + {𝐸 𝜃 2 − 2 ∗ 𝜃 ∗ 𝐸 𝜃 + 𝜃2 } 𝜀 𝜃 = 𝑉𝑎𝑟 𝜃 + 𝑏2
  • 8. 2. Erro quadrático médio: Em termos da estimação do erro 𝜃 𝜀 𝜃 = 𝐸{ 𝜃 − 𝑏 2 } + 𝑏2 Primer termo é a variância da estimação do erro 𝜃. Por tanto o erro quadrático médio mede tanto a variância, como o vicio de um estimador 𝜃. Se o estimador é não viciado (un-biesed) o erro quadrático médio coincide com a variância do estimador. Matriz de covariância da estimação do erro -> medida útil da qualidade de um estimador. Aplica-se para medidas de erro de estimação de parâmetros individuais 𝐶 𝜃 = 𝐸 𝜃 ∗ 𝜃 𝑇 = 𝐸{ 𝜃 − 𝜃 ∗ 𝜃 − 𝜃 𝑇 } O erro quadrático médio se aplica a toda medida do erro escalar para todos os parâmetros estimados.
  • 9. 3. Eficiência Sendo dois estimadores 𝜃1e 𝜃2, não viciados para um parâmetro 𝜃, se diz que 𝜃1 é mais eficiente que 𝜃2 si 𝑉𝑎𝑟 𝜃1 < 𝑉𝑎𝑟(𝜃2). Um estimador é chamado eficiente se usa otimamente a informação contida nas medições. IMPORTANTE: existe um limite inferior para a matriz de covariância de erro de qualquer estimador baseado em medições disponíveis. Este limite está dado pelo teorema de Cramer Rao do limite inferior, o qual prove um limite inferior para um parâmetro determinístico desconhecido.
  • 10. 3. Eficiência Cramer Rao: se 𝜃 = qualquer estimador não viciado de 𝜃 baseado nos dados de medições x, então a matriz covariância de erro no estimador está delimitada inferiormente pela inversa da matriz de informação de Fisher J. 𝐸{ 𝜃 − 𝜃 ∗ 𝜃 − 𝜃 𝑇 |𝜃} ≥ 𝐽−1 Onde 𝐽 = 𝐸 𝑑 𝑑𝜃 𝑙𝑛𝑝 𝑥 𝑇 𝜃 𝑑 𝑑𝜃 𝑙𝑛𝑝 𝑥 𝑇 𝜃 𝑇 𝜃 Assume-se que 𝐽−1 existe. As derivadas parciais devem existir e ser absolutamente integráveis. O estimador deve ser não viciado para que se cumpra o teorema anterior. Não pode ser aplicado a todas as distribuições. Também pode acontecer que não exista nenhum estimador que alcance o limite inferior.
  • 11. 4. Robustez Insensibilidade a erros de medição, e aos erros na especificação dos modelos paramétricos. Quando os critérios de otimização crescem muito rápido, geralmente tem pobre robustez, porque uns poucos grandes erros individuais correspondentes aos valores atípicos nos dados podem quase exclusivamente determinar o valor do critério do erro. No caso de estimação da media, por exemplo, se pode utilizar a mediana das medições em lugar da média. Isto corresponde a utilizar o valor absoluto da função de otimização e resulta em um estimador significativamente robusto: o valor atípico não tem nenhuma influência.
  • 12. 4.3 Robustez “O estimador é um estimador robusto do parâmetro se o não cumprimento dos supostos de partida nos que se baseia a estimação (normalmente, atribuir ao população um determinado tipo de função de distribuição que, em realidade, no é a correta), não altera de maneira significativa os resultados que este proporciona.”
  • 13. 4.3 MÉTODO DOS MOMENTOS
  • 14. Método dos Momentos Este método com frequência conduz a estimadores computacionalmente simples, pero tem algumas debilidades teóricas. Vamos supor agora que há medições escalares T estatisticamente independentes ou amostras de dados x(1), x(2),….,x(T) com uma distribuição de probabilidade comum p(x|ѳ) caracterizada pelo parâmetro de vector 𝜃 = ( 𝜃1, 𝜃2, … . , 𝜃 𝑚 ) 𝑇 . 𝛼𝑗 = 𝐸 𝑥 𝑗 𝜃 = 𝑥 𝑗 𝑝 𝑥 𝜃 𝑑𝑥 ∞ −∞ , 𝑗 = 1,2, … … Onde 𝛼𝑗 é o momento no ponto j, os parâmetros 𝜃 são constantes (desconhecidas). Os momentos 𝛼𝑗 são funções dos parâmetros 𝜃.
  • 15. Método dos Momentos Por outro lado, podem-se estimar os respectivos momentos diretamente desde as medidas, isto se conhece como momento amostral: 𝑑𝑗 = 1 𝑇 [𝑥 𝑖 ] 𝑗 𝑇 𝑖=1 “A ideia básica por trás do método dos momentos é igualar os momentos teóricos 𝛼𝑗 com os estimados 𝑑𝑗 .” 𝛼𝑗 𝜃 = 𝛼𝑗 𝜃1, 𝜃2, … . , 𝜃 𝑚 = 𝑑𝑗 Se a equação anterior tem uma solução aceitável, o respectivo estimador é chamado estimador de momentos e é denotado por 𝜃 𝑀𝑀. Alternativamente se pode utilizar a teoria central dos momentos 𝜇𝑗 = 𝐸{ 𝑥 − 𝛼1 𝑗 |𝜃}
  • 16. Método dos Momentos E a respectiva estimação amostral central de momentos 𝑠𝑗 = 1 𝑇 − 1 [𝑥 𝑇 𝑖=1 𝑖 − 𝑑1] 𝑗 𝜇𝑗 𝜃1, 𝜃2, … . , 𝜃 𝑚 = 𝑠𝑗 , 𝑗 = 1,2, … , 𝑚 Exemplo 4.4 Assuma agora que x(1),x(2),….,x(T) são amostras independentes e identicamente distribuídas desde uma variável aleatória x tendo a pdf 𝑝 𝑥 𝜃 = 1 𝜃2 exp⁡[− 𝑥−𝜃1 𝜃2 ] Onde 𝜃1 < 𝑥 < ∞ y 𝜃2 > 0, desejamos estimar o vector de parâmetro 𝜃 = (𝜃1, 𝜃2) 𝑇 usando o método dos momentos.
  • 17. Método dos Momentos Para fazer isto primeiro se calculam os momentos teóricos 𝛼1 = 𝐸 𝑥 𝜃 = 𝑥 𝜃2 exp − 𝑥 − 𝜃1 𝜃2 𝑑𝑥 = ∞ 𝜃1 𝜃1 + 𝜃2 𝛼2 = 𝐸 𝑥2 𝜃 = 𝑥2 𝜃2 exp − 𝑥 − 𝜃1 𝜃2 𝑑𝑥 = ∞ 𝜃1 (𝜃1 + 𝜃2)2 + 𝜃2 2 Para obter os estimadores igualamos a 𝑑1 y 𝑑2 𝜃1 + 𝜃2 = 𝑑1 e (𝜃1 + 𝜃2)2 + 𝜃2 2 = 𝑑2 Resolvendo as duas equações: 𝜃1,𝑀𝑀 = 𝑑1 − (𝑑2 − 𝑑1 2 ) 1 2 𝜃2,𝑀𝑀 = (𝑑2 − 𝑑1 2 ) 1 2 o 𝜃2,𝑀𝑀 = −(𝑑2 − 𝑑1 2 ) 1 2 A segunda solução é rejeitada por que 𝜃2deve ser positivo.
  • 18. Método dos Momentos “Os momentos da amostra 𝑑𝑗 são estimadores consistentes dos respectivos momentos teóricos 𝛼𝑗 . De forma semelhante, os momentos centrais da amostra 𝑠𝑗 são estimadores consistentes do verdadeiro momento central 𝜇𝑗 .” Uma desvantagem é que podem ser ineficientes. Não se podem fazer afirmações sobre o vicio e a consistência das estimações dadas pelo método de momentos.
  • 19. 4.4 MÉTODO DOS MÍNIMOS QUADRADOS
  • 20. Método dos Mínimos Quadrados Método linear de mínimos quadrados: O vector de dados 𝑥 𝑇 é assumido como: 𝑥 𝑇 = 𝐻𝜃 + 𝑣 𝑇 4.35 𝜃 = vector de parâmetros, 𝑣 𝑇 = componentes são os erros de medição desconhecidos 𝑣 𝑗 , 𝑗 = 1, … , 𝑇. A matriz de observação H é assumida como conhecida. T é o número de medições e m número de parâmetros desconhecidos, assuma 𝑇 ≥ 𝑚. Adicionalmente, a matriz H tem rango máximo m. Se m=T, 𝑣 𝑇 = 0 e tem uma única solução 𝑥 𝑇 𝐻−1 = 𝜃; Se m > T tem soluções infinitas. Medições são ruidosas ou contem erros -> recomenda-se T > m. Se T > m a equação não tem solução para 𝑣 𝑇 = 0 (erros de medição 𝑣 𝑇 são desconhecidos), o que se pode fazer é escolher um estimador 𝜃 que minimize os efeitos do erro.
  • 21. Método dos Mínimos Quadrados 𝜀 𝐿𝑆 = 1 2 𝑣 𝑇 2 = 1 2 𝑥 𝑇 − 𝐻𝜃 𝑇 (𝑥 𝑇 − 𝐻𝜃) 4.36 𝜀 𝐿𝑆 tenta minimizar a medida de erro v e não diretamente a estimação do erro 𝜃 − 𝜃 Minimizando 𝜀 𝐿𝑆 com relação à 𝜃, leva à chamada equação normal para determinar a estimação de mínimos quadrados 𝜃 𝐿𝑆de 𝜃 𝐻 𝑇 𝐻 𝜃 𝐿𝑆 = 𝐻 𝑇 ∗ 𝑥 𝑇 𝜃 𝐿𝑆 = 𝐻 𝑇 ∗ 𝑥 𝑇 𝐻 𝑇 𝐻 −1 = 𝐻+ 𝑥 𝑇 4.38 Por conveniência matemática, considerando o critério de os mínimos quadrados. 𝐻+ = pseudo inversa de H (assumindo H com máximo rango m, e filas > colunas T>m) Assumindo erro médio 𝐸 𝑣 𝑇 = 0 -> estimador de mínimos quadrados é não viciado 𝐸 𝜃 𝐿𝑆 𝜃 = 𝜃
  • 22. Método dos Mínimos Quadrados Exemplo 4.5 Modelo linear para uma curva 𝑦 𝑡 = 𝑎𝑖∅𝑖(𝑡)𝑚 𝑖=1 + 𝑣(𝑡) ; ∅𝑖(𝑡), i=1,2,…,m, Assuma que estão disponíveis as medidas 𝑦 𝑡1 , 𝑦 𝑡2 , … , 𝑦 𝑡 𝑇 Fazendo analogia com a equação de 𝑥 𝑇. Onde o vector de parâmetros: 𝜃 = 𝑎1, 𝑎2, … , 𝑎 𝑚 𝑇 Vector de dados: 𝑥 𝑇 = [𝑦 𝑡1 , 𝑦 𝑡2 , … , 𝑦 𝑡 𝑇 ] 𝑇 Vector 𝑣 𝑇 = [𝑣 𝑡1 , 𝑣 𝑡2 , … , 𝑣 𝑡 𝑇 ] 𝑇 Matriz de observação: 𝐻 = ∅1(𝑡1) ∅2(𝑡1) ∅ 𝑚 (𝑡1) ∅1(𝑡2) ∅2(𝑡2) ∅ 𝑚 (𝑡2) ∅1(𝑡 𝑇) ∅2(𝑡 𝑇) ∅ 𝑚 (𝑡 𝑇) Inserindo os valores numéricos em 𝑥 𝑇 e H e computando o método dos mínimos quadrados estimar 𝑎𝑖𝐿𝑆
  • 23. Método dos Mínimos Quadrados As funções bases ∅𝑖 𝑡 são escolhidas para satisfazer as condiciones de ortogonalidade ∅𝑗 (𝑡𝑖)∅ 𝑘(𝑡𝑖) 𝑇 𝑖=1 = 1, 𝑗 = 𝑘 0, 𝑗 ≠ 𝑘 Isto representa as condições dos elementos de H, agora 𝐻 𝑇 𝐻 = 𝐼. Isto simplifica a equação a 𝜃 𝐿𝑆 = 𝐻 𝑇 ∗ 𝑥 𝑇 . Escrevendo esta equação para cada componente de 𝜃 𝐿𝑆 é obtida uma estimação mínima quadrada do parâmetro 𝑎𝑖 𝑎𝑖,𝐿𝑠 = ∅𝑖 𝑡𝑗 𝑦 𝑡𝑗 , 𝑖 = 1, … , 𝑚 𝑇 𝑗=1
  • 24. Método dos Mínimos Quadrados Estimadores de mínimos quadrados não lineais y generalizados Mínimos quadrados generalizados: os mínimos quadrados pode ser generalizado + ao critério 4.36 uma matriz de ponderação W, simétrica e positiva. 𝜀 𝑊𝐿𝑆 = 𝑥 𝑇 − 𝐻𝜃 𝑇 𝑊(𝑥 𝑇 − 𝐻𝜃). W = inversa da matriz pela covariância 𝑊 = 𝐶𝑣 −1 Generalizando 𝜃 𝑊𝐿𝑆 = 𝐻 𝑇 𝐶𝑣 −1 𝑥 𝑇 𝐻 𝑇 𝐶𝑣 −1 𝐻 −1 (4.46) Estimador gauss-markov ou o melhor estimador linear no viciado (BLUE) . Note que 4.46 reduz a solução norma dos mínimos quadrados 4.38 se 𝐶𝑣 = 𝜎2 𝐼. Aplica quando a medida do erro v(j) tem média igual a zero e é mutuamente independente e identicamente distribuída com a variância 𝜎2 ou também se não temos um conhecimento prévio da matriz de covariância 𝐶𝑣.
  • 25. Método dos Mínimos Quadrados Mínimos quadrados não lineares: 4.35 não é adequada para descrever a dependência entre 𝜃 y as medidas 𝑥 𝑇. Por conseguinte, considera-se o seguinte modelo não linear: 𝑥 𝑇 = 𝑓 𝜃 + 𝑣 𝑇 Onde f é um vector de valores não linear. Cada componente 𝑓𝑖(𝜃) de 𝑓 𝜃 é assumido como uma função escalar conhecida pelos componentes de 𝜃. O critério 𝜀 𝑁𝑊𝐿𝑆 é definido como : 𝜀 𝑁𝐿𝑆 = 𝑣 𝑇 2 = 𝑣(𝑗)2 𝑗 -> 𝜀 𝑁𝐿𝑆 = [𝑥 𝑇 − 𝑓 𝜃 ] 𝑇 [𝑥 𝑇 − 𝑓 𝜃 ] Estimadores de mínimos quadrados não lineais y generalizados O estimador não linear de mínimos quadrados 𝜃 𝑁𝐿𝑆 é o valor de 𝜃 que minimiza 𝜀 𝑁𝐿𝑆. Estes problemas não se podem solucionar analiticamente, então deve-se usar métodos numéricos iterativos para encontrar o mínimo.
  • 26. 4.5 MÉTODO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)
  • 27. Método de máxima verosimilitud (likelihood) O estimador de máxima verosimilitud (ML) assume que os parâmetros desconhecidos 𝜃 são constantes ou não há informação previa disponível sobre eles. O estimador ML tem muitas propriedades de optimização assintóticas que fazem que seja uma opção desejável especialmente quando o número de amostras é grande. O estimador de máxima verosimilitud 𝜃 𝑀𝐿 do parâmetro de vector 𝜃 é selecionado para ser o valor que maximize a função de verosimilitud 𝑝 𝑥 𝑇 𝜃 = 𝑝(𝑥 1 , 𝑥 2 , … , 𝑥 𝑇 |𝜃) das medidas x(1),x(2),…,x(T). Devido a que muitas funções de densidade contem uma função exponencial, é mais conveniente tratar com o log pela função de verosimilitud ln⁡𝑝(𝑥 𝑇|𝜃).
  • 28. Método de máxima verosimilitud (likelihood) Equação de verosimilitud: 𝛿 𝛿𝜃 ln 𝑝 𝑥 𝑇 𝜃 | 𝜃=𝜃 𝑀𝐿 = 0 4.50. Solução=> estimador de máxima verosimilitud A equação entrega os valores de 𝜃 que maximizam (ou minimizam) a função de verosimilitud. Se a função é complexa, são obtidos muitos máximos y mínimos locais, se deve escolher o valor 𝜃 𝑀𝐿 que corresponde ao máximo absoluto. Geralmente o método ML se aplica a observações x estatisticamente independentes. Logo, a função de verosimilitud é igual a: 𝑝 𝑥 𝑇 𝜃 = 𝑝(𝑥 𝑗 |𝜃) 𝑇 𝑗=1 Observe que tomando o logaritmo, o produto se desacopla na suma dos logaritmos ln 𝑝(𝑥(𝑗)|𝜃)𝑗
  • 29. Método de máxima verosimilitud (likelihood) Na prática, a carga computacional pode ser proibitiva -> usar aproximações para simplificar as equações de verosimilitud o de alguns métodos de estimação subótimos. Exemplo 4.6: Assumir T observações independentes x(1),…,x(T) de uma variável escalar aleatória x com distribuição gaussiana com média µ e variância 𝜎2 . Usando a função de verosimilitud pode ser escrita: 𝑝 𝑥 𝑇 𝜇, 𝜎2 = 2𝜋𝜎2 −𝑇 2exp⁡(− 1 2𝜎2 𝑥 𝑗 − 𝜇 2 ) 𝑇 𝑗=1 Ou, ln 𝑝 𝑥 𝑇 𝜇, 𝜎2 = ln 2𝜋𝜎2 −𝑇 2exp⁡(− 1 2𝜎2 𝑥 𝑗 − 𝜇 2 )𝑇 𝑗=1 ln 𝑝 𝑥 𝑇 𝜇, 𝜎2 = − 𝑇 2 ln 2𝜋𝜎2 − 1 2𝜎2 𝑥 𝑗 − 𝜇 2 𝑇 𝑗 =1 Ao derivar a função o primeiro termo é zero por que não depende de 𝜇 𝛿 𝛿𝜇 ln 𝑝 𝑥 𝑇 𝜇 𝑀𝐿, 𝜎2 𝑀𝐿 = 1 𝜎2 𝑀𝐿 𝑥 𝑗 − 𝜇 𝑀𝐿 𝑇 𝑗=1 = 0
  • 30. Método de máxima verosimilitud (likelihood) 𝑥 𝑗𝑇 𝑗=1 − 𝑇𝜇 𝑀𝐿 = 0 ; 𝜇 𝑀𝐿 = 1 𝑇 𝑥 𝑗𝑇 𝑗=1 Para calcular 𝜎2 𝑀𝐿 ln 𝑝 𝑥 𝑇 𝜇, 𝜎2 = − 𝑇 2 ln 2𝜋 − 𝑇 2 ln 𝜎2 − 1 2𝜎2 𝑥 𝑗 − 𝜇 2 𝑇 𝑗=1 Resolvendo a derivada o primeiro termo é 0 𝛿 𝛿𝜎2 ln 𝑝 𝑥 𝑇 𝜇 𝑀𝐿, 𝜎2 𝑀𝐿 = − 𝑇 2𝜎2 𝑀𝐿 + 1 2 1 𝜎2 𝑀𝐿 2 𝑥 𝑗 − 𝜇 2 𝑇 𝑗=1 = 0 Assim, 𝜎2 𝑀𝐿 = 1 𝑇 𝑥 𝑗 − 𝜇 2𝑇 𝑗=1 Este último é um estimador viciado pela variância 𝜎2 (assintoticamente não viciado por ser pequeno), enquanto que a média amostral 𝜇 𝑀𝐿 é um estimador não viciado pela média 𝜇.
  • 31. Método de máxima verosimilitud (likelihood) Propriedades do estimador de máxima verosimilitud: 1. Se existe um estimador que satisfaz o limite inferior Cramer-Rao como uma igualdade, este se pode determinar utilizando o método de máxima verosimilitud. 2. O estimador de máxima verosimilitud 𝜃 𝑀𝐿é consistente. 3. O estimador de máxima verosimilitud é assintoticamente eficiente. Isto significa que se alcança assintóticamente o limite inferior de Cramer-Rao para a estimação do erro
  • 32. Método de máxima verosimilitud (likelihood) Exemplo 4.7: Determinar o limite inferior de Cramer-Rao para a média 𝜇 de una variável aleatória Gaussiana a derivada do log de a função de verosimilitud foi determinada anteriormente 𝛿 𝛿𝜇 ln 𝑝 𝑥 𝑇 𝜇, 𝜎2 = 1 𝜎2 𝑥 𝑗 − 𝜇 𝑇 𝑗 =1 Calculamos a informação Fisher Considerando x(j) como independentes
  • 33. Método de máxima verosimilitud (likelihood) Partindo de 𝐸{ 𝜃 − 𝜃 |𝜃} ≥ 𝐼−1 O limite inferior de Cramer-Rao para o erro quadrado médio de qualquer estimador não viciado 𝜇 pela média de densidade gausiana é: 𝐸 𝜇 − 𝜇 𝜇 ≥ 𝐼−1 = 𝜎2 𝑇 A média amostral satisfaz a desigualdade de Cramer-Rao e é um estimador eficiente para medições gaussianas independentes.
  • 34. Método de máxima verosimilitud (likelihood) O algoritmo de máxima expectativa (EM) permite o tratamento de problemas complexos de máxima verosimilitud que tem vários parâmetros e funções de alta não linearidade. A desvantagem do EM é que pode permanecer travado em um máximo local ou sofrer de problemas de singularidade. Em contexto com métodos ICA o algoritmo EM tem sido utilizado para estimar densidades desconhecidas de fontes de sinales. O algoritmo EM (Expectation Maximization) começa adivinhando os parâmetros das distribuições e os usa para calcular as probabilidades de que cada objeto pertença a um cluster e usa essas probabilidades para calcular de novo os parâmetros das probabilidades, até convergir. O cálculo das probabilidades é a parte de expectation. A etapa de calcular os valores dos parâmetros das distribuições, é maximization.
  • 36. Estimação Bayesiana Os métodos anteriores assumem 𝜃 = constantes determinísticas. Neste método 𝜃 é assumido como um valor aleatório. Esta aleatoriedade é modelada usando a função de densidade de probabilidade previa 𝑝 𝜃 (𝜃), esta se assume como conhecida. Na prática não há nenhuma informação importante do parâmetro, mas pode assumir alguma forma útil da densidade previa. A essência é a densidade posterior 𝑝 𝜃|𝑥(𝜃|𝑥 𝑇) dos parâmetros 𝜃 conhecendo os dados 𝑥 𝑇, basicamente a densidade posterior contem toda a informação relevante dos parâmetros 𝜽. Para escolher um parâmetro de estimação especifico 𝜃 se pode realizar mediante dos métodos critério de erro quadrático médio ou escolher o máximo da densidade posterior.
  • 37. Estimação Bayesiana Estimador de erro quadrático médio mínimo para parâmetros aleatórios 𝜃 𝑀𝑆𝐸 é selecionado minimizando 𝜀 𝑀𝑆𝐸 = 𝐸 𝜃 − 𝜃 2 com respeito ao estimador 𝜃. Teorema 4.2: Assumir que os parâmetros 𝜃 e as observações 𝑥 𝑇 tem um conjunto de função de densidade de probabilidade 𝑝 𝜃,𝑥(𝜃, 𝑥 𝑇) . 𝜃 𝑀𝑆𝐸 = 𝐸 𝜃|𝑥 𝑇 4.67 𝜀 𝑀𝑆𝐸 pode ser calculado em 2 etapas. Primeiro o valor esperado é avaliado só com respeito a 𝜃, e depois respeito à medição do vector x: 𝜀 𝑀𝑆𝐸 = 𝐸 𝜃 − 𝜃 2 = 𝐸𝑥 𝐸 𝜃 − 𝜃 2 |𝑥 𝑇 𝐸 𝜃 − 𝜃 2 |𝑥 𝑇 = 𝜃 𝑇 𝜃 − 2𝜃 𝑇 𝐸 𝜃|𝑥 𝑇 + 𝐸 𝜃 𝑇 𝜃|𝑥 𝑇
  • 38. Estimação Bayesiana Estimador de erro quadrático médio mínimo para parâmetros aleatórios Observando que 𝜃 é uma função das observações 𝑥 𝑇, de modo que ele pode ser tratado como um vector não aleatório quando se calcula o valor esperado condicional. Derivando a equação anterior em relação a 𝜃 o resultado é 2𝜃 𝑀𝑆𝐸 − 2𝐸 𝜃|𝑥 𝑇 = 0 𝜃 𝑀𝑆𝐸 = 𝐸 𝜃|𝑥 𝑇 𝐸{𝜃 𝑀𝑆𝐸 } = 𝐸𝑥 𝐸 𝜃|𝑥 𝑇 = 𝐸{𝜃} Este resultado é válido para todas as distribuições nas quais o conjunto de distribuição 𝑝 𝜃|𝑥(𝜃|𝑥) existe, e mantém-se inalterada se uma matriz de ponderação é adicionada ao critério.
  • 39. Estimação Bayesiana Estimador de erro quadrático médio mínimo para parâmetros aleatórios Na prática este cálculo é difícil de fazer devido a que só se conhece o se assume a distribuição previa 𝑝 𝜃 (𝜃) e a distribuição condicional das observações 𝑝 𝑥|𝜃 (𝑥|𝜃) dado el parâmetro 𝜃. Na construção do estimador ótimo 4.67, primeiro se calculaa a densidade posterior de Bayes: 𝑝 𝜃|𝑥 𝜃 𝑥 = 𝑝 𝑥|𝜃 (𝑥 𝑇|𝜃)𝑝 𝜃 (𝜃) 𝑝 𝑥 (𝑥 𝑇) 4.71 Onde 𝑝𝑥 𝑥 𝑇 = 𝑝 𝑥|𝜃 𝑥 𝑇 𝜃 𝑝 𝜃 𝜃 𝑑𝜃 ∞ −∞ 4.72 Só em casos especiais pode-se obter analiticamente o valor de 4.67, por exemplo, se o estimador 𝜃 é restringido a ser uma função linear dos dados 𝜃 = 𝐿𝑥 𝑇 e quando o conjunto de densidade de probabilidade é gaussiana.
  • 40. Estimação Bayesiana Filtro Wiener Considere o seguimento de um problema de filtro linear. 𝑧 = [𝑧1, 𝑧2, … , 𝑧 𝑚 ] 𝑇 𝑤 = [𝑤1, 𝑤2, … , 𝑤 𝑚 ] 𝑇 Um vector de peso m-dimensional com pesos ajustáveis 𝑤𝑖, 𝑖 = 1, … , 𝑚 operando linearmente em z, a saída do filtro é: 𝑦 = 𝑤 𝑇 𝑧 No filtro Wiener, a meta é determinar o filtro linear que minimize o erro quadrático médio.
  • 41. Estimação Bayesiana Filtro Wiener 𝜀 𝑀𝑆𝐸 = 𝐸 𝑦 − 𝑑 2 Entre a resposta desejada d e a saída Y do filtro. Calculando: 𝜀 𝑀𝑆𝐸 = 𝐸 𝑤 𝑇 𝑧 − 𝑑 2 = 𝑤 𝑇 𝐸 𝑧𝑧 𝑇 𝑤 − 2𝑤 𝑇 𝐸{𝑧𝑑} + 𝐸{𝑑2 } 𝜀 𝑀𝑆𝐸 = 𝑤 𝑇 𝑅𝑧 𝑤 − 2𝑤 𝑇 𝑟𝑧𝑑 + 𝐸{𝑑2 } Rz é a matriz de correlação de dados e 𝑟𝑧𝑑 é o vector correlação cruz entre o vector dados z e a resposta desejada d. Minimizando o erro quadrático médio com relação a w provê a solução ideal do filtro Wiener 𝑤 𝑀𝑆𝐸 = 𝑅 𝑧 −1 𝑟𝑧𝑑 . El filtro Wiener é usualmente calculado diretamente resolvendo a equação linear. 𝑅 𝑧 𝑤 𝑀𝑆𝐸 = 𝑟𝑧𝑑 Na prática 𝑅 𝑧 e 𝑟𝑧𝑑 são desconhecidos.
  • 42. Estimação Bayesiana Estimador Máximo a posteriori (MAP) O estimador MAP 𝜃 𝑀𝐴𝑃 é definido como o valor do parâmetro do vector 𝜃 que maximiza a densidade posterior 𝑝 𝜃|𝑥(𝜃|𝑥 𝑇) de 𝜃dadas las medidas 𝑥 𝑇. O estimador MAP pode ser interpretado como o valor mais provável do vector de parâmetro 𝜃para los dados disponíveis 𝑥 𝑇. Partindo de 4.72 como não depende do parâmetro 𝜃 e normalizando 4.71 𝑝 𝜃|𝑥 𝜃 𝑥 = 𝑝 𝑥|𝜃 (𝑥 𝑇|𝜃)𝑝 𝜃 (𝜃) Para encontrar o estimador MAP é suficiente com encontrar o valor de 𝜃 que maximiza 4.71. O estimador MAP 𝜃 𝑀𝐴𝑃se pode encontrar resolvendo a equação logarítmica de verosimilitud 𝛿 𝛿𝜃 ln 𝑝(𝜃, 𝑥 𝑇) = 𝛿 𝛿𝜃 ln 𝑝( 𝑥 𝑇 𝜃 + 𝛿 𝛿𝜃 ln 𝑝(𝜃) = 0
  • 43. Estimação Bayesiana Se a densidade 𝑝 𝜃 é uniforme para valores de 𝜃 para os quais 𝑝(𝑥 𝑇|𝜃) é >0, aqui o MAP e o estimador de máxima verosimilitud são os mesmos. Isto acontece quando não se dispõe de informação preliminar dos parâmetros 𝜃. Quando a densidade preliminar é não uniforme, o estimador MAP e o ML são diferentes. Exemplo 4.8 Assuma que tem T observações independentes x(1),…,x(T), sendo x uma quantidade escalar aleatória com distribuição guassiana, tendo por média 𝜇 𝑥 e variância 𝜎2 𝑥. O 𝜇 𝑥 é uma variável aleatória gaussiana com média igual a zero e variância 𝜎2 𝜇 . Se assume que as variâncias são conhecidas. Da equação de verosimilitud para estimadores MAP : 𝜇 𝑀𝐴𝑃 = 𝜎2 𝜇 𝜎2 𝑥 + 𝑇𝜎2 𝜇 𝑥(𝑗) 𝑇 𝑗=1 Para o caso onde não se tem informação preliminar de 𝜇 se pode modelar 𝜎2 𝜇 tendendo a infinito, refletindo a incerteza de 𝜇
  • 44. Estimação Bayesiana 𝜇 𝑀𝐴𝑃 = 1 𝑇 𝑥(𝑗) 𝑇 𝑗=1 O estimador MAP tende à média amostral, coincidindo com o ML. Se T tende a infinito se obtêm o mesmo resultado, isto demostra que a influencia da informação preliminar decresce com o aumento das medições. Se 𝜎2 𝑥 ≫ 𝜎2 𝜇 , o numero de amostras T cresceria muito até que o MAP se aproxime ao valor limite. Em caso contrario o MAP convergiria rapidamente. O método de MAP tem vantagem sobre o método de ML devido a que considera a informação previa dos parâmetros, porém é computacionalmente mais difícil de determinar devido a um segundo termo que aparece na equação de probabilidade. Por outra parte, tanto o ML e o MAP se obtêm das equações de probabilidade, evitando as integrações geralmente difíceis necessárias no cálculo da média mínima do estimador quadrado. O MAP apresenta bons resultados na prática.