3. A qualidade se baseia no erro de estimação.
erro de estimação se define como: 𝜃 = 𝜃 − 𝜃
Onde 𝜃 = vetor de parâmetros; 𝜃 = estimador.
Idealmente -> erro = 0, mas na vida real é impossível. Por esta razão,
usam-se critérios menos demandantes na estimação do erro.
1. Tendência e consistência: Tendência de um estimador = valor do
estimador - verdadeiro valor do parâmetro a estimar.
É desejável que um estimador seja não tendencioso ou centrado, isto é,
que sua tendência seja nula. O valor esperado do estimador coincide com
o parâmetro de interesse isto se mostra:
Introdução
4. 1. Tendência e consistência
E 𝜃 = 𝐸 𝜃 − 𝐸 𝜃 = 0
E 𝜃 = 𝐸[𝜃]
Esta definição se aplica para parâmetros aleatórios. Em caso contrário
aplica-se
𝐸 𝜃|𝜃 = 𝜃
Vício: 𝑏 = 𝐸[𝜃] o b = 𝐸 𝜃|𝜃
5. 1. Tendência e consistência
Consistência: um estimador é consistente se, na medida em que o tamanho da
amostra aumenta seu valor esperado, converge para o parâmetro de interesse e se
a variância converge a zero.
lim
𝑛→∞
𝐸 𝜃 = 𝜃
lim
𝑛→∞
𝑉𝑎𝑟(𝜃) = 0
Exemplo 4.3
Em efeito, si uma amostra X=(X1,X2,...,Xn)t
provem de una população de
média μ, isto é:
para qualquer i=1...n
A média aritmética é igual a:
6. 1. Tendência e consistência
Por exemplo, caso se deseje estimar a média de uma população, a média
aritmética da amostra é um estimador não viciado da mesma, já que o seu
valor esperado é igual à média da população.
Agora ao calcular sua variância
𝐸[ 𝑋 − 𝜇 2
] =
1
𝑁2
𝐸{
𝑁
𝑗=1
[𝑥 𝑗 − 𝜇2
]} =
1
𝑁2
∗ 𝑁 ∗ 𝜎2
=
𝜎2
𝑁
Se N >> a infinito a variância se aproxima a 0.
7. 2. Erro quadrático médio:
Tenta-se achar aquele estimador que possua em média o menor erro
de estimação.
Geralmente 𝐿 𝜃 = (𝜃 − 𝜃)2
O critério de erro está definido por 𝜀 = 𝐸{ 𝐿 𝜃 } para aleatórios ou
𝜀 = 𝐸 𝐿 𝜃 𝜃} para determinísticos.
𝜀 = 𝐸{(𝜃 − 𝜃)2
}
Esta se pode decompor da seguinte forma:
𝜀 = 𝐸 𝜃 − 𝜃
2
= 𝐸 𝜃2
− 2 ∗ 𝜃 ∗ 𝜃 + 𝜃2
= 𝐸 𝜃2
− 2 ∗ 𝜃 ∗ 𝐸 𝜃 + 𝜃2
𝜀 𝜃 = 𝐸 𝜃2
− 𝐸 𝜃
2
+ {𝐸 𝜃
2
− 2 ∗ 𝜃 ∗ 𝐸 𝜃 + 𝜃2
}
𝜀 𝜃 = 𝑉𝑎𝑟 𝜃 + 𝑏2
8. 2. Erro quadrático médio:
Em termos da estimação do erro 𝜃
𝜀 𝜃 = 𝐸{ 𝜃 − 𝑏
2
} + 𝑏2
Primer termo é a variância da estimação do erro 𝜃. Por tanto o erro
quadrático médio mede tanto a variância, como o vicio de um estimador
𝜃. Se o estimador é não viciado (un-biesed) o erro quadrático médio
coincide com a variância do estimador.
Matriz de covariância da estimação do erro -> medida útil da qualidade de um
estimador. Aplica-se para medidas de erro de estimação de parâmetros individuais
𝐶 𝜃 = 𝐸 𝜃 ∗ 𝜃 𝑇
= 𝐸{ 𝜃 − 𝜃 ∗ 𝜃 − 𝜃
𝑇
}
O erro quadrático médio se aplica a toda medida do erro escalar para todos os
parâmetros estimados.
9. 3. Eficiência
Sendo dois estimadores 𝜃1e 𝜃2, não viciados para um parâmetro 𝜃, se
diz que 𝜃1 é mais eficiente que 𝜃2 si 𝑉𝑎𝑟 𝜃1 < 𝑉𝑎𝑟(𝜃2).
Um estimador é chamado eficiente se usa otimamente a informação
contida nas medições.
IMPORTANTE: existe um limite inferior para a matriz de covariância de
erro de qualquer estimador baseado em medições disponíveis.
Este limite está dado pelo teorema de Cramer Rao do limite inferior, o
qual prove um limite inferior para um parâmetro determinístico
desconhecido.
10. 3. Eficiência
Cramer Rao: se 𝜃 = qualquer estimador não viciado de 𝜃 baseado nos
dados de medições x, então a matriz covariância de erro no estimador
está delimitada inferiormente pela inversa da matriz de informação de
Fisher J.
𝐸{ 𝜃 − 𝜃 ∗ 𝜃 − 𝜃
𝑇
|𝜃} ≥ 𝐽−1
Onde 𝐽 = 𝐸
𝑑
𝑑𝜃
𝑙𝑛𝑝 𝑥 𝑇 𝜃
𝑑
𝑑𝜃
𝑙𝑛𝑝 𝑥 𝑇 𝜃
𝑇
𝜃
Assume-se que 𝐽−1
existe. As derivadas parciais devem existir e ser
absolutamente integráveis.
O estimador deve ser não viciado para que se cumpra o teorema
anterior.
Não pode ser aplicado a todas as distribuições.
Também pode acontecer que não exista nenhum estimador que
alcance o limite inferior.
11. 4. Robustez
Insensibilidade a erros de medição, e aos erros na especificação dos
modelos paramétricos.
Quando os critérios de otimização crescem muito rápido, geralmente
tem pobre robustez, porque uns poucos grandes erros individuais
correspondentes aos valores atípicos nos dados podem quase
exclusivamente determinar o valor do critério do erro. No caso de
estimação da media, por exemplo, se pode utilizar a mediana das
medições em lugar da média. Isto corresponde a utilizar o valor
absoluto da função de otimização e resulta em um estimador
significativamente robusto: o valor atípico não tem nenhuma
influência.
12. 4.3 Robustez
“O estimador é um estimador robusto do parâmetro se o não
cumprimento dos supostos de partida nos que se baseia a estimação
(normalmente, atribuir ao população um determinado tipo de função
de distribuição que, em realidade, no é a correta), não altera de
maneira significativa os resultados que este proporciona.”
14. Método dos Momentos
Este método com frequência conduz a estimadores
computacionalmente simples, pero tem algumas debilidades teóricas.
Vamos supor agora que há medições escalares T estatisticamente
independentes ou amostras de dados x(1), x(2),….,x(T) com uma
distribuição de probabilidade comum p(x|ѳ) caracterizada pelo
parâmetro de vector 𝜃 = ( 𝜃1, 𝜃2, … . , 𝜃 𝑚 ) 𝑇
.
𝛼𝑗 = 𝐸 𝑥 𝑗
𝜃 = 𝑥 𝑗
𝑝 𝑥 𝜃 𝑑𝑥
∞
−∞
, 𝑗 = 1,2, … …
Onde 𝛼𝑗 é o momento no ponto j, os parâmetros 𝜃 são constantes
(desconhecidas). Os momentos 𝛼𝑗 são funções dos parâmetros 𝜃.
15. Método dos Momentos
Por outro lado, podem-se estimar os respectivos momentos diretamente
desde as medidas, isto se conhece como momento amostral:
𝑑𝑗 =
1
𝑇
[𝑥 𝑖 ] 𝑗
𝑇
𝑖=1
“A ideia básica por trás do método dos momentos é igualar os momentos
teóricos 𝛼𝑗 com os estimados 𝑑𝑗 .”
𝛼𝑗 𝜃 = 𝛼𝑗 𝜃1, 𝜃2, … . , 𝜃 𝑚 = 𝑑𝑗
Se a equação anterior tem uma solução aceitável, o respectivo estimador
é chamado estimador de momentos e é denotado por 𝜃 𝑀𝑀.
Alternativamente se pode utilizar a teoria central dos momentos
𝜇𝑗 = 𝐸{ 𝑥 − 𝛼1
𝑗
|𝜃}
16. Método dos Momentos
E a respectiva estimação amostral central de momentos
𝑠𝑗 =
1
𝑇 − 1
[𝑥
𝑇
𝑖=1
𝑖 − 𝑑1] 𝑗
𝜇𝑗 𝜃1, 𝜃2, … . , 𝜃 𝑚 = 𝑠𝑗 , 𝑗 = 1,2, … , 𝑚
Exemplo 4.4
Assuma agora que x(1),x(2),….,x(T) são amostras independentes e
identicamente distribuídas desde uma variável aleatória x tendo a pdf
𝑝 𝑥 𝜃 =
1
𝜃2
exp[−
𝑥−𝜃1
𝜃2
]
Onde 𝜃1 < 𝑥 < ∞ y 𝜃2 > 0, desejamos estimar o vector de parâmetro
𝜃 = (𝜃1, 𝜃2) 𝑇
usando o método dos momentos.
17. Método dos Momentos
Para fazer isto primeiro se calculam os momentos teóricos
𝛼1 = 𝐸 𝑥 𝜃 =
𝑥
𝜃2
exp −
𝑥 − 𝜃1
𝜃2
𝑑𝑥 =
∞
𝜃1
𝜃1 + 𝜃2
𝛼2 = 𝐸 𝑥2
𝜃 =
𝑥2
𝜃2
exp −
𝑥 − 𝜃1
𝜃2
𝑑𝑥 =
∞
𝜃1
(𝜃1 + 𝜃2)2
+ 𝜃2
2
Para obter os estimadores igualamos a 𝑑1 y 𝑑2
𝜃1 + 𝜃2 = 𝑑1 e (𝜃1 + 𝜃2)2
+ 𝜃2
2
= 𝑑2
Resolvendo as duas equações:
𝜃1,𝑀𝑀 = 𝑑1 − (𝑑2 − 𝑑1
2
)
1
2
𝜃2,𝑀𝑀 = (𝑑2 − 𝑑1
2
)
1
2 o 𝜃2,𝑀𝑀 = −(𝑑2 − 𝑑1
2
)
1
2
A segunda solução é rejeitada por que 𝜃2deve ser positivo.
18. Método dos Momentos
“Os momentos da amostra 𝑑𝑗 são estimadores consistentes dos
respectivos momentos teóricos 𝛼𝑗 . De forma semelhante, os momentos
centrais da amostra 𝑠𝑗 são estimadores consistentes do verdadeiro
momento central 𝜇𝑗 .”
Uma desvantagem é que podem ser ineficientes. Não se podem fazer
afirmações sobre o vicio e a consistência das estimações dadas pelo
método de momentos.
20. Método dos Mínimos Quadrados
Método linear de mínimos quadrados:
O vector de dados 𝑥 𝑇 é assumido como: 𝑥 𝑇 = 𝐻𝜃 + 𝑣 𝑇 4.35
𝜃 = vector de parâmetros, 𝑣 𝑇 = componentes são os erros de medição
desconhecidos 𝑣 𝑗 , 𝑗 = 1, … , 𝑇. A matriz de observação H é assumida
como conhecida. T é o número de medições e m número de parâmetros
desconhecidos, assuma 𝑇 ≥ 𝑚. Adicionalmente, a matriz H tem rango
máximo m.
Se m=T, 𝑣 𝑇 = 0 e tem uma única solução 𝑥 𝑇 𝐻−1
= 𝜃;
Se m > T tem soluções infinitas.
Medições são ruidosas ou contem erros -> recomenda-se T > m.
Se T > m a equação não tem solução para 𝑣 𝑇 = 0 (erros de medição 𝑣 𝑇
são desconhecidos), o que se pode fazer é escolher um estimador 𝜃 que
minimize os efeitos do erro.
21. Método dos Mínimos Quadrados
𝜀 𝐿𝑆 =
1
2
𝑣 𝑇
2
=
1
2
𝑥 𝑇 − 𝐻𝜃 𝑇
(𝑥 𝑇 − 𝐻𝜃) 4.36
𝜀 𝐿𝑆 tenta minimizar a medida de erro v e não diretamente a estimação do
erro 𝜃 − 𝜃
Minimizando 𝜀 𝐿𝑆 com relação à 𝜃, leva à chamada equação normal para
determinar a estimação de mínimos quadrados 𝜃 𝐿𝑆de 𝜃
𝐻 𝑇
𝐻 𝜃 𝐿𝑆 = 𝐻 𝑇
∗ 𝑥 𝑇
𝜃 𝐿𝑆 = 𝐻 𝑇
∗ 𝑥 𝑇 𝐻 𝑇
𝐻 −1
= 𝐻+
𝑥 𝑇 4.38
Por conveniência matemática, considerando o critério de os mínimos
quadrados.
𝐻+
= pseudo inversa de H
(assumindo H com máximo rango m,
e filas > colunas T>m)
Assumindo erro médio 𝐸 𝑣 𝑇 = 0 -> estimador de mínimos quadrados é
não viciado 𝐸 𝜃 𝐿𝑆 𝜃 = 𝜃
22. Método dos Mínimos Quadrados
Exemplo 4.5
Modelo linear para uma curva 𝑦 𝑡 = 𝑎𝑖∅𝑖(𝑡)𝑚
𝑖=1 + 𝑣(𝑡) ;
∅𝑖(𝑡), i=1,2,…,m,
Assuma que estão disponíveis as medidas 𝑦 𝑡1 , 𝑦 𝑡2 , … , 𝑦 𝑡 𝑇
Fazendo analogia com a equação de 𝑥 𝑇.
Onde o vector de parâmetros: 𝜃 = 𝑎1, 𝑎2, … , 𝑎 𝑚
𝑇
Vector de dados: 𝑥 𝑇 = [𝑦 𝑡1 , 𝑦 𝑡2 , … , 𝑦 𝑡 𝑇 ] 𝑇
Vector 𝑣 𝑇 = [𝑣 𝑡1 , 𝑣 𝑡2 , … , 𝑣 𝑡 𝑇 ] 𝑇
Matriz de observação: 𝐻 =
∅1(𝑡1) ∅2(𝑡1) ∅ 𝑚 (𝑡1)
∅1(𝑡2) ∅2(𝑡2) ∅ 𝑚 (𝑡2)
∅1(𝑡 𝑇) ∅2(𝑡 𝑇) ∅ 𝑚 (𝑡 𝑇)
Inserindo os valores numéricos em 𝑥 𝑇 e H e computando o método dos
mínimos quadrados estimar 𝑎𝑖𝐿𝑆
23. Método dos Mínimos Quadrados
As funções bases ∅𝑖 𝑡 são escolhidas para satisfazer as condiciones de
ortogonalidade
∅𝑗 (𝑡𝑖)∅ 𝑘(𝑡𝑖)
𝑇
𝑖=1
=
1, 𝑗 = 𝑘
0, 𝑗 ≠ 𝑘
Isto representa as condições dos elementos de H, agora 𝐻 𝑇
𝐻 = 𝐼. Isto
simplifica a equação a 𝜃 𝐿𝑆 = 𝐻 𝑇
∗ 𝑥 𝑇 . Escrevendo esta equação para
cada componente de 𝜃 𝐿𝑆 é obtida uma estimação mínima quadrada do
parâmetro 𝑎𝑖
𝑎𝑖,𝐿𝑠 = ∅𝑖 𝑡𝑗 𝑦 𝑡𝑗 , 𝑖 = 1, … , 𝑚
𝑇
𝑗=1
24. Método dos Mínimos Quadrados
Estimadores de mínimos quadrados não lineais y generalizados
Mínimos quadrados generalizados: os mínimos quadrados pode ser
generalizado + ao critério 4.36 uma matriz de ponderação W, simétrica e
positiva.
𝜀 𝑊𝐿𝑆 = 𝑥 𝑇 − 𝐻𝜃 𝑇
𝑊(𝑥 𝑇 − 𝐻𝜃). W = inversa da matriz pela covariância
𝑊 = 𝐶𝑣
−1
Generalizando 𝜃 𝑊𝐿𝑆 = 𝐻 𝑇
𝐶𝑣
−1
𝑥 𝑇 𝐻 𝑇
𝐶𝑣
−1
𝐻
−1
(4.46) Estimador
gauss-markov ou o melhor estimador linear no viciado (BLUE) .
Note que 4.46 reduz a solução norma dos mínimos quadrados 4.38 se
𝐶𝑣 = 𝜎2
𝐼.
Aplica quando a medida do erro v(j) tem média igual a zero e é
mutuamente independente e identicamente distribuída com a variância
𝜎2
ou também se não temos um conhecimento prévio da matriz de
covariância 𝐶𝑣.
25. Método dos Mínimos Quadrados
Mínimos quadrados não lineares: 4.35 não é adequada para descrever a
dependência entre 𝜃 y as medidas 𝑥 𝑇. Por conseguinte, considera-se o
seguinte modelo não linear: 𝑥 𝑇 = 𝑓 𝜃 + 𝑣 𝑇
Onde f é um vector de valores não linear. Cada componente 𝑓𝑖(𝜃) de 𝑓 𝜃
é assumido como uma função escalar conhecida pelos componentes de 𝜃.
O critério 𝜀 𝑁𝑊𝐿𝑆 é definido como :
𝜀 𝑁𝐿𝑆 = 𝑣 𝑇
2
= 𝑣(𝑗)2
𝑗 -> 𝜀 𝑁𝐿𝑆 = [𝑥 𝑇 − 𝑓 𝜃 ] 𝑇
[𝑥 𝑇 − 𝑓 𝜃 ]
Estimadores de mínimos quadrados não lineais y generalizados
O estimador não linear de mínimos quadrados 𝜃 𝑁𝐿𝑆 é o valor de 𝜃 que
minimiza 𝜀 𝑁𝐿𝑆. Estes problemas não se podem solucionar analiticamente,
então deve-se usar métodos numéricos iterativos para encontrar o
mínimo.
27. Método de máxima verosimilitud (likelihood)
O estimador de máxima verosimilitud (ML) assume que os parâmetros
desconhecidos 𝜃 são constantes ou não há informação previa disponível
sobre eles. O estimador ML tem muitas propriedades de optimização
assintóticas que fazem que seja uma opção desejável especialmente
quando o número de amostras é grande.
O estimador de máxima verosimilitud 𝜃 𝑀𝐿 do parâmetro de vector 𝜃 é
selecionado para ser o valor que maximize a função de verosimilitud
𝑝 𝑥 𝑇 𝜃 = 𝑝(𝑥 1 , 𝑥 2 , … , 𝑥 𝑇 |𝜃) das medidas x(1),x(2),…,x(T).
Devido a que muitas funções de densidade contem uma função
exponencial, é mais conveniente tratar com o log pela função de
verosimilitud ln𝑝(𝑥 𝑇|𝜃).
28. Método de máxima verosimilitud (likelihood)
Equação de verosimilitud:
𝛿
𝛿𝜃
ln 𝑝 𝑥 𝑇 𝜃 | 𝜃=𝜃 𝑀𝐿
= 0 4.50.
Solução=> estimador de máxima verosimilitud
A equação entrega os valores de 𝜃 que maximizam (ou minimizam) a
função de verosimilitud. Se a função é complexa, são obtidos muitos
máximos y mínimos locais, se deve escolher o valor 𝜃 𝑀𝐿 que corresponde
ao máximo absoluto.
Geralmente o método ML se aplica a observações x estatisticamente
independentes. Logo, a função de verosimilitud é igual a:
𝑝 𝑥 𝑇 𝜃 = 𝑝(𝑥 𝑗 |𝜃)
𝑇
𝑗=1
Observe que tomando o logaritmo, o produto se desacopla na suma dos
logaritmos ln 𝑝(𝑥(𝑗)|𝜃)𝑗
29. Método de máxima verosimilitud (likelihood)
Na prática, a carga computacional pode ser proibitiva -> usar
aproximações para simplificar as equações de verosimilitud o de alguns
métodos de estimação subótimos.
Exemplo 4.6: Assumir T observações independentes x(1),…,x(T) de uma
variável escalar aleatória x com distribuição gaussiana com média µ e
variância 𝜎2
. Usando a função de verosimilitud pode ser escrita:
𝑝 𝑥 𝑇 𝜇, 𝜎2
= 2𝜋𝜎2 −𝑇
2exp(−
1
2𝜎2
𝑥 𝑗 − 𝜇 2
)
𝑇
𝑗=1
Ou, ln 𝑝 𝑥 𝑇 𝜇, 𝜎2
= ln 2𝜋𝜎2 −𝑇
2exp(−
1
2𝜎2 𝑥 𝑗 − 𝜇 2
)𝑇
𝑗=1
ln 𝑝 𝑥 𝑇 𝜇, 𝜎2
= −
𝑇
2
ln 2𝜋𝜎2
−
1
2𝜎2
𝑥 𝑗 − 𝜇 2
𝑇
𝑗 =1
Ao derivar a função o primeiro termo é zero por que não depende de 𝜇
𝛿
𝛿𝜇
ln 𝑝 𝑥 𝑇 𝜇 𝑀𝐿, 𝜎2
𝑀𝐿 =
1
𝜎2
𝑀𝐿
𝑥 𝑗 − 𝜇 𝑀𝐿
𝑇
𝑗=1
= 0
30. Método de máxima verosimilitud (likelihood)
𝑥 𝑗𝑇
𝑗=1 − 𝑇𝜇 𝑀𝐿 = 0 ; 𝜇 𝑀𝐿 =
1
𝑇
𝑥 𝑗𝑇
𝑗=1
Para calcular 𝜎2
𝑀𝐿
ln 𝑝 𝑥 𝑇 𝜇, 𝜎2
= −
𝑇
2
ln 2𝜋 −
𝑇
2
ln 𝜎2
−
1
2𝜎2
𝑥 𝑗 − 𝜇 2
𝑇
𝑗=1
Resolvendo a derivada o primeiro termo é 0
𝛿
𝛿𝜎2
ln 𝑝 𝑥 𝑇 𝜇 𝑀𝐿, 𝜎2
𝑀𝐿 = −
𝑇
2𝜎2
𝑀𝐿
+
1
2
1
𝜎2
𝑀𝐿
2
𝑥 𝑗 − 𝜇 2
𝑇
𝑗=1
= 0
Assim, 𝜎2
𝑀𝐿 =
1
𝑇
𝑥 𝑗 − 𝜇 2𝑇
𝑗=1
Este último é um estimador viciado pela variância 𝜎2
(assintoticamente
não viciado por ser pequeno), enquanto que a média amostral 𝜇 𝑀𝐿 é um
estimador não viciado pela média 𝜇.
31. Método de máxima verosimilitud (likelihood)
Propriedades do estimador de máxima verosimilitud:
1. Se existe um estimador que satisfaz o limite inferior Cramer-Rao
como uma igualdade, este se pode determinar utilizando o método
de máxima verosimilitud.
2. O estimador de máxima verosimilitud 𝜃 𝑀𝐿é consistente.
3. O estimador de máxima verosimilitud é assintoticamente eficiente.
Isto significa que se alcança assintóticamente o limite inferior de
Cramer-Rao para a estimação do erro
32. Método de máxima verosimilitud (likelihood)
Exemplo 4.7:
Determinar o limite inferior de Cramer-Rao para a média 𝜇 de una variável
aleatória Gaussiana a derivada do log de a função de verosimilitud foi
determinada anteriormente
𝛿
𝛿𝜇
ln 𝑝 𝑥 𝑇 𝜇, 𝜎2
=
1
𝜎2
𝑥 𝑗 − 𝜇
𝑇
𝑗 =1
Calculamos a informação Fisher
Considerando x(j) como independentes
33. Método de máxima verosimilitud (likelihood)
Partindo de 𝐸{ 𝜃 − 𝜃 |𝜃} ≥ 𝐼−1
O limite inferior de Cramer-Rao para o erro quadrado médio de qualquer
estimador não viciado 𝜇 pela média de densidade gausiana é:
𝐸 𝜇 − 𝜇 𝜇 ≥ 𝐼−1
=
𝜎2
𝑇
A média amostral satisfaz a desigualdade de Cramer-Rao e é um
estimador eficiente para medições gaussianas independentes.
34. Método de máxima verosimilitud (likelihood)
O algoritmo de máxima expectativa (EM) permite o tratamento de
problemas complexos de máxima verosimilitud que tem vários
parâmetros e funções de alta não linearidade.
A desvantagem do EM é que pode permanecer travado em um máximo
local ou sofrer de problemas de singularidade. Em contexto com métodos
ICA o algoritmo EM tem sido utilizado para estimar densidades
desconhecidas de fontes de sinales.
O algoritmo EM (Expectation Maximization) começa adivinhando os
parâmetros das distribuições e os usa para calcular as probabilidades de
que cada objeto pertença a um cluster e usa essas probabilidades para
calcular de novo os parâmetros das probabilidades, até convergir. O
cálculo das probabilidades é a parte de expectation. A etapa de calcular os
valores dos parâmetros das distribuições, é maximization.
36. Estimação Bayesiana
Os métodos anteriores assumem 𝜃 = constantes determinísticas. Neste
método 𝜃 é assumido como um valor aleatório. Esta aleatoriedade é
modelada usando a função de densidade de probabilidade previa 𝑝 𝜃 (𝜃),
esta se assume como conhecida. Na prática não há nenhuma informação
importante do parâmetro, mas pode assumir alguma forma útil da
densidade previa.
A essência é a densidade posterior 𝑝 𝜃|𝑥(𝜃|𝑥 𝑇) dos parâmetros 𝜃
conhecendo os dados 𝑥 𝑇, basicamente a densidade posterior contem
toda a informação relevante dos parâmetros 𝜽.
Para escolher um parâmetro de estimação especifico 𝜃 se pode realizar
mediante dos métodos critério de erro quadrático médio ou escolher o
máximo da densidade posterior.
37. Estimação Bayesiana
Estimador de erro quadrático médio mínimo para parâmetros
aleatórios
𝜃 𝑀𝑆𝐸 é selecionado minimizando 𝜀 𝑀𝑆𝐸 = 𝐸 𝜃 − 𝜃
2
com respeito ao
estimador 𝜃.
Teorema 4.2:
Assumir que os parâmetros 𝜃 e as observações 𝑥 𝑇 tem um conjunto de
função de densidade de probabilidade 𝑝 𝜃,𝑥(𝜃, 𝑥 𝑇) .
𝜃 𝑀𝑆𝐸 = 𝐸 𝜃|𝑥 𝑇 4.67
𝜀 𝑀𝑆𝐸 pode ser calculado em 2 etapas. Primeiro o valor esperado é avaliado
só com respeito a 𝜃, e depois respeito à medição do vector x:
𝜀 𝑀𝑆𝐸 = 𝐸 𝜃 − 𝜃
2
= 𝐸𝑥 𝐸 𝜃 − 𝜃
2
|𝑥 𝑇
𝐸 𝜃 − 𝜃
2
|𝑥 𝑇 = 𝜃 𝑇
𝜃 − 2𝜃 𝑇
𝐸 𝜃|𝑥 𝑇 + 𝐸 𝜃 𝑇
𝜃|𝑥 𝑇
38. Estimação Bayesiana
Estimador de erro quadrático médio mínimo para parâmetros
aleatórios
Observando que 𝜃 é uma função das observações 𝑥 𝑇, de modo que ele
pode ser tratado como um vector não aleatório quando se calcula o valor
esperado condicional. Derivando a equação anterior em relação a 𝜃 o
resultado é
2𝜃 𝑀𝑆𝐸 − 2𝐸 𝜃|𝑥 𝑇 = 0
𝜃 𝑀𝑆𝐸 = 𝐸 𝜃|𝑥 𝑇
𝐸{𝜃 𝑀𝑆𝐸 } = 𝐸𝑥 𝐸 𝜃|𝑥 𝑇 = 𝐸{𝜃}
Este resultado é válido para todas as distribuições nas quais o conjunto de
distribuição 𝑝 𝜃|𝑥(𝜃|𝑥) existe, e mantém-se inalterada se uma matriz de
ponderação é adicionada ao critério.
39. Estimação Bayesiana
Estimador de erro quadrático médio mínimo para parâmetros
aleatórios
Na prática este cálculo é difícil de fazer devido a que só se conhece o se
assume a distribuição previa 𝑝 𝜃 (𝜃) e a distribuição condicional das
observações 𝑝 𝑥|𝜃 (𝑥|𝜃) dado el parâmetro 𝜃.
Na construção do estimador ótimo 4.67, primeiro se calculaa a densidade
posterior de Bayes: 𝑝 𝜃|𝑥 𝜃 𝑥 =
𝑝 𝑥|𝜃 (𝑥 𝑇|𝜃)𝑝 𝜃 (𝜃)
𝑝 𝑥 (𝑥 𝑇)
4.71
Onde 𝑝𝑥 𝑥 𝑇 = 𝑝 𝑥|𝜃 𝑥 𝑇 𝜃 𝑝 𝜃 𝜃 𝑑𝜃
∞
−∞
4.72
Só em casos especiais pode-se obter analiticamente o valor de 4.67, por
exemplo, se o estimador 𝜃 é restringido a ser uma função linear dos dados
𝜃 = 𝐿𝑥 𝑇 e quando o conjunto de densidade de probabilidade é gaussiana.
40. Estimação Bayesiana
Filtro Wiener
Considere o seguimento de um problema de filtro linear.
𝑧 = [𝑧1, 𝑧2, … , 𝑧 𝑚 ] 𝑇
𝑤 = [𝑤1, 𝑤2, … , 𝑤 𝑚 ] 𝑇
Um vector de peso m-dimensional com pesos ajustáveis 𝑤𝑖, 𝑖 = 1, … , 𝑚
operando linearmente em z, a saída do filtro é:
𝑦 = 𝑤 𝑇
𝑧
No filtro Wiener, a meta é determinar o filtro linear que minimize o erro
quadrático médio.
41. Estimação Bayesiana
Filtro Wiener
𝜀 𝑀𝑆𝐸 = 𝐸 𝑦 − 𝑑 2
Entre a resposta desejada d e a saída Y do filtro. Calculando:
𝜀 𝑀𝑆𝐸 = 𝐸 𝑤 𝑇
𝑧 − 𝑑 2
= 𝑤 𝑇
𝐸 𝑧𝑧 𝑇
𝑤 − 2𝑤 𝑇
𝐸{𝑧𝑑} + 𝐸{𝑑2
}
𝜀 𝑀𝑆𝐸 = 𝑤 𝑇
𝑅𝑧 𝑤 − 2𝑤 𝑇
𝑟𝑧𝑑 + 𝐸{𝑑2
}
Rz é a matriz de correlação de dados e 𝑟𝑧𝑑 é o vector correlação cruz entre
o vector dados z e a resposta desejada d. Minimizando o erro quadrático
médio com relação a w provê a solução ideal do filtro Wiener 𝑤 𝑀𝑆𝐸 =
𝑅 𝑧
−1
𝑟𝑧𝑑 . El filtro Wiener é usualmente calculado diretamente resolvendo
a equação linear.
𝑅 𝑧 𝑤 𝑀𝑆𝐸 = 𝑟𝑧𝑑
Na prática 𝑅 𝑧 e 𝑟𝑧𝑑 são desconhecidos.
42. Estimação Bayesiana
Estimador Máximo a posteriori (MAP)
O estimador MAP 𝜃 𝑀𝐴𝑃 é definido como o valor do parâmetro do vector 𝜃
que maximiza a densidade posterior 𝑝 𝜃|𝑥(𝜃|𝑥 𝑇) de 𝜃dadas las medidas
𝑥 𝑇. O estimador MAP pode ser interpretado como o valor mais provável
do vector de parâmetro 𝜃para los dados disponíveis 𝑥 𝑇. Partindo de 4.72
como não depende do parâmetro 𝜃 e normalizando 4.71
𝑝 𝜃|𝑥 𝜃 𝑥 = 𝑝 𝑥|𝜃 (𝑥 𝑇|𝜃)𝑝 𝜃 (𝜃)
Para encontrar o estimador MAP é suficiente com encontrar o valor de
𝜃 que maximiza 4.71. O estimador MAP 𝜃 𝑀𝐴𝑃se pode encontrar
resolvendo a equação logarítmica de verosimilitud
𝛿
𝛿𝜃
ln 𝑝(𝜃, 𝑥 𝑇) =
𝛿
𝛿𝜃
ln 𝑝( 𝑥 𝑇 𝜃 +
𝛿
𝛿𝜃
ln 𝑝(𝜃) = 0
43. Estimação Bayesiana
Se a densidade 𝑝 𝜃 é uniforme para valores de 𝜃 para os quais 𝑝(𝑥 𝑇|𝜃)
é >0, aqui o MAP e o estimador de máxima verosimilitud são os mesmos.
Isto acontece quando não se dispõe de informação preliminar dos
parâmetros 𝜃. Quando a densidade preliminar é não uniforme, o
estimador MAP e o ML são diferentes.
Exemplo 4.8
Assuma que tem T observações independentes x(1),…,x(T), sendo x uma
quantidade escalar aleatória com distribuição guassiana, tendo por média
𝜇 𝑥 e variância 𝜎2
𝑥. O 𝜇 𝑥 é uma variável aleatória gaussiana com média
igual a zero e variância 𝜎2
𝜇 . Se assume que as variâncias são conhecidas.
Da equação de verosimilitud para estimadores MAP :
𝜇 𝑀𝐴𝑃 =
𝜎2
𝜇
𝜎2
𝑥 + 𝑇𝜎2
𝜇
𝑥(𝑗)
𝑇
𝑗=1
Para o caso onde não se tem informação preliminar de 𝜇 se pode modelar
𝜎2
𝜇 tendendo a infinito, refletindo a incerteza de 𝜇
44. Estimação Bayesiana
𝜇 𝑀𝐴𝑃 =
1
𝑇
𝑥(𝑗)
𝑇
𝑗=1
O estimador MAP tende à média amostral, coincidindo com o ML. Se T
tende a infinito se obtêm o mesmo resultado, isto demostra que a
influencia da informação preliminar decresce com o aumento das
medições.
Se 𝜎2
𝑥 ≫ 𝜎2
𝜇 , o numero de amostras T cresceria muito até que o MAP se
aproxime ao valor limite. Em caso contrario o MAP convergiria
rapidamente.
O método de MAP tem vantagem sobre o método de ML devido a que
considera a informação previa dos parâmetros, porém é
computacionalmente mais difícil de determinar devido a um segundo
termo que aparece na equação de probabilidade. Por outra parte, tanto o
ML e o MAP se obtêm das equações de probabilidade, evitando as
integrações geralmente difíceis necessárias no cálculo da média mínima
do estimador quadrado. O MAP apresenta bons resultados na prática.