5. 反復再重み付け最小二乗(iterative reweighted least squares
method)
・目的値と予測値の誤差と基底関数ベクトルの積
・線形回帰モデルにおける二乗和誤差の勾配の式と同じ
3.1.1 最尤推定と最小二乗
1
1
2
1
1
1
ln | , , ln | ,
1
2
ln | , ,
3.15
N
n n D
n
N
D n n
n
N
n n n
n
p N t E
E t
p t
T
T
T
T T
ML
t x w w φ w
w w φ
t x w w φ φ
w Φ Φ Φ t
→シグモイド関数の非線形性により(3.15)のように最尤解を解析的に導出できない
24. モデルの比較とBIC
( ) ( | ) ( )p D p D p d
Z ( )f
( | ) ( )
( | )
( )
p D P
p D
p D
( )f MAPのモードはより
1
( ) exp ( ) ( )
2
MAP MAP MAPf d
T
A;
2
1 2
2
( )
M
MAPf
A
1
ln ( ) ln ( | ) ln ( ) ln(2 ) ln
2 2
MAP MAP
M
p D p D p A;
Occam係数(ペナルティ項)
ln ( | ) ( ) ln ( | )MAP MAP MAPp D P p D Aヘッセ行列 :
対数尤度
25. モデルの比較とBIC
0( ) ( | , ),P m VN を仮定
1
0ln ( )p
V
ln ( | )MAPp D H とすると
1
0ln ( | ) ln ( )MAP MAPp D P
A H V H;
1
0
V 0;
1
0 0
1 1 1
ln ( ) ln ( | ) ln ln
2 2 2
MAP MAP MAPp D p D
T
m V m V H;
データ点が独立同分布から生成されると仮定(非退化)
1
ln ( | ) ln ( | )
N
n
n
p D p D
1
1
ln ( | ) ln ( | )
N
MAP n MAP
n
p D N p D
N
nH
1
ˆ
N
n
n
N N
H H H
ˆ ˆ ˆln ln ln ln lnM
N N M N H H H Hが正則だと仮定するとH
26. ベイズ情報量規準(Bayeisan Information Criterion, BIC)
M : パラメータ数 N : データ
数
ln ( | )MLp D M AICでは を最大化
・長所
・短所
評価が簡単
多くのパラメータが「well-determined」でないために,ヘッセ行列が正則
という仮定が多くの場合妥当でない
ニューラルネットワークの枠組みで,もっと精度良くモデルエビデンスを推定可能