SlideShare una empresa de Scribd logo
1 de 27
Descargar para leer sin conexión
PRML3.5 
エビデンス近似 
Yuki
3.5 エビデンス近似 
3.5 エビデンス近似 
• 線形基底関数を完全にベイズ的に捉えたい。 
• 超パラメータに対して事前分布を導入する 
• 解析的にパラメータすべてを周辺化することは難しい 
• パラメータ  w 
だけに関して積分して得られた周辺尤度を最大化するような 
• パラメータ ↵ , " を決める二段階の近似法 
• αとβは事後分布がMAPの周りで尖ってるとしαとβのMAPで近似 
• MAPは最尤推定で近似するwについてベイズ推定 
a,bについてMAP推定
エビデンス近似 
3.5 エビデンス近似 
p(t|w,) = N(t|y(x,w),1) 
p(w|t,↵,) = N(w|mN, SN) 
mN = SNT t 
S1 
N = ↵I + T 
p(t|t) = 
ZZZ 
p(t|w,!)p(w|t,↵,!)p(↵, !|t)dwd↵d! 
・予測分布 
・パラメータ ↵ , を固定する 
p(t|t) ' p(t|t, ˆ↵, ˆ ) = 
' ↵↵ 
Z 
p(t|w, ˆ )p(w|t, ˆ↵, ˆ )dw. 
・ベイズ定理より超パラメータの事後分布 
p(↵, |t) / p(t|↵, )p(↵, ) 
(3.8) 
(3.49) 
(3.53) 
(3.54) 
・モデルの事後分布 
p(Mi|D) / p(D|Mi)p(Mi) (3.66)
エビデンス近似 
3.5.1 エビデンス関数の評価 
p(↵, |t) / p(t|↵, )p(↵, ) 
・周辺尤度を最大にするパラメータを求める 
p(t|↵, ) = 
Z 
p(t|w,)p(w|↵)dw 
・ 
p(t|w,!) = 
NY 
n=1 
N(tn|wT (xn),!) 
p(w|↵) = N(w|0,↵1I) 
p(w|↵) = 
⇣ ↵ 
2⇡ 
⌘M/2 
ED(w) = 
exp 
n 
 
1 
2 
1 
2 
XN 
n=1 
{tn  wT (xn)}2 
wT (↵1I)1w 
o 
p(t|↵, ) = 
✓ 
 
2⇡ 
◆N/2✓ 
↵ 
2⇡ 
◆M/2 Z 
exp 
$ 
 E(w) 
dw 
E(w) = !ED(w) + ↵EW(w) 
= 
! 
2 kt − wk2 + 
↵ 
2 
wTw 
EW(w) = 
1 
2 
wTw 
・ex3.17 
・ 
・モデルエビデンス 
(3.10) 
(3.52) 
•周辺尤度関数 
p(a,b)を平坦と仮定する。 
p(t|w,!) = 
⇣ ! 
2⇡ 
⌘N/2 
exp{!ED(w)}
エビデンス近似 
3.5.1 エビデンス関数の評価 
ex.3.18 
A = ↵I + T 
mN = A1T t 
AとAの逆行列を第二項に掛ける 
同じ値を足して引く 
平方完成 
E(w) = 
! 
2 kt − wk2 + 
↵ 
2 
wTw (3.79) 
1 
2 
XN 
n=1 
{tn  wT !(xn)}2 + 
 
2 
wTw (3.27)
エビデンス近似 
3.5.1 エビデンス関数の評価 
ex.3.18つづき 
1 
2 
(tT t mT 
NAmN) 
前頁の第一項 
= 
1 
2 
(tT t  2mT 
NAmN +mT 
NAmN) 
A = ↵I + T 
mN = A1T t 
= 
1 
2 
NAA1T t! +mT 
N(↵I + !T)mN) 
(!tT t  2mT 
= 
1 
2 
(!tT t  2mT 
NT t! + !mT 
NTmN + ↵mT 
NmN) 
= 
1 
2 
!(t  mN)T (t  mN) + ↵mT 
NmN 
= 
! 
2 kt − mNk2 + 
↵ 
2 
mT 
NmN 
E(w) = E(mN) + 
1 
2 
(w mN)TA(w mN) 
足して引く 
と 展開 
mN A 
平方完成 
= E(mN)
エビデンス近似 
3.5.1 エビデンス関数の評価 
ex.3.19 
= exp{E(mN)} 
Z 
exp 
n 
 
1 
2 
(w mN)TA(w mN) 
o 
= exp{E(mN)}(2⇡)M/2|A|1/2 
dw 
Z 
exp{E(w)}dw 
ln p(t|↵, ) = 
M 
2 
ln ↵ + 
N 
2 
ln   E(mN)  
1 
2 
ln |A| 
N 
2 
ln(2⇡) 
p(t|↵, ) = 
✓ 
 
2⇡ 
◆N/2✓ 
↵ 
2⇡ 
◆M/2 Z 
exp 
$ 
 E(w) 
dw 
・対数エビデンス関数 
(3.86)
エビデンス近似 
3.5.1 エビデンス関数の評価 
・2.115を用いて、エビデンス関数を導出する。 
p(t|↵, ) = 
ex.3.16 
Z 
p(t|w,)p(w|↵)dw 
p(t|w,!) = 
NY 
n=1 
N(tn|wT (xn),!) 
p(w|↵) = N(w|0,↵1I) 
2,115より…周辺分布 
= N(t|0,!1I + ↵1T ) 1 
= 
1 
(2⇡)N/2 
1 
|1I + ↵1T |1/2 exp 
n 
 
1 
2 
tT (1I + ↵1T )1t 
o 
・3.10と3.52をパラメータwに関して周辺化する
エビデンス近似 
3.5.1 エビデンス関数の評価 
ex.3.16つづき 
(A + BD1C)1 = A1  A1B(D + CA1B)1CA1 
expの中身の展開 
より 
=  
1 
2 
tT 
n 
 !I + !I(↵I + !T)1T !I 
A = ↵I + T 
mN = A1T t 
o 
t 
置き換えて展開 
= 
 
2 
tT t  
2 
2 
tTA1T t 
= 
 
2 
(tT t  2tTA1T t + tTA1T t) 
= 
 
2 
(tT t  2tTA1T t) + 
1 
2 
2tTA1T t 
= 
 
2 
(tT t  2tTA1T t) + 
1 
2 
2(A1T t)TAA1T t 
= 
 
2 
(tT t  2mNt) + 
1 
2 
mT 
NAmT 
N 
= 
! 
2 
(tT t  2mNt) + 
1 
2 
mT 
N↵ImN + 
! 
2 
mT 
NTmN 
= 
! 
2 
(tT t  2mNt +mT 
NTmN) + 
1 
2 
mT 
N↵ImN 
= (t  mN)T (t  mN) + 
↵ 
2 
mT 
NmN 
/2をくくる、3項目をたす 
AA1を3項目にかける 
 
A を展開する 
因数分解? 
= E(mN) 
三項目くくりだす 
変数を置き換える 
Woodburyの公式 
(C.7)
エビデンス近似 
3.5.1 エビデンス関数の評価ex.3.16つづき 
1 
(2⇡)N/2 
1 
|1I + ↵1T |1/2 exp 
n 
 
1 
2 
tT (1I + ↵1T )1t 
o 
より 
|!1I + ↵1T | = |!1IN||IN + ↵1!T | 
= |!1IN||IM + ↵1!T| 
= |↵1IM|1IN||↵IM + T| 
= |↵1IM|1IN||A| 
ln p(t|↵, ) = 
M 
2 
ln ↵ + 
N 
2 
ln   E(mN)  
1 
2 
ln |A| 
N 
2 
ln(2⇡) 
p(t|↵, ) = 
↵M/2N/2 
2⇡N/2|A|1/2 exp(E(mN)) 
(C.14) 
・対数エビデンス関数 
|IN + ABT | = |IM + ATB| 
A = ↵I + T 
周辺尤度の対数 
(3.86)
エビデンス近似 
3.5.1 エビデンス関数の評価 
・多項式次数とモデルエビデンスの関係 
・↵ = 5⇤ 103 
多項式次元 
・データを説明できる最も簡単なモデルがM=3. 
p(D|Mi) 
ln p(t|↵, ) = 
M 
2 
ln ↵ + 
N 
2 
ln   E(mN)  
1 
2 
ln |A| 
N 
2 
ln(2⇡) 
・対数エビデンス関数周辺尤度の対数 
ln p(t|↵, )
エビデンス近似 
3.5.2 エビデンス関数の最大化 
3.5.2 流れ 
 
↵ 
 
停留点求める、しかし ↵ 
 に関して陰関数。 
停留点求める、しかし  
 に関して陰関数。 
・ 
・ 
ln p(t|↵, ) = 
M 
2 
ln ↵ + 
N 
2 
ln   E(mN)  
1 
2 
ln |A| 
N 
2 
ln(2⇡) 
・対数エビデンス関数 
• パラメータ  をを定義する 
• パラメータ  を最大化する 
• パラメータ  を最大化する 
• パラメータの推定値は繰り返しで求められる。
エビデンス近似 
3.5.2 エビデンス関数の最大化 
ln p(t|↵, ) = 
M 
2 
ln ↵ + 
N 
2 
ln   E(mN)  
1 
2 
ln |A| 
N 
2 
ln(2⇡) 
0 = 
M 
2↵  
1 
2 
mT 
NmN  
1 
2 
X 
i 
1 
i + ↵ 
d 
d↵ 
M 
2 
ln ↵ + 
↵ 
2 
mT 
NmN  
1 
2 
ln |A| = 0 
↵mT 
NmN = M  ↵ 
X 
i 
1 
i + ↵ 
 ↵ mN 
↵ ↵ 
! = 
X 
i 
i 
↵ + i 
↵ = 
 
mT 
NmN 
 の定義↵の最大化 
・↵に関する停留点⇣ 
!T 
(3.81) 
⌘ 
ui = iui 
Aの固有値↵ + i 
M = 
MX 
i 
!i + ↵ 
!i + ↵ 
ex.3.20 
とAより 
が  に依存するだけでなく事後分布のモード    自身も   
に依存するため  に関する陰関数となる 
・ 
・エビデンス関数 
A = ↵I + T 
mN = A1T t 
=  
(3.53) 
d 
d↵ 
ln |A| = 
d 
d↵ 
ln 
Y 
i 
(i + ↵) = 
d 
d↵ 
X 
ln(i + ↵) = 
X 
i 
1 
i + ↵
エビデンス近似 
3.5.2 エビデンス関数の最大化 
 の最大化 
ex.3.22 
d 
d! 
ln |A| = 
d 
d! 
X 
i 
ln(i + ↵) = 
1 
! 
X 
i 
A = ↵I + T 
mN = A1T t 
i 
i + ↵ 
= 
$ 
! 
ln p(t|↵, ) = 
M 
2 
ln ↵ + 
N 
2 
ln   E(mN)  
1 
2 
ln |A| 
N 
2 
ln(2⇡) 
0 = 
N 
2!  
1 
2 
XN 
n=1 
N(xn)}2  
{tn mT 
# 
2! 
1 
! 
= 
1 
N   
XN 
n=1 
N#(xn)}2 
{tn mT 
 に関する停留点 
陰関数 
・ 
・ 
d 
d 
N 
2 
ln   E(mN)  
1 
2 
ln |A| = 0 
= 
! 
2 kt − mNk2 + 
↵ 
2 
mT 
E(mN) NmN 
・対数エビデンス関数 
d!i 
d 
= 
!i 
 
iが に比例することに注意する 
⇣ 
!T 
⌘ 
ui = iui
エビデンス近似 
3.5.3 有効パラメータ数 
事前分布と尤度関数の等高線を描く 
固有値は尤度関数の歪み具合を表す 
は正定値行列固有値はすべて正 
! = 
X 
i 
i 
↵ + i 
↵ = 
 
mT 
NmN 
曲率が小さいと等高線がのびる 
曲率と曲率半径との関係 
T 
0  
!i 
!i + ↵  1 
0    M 
(3.91) 
⇣ 
!T 
⌘ 
ui = iui (3.87)
エビデンス近似 
3.5.3 有効パラメータ数 
well-determinedパラメータ 
固有値が大きい方向 
Hessianの固有ベクトルuiに軸をあわせるために。 
(T)尤度の精度(?)と同じ? 
•尤度関数 
固有値が小さい方向 
(T) 
(T) 
!i  ↵ 
データに強く依存 
最尤推定に近づく 
!i 
!i + ↵ は1に近い 
!i ⌧ ↵ 
パラメータの値の変化に対する 
尤度関数の感度が悪い 
事前分布に近づく 
!i 
!i + ↵ は0に近い 
事前分布 
 は有効なパラメータ数を示す。 
パラメータ空間の軸を回転させた。
エビデンス近似 
3.5.3 有効パラメータ数 
以下では μML 
を使っているため 
ある統計量を構成する変数のうち独立な物の数を、その統計量の自由度という 
2 
ML = 
分散の各偏差は独立でない 
1 
N 
XN 
n=1 
データに含まれるノイズまでフィット 
(xn  μML)2 
偏差総和が0 
不偏分散は、母分散の不偏推定量(バイアスがない推定値) 
2 
MAP = 
1 
N  1 
XN 
n=1 
(xn  μML)2 
1 
! 
= 
1 
N   
XN 
n=1 
(xn  μML)2 
バイアス補正 
バイアスを取り除くため、不偏推定量では自由度が落ちる。 
バイアスが入る 
母集団の統計量と標本の統計量が同じになる量。 
独立でない 
独立 
N  分だけ補正される 
基底関数の数が増える 次元が増える
エビデンス近似 
3.5.3 有効パラメータ数 
三角関数の人口データ集合に対する 
パラメータb 
真の値である11.1に設定する 
ln p(t|↵, ) 
交点と誤差最小点は近い 
9個のガウス基底関数 
2↵EW(mN) 
 
テスト集合に対する誤差 
ln ↵ ln ↵ 
対数エビデンスの最大値は左プロットの交点に対応している
エビデンス近似 
3.5.3 有効パラメータ数 
ガウス基底関数の10個のパラメータをプロット 
パラメータは有効パラメータ数に対して独立 
↵ = 
の大きさの変化 
は大きさを制御する 
陰的な和を含み固有値が増える 
極限的に 
すべてのパラメータが 
well_determined 
wi 
↵ 
 
mT 
NmN 
! = 
X 
i 
i 
↵ + i 
0 ↵ ∞に変化させると 
γは0からMに変化する。
エビデンス近似 
3.6 固定された基底関数の限界 
線形性により閉じたかいが求まる 
ベイズ推定が簡単 
基底関数を用いることで 
      任意の非線形変換ができた 
欠点 
データの観測前に基底関数を 
        固定する仮定 
次元の呪い 
現実的データの性質 
データは限られた非線形多様体上に分布している 
すべての次元ではなく、一部の次元に強く反応する 
利点
エビデンス近似 
e.x 3.8 ベイズ更新? 
p(w) = N(w|mN, SN) 
p(tN+1|xN+1,w) = 
✓ 
! 
2⇡ 
◆1/2 
exp 
✓ 
 
! 
2 
(tN+1  wT #N+1)2 
◆ 
p(w|tN+1, xN+1,mN, SN) 
/ exp 
✓ 
− 
1 
2 
(w −mN)TS1 
N (w −mN) − 
1 
2 
!(tN+1 − wT N+1)2 
◆ 
(w mN)TS1 
N (w mN) + !(tN+1  wT N+1)2 
= wTS1 
N w  2wS1 
N mN +!wT T 
N+1N+1w  2!wT N+1tN+1 + const 
= wT (S1 
N+1)w  2wT (S1 
N + !N+1T 
N mN + !N+1tN+1) + const 
S1 
N+1 = S1 
N + !T 
N+1N+1 
mN+1 = SN+1(S1 
N mN + !T 
N+1tN+1)
おまけ 
julia言語で実装してみた(何故かうまく行ってない気がする) 
・データ 
エビデンス関数の評価
エビデンス関数の最大化 
エビデンス関数(M) 
再推定値
エビデンス近似 
やってみた 
青、標準偏差 
、真の値 
、予測値 
水色 
赤
エビデンス近似 
ベイズ更新 
変数変換 
N(w|mN, SN) 
変数変換 
正規分布の積 
N(x|Ay + b,⌃) =  · N(y|A0x + b0,⌃0) 
⌃0 = (AT⌃−1A)−1 
A0 = (AT⌃−1A)−1AT⌃−1 
b0 = (AT⌃−1A)−1AT⌃−1b 
正規分布の積 
N(x|a,A)N(x|b,B) 
 · N(x|(A1 + B1)1(A1a + B1b), (A1 + B1)1) 
 = N(a|b,A + B) = N(b|a,A + B) 
!0−1 = (!T 
N+1N+1)−1 
!0−1 = (!T 
N+1!N+1)−1!T 
N+1 
S1 
N+1 = S1 
N + !T 
N+1N+1 
mN+1 = SN+1(S1 
N mN + !T 
N+1tN+1) 
N(tN+1|w!N+1,1) 
N(w|tN+1!N+1,1) 
定数項は消える 
N(w|mN+1, SN+1)
エビデンス近似 
  変数変換 
N(x|Ay + b,⌃) = N(y|A0x + b0,⌃0) 
N(x|Ay + b,⌃) = 1 exp 
h 
 
1 
2 
⇣ 
(x  b  Ay)T⌃1(x  b  Ay) 
⌘i 
2 exp 
h 
 
1 
2 
⇣ 
yTAT⌃1Ay  2yTAT⌃1(x  b) 
⌘i 
2(x  b)T⌃1AT (AT⌃1A)1A⌃1(x  b)) 
⌘i 
3 exp 
h 
 
1 
2 
⇣ 
yTAT⌃1Ay  2yTAT⌃1(x  b) 
3 exp 
h 
 
1 
2 
⇣ 
(y  (AT⌃1A)1A⌃1(x  b)T 
⌘ 
(AT⌃A) 
⇣ 
y(AT⌃1A)1A⌃1(x  b) 
#⌘i 
4N(y|(AT⌃1A)1A⌃1(x  b), (AT⌃1A)1)
エビデンス近似 
正規分布の積 
N(x|a,A)N(x|b,B) / N(x|(A1 + B1)1(A1a + B1b), (A1 + B1)1) 
/ exp 
h 
− 
1 
2 
(x − a)TA1(x − a) − 
1 
2 
(x − b)TB1(x − b) 
i 
/ exp 
h 
− 
1 
2 
(xT (A1 + B1)x + 2(A1a + B1b)x) 
i 
+(A1a + B1b)T (A1 + B1)1(A1a + B1b)) 
i 
=  exp 
h 
 
1 
2 
(xT (A1 + B1)x + 2(A1a + B1b)x)

Más contenido relacionado

La actualidad más candente

PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7matsuolab
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)Akihiro Nitta
 
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2Hiroyuki Kato
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論Akihiro Nitta
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)Takao Yamanaka
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布Nagayoshi Yamashita
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4Takeshi Sakaki
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論sleepy_yoshi
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5sleepy_yoshi
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半Ohsawa Goodfellow
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章Takushi Miki
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8matsuolab
 
PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28kurotaki_weblab
 
2014.01.23 prml勉強会4.2確率的生成モデル
2014.01.23 prml勉強会4.2確率的生成モデル2014.01.23 prml勉強会4.2確率的生成モデル
2014.01.23 prml勉強会4.2確率的生成モデルTakeshi Sakaki
 

La actualidad más candente (20)

Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 
Prml 2.3
Prml 2.3Prml 2.3
Prml 2.3
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
 
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
 
Prml 3 3.3
Prml 3 3.3Prml 3 3.3
Prml 3 3.3
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
 
Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
 
PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28
 
2014.01.23 prml勉強会4.2確率的生成モデル
2014.01.23 prml勉強会4.2確率的生成モデル2014.01.23 prml勉強会4.2確率的生成モデル
2014.01.23 prml勉強会4.2確率的生成モデル
 
prml4.1.3-4.1.4
prml4.1.3-4.1.4prml4.1.3-4.1.4
prml4.1.3-4.1.4
 
PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7
 

Similar a Prml3.5 エビデンス近似〜

PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰hagino 3000
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定t2tarumi
 
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...Akihiro Nitta
 
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1hirokazutanaka
 
PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現hagino 3000
 
量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析Shu Tanaka
 
ディジタル信号処理の課題解説
ディジタル信号処理の課題解説ディジタル信号処理の課題解説
ディジタル信号処理の課題解説noname409
 
確率的主成分分析
確率的主成分分析確率的主成分分析
確率的主成分分析Mika Yoshimura
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)Yukara Ikemiya
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングtakutori
 
PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布Akihiro Nitta
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化Miyoshi Yuya
 
複素ラプラス分布に基づく非負値行列因子分解
複素ラプラス分布に基づく非負値行列因子分解複素ラプラス分布に基づく非負値行列因子分解
複素ラプラス分布に基づく非負値行列因子分解Hiroki_Tanji
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1hirokazutanaka
 
ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3noname409
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎Hirotaka Hachiya
 

Similar a Prml3.5 エビデンス近似〜 (20)

PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定
 
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
 
Re revenge chap03-1
Re revenge chap03-1Re revenge chap03-1
Re revenge chap03-1
 
PRML Chapter5.2
PRML Chapter5.2PRML Chapter5.2
PRML Chapter5.2
 
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
 
PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現
 
量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析
 
ディジタル信号処理の課題解説
ディジタル信号処理の課題解説ディジタル信号処理の課題解説
ディジタル信号処理の課題解説
 
確率的主成分分析
確率的主成分分析確率的主成分分析
確率的主成分分析
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
 
複素ラプラス分布に基づく非負値行列因子分解
複素ラプラス分布に基づく非負値行列因子分解複素ラプラス分布に基づく非負値行列因子分解
複素ラプラス分布に基づく非負値行列因子分解
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3
 
Prml07
Prml07Prml07
Prml07
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
 

Prml3.5 エビデンス近似〜

  • 2. 3.5 エビデンス近似 3.5 エビデンス近似 • 線形基底関数を完全にベイズ的に捉えたい。 • 超パラメータに対して事前分布を導入する • 解析的にパラメータすべてを周辺化することは難しい • パラメータ  w だけに関して積分して得られた周辺尤度を最大化するような • パラメータ ↵ , " を決める二段階の近似法 • αとβは事後分布がMAPの周りで尖ってるとしαとβのMAPで近似 • MAPは最尤推定で近似するwについてベイズ推定 a,bについてMAP推定
  • 3. エビデンス近似 3.5 エビデンス近似 p(t|w,) = N(t|y(x,w),1) p(w|t,↵,) = N(w|mN, SN) mN = SNT t S1 N = ↵I + T p(t|t) = ZZZ p(t|w,!)p(w|t,↵,!)p(↵, !|t)dwd↵d! ・予測分布 ・パラメータ ↵ , を固定する p(t|t) ' p(t|t, ˆ↵, ˆ ) = ' ↵↵ Z p(t|w, ˆ )p(w|t, ˆ↵, ˆ )dw. ・ベイズ定理より超パラメータの事後分布 p(↵, |t) / p(t|↵, )p(↵, ) (3.8) (3.49) (3.53) (3.54) ・モデルの事後分布 p(Mi|D) / p(D|Mi)p(Mi) (3.66)
  • 4. エビデンス近似 3.5.1 エビデンス関数の評価 p(↵, |t) / p(t|↵, )p(↵, ) ・周辺尤度を最大にするパラメータを求める p(t|↵, ) = Z p(t|w,)p(w|↵)dw ・ p(t|w,!) = NY n=1 N(tn|wT (xn),!) p(w|↵) = N(w|0,↵1I) p(w|↵) = ⇣ ↵ 2⇡ ⌘M/2 ED(w) = exp n 1 2 1 2 XN n=1 {tn wT (xn)}2 wT (↵1I)1w o p(t|↵, ) = ✓ 2⇡ ◆N/2✓ ↵ 2⇡ ◆M/2 Z exp $ E(w) dw E(w) = !ED(w) + ↵EW(w) = ! 2 kt − wk2 + ↵ 2 wTw EW(w) = 1 2 wTw ・ex3.17 ・ ・モデルエビデンス (3.10) (3.52) •周辺尤度関数 p(a,b)を平坦と仮定する。 p(t|w,!) = ⇣ ! 2⇡ ⌘N/2 exp{!ED(w)}
  • 5. エビデンス近似 3.5.1 エビデンス関数の評価 ex.3.18 A = ↵I + T mN = A1T t AとAの逆行列を第二項に掛ける 同じ値を足して引く 平方完成 E(w) = ! 2 kt − wk2 + ↵ 2 wTw (3.79) 1 2 XN n=1 {tn wT !(xn)}2 + 2 wTw (3.27)
  • 6. エビデンス近似 3.5.1 エビデンス関数の評価 ex.3.18つづき 1 2 (tT t mT NAmN) 前頁の第一項 = 1 2 (tT t 2mT NAmN +mT NAmN) A = ↵I + T mN = A1T t = 1 2 NAA1T t! +mT N(↵I + !T)mN) (!tT t 2mT = 1 2 (!tT t 2mT NT t! + !mT NTmN + ↵mT NmN) = 1 2 !(t mN)T (t mN) + ↵mT NmN = ! 2 kt − mNk2 + ↵ 2 mT NmN E(w) = E(mN) + 1 2 (w mN)TA(w mN) 足して引く と 展開 mN A 平方完成 = E(mN)
  • 7. エビデンス近似 3.5.1 エビデンス関数の評価 ex.3.19 = exp{E(mN)} Z exp n 1 2 (w mN)TA(w mN) o = exp{E(mN)}(2⇡)M/2|A|1/2 dw Z exp{E(w)}dw ln p(t|↵, ) = M 2 ln ↵ + N 2 ln E(mN) 1 2 ln |A| N 2 ln(2⇡) p(t|↵, ) = ✓ 2⇡ ◆N/2✓ ↵ 2⇡ ◆M/2 Z exp $ E(w) dw ・対数エビデンス関数 (3.86)
  • 8. エビデンス近似 3.5.1 エビデンス関数の評価 ・2.115を用いて、エビデンス関数を導出する。 p(t|↵, ) = ex.3.16 Z p(t|w,)p(w|↵)dw p(t|w,!) = NY n=1 N(tn|wT (xn),!) p(w|↵) = N(w|0,↵1I) 2,115より…周辺分布 = N(t|0,!1I + ↵1T ) 1 = 1 (2⇡)N/2 1 |1I + ↵1T |1/2 exp n 1 2 tT (1I + ↵1T )1t o ・3.10と3.52をパラメータwに関して周辺化する
  • 9. エビデンス近似 3.5.1 エビデンス関数の評価 ex.3.16つづき (A + BD1C)1 = A1 A1B(D + CA1B)1CA1 expの中身の展開 より = 1 2 tT n !I + !I(↵I + !T)1T !I A = ↵I + T mN = A1T t o t 置き換えて展開 = 2 tT t 2 2 tTA1T t = 2 (tT t 2tTA1T t + tTA1T t) = 2 (tT t 2tTA1T t) + 1 2 2tTA1T t = 2 (tT t 2tTA1T t) + 1 2 2(A1T t)TAA1T t = 2 (tT t 2mNt) + 1 2 mT NAmT N = ! 2 (tT t 2mNt) + 1 2 mT N↵ImN + ! 2 mT NTmN = ! 2 (tT t 2mNt +mT NTmN) + 1 2 mT N↵ImN = (t mN)T (t mN) + ↵ 2 mT NmN /2をくくる、3項目をたす AA1を3項目にかける A を展開する 因数分解? = E(mN) 三項目くくりだす 変数を置き換える Woodburyの公式 (C.7)
  • 10. エビデンス近似 3.5.1 エビデンス関数の評価ex.3.16つづき 1 (2⇡)N/2 1 |1I + ↵1T |1/2 exp n 1 2 tT (1I + ↵1T )1t o より |!1I + ↵1T | = |!1IN||IN + ↵1!T | = |!1IN||IM + ↵1!T| = |↵1IM|1IN||↵IM + T| = |↵1IM|1IN||A| ln p(t|↵, ) = M 2 ln ↵ + N 2 ln E(mN) 1 2 ln |A| N 2 ln(2⇡) p(t|↵, ) = ↵M/2N/2 2⇡N/2|A|1/2 exp(E(mN)) (C.14) ・対数エビデンス関数 |IN + ABT | = |IM + ATB| A = ↵I + T 周辺尤度の対数 (3.86)
  • 11. エビデンス近似 3.5.1 エビデンス関数の評価 ・多項式次数とモデルエビデンスの関係 ・↵ = 5⇤ 103 多項式次元 ・データを説明できる最も簡単なモデルがM=3. p(D|Mi) ln p(t|↵, ) = M 2 ln ↵ + N 2 ln E(mN) 1 2 ln |A| N 2 ln(2⇡) ・対数エビデンス関数周辺尤度の対数 ln p(t|↵, )
  • 12. エビデンス近似 3.5.2 エビデンス関数の最大化 3.5.2 流れ ↵ 停留点求める、しかし ↵  に関して陰関数。 停留点求める、しかし  に関して陰関数。 ・ ・ ln p(t|↵, ) = M 2 ln ↵ + N 2 ln E(mN) 1 2 ln |A| N 2 ln(2⇡) ・対数エビデンス関数 • パラメータ  をを定義する • パラメータ  を最大化する • パラメータ  を最大化する • パラメータの推定値は繰り返しで求められる。
  • 13. エビデンス近似 3.5.2 エビデンス関数の最大化 ln p(t|↵, ) = M 2 ln ↵ + N 2 ln E(mN) 1 2 ln |A| N 2 ln(2⇡) 0 = M 2↵ 1 2 mT NmN 1 2 X i 1 i + ↵ d d↵ M 2 ln ↵ + ↵ 2 mT NmN 1 2 ln |A| = 0 ↵mT NmN = M ↵ X i 1 i + ↵ ↵ mN ↵ ↵ ! = X i i ↵ + i ↵ = mT NmN の定義↵の最大化 ・↵に関する停留点⇣ !T (3.81) ⌘ ui = iui Aの固有値↵ + i M = MX i !i + ↵ !i + ↵ ex.3.20 とAより が  に依存するだけでなく事後分布のモード    自身も   に依存するため  に関する陰関数となる ・ ・エビデンス関数 A = ↵I + T mN = A1T t = (3.53) d d↵ ln |A| = d d↵ ln Y i (i + ↵) = d d↵ X ln(i + ↵) = X i 1 i + ↵
  • 14. エビデンス近似 3.5.2 エビデンス関数の最大化 の最大化 ex.3.22 d d! ln |A| = d d! X i ln(i + ↵) = 1 ! X i A = ↵I + T mN = A1T t i i + ↵ = $ ! ln p(t|↵, ) = M 2 ln ↵ + N 2 ln E(mN) 1 2 ln |A| N 2 ln(2⇡) 0 = N 2! 1 2 XN n=1 N(xn)}2 {tn mT # 2! 1 ! = 1 N XN n=1 N#(xn)}2 {tn mT に関する停留点 陰関数 ・ ・ d d N 2 ln E(mN) 1 2 ln |A| = 0 = ! 2 kt − mNk2 + ↵ 2 mT E(mN) NmN ・対数エビデンス関数 d!i d = !i iが に比例することに注意する ⇣ !T ⌘ ui = iui
  • 15. エビデンス近似 3.5.3 有効パラメータ数 事前分布と尤度関数の等高線を描く 固有値は尤度関数の歪み具合を表す は正定値行列固有値はすべて正 ! = X i i ↵ + i ↵ = mT NmN 曲率が小さいと等高線がのびる 曲率と曲率半径との関係 T 0  !i !i + ↵  1 0   M (3.91) ⇣ !T ⌘ ui = iui (3.87)
  • 16. エビデンス近似 3.5.3 有効パラメータ数 well-determinedパラメータ 固有値が大きい方向 Hessianの固有ベクトルuiに軸をあわせるために。 (T)尤度の精度(?)と同じ? •尤度関数 固有値が小さい方向 (T) (T) !i ↵ データに強く依存 最尤推定に近づく !i !i + ↵ は1に近い !i ⌧ ↵ パラメータの値の変化に対する 尤度関数の感度が悪い 事前分布に近づく !i !i + ↵ は0に近い 事前分布 は有効なパラメータ数を示す。 パラメータ空間の軸を回転させた。
  • 17. エビデンス近似 3.5.3 有効パラメータ数 以下では μML を使っているため ある統計量を構成する変数のうち独立な物の数を、その統計量の自由度という 2 ML = 分散の各偏差は独立でない 1 N XN n=1 データに含まれるノイズまでフィット (xn μML)2 偏差総和が0 不偏分散は、母分散の不偏推定量(バイアスがない推定値) 2 MAP = 1 N 1 XN n=1 (xn μML)2 1 ! = 1 N XN n=1 (xn μML)2 バイアス補正 バイアスを取り除くため、不偏推定量では自由度が落ちる。 バイアスが入る 母集団の統計量と標本の統計量が同じになる量。 独立でない 独立 N 分だけ補正される 基底関数の数が増える 次元が増える
  • 18. エビデンス近似 3.5.3 有効パラメータ数 三角関数の人口データ集合に対する パラメータb 真の値である11.1に設定する ln p(t|↵, ) 交点と誤差最小点は近い 9個のガウス基底関数 2↵EW(mN) テスト集合に対する誤差 ln ↵ ln ↵ 対数エビデンスの最大値は左プロットの交点に対応している
  • 19. エビデンス近似 3.5.3 有効パラメータ数 ガウス基底関数の10個のパラメータをプロット パラメータは有効パラメータ数に対して独立 ↵ = の大きさの変化 は大きさを制御する 陰的な和を含み固有値が増える 極限的に すべてのパラメータが well_determined wi ↵ mT NmN ! = X i i ↵ + i 0 ↵ ∞に変化させると γは0からMに変化する。
  • 20. エビデンス近似 3.6 固定された基底関数の限界 線形性により閉じたかいが求まる ベイズ推定が簡単 基底関数を用いることで       任意の非線形変換ができた 欠点 データの観測前に基底関数を         固定する仮定 次元の呪い 現実的データの性質 データは限られた非線形多様体上に分布している すべての次元ではなく、一部の次元に強く反応する 利点
  • 21. エビデンス近似 e.x 3.8 ベイズ更新? p(w) = N(w|mN, SN) p(tN+1|xN+1,w) = ✓ ! 2⇡ ◆1/2 exp ✓ ! 2 (tN+1 wT #N+1)2 ◆ p(w|tN+1, xN+1,mN, SN) / exp ✓ − 1 2 (w −mN)TS1 N (w −mN) − 1 2 !(tN+1 − wT N+1)2 ◆ (w mN)TS1 N (w mN) + !(tN+1 wT N+1)2 = wTS1 N w 2wS1 N mN +!wT T N+1N+1w 2!wT N+1tN+1 + const = wT (S1 N+1)w 2wT (S1 N + !N+1T N mN + !N+1tN+1) + const S1 N+1 = S1 N + !T N+1N+1 mN+1 = SN+1(S1 N mN + !T N+1tN+1)
  • 24. エビデンス近似 やってみた 青、標準偏差 、真の値 、予測値 水色 赤
  • 25. エビデンス近似 ベイズ更新 変数変換 N(w|mN, SN) 変数変換 正規分布の積 N(x|Ay + b,⌃) =  · N(y|A0x + b0,⌃0) ⌃0 = (AT⌃−1A)−1 A0 = (AT⌃−1A)−1AT⌃−1 b0 = (AT⌃−1A)−1AT⌃−1b 正規分布の積 N(x|a,A)N(x|b,B)  · N(x|(A1 + B1)1(A1a + B1b), (A1 + B1)1)  = N(a|b,A + B) = N(b|a,A + B) !0−1 = (!T N+1N+1)−1 !0−1 = (!T N+1!N+1)−1!T N+1 S1 N+1 = S1 N + !T N+1N+1 mN+1 = SN+1(S1 N mN + !T N+1tN+1) N(tN+1|w!N+1,1) N(w|tN+1!N+1,1) 定数項は消える N(w|mN+1, SN+1)
  • 26. エビデンス近似   変数変換 N(x|Ay + b,⌃) = N(y|A0x + b0,⌃0) N(x|Ay + b,⌃) = 1 exp h 1 2 ⇣ (x b Ay)T⌃1(x b Ay) ⌘i 2 exp h 1 2 ⇣ yTAT⌃1Ay 2yTAT⌃1(x b) ⌘i 2(x b)T⌃1AT (AT⌃1A)1A⌃1(x b)) ⌘i 3 exp h 1 2 ⇣ yTAT⌃1Ay 2yTAT⌃1(x b) 3 exp h 1 2 ⇣ (y (AT⌃1A)1A⌃1(x b)T ⌘ (AT⌃A) ⇣ y(AT⌃1A)1A⌃1(x b) #⌘i 4N(y|(AT⌃1A)1A⌃1(x b), (AT⌃1A)1)
  • 27. エビデンス近似 正規分布の積 N(x|a,A)N(x|b,B) / N(x|(A1 + B1)1(A1a + B1b), (A1 + B1)1) / exp h − 1 2 (x − a)TA1(x − a) − 1 2 (x − b)TB1(x − b) i / exp h − 1 2 (xT (A1 + B1)x + 2(A1a + B1b)x) i +(A1a + B1b)T (A1 + B1)1(A1a + B1b)) i =  exp h 1 2 (xT (A1 + B1)x + 2(A1a + B1b)x)