SlideShare una empresa de Scribd logo
1 de 16
Descargar para leer sin conexión
PRML4.4-4.5
ラプラス近似∼ベイズロジスティック回帰
Yuki
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.4ラプラス近似
事後確率分布がもはやガウス分布ではないので
パラメータw上で正確に積分することができない
ベイズロジスティック回帰
ラプラス近似: :
近似する必要がある!
確率密度関数をガウス分布で近似する
まず,1変数zの場合を考え分布p(z)を仮定する
p(z) =
1
Z
f(z) Z =
Z
f(z)dz
Zの値は未知であると仮定する
ラプラス近似とは、分布p(z)のモードを中心とする
            ガウス分布による近似を見つけることである
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.4ラプラス近似
p(z)のモードを見つける
p0
(z0) = 0
dp(z)
dz z=z0
= 0
言い換えると または等価な
を満たす z0 見つけることである
ガウス分布は、対数が変数の二次の関数であるという特性を持っている
そこで、z0 を中心としたln f(z) のテーラー展開を考える
A =
d2
dz2
ln f(z)
z=z0
が分布の局所最大値であるので、テイラー展開の一次の項は現れないz0
このテイラー展開の指数を取ると
ln f(z) ⇡ ln f(z0)
1
2
A(z z0)2
f(z) ⇡ f(z0) exp
⇢
A
2
(z z0)2
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.4ラプラス近似
ガウス分布の正規化のための標準的な結果を利用すると、正規化分布 q(z)
q(z) =
✓
A
2⇡
◆1/2
exp
⇢
A
2
(z z0)2
A > 0
を得る。
ガウス分布による近似が適切に定義されるのは の場合のみである
言い換えると、定常点 が局所最大である場合で、
その点での二階微分が負となる場合である。
z0
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.4ラプラス近似
ラプラス法を拡張しM次元空間 上で定義される分布z
p(z) = f(z)/Z を近似する
同様に で対数を取りテイラー展開z0
A = rr ln f(z)|z=z0
q(z) =
|A|1/2
(2⇡)M/2
exp
⇢
1
2
(z z0)T
A(z z0) = N(z|z0, A 1
)
M Mヘッセ行列
は勾配オペレータ
両辺の指数を取る
比例している
正規化
で表される精度行列が正定値行列
定常点 が局所最大である場合にガウス分布が適切に定義される
A
z0
ln f(z) ⇡ ln f(z0)
1
2
(z z0)T
A(z z0)
f(z) ⇡ f(z0) exp
⇢
1
2
(z z0)T
A(z z0)
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.4ラプラス近似
ラプラス近似を適用する
モードz0を見つける
そのモードでヘッセ行列を評価する
モードは数値最適で求められる(Bishop and Nabney, 2008)
・現実の分布は多峰的
・中心極限定理より
 観測データが増えるほど
 ガウス分布による近似
 が良くなると期待される
・相対的にデータが多いと
 良い近似となる
・実数変数のみにしか適用できない
・ある一点における
 局面にのみ基づいてしまう
・全体的特性を捉えられない
・多峰な分布の場合どのモードを選択するか
 考慮する必要がある
欠点 利点
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.4.1モデルの比較とBIC
データの集合
パラメータモデル尤度関数 事前確率
p(✓i|Mi)p(D|✓i, Mi)
✓iMi
p(D|Mi)
D
p(D) =
Z
p(D|✓)p(✓)d✓
モデルエビデンス
=
f(✓) = p(D|✓)p(✓)
係数
Z = f(z0)
(2⇡)M/2
|A|1/2
…4.135
= Z
ln Z =
A = r2
ln p(D|✓MAP )p(✓MAP )
ex. 4.22
ln p(D) ⇡ ln p(D|✓MAP ) + ln p(✓MAP ) +
M
2
ln(2⇡)
1
2
ln |A|
| {z }
Occam
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.4.1モデルの比較とBIC
A = r2
ln p(D|✓MAP )p(✓MAP )
と仮定すると
A = H + V 1
0
ln p(✓) = ln |V| 1/2 M
2
ln(2⇡)
1
2
(✓MAP m)T
V 1
0 (✓MAP m)
係数
p(✓) = N(✓|m, V0)
ex. 4.23
V 1
0 = r2
ln p(✓MAP )
iidなデータ点が十分に大きい時V^-1を無視できる
大胆に近似しよう
事前分布が影響しない
ln p(D) ⇡ ln p(D|✓MAP ) + ln p(✓MAP ) +
M
2
ln(2⇡)
1
2
ln |A|
| {z }
Occam
ln p(D) ⇡ ln p(D|✓MAP )
1
2
ln |V0|
1
2
(✓MAP m)T
V 1
0 (✓MAP m)
1
2
ln |H + V 1
0 |
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
ln |H| の近似に焦点を当てる
H =
NX
i=1
Hi Hi = r2
ln p(Di|✓)
H はフルランク行列
ln | ˆH|
ln |H| = ln |N ˆHi| = ln(NM
| ˆH|) = M ln N + ln | ˆH|
固定された行列で近似できるとし
を得る
M = dim(✓) であり であると仮定します
すると データ数に対して独立なのでデータ数が増加すれば
無視することができます
従って
と近似できます
H =
NX
i=1
Hi = N ˆH
ln p(D) ⇡ ln p(D|ˆ✓)
1
2
M ln N
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.5 ベイズロジスティック回帰 ∼ 4.5.1 ラプラス近似
p(w) = N(w|m0, S0)
対数尤度
likelihood Prior
ln p(w|t) =
1
2
(w m0)T
S 1
0 (w m0)
yn = (wT
n)
+
NX
n=1
{tn ln yn + (1 tn) ln(1 yn)} + const
一般的にm_0=0かな?勾配
ヘッセ行列
r2
ln p(w|t) =
NX
n=1
yn(1 yn) n
T
n S 1
0
勾配とヘッセ行列を使って
数値最適化でW_MAPを探索し
ガウス分布の平均とする
ガウス分布の分散には
ヘッセ行列に-1をかけたものを用いる
ラプラス近似
p(t|w) =
NY
n=1
Bern(yn)
r ln p(w|t) =
NX
n=1
(yn tn) n S 1
0 (w m0)
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.5.2 予測分布
p(t|w) =
NY
n=1
Bern(yn) =
NY
n=1
ytn
n (1 yn)1 tn
p(w) = N(w|m0, S0)
q(w) = N(w|wMAP , SN )
事後分布(MAP推定)
についての予測分布
a = wT
=
Z ✓ Z
(a wT
)q(w)dw
◆
(a)da =
Z
p(a) (a)da
デルタ関数の性質
Z 1
1
f(x) (x µ)dx = f(µ)
C1
ガウス分布
p(C1| , t) =
Z
p(C1| , w)p(w|t)dw ⇡
Z
(wT
)q(w)dw
p(C1| , t) ⇡
Z ✓ Z
(a wT
) (a)q(w)dw
◆
da
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
p(a) =
Z
(a wT
)q(w)dw
=
✓ Z
q(w)wdw
◆T
= E[w]T
= wT
MAP
p(a)の平均
=
Z ✓ Z
(a wT
)ada
◆
q(w)dw =
Z
q(w)(wT
)dw
µa = E[a] =
Z
p(a)ada =
Z Z
(a wT
)q(w)adwda
q(w) = N(w|wMAP , SN )
  4.5.2 予測分布
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
分散
2
= var[a] =
Z
p(a){a2
E[a]2
}da
=
Z ✓
(a wT
)a2
da
◆
q(w)dw
Z ✓
(a wT
)E[a]2
da
◆
q(w)dw
=
Z
q(w)(wT
)2
dw
Z
q(w)(wT
MAP )2
dw
=
Z
q(w) T
wwT
dw
Z
q(w) T
wMAP wT
MAP dw
= T
✓ Z
q(w)(wwT
wMAP wT
MAP )dw
◆
Z
q(w)(wwT
wMAP wT
MAP )dw = E[wwT
] wMAP wT
MAP
Z
q(w)dw
= wMAP wT
MAP + SN wMAP wT
MAP = SN
2
= T
SN
p(a) =
Z
(a wT
)q(w)dw
…2.62E[xxT
] = µµT
+ ⌃
q(w) = N(w|wMAP , SN )
  4.5.2 予測分布
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
p(C1|t) =
Z
(a)p(a)da =
Z
(a)N(a|µa, 2
a)da
予測分布の変分近似は
a上での積分は、ロジスティックシグモイド関数でのガウス分布の畳み込み積分を
表しており、解析的に評価することはできない。
最も良い近似を得るために によって
を近似できるようにする
そのために、原点で2つの関数が同じ傾きを持つことを要請することにより
の適切な値を見つけることができ となる
( a)
(a)
2
= ⇡/8
シグモイド関数をプロビット関数の逆関数で近似しよう
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
Z
( a)N(a|µ, 2
)da =
✓
µ
( 2 + 2)1/2
◆
ガウス分布とプロビト関数の逆関数の畳み込み積分は以下のように表せられる
従ってシグモイド関数に対する近似は
Z
(a)N(a|µ, 2
)da ⇡ (( 2
)µ)
( 2
) = (1 + ⇡ 2
/8) 1/2
p(C1| , t) = (( 2
a)µa)
で与えられ
予測分布は
µa = wT
MAP
2
a = T
SN
S 1
N = S 1
0 +
NX
n=1
yn(1 yn) n
T
n
  4.5.2 予測分布
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
変数変換使って導出 ex.4.24
ex. 4.25
(a) =
Z a
1
N(✓|0, 1)d✓
(a) =
1
1 + exp( a)
二つの微分がa=0で等しいように を選ぶ
@ (a)
@a a=0
= (0)(1 (0) =
1
2
✓
1
1
2
◆
=
1
4
( a) =
Z a
1
1
Z
exp(
1
2
x2
)dx
0
( a) =
1
Z
exp
⇢
1
2
( a)2
Z =
Z 1
1
exp
⇢
1
2
( a)2
da
=
=
p
⇡/8
@ ( a)
@ a a=0
= p
2x
N(w|wMAP , SN ) N(a|wT
MAP , T
SN )
a = T
w d
dx
Z x
a
f(t)dt = f(x)
多分2.115
Appendix

Más contenido relacionado

La actualidad más candente

PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰hagino 3000
 
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2Hiroyuki Kato
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半Ohsawa Goodfellow
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8matsuolab
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」Keisuke Sugawara
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1matsuolab
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングtakutori
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成Prunus 1350
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布Nagayoshi Yamashita
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10matsuolab
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-Shiga University, RIKEN
 
PRML ベイズロジスティック回帰 4.5 4.5.2
PRML ベイズロジスティック回帰 4.5 4.5.2PRML ベイズロジスティック回帰 4.5 4.5.2
PRML ベイズロジスティック回帰 4.5 4.5.2tmtm otm
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5matsuolab
 
Prml 2_3_5
Prml 2_3_5Prml 2_3_5
Prml 2_3_5brownbro
 
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論Koichiro Gibo
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4matsuolab
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)Takao Yamanaka
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)Yasunori Ozaki
 
Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜Yuki Matsubara
 

La actualidad más candente (20)

PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰
 
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
PRML ベイズロジスティック回帰 4.5 4.5.2
PRML ベイズロジスティック回帰 4.5 4.5.2PRML ベイズロジスティック回帰 4.5 4.5.2
PRML ベイズロジスティック回帰 4.5 4.5.2
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5
 
Prml 2_3_5
Prml 2_3_5Prml 2_3_5
Prml 2_3_5
 
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜
 

Último

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 

Último (10)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

Prml4.4 ラプラス近似~ベイズロジスティック回帰

  • 2. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4ラプラス近似 事後確率分布がもはやガウス分布ではないので パラメータw上で正確に積分することができない ベイズロジスティック回帰 ラプラス近似: : 近似する必要がある! 確率密度関数をガウス分布で近似する まず,1変数zの場合を考え分布p(z)を仮定する p(z) = 1 Z f(z) Z = Z f(z)dz Zの値は未知であると仮定する ラプラス近似とは、分布p(z)のモードを中心とする             ガウス分布による近似を見つけることである
  • 3. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4ラプラス近似 p(z)のモードを見つける p0 (z0) = 0 dp(z) dz z=z0 = 0 言い換えると または等価な を満たす z0 見つけることである ガウス分布は、対数が変数の二次の関数であるという特性を持っている そこで、z0 を中心としたln f(z) のテーラー展開を考える A = d2 dz2 ln f(z) z=z0 が分布の局所最大値であるので、テイラー展開の一次の項は現れないz0 このテイラー展開の指数を取ると ln f(z) ⇡ ln f(z0) 1 2 A(z z0)2 f(z) ⇡ f(z0) exp ⇢ A 2 (z z0)2
  • 4. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4ラプラス近似 ガウス分布の正規化のための標準的な結果を利用すると、正規化分布 q(z) q(z) = ✓ A 2⇡ ◆1/2 exp ⇢ A 2 (z z0)2 A > 0 を得る。 ガウス分布による近似が適切に定義されるのは の場合のみである 言い換えると、定常点 が局所最大である場合で、 その点での二階微分が負となる場合である。 z0
  • 5. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4ラプラス近似 ラプラス法を拡張しM次元空間 上で定義される分布z p(z) = f(z)/Z を近似する 同様に で対数を取りテイラー展開z0 A = rr ln f(z)|z=z0 q(z) = |A|1/2 (2⇡)M/2 exp ⇢ 1 2 (z z0)T A(z z0) = N(z|z0, A 1 ) M Mヘッセ行列 は勾配オペレータ 両辺の指数を取る 比例している 正規化 で表される精度行列が正定値行列 定常点 が局所最大である場合にガウス分布が適切に定義される A z0 ln f(z) ⇡ ln f(z0) 1 2 (z z0)T A(z z0) f(z) ⇡ f(z0) exp ⇢ 1 2 (z z0)T A(z z0)
  • 6. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4ラプラス近似 ラプラス近似を適用する モードz0を見つける そのモードでヘッセ行列を評価する モードは数値最適で求められる(Bishop and Nabney, 2008) ・現実の分布は多峰的 ・中心極限定理より  観測データが増えるほど  ガウス分布による近似  が良くなると期待される ・相対的にデータが多いと  良い近似となる ・実数変数のみにしか適用できない ・ある一点における  局面にのみ基づいてしまう ・全体的特性を捉えられない ・多峰な分布の場合どのモードを選択するか  考慮する必要がある 欠点 利点
  • 7. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4.1モデルの比較とBIC データの集合 パラメータモデル尤度関数 事前確率 p(✓i|Mi)p(D|✓i, Mi) ✓iMi p(D|Mi) D p(D) = Z p(D|✓)p(✓)d✓ モデルエビデンス = f(✓) = p(D|✓)p(✓) 係数 Z = f(z0) (2⇡)M/2 |A|1/2 …4.135 = Z ln Z = A = r2 ln p(D|✓MAP )p(✓MAP ) ex. 4.22 ln p(D) ⇡ ln p(D|✓MAP ) + ln p(✓MAP ) + M 2 ln(2⇡) 1 2 ln |A| | {z } Occam
  • 8. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4.1モデルの比較とBIC A = r2 ln p(D|✓MAP )p(✓MAP ) と仮定すると A = H + V 1 0 ln p(✓) = ln |V| 1/2 M 2 ln(2⇡) 1 2 (✓MAP m)T V 1 0 (✓MAP m) 係数 p(✓) = N(✓|m, V0) ex. 4.23 V 1 0 = r2 ln p(✓MAP ) iidなデータ点が十分に大きい時V^-1を無視できる 大胆に近似しよう 事前分布が影響しない ln p(D) ⇡ ln p(D|✓MAP ) + ln p(✓MAP ) + M 2 ln(2⇡) 1 2 ln |A| | {z } Occam ln p(D) ⇡ ln p(D|✓MAP ) 1 2 ln |V0| 1 2 (✓MAP m)T V 1 0 (✓MAP m) 1 2 ln |H + V 1 0 |
  • 9. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 ln |H| の近似に焦点を当てる H = NX i=1 Hi Hi = r2 ln p(Di|✓) H はフルランク行列 ln | ˆH| ln |H| = ln |N ˆHi| = ln(NM | ˆH|) = M ln N + ln | ˆH| 固定された行列で近似できるとし を得る M = dim(✓) であり であると仮定します すると データ数に対して独立なのでデータ数が増加すれば 無視することができます 従って と近似できます H = NX i=1 Hi = N ˆH ln p(D) ⇡ ln p(D|ˆ✓) 1 2 M ln N
  • 10. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.5 ベイズロジスティック回帰 ∼ 4.5.1 ラプラス近似 p(w) = N(w|m0, S0) 対数尤度 likelihood Prior ln p(w|t) = 1 2 (w m0)T S 1 0 (w m0) yn = (wT n) + NX n=1 {tn ln yn + (1 tn) ln(1 yn)} + const 一般的にm_0=0かな?勾配 ヘッセ行列 r2 ln p(w|t) = NX n=1 yn(1 yn) n T n S 1 0 勾配とヘッセ行列を使って 数値最適化でW_MAPを探索し ガウス分布の平均とする ガウス分布の分散には ヘッセ行列に-1をかけたものを用いる ラプラス近似 p(t|w) = NY n=1 Bern(yn) r ln p(w|t) = NX n=1 (yn tn) n S 1 0 (w m0)
  • 11. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.5.2 予測分布 p(t|w) = NY n=1 Bern(yn) = NY n=1 ytn n (1 yn)1 tn p(w) = N(w|m0, S0) q(w) = N(w|wMAP , SN ) 事後分布(MAP推定) についての予測分布 a = wT = Z ✓ Z (a wT )q(w)dw ◆ (a)da = Z p(a) (a)da デルタ関数の性質 Z 1 1 f(x) (x µ)dx = f(µ) C1 ガウス分布 p(C1| , t) = Z p(C1| , w)p(w|t)dw ⇡ Z (wT )q(w)dw p(C1| , t) ⇡ Z ✓ Z (a wT ) (a)q(w)dw ◆ da
  • 12. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 p(a) = Z (a wT )q(w)dw = ✓ Z q(w)wdw ◆T = E[w]T = wT MAP p(a)の平均 = Z ✓ Z (a wT )ada ◆ q(w)dw = Z q(w)(wT )dw µa = E[a] = Z p(a)ada = Z Z (a wT )q(w)adwda q(w) = N(w|wMAP , SN )   4.5.2 予測分布
  • 13. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 分散 2 = var[a] = Z p(a){a2 E[a]2 }da = Z ✓ (a wT )a2 da ◆ q(w)dw Z ✓ (a wT )E[a]2 da ◆ q(w)dw = Z q(w)(wT )2 dw Z q(w)(wT MAP )2 dw = Z q(w) T wwT dw Z q(w) T wMAP wT MAP dw = T ✓ Z q(w)(wwT wMAP wT MAP )dw ◆ Z q(w)(wwT wMAP wT MAP )dw = E[wwT ] wMAP wT MAP Z q(w)dw = wMAP wT MAP + SN wMAP wT MAP = SN 2 = T SN p(a) = Z (a wT )q(w)dw …2.62E[xxT ] = µµT + ⌃ q(w) = N(w|wMAP , SN )   4.5.2 予測分布
  • 14. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 p(C1|t) = Z (a)p(a)da = Z (a)N(a|µa, 2 a)da 予測分布の変分近似は a上での積分は、ロジスティックシグモイド関数でのガウス分布の畳み込み積分を 表しており、解析的に評価することはできない。 最も良い近似を得るために によって を近似できるようにする そのために、原点で2つの関数が同じ傾きを持つことを要請することにより の適切な値を見つけることができ となる ( a) (a) 2 = ⇡/8 シグモイド関数をプロビット関数の逆関数で近似しよう
  • 15. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 Z ( a)N(a|µ, 2 )da = ✓ µ ( 2 + 2)1/2 ◆ ガウス分布とプロビト関数の逆関数の畳み込み積分は以下のように表せられる 従ってシグモイド関数に対する近似は Z (a)N(a|µ, 2 )da ⇡ (( 2 )µ) ( 2 ) = (1 + ⇡ 2 /8) 1/2 p(C1| , t) = (( 2 a)µa) で与えられ 予測分布は µa = wT MAP 2 a = T SN S 1 N = S 1 0 + NX n=1 yn(1 yn) n T n   4.5.2 予測分布
  • 16. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 変数変換使って導出 ex.4.24 ex. 4.25 (a) = Z a 1 N(✓|0, 1)d✓ (a) = 1 1 + exp( a) 二つの微分がa=0で等しいように を選ぶ @ (a) @a a=0 = (0)(1 (0) = 1 2 ✓ 1 1 2 ◆ = 1 4 ( a) = Z a 1 1 Z exp( 1 2 x2 )dx 0 ( a) = 1 Z exp ⇢ 1 2 ( a)2 Z = Z 1 1 exp ⇢ 1 2 ( a)2 da = = p ⇡/8 @ ( a) @ a a=0 = p 2x N(w|wMAP , SN ) N(a|wT MAP , T SN ) a = T w d dx Z x a f(t)dt = f(x) 多分2.115 Appendix