MLaPP 5章「ベイズ統計学」

MLaPP Ch.5
ベイズ統計学
Bayesian statistics
1 / 73

Baysian Statistics
アウトライン
1. イントロダクション
2. 事後分布の要約
3. ベイズ的モデル選択
4. 事前分布
5. 階層ベイズ
6. 経験ベイズ
7. ベイズ的決定理論
2 / 73

Baysian Statistics Introduction
Subsection 1
Introduction
3 / 73

Baysian Statistics Introduction
ベイズ統計とは
▶ 観測したデータ以外のあらゆる量が確率変数である
とみなす統計学
▶ データを⽣成した分布の平均や分散など
(※データそのものの平均や分散ではありません)
▶ 未知の量 θ に関するすべての情報は
事後分布 p (θ|D) に集約される
4 / 73

Baysian Statistics Summarizing posterior distribution
Subsection 2
Summarizing posterior distribution
5 / 73

事後分布の要約
▶ θの事後分布 p (θ|D) を要約した簡単な量によって
未知の量θを表してやる
▶ 結果の直感的な理解・可視化
▶ 計算上の利点
6 / 73

1. MAP推定
2. 信⽤区間
7 / 73

MAP推定の問題点
1. 推定の不安定さが評価できない
(他の点推定にもあてはまる)
2. 過学習しやすい
3. 最頻値は分布の要約に適さないことがある
4. パラメータ変換に対して不変でない
▶ ただしどの点推定量が良いかは考えてる問題に依存
→ 詳しくは後ででてくる決定理論で
9 / 73

Mode is an untypical point
−2 −1 0 1 2 3 4
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
1 2 3 4 5 6 7
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
10 / 73

Depandance on parameterization
0 2 4 6 8 10 12
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
p
X
p
Y
g
11 / 73

信⽤区間 (credible interval)
Deﬁnition
θ の 100 (1 − α) % 信⽤区間 Cα (D) = (ℓ, u) とは
P (ℓ ≤ θ ≤ u|D) = 1 − α
を満たす区間のこと
▶ ⼀意には決まらない
▶ Central interval, HDP region などが使われる
▶ 信頼区間 (conﬁdence interval) とは別物
12 / 73

Central interval vs HPD region
0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
3
3.5
0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
3
3.5
13 / 73

Central interval vs HPD region
α/2 α/2 pMIN
14 / 73

例: Amazonでお買い物
▶ 2つの商品を⽐較して良い⽅を買いたい
▶ 商品1は良い評価が90，悪い評価が10
15 / 73

例: Amazonでお買い物
▶ 2つの商品を⽐較して良い⽅を買いたい
それぞれの商品の良さ θ1, θ2(0 ≤ θi ≤ 1) を確率分布で
表してやり θ1 > θ2 になる確率を求める
15 / 73

確率モデルで定式化
▶ θ1, θ2 の事前分布 θ1, θ2 ∼ Beta (1, 1)
▶ 良い評価の数を Bin (N, θi) でモデリング
16 / 73

確率モデルで定式化
▶ θ1, θ2 の事前分布 θ1, θ2 ∼ Beta (1, 1)
▶ 良い評価の数を Bin (N, θi) でモデリング
▶ 事後分布は
p (θ1|D1) = Beta (91, 11)
p (θ2|D2) = Beta (3, 1)
▶ δ = θ1 − θ2 とし p (δ|D) を数値積分で評価
16 / 73

結果
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
2
4
6
8
10
12
14
p(θ1
|data)
p(θ
2
|data)
θ1, θ2の事後分布
−0.4 −0.2 0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
δ
pdf
δ = θ1 − θ2の事後分布と
95% Central interval
▶ p (δ > 0|D) = 0.710
▶ 商品1の⽅が良い (という確率が71%) !
17 / 73

Baysian Statistics Bayesian model selection
Subsection 3
Bayesian model selection
18 / 73

モデル選択 (model selection)
▶ 複雑度の違う複数のモデルの中から最良のモデルを
1つ選びたい
▶ 多項式フィッティングの多項式の次数
▶ 正則化パラメータの⼤きさ
▶ k最近傍法の近傍の数
19 / 73

1. ベイズ的オッカムの剃⼑
2. ベイズ因⼦
3. ジェフリーズ-リンドレーのパラドックス
22 / 73

ベイズ的オッカムの剃⼑
▶ オッカムの剃⼑ (Occamʼs razor)
▶ 同じ現象を適切に説明する仮説が複数あるときは
その中で最も簡単なものを採⽤するべきである
▶ 周辺尤度最⼤化で⾃動的に簡単なモデルが選ばれる
▶ モデルが有限個でなく連続値の複雑度パラメータで
表されている場合であっても周辺尤度最⼤化により
複雑度パラメータを決められる (経験ベイズ)
23 / 73

Chain rule による解釈
p (D) = p (y1) p (y2|y1) p (y3|y1:2) . . . p (yN|y1:N−1)
24 / 73

状態数による解釈
▶
∑
D′ p (D′
|m) = 1
25 / 73

−2 0 2 4 6 8 10 12
−20
−10
0
10
20
30
40
50
60
70
d=1, logev=−18.593, EB
−2 0 2 4 6 8 10 12
−200
−150
−100
−50
0
50
100
150
200
250
300
d=3, logev=−21.718, EB
−2 0 2 4 6 8 10 12
−80
−60
−40
−20
0
20
40
60
80
d=2, logev=−20.218, EB
1 2 3
0
0.2
0.4
0.6
0.8
1
M
P(M|D)
N=5, method=EB
26 / 73

−2 0 2 4 6 8 10 12
−10
0
10
20
30
40
50
60
70
d=1, logev=−106.110, EB
−2 0 2 4 6 8 10 12
−20
0
20
40
60
80
100
d=3, logev=−107.410, EB
−2 0 2 4 6 8 10 12
−10
0
10
20
30
40
50
60
70
80
d=2, logev=−103.025, EB
1 2 3
0
0.2
0.4
0.6
0.8
1
M
P(M|D)
N=30, method=EB
27 / 73

周辺尤度の計算
▶ 共役事前分布を使うと簡単
p (D) =
ZN
Z0Zℓ
▶ ZN: 事後分布 p (θ|D) の正則化項
▶ Z0: 事前分布p (θ) の正則化項
▶ Zℓ: 尤度p (D|θ) の定数項
28 / 73

周辺尤度の計算例
▶ ベータ-⼆項モデル
p (D) =
(
N
N1
)
B (a + N1, b + N2)
B (a, b)
▶ ディリクレ-多項モデル
p (D) =
Γ (
∑
k αk)
Γ (N +
∑
k αk)
∏
k
Γ (Nk + αk)
Γ (αk)
29 / 73

▶ ガウス-ガウス-ウィシャートモデル
p (D) =
1
πND/2
(
κ0
κN
)D/2
|S0|ν0/2
|SN|νN/2
ΓD (νN/2)
ΓD (ν0/2)
▶ 分布とか記号の定義は4.6.3.2節で
30 / 73

周辺尤度の近似式
Deﬁnition
モデルのベイズ情報量規準
(BIC; Bayes information criterion)
BIC ≜ log p
(
D|ˆθ
)
−
dof
(
ˆθ
)
2
log N ≈ log p (D)
▶ ˆθ: モデルのパラメータθの最尤推定量
▶ dof
(
ˆθ
)
: モデルの⾃由度 (≈パラメータ空間の次元)
▶ BICの最⼩化は最⼩記述⻑ (MDL; minimum
description length) の最⼩化と等価
31 / 73

BICの例
▶ 線形回帰モデル p (y|x, θ) = N
(
wT
x, σ2
)
の最⼤尤度
log p
(
D|ˆθ
)
= −
N
2
log
(
2πˆσ2
)
−
N
2
▶ よってBICは (定数項を除いて)
BIC = −
N
2
log
(
2πˆσ2
)
−
D
2
log N
▶ D: モデルに含まれる変数の数
▶ BICが最⼩になる変数集合を選べばよい
32 / 73

⾚池情報量規準
Deﬁnition
モデルの⾚池情報量規準
(AIC; Akaike information criterion)
AIC (m, D) ≜ log p
(
D|ˆθ
)
− dof (m)
▶ 予測精度の観点から有⽤
33 / 73

ベイズ因⼦ (Bayes factor)
Deﬁnition
帰無仮説 M0 対⽴仮説 M1 に対して，ベイズ因⼦はその
周辺尤度の⽐
BF1,0 ≜
p (D|M1)
p (D|M0)
=
p (M1|D)
p (M0|D)
/
p (M1)
p (M0)
▶ BF1,0 > 1 なら対⽴仮説を⽀持し，
BF1,0 < 1 なら帰無仮説を⽀持
▶ ベイズ因⼦の⼤きさでどのくらい信⽤できるかを
評価もできる
▶ 頻度でいうところのp値みたいな
35 / 73

例: コイン投げ
▶ コインが公平かどうかを知りたい
▶ M0: コインが公平 p(D|M0) =
(1
2
)N
▶ M1: 公平でない
p (D|M1) =
´ 1
0
p (D|θ) p (θ) dθ = B(α1+N1,α0+N0)
B(α1,α0)
▶ M1はベータ-ベルヌーイモデル
36 / 73

0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
num heads
Marginal likelihood for Beta−Bernoulli model, ∫ p(D|θ) Be(θ|1,1) dθ
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
5.5
BF(1,0)
37 / 73

0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
num heads
Marginal likelihood for Beta−Bernoulli model, ∫ p(D|θ) Be(θ|1,1) dθ
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
−2.6
−2.4
−2.2
−2
−1.8
−1.6
−1.4
−1.2
−1
−0.8
BIC approximation to log
10
p(D|M1)
38 / 73

ジェフリーズ-リンドレーのパラドックス
▶ 各モデルのθの事前分布として変則事前分布 (または
変則でなくても極端に広がった分布) を使うと常に
シンプルなモデルが選ばれてしまう
▶ ベイズ的モデル選択と仮説検定で結論の⾷い違い
▶ M0 : θ ∈ {0} vs M1 : θ ∈ R {0} とか
▶ 変則事前分布 (improper prior) は積分しても1に
ならない事前分布
▶ たとえば θ ∈ (−∞, ∞) なら
p (θ) ∝ 定数 ⇒
´
p (θ) dθ → ∞
39 / 73

Baysian Statistics Prior
Subsection 4
Prior
40 / 73

事前分布
▶ だれ⼀⼈として⽩紙状態 (tabula rasa) ではない
▶ あらゆる推論は世界についての仮定の下で⾏われる
41 / 73

事前分布
▶ だれ⼀⼈として⽩紙状態 (tabula rasa) ではない
▶ あらゆる推論は世界についての仮定の下で⾏われる
▶ とはいえ事前分布の選び⽅の影響が少ない⽅が
うれしいこともある
41 / 73

1. 無情報事前分布
2. ジェフリーズ事前分布
3. 頑健な事前分布
4. 事前分布の混合分布
42 / 73

無情報事前分布 (uninformative prior)
▶ θについて何も知らない場合に使われる
▶ “Let the data speak for itself.”
▶ ⼀⼝に無情報と⾔っても⾊々ある
▶ ベルヌーイ分布 Ber (x|θ) (コイン投げ) なら...
▶ ⼀様事前分布: θ ∼ Beta (1, 1) ∝ 定数
▶ ホールデン事前分布:
θ ∼ limc→0 Beta (c, c) = Beta (0, 0)
→ 事後分布の期待値が N1/N
▶ ジェフリーズ事前分布: θ ∼ Beta
(1
2 , 1
2
)
43 / 73

ジェフリーズ事前分布 (Jeffreys prior)
▶ フッシャー情報量の平⽅根に⽐例する事前分布
pϕ (ϕ) ∝ (I (ϕ))1/2
I (ϕ) ≜ −E
[(
d log p (X|ϕ)
dϕ
)2
]1/2
▶ パラメータ変換に対する不変性
θ = h (ϕ), pθ (θ) : Jeffreys ⇒ pϕ (ϕ)
dϕ
dθ
: Jeffreys
44 / 73

頑健な事前分布 (Robust prior)
▶ 結果に過度の影響を与えない事前分布
▶ 典型的には裾の重い (heavy tail) 分布
Example
ガウス分布 N (θ, 1) の平均θのRobust prior
▶ p (θ ≤ −1) = p (−1 < θ ≤ 0)
= p (0 < θ ≤ 1) = p (1 < θ) = 0.25
▶ なめらかで単峰
→ θ ∼ N (θ|0, 2.192
)とすれば上の条件をみたす
他にはコーシー分布 θ ∼ T (θ|0, 1, 1) も
45 / 73

共役事前分布の混合分布
▶ 共役事前分布の混合分布は共役事前分布になる
▶ 計算が楽
▶ ex) ベルヌーイ分布 Ber (x|θ) (コイン投げ)
▶ p (θ) = 0.5Beta (θ|20, 20) + 0.5Beta (θ|30, 10)
▶ (公平なコインが多めに⼊った袋 (第1項) と
表のでやすいコインが多めに⼊った袋 (第2項) から
無作為にコインを選ぶイメージ(頻度的表現))
46 / 73

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
mixture of Beta distributions
prior
posterior
▶ p (θ) = 0.5Beta (θ|20, 20) + 0.5Beta (θ|30, 10)
▶ p (θ|D) = 0.346Beta (θ|40, 30) + 0.654Beta (θ|50, 20)
▶ D = (N1, N0) = (20, 10)
47 / 73

例: DNA塩基配列
▶ DNA塩基配列の各位置について
1. ほぼどの塩基かが決まっている (A or T or C or G)
2. どの塩基かがランダム
▶ 1の位置と対応する塩基が知りたい
▶ 多項-ディリクレモデルで混合分布を事前分布に
▶ 混合要素は
p (θ|Zt = 0) = Dir (θ| (1, 1, 1, 1))
p (θ|Zt = 1) =
1
4
Dir (θ| (10, 1, 1, 1)) + · · ·
+
1
4
Dir (θ| (1, 1, 1, 10))
▶ 事後分布の Zt = 1 の混合⽐が⼤きい位置をみる
49 / 73

Baysian Statistics Hierarchical Bayes
Subsection 5
Hierarchical Bayes
50 / 73

階層ベイズモデル
▶ 事前分布のハイパーパラメータにさらに事前分布を
導⼊したモデル
p (η, θ|D) ∝ p (D|θ) p (θ|η) p (η)
▶ グラフィカルモデル (→Ch.10) でかくと
η → θ → D
51 / 73

例: がんでの死亡率
▶ 街ごとのがんでの死亡率を推定
▶ 各街の死亡率θiの事前分布をBeta (a, b)
▶ ハイパーパラメータ η = (a, b) の事前分布を p (η)
52 / 73

Baysian Statistics Empirical Bayes
Subsection 6
Empirical Bayes
53 / 73

Bayesian check!
Method Deﬁnition
Maximum likelihood ˆθ = argmax
θ
p (D|θ)
MAP estimation ˆθ = argmax
θ
p (D|θ) p (θ)
ML-II (EB) ˆη = argmax
η
´
p (D|θ) p (θ|η) dθ = argmax
η
p (D|η)
MAP-II ˆη = argmax
η
´
p (D|θ) p (θ|η) p (η) dθ = argmax
η
p (D|η) p (η)
Full Bayes p (θ, η|D) ∝ p (D|θ) p (θ|η) p (η)
55 / 73

Baysian Statistics Bayesian decision theory
Subsection 7
Bayesian decision theory
56 / 73

ベイズ的決定理論
▶ 得られた信念から実際の⾏動を決めたい
▶ 「⾃然とのゲーム」として定式化
▶ ⾃分の⾏動によって相⼿の⾏動が変わらないゲーム
57 / 73

▶ y ∈ Y: ⾃然が選ぶ状態・パラメータ・ラベル
▶ x ∈ X: y から⽣成された観測
▶ a ∈ A: 選ぶ⾏動 (A を⾏動空間と呼ぶ)
▶ L (y, a): 状態 y に対して⾏動 a を選んだ時の損失
▶ U (y, a) = −L (y, a) を効⽤関数とも
▶ δ : X → A : 観測から⾏動を決める決定⼿順
58 / 73

▶ 期待効⽤最⼤化原理
(maximum expected utility principle)
δ (x) = argmax
a∈A
E [U (y, a)]
= argmin
a∈A
E [L (y, a)]
▶ 事後期待損失 (posterior expected loss)
ρ (a|x) ≜ Ep(y|x) [L (y, a)] =
∑
y
L (y, a) p (y|x)
▶ ベイズ推定量 (Bayes estimator)
またはベイズ決定則 (Bayes decision rule)
δ (x) = argmin
a∈A
ρ (a|x)
59 / 73

1. よくある損失関数に対するベイズ推定量
2. 偽陽性と偽陰性のトレードオフ
3. その他の話題
60 / 73

0 − 1 lossのベイズ推定量
▶ L (y, a) = I (y ̸= a) =
{
0 if a = y
1 if a ̸= y
▶ 分類問題で使う
▶ 事後期待損失は
ρ (a|x) = p (a ̸= y|x) = 1 − p (y|x)
▶ ベイズ推定量は事後分布の最頻値 (→MAP推定)
y∗
(x) = argmax
y∈Y
p (y|x)
61 / 73

▶ 分類問題ではどちらつかずの時は分類しない⽅法も
62 / 73

絶対損失のベイズ推定量
▶ L (y, a) = |y − a|
▶ これも回帰問題で使う
▶ 2乗損失より外れ値に頑健
▶ ベイズ推定量は事後分布の中央値
つまり下式を満たす a
P (y a|x) = P (y ≥ a|x) = 0.5
64 / 73

教師あり学習
真の値yに対する予測y′
についての cost function ℓ (y, y′
)
が与えられたとき，
汎化誤差 (generalization error)
L (θ, δ) ≜ E(x,y)∼p(x,y|θ) [ℓ (y, δ (x))]
=
∑
x
∑
y
L (y, δ (x)) p (x, y|θ)
の事後期待損失
ρ (δ|D) =
ˆ
p (θ|D) L (θ, δ) dθ
を最⼩化する決定⼿順 δ : X → Y を求める
65 / 73

偽陽性と偽陰性のトレードオフ
▶ 2値の決定問題
▶ 仮説検定・2クラス分類・物体検出など
▶ 2種類の過誤
▶ 偽陽性 (false positive) : y = 0 を ˆy = 1 と推定
▶ 偽陰性 (false negative) : y = 1 を ˆy = 0 と推定
▶ 0-1損失ではこれらの誤差を同等に扱ってしまう
66 / 73

1. ROC曲線
2. Precision recall curves
3. F-score
4. Falsediscovery rates
68 / 73

ROC curve
0 1
0
1
fpr
tpr
A
B
69 / 73

Precision recall curve
0 1
0
1
recall
precision
AB
70 / 73

F-score
▶ 適合度と再現率の調和平均
F1 ≜
2
1/P + 1/R
=
2PR
R + P
71 / 73

False discovery rates
▶
FD (τ, D) ≜
∑
(1 − pi) I (pi τ)
FDR (τ, D) ≜ FD (τ, D) /N (τ, D)
▶ N (τ, D) =
∑
I (pi τ)
72 / 73

MLaPP 5章「ベイズ統計学」

Recommended

Recommended

More Related Content

What's hot

What's hot (20)