MLaPP 5章 「ベイズ統計学」8. Baysian Statistics Summarizing posterior distribution
点推定 (point estimate)
θの事後分布 p (θ|D) をある定数ˆθによって表して計算
▶ 平均 (mean)
ˆθ = E [θ] =
ˆ
θp (θ|D) dθ
▶ 中央値 (median) (θが1次元なら)
ˆθ s.t. P
(
θ ≤ ˆθ|D
)
= P
(
θ > ˆθ|D
)
= 0.5
▶ 最頻値 (mode) → MAP推定で求めてるのはこれ
ˆθ = argmax
θ
p (θ|D)
8 / 73
9. Baysian Statistics Summarizing posterior distribution
MAP推定の問題点
1. 推定の不安定さが評価できない
(他の点推定にもあてはまる)
2. 過学習しやすい
3. 最頻値は分布の要約に適さないことがある
4. パラメータ変換に対して不変でない
▶ ただしどの点推定量が良いかは考えてる問題に依存
→ 詳しくは後ででてくる決定理論で
9 / 73
10. Baysian Statistics Summarizing posterior distribution
Mode is an untypical point
−2 −1 0 1 2 3 4
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
1 2 3 4 5 6 7
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
10 / 73
11. Baysian Statistics Summarizing posterior distribution
Depandance on parameterization
0 2 4 6 8 10 12
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
p
X
p
Y
g
11 / 73
12. Baysian Statistics Summarizing posterior distribution
信⽤区間 (credible interval)
Definition
θ の 100 (1 − α) % 信⽤区間 Cα (D) = (ℓ, u) とは
P (ℓ ≤ θ ≤ u|D) = 1 − α
を満たす区間のこと
▶ ⼀意には決まらない
▶ Central interval, HDP region などが使われる
▶ 信頼区間 (confidence interval) とは別物
12 / 73
13. Baysian Statistics Summarizing posterior distribution
Central interval vs HPD region
0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
3
3.5
0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
3
3.5
13 / 73
16. Baysian Statistics Summarizing posterior distribution
例: Amazonでお買い物
▶ 2つの商品を⽐較して良い⽅を買いたい
▶ 商品1は良い評価が90,悪い評価が10
▶ 商品2は良い評価が2,悪い評価が0
それぞれの商品の良さ θ1, θ2(0 ≤ θi ≤ 1) を確率分布で
表してやり θ1 > θ2 になる確率を求める
15 / 73
18. Baysian Statistics Summarizing posterior distribution
確率モデルで定式化
▶ θ1, θ2 の事前分布 θ1, θ2 ∼ Beta (1, 1)
▶ 良い評価の数を Bin (N, θi) でモデリング
▶ 事後分布は
p (θ1|D1) = Beta (91, 11)
p (θ2|D2) = Beta (3, 1)
▶ δ = θ1 − θ2 とし p (δ|D) を数値積分で評価
16 / 73
19. Baysian Statistics Summarizing posterior distribution
結果
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
2
4
6
8
10
12
14
p(θ1
|data)
p(θ
2
|data)
θ1, θ2の事後分布
−0.4 −0.2 0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
δ
pdf
δ = θ1 − θ2の事後分布と
95% Central interval
▶ p (δ > 0|D) = 0.710
▶ 商品1の⽅が良い (という確率が71%) !
17 / 73
21. Baysian Statistics Bayesian model selection
モデル選択 (model selection)
▶ 複雑度の違う複数のモデルの中から最良のモデルを
1つ選びたい
▶ 多項式フィッティングの多項式の次数
▶ 正則化パラメータの⼤きさ
▶ k最近傍法の近傍の数
19 / 73
22. Baysian Statistics Bayesian model selection
ベイズ的モデル選択
▶ モデル m の事後分布 p (m|D) を求めて
最頻値のモデルを選択
p (m|D) =
p (D|m) p (m)
∑
m∈M p (m, D)
▶ M: すべてのモデルを含む集合
▶ p (D|m): モデル m の周辺尤度
(marginal likelihood)
▶ モデルの事前分布が⼀様 (p (m) ∝ 1) なら
周辺尤度が最⼤のモデル argmax
m∈M
p (D|m) を選択
20 / 73
23. Baysian Statistics Bayesian model selection
周辺尤度 (marginal likelihood)
Definition
モデル m の周辺尤度 (marginal likelihood)
またはエビデンス p (D|m)
p (D|m) =
ˆ
p (D|θ) p (θ|m) dθ
▶ p (D|θ): モデル m に対する θ の尤度
▶ p (θ|m): モデル m に対する θ の事前分布
21 / 73
25. Baysian Statistics Bayesian model selection
ベイズ的オッカムの剃⼑
▶ オッカムの剃⼑ (Occamʼs razor)
▶ 同じ現象を適切に説明する仮説が複数あるときは
その中で最も簡単なものを採⽤するべきである
▶ 周辺尤度最⼤化で⾃動的に簡単なモデルが選ばれる
▶ モデルが有限個でなく連続値の複雑度パラメータで
表されている場合であっても周辺尤度最⼤化により
複雑度パラメータを決められる (経験ベイズ)
23 / 73
28. Baysian Statistics Bayesian model selection
−2 0 2 4 6 8 10 12
−20
−10
0
10
20
30
40
50
60
70
d=1, logev=−18.593, EB
−2 0 2 4 6 8 10 12
−200
−150
−100
−50
0
50
100
150
200
250
300
d=3, logev=−21.718, EB
−2 0 2 4 6 8 10 12
−80
−60
−40
−20
0
20
40
60
80
d=2, logev=−20.218, EB
1 2 3
0
0.2
0.4
0.6
0.8
1
M
P(M|D)
N=5, method=EB
26 / 73
29. Baysian Statistics Bayesian model selection
−2 0 2 4 6 8 10 12
−10
0
10
20
30
40
50
60
70
d=1, logev=−106.110, EB
−2 0 2 4 6 8 10 12
−20
0
20
40
60
80
100
d=3, logev=−107.410, EB
−2 0 2 4 6 8 10 12
−10
0
10
20
30
40
50
60
70
80
d=2, logev=−103.025, EB
1 2 3
0
0.2
0.4
0.6
0.8
1
M
P(M|D)
N=30, method=EB
27 / 73
30. Baysian Statistics Bayesian model selection
周辺尤度の計算
▶ 共役事前分布を使うと簡単
p (D) =
ZN
Z0Zℓ
▶ ZN: 事後分布 p (θ|D) の正則化項
▶ Z0: 事前分布p (θ) の正則化項
▶ Zℓ: 尤度p (D|θ) の定数項
28 / 73
31. Baysian Statistics Bayesian model selection
周辺尤度の計算例
▶ ベータ-⼆項モデル
p (D) =
(
N
N1
)
B (a + N1, b + N2)
B (a, b)
▶ ディリクレ-多項モデル
p (D) =
Γ (
∑
k αk)
Γ (N +
∑
k αk)
∏
k
Γ (Nk + αk)
Γ (αk)
29 / 73
32. Baysian Statistics Bayesian model selection
▶ ガウス-ガウス-ウィシャートモデル
p (D) =
1
πND/2
(
κ0
κN
)D/2
|S0|ν0/2
|SN|νN/2
ΓD (νN/2)
ΓD (ν0/2)
▶ 分布とか記号の定義は4.6.3.2節で
30 / 73
33. Baysian Statistics Bayesian model selection
周辺尤度の近似式
Definition
モデルのベイズ情報量規準
(BIC; Bayes information criterion)
BIC ≜ log p
(
D|ˆθ
)
−
dof
(
ˆθ
)
2
log N ≈ log p (D)
▶ ˆθ: モデルのパラメータθの最尤推定量
▶ dof
(
ˆθ
)
: モデルの⾃由度 (≈パラメータ空間の次元)
▶ BICの最⼩化は最⼩記述⻑ (MDL; minimum
description length) の最⼩化と等価
31 / 73
34. Baysian Statistics Bayesian model selection
BICの例
▶ 線形回帰モデル p (y|x, θ) = N
(
wT
x, σ2
)
の最⼤尤度
log p
(
D|ˆθ
)
= −
N
2
log
(
2πˆσ2
)
−
N
2
▶ よってBICは (定数項を除いて)
BIC = −
N
2
log
(
2πˆσ2
)
−
D
2
log N
▶ D: モデルに含まれる変数の数
▶ BICが最⼩になる変数集合を選べばよい
32 / 73
35. Baysian Statistics Bayesian model selection
⾚池情報量規準
Definition
モデルの⾚池情報量規準
(AIC; Akaike information criterion)
AIC (m, D) ≜ log p
(
D|ˆθ
)
− dof (m)
▶ 予測精度の観点から有⽤
33 / 73
36. Baysian Statistics Bayesian model selection
事前分布の影響
▶ 周辺尤度は事前分布の違いに影響される
▶ ⼀⽅で事後分布はあまり影響されない
▶ 事前分布のハイパーパラメータも確率変数として
ハイパーパラメータの事後分布についても周辺化
p (D|m) =
ˆ ˆ
p (D|θ) p (θ|α, m) p (α|m) dθdα
▶ α: θの事前分布 p (θ|m) のハイパーパラメータ
▶ p (α|m): ハイパーパラメータの事前分布
▶ ↑の代わりに周辺尤度の最⼤化によってαを決めると
計算が楽 (経験ベイズ(11枚ぶり2回⽬))
34 / 73
37. Baysian Statistics Bayesian model selection
ベイズ因⼦ (Bayes factor)
Definition
帰無仮説 M0 対⽴仮説 M1 に対して,ベイズ因⼦はその
周辺尤度の⽐
BF1,0 ≜
p (D|M1)
p (D|M0)
=
p (M1|D)
p (M0|D)
/
p (M1)
p (M0)
▶ BF1,0 > 1 なら対⽴仮説を⽀持し,
BF1,0 < 1 なら帰無仮説を⽀持
▶ ベイズ因⼦の⼤きさでどのくらい信⽤できるかを
評価もできる
▶ 頻度でいうところのp値みたいな
35 / 73
38. Baysian Statistics Bayesian model selection
例: コイン投げ
▶ コインが公平かどうかを知りたい
▶ M0: コインが公平 p(D|M0) =
(1
2
)N
▶ M1: 公平でない
p (D|M1) =
´ 1
0
p (D|θ) p (θ) dθ = B(α1+N1,α0+N0)
B(α1,α0)
▶ M1はベータ-ベルヌーイモデル
36 / 73
39. Baysian Statistics Bayesian model selection
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
num heads
Marginal likelihood for Beta−Bernoulli model, ∫ p(D|θ) Be(θ|1,1) dθ
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
5.5
BF(1,0)
37 / 73
40. Baysian Statistics Bayesian model selection
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
num heads
Marginal likelihood for Beta−Bernoulli model, ∫ p(D|θ) Be(θ|1,1) dθ
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
−2.6
−2.4
−2.2
−2
−1.8
−1.6
−1.4
−1.2
−1
−0.8
BIC approximation to log
10
p(D|M1)
38 / 73
41. Baysian Statistics Bayesian model selection
ジェフリーズ-リンドレーのパラドックス
▶ 各モデルのθの事前分布として変則事前分布 (または
変則でなくても極端に広がった分布) を使うと常に
シンプルなモデルが選ばれてしまう
▶ ベイズ的モデル選択と仮説検定で結論の⾷い違い
▶ M0 : θ ∈ {0} vs M1 : θ ∈ R {0} とか
▶ 変則事前分布 (improper prior) は積分しても1に
ならない事前分布
▶ たとえば θ ∈ (−∞, ∞) なら
p (θ) ∝ 定数 ⇒
´
p (θ) dθ → ∞
39 / 73
46. Baysian Statistics Prior
無情報事前分布 (uninformative prior)
▶ θについて何も知らない場合に使われる
▶ “Let the data speak for itself.”
▶ ⼀⼝に無情報と⾔っても⾊々ある
▶ ベルヌーイ分布 Ber (x|θ) (コイン投げ) なら...
▶ ⼀様事前分布: θ ∼ Beta (1, 1) ∝ 定数
▶ ホールデン事前分布:
θ ∼ limc→0 Beta (c, c) = Beta (0, 0)
→ 事後分布の期待値が N1/N
▶ ジェフリーズ事前分布: θ ∼ Beta
(1
2 , 1
2
)
43 / 73
47. Baysian Statistics Prior
ジェフリーズ事前分布 (Jeffreys prior)
▶ フッシャー情報量の平⽅根に⽐例する事前分布
pϕ (ϕ) ∝ (I (ϕ))1/2
I (ϕ) ≜ −E
[(
d log p (X|ϕ)
dϕ
)2
]1/2
▶ パラメータ変換に対する不変性
θ = h (ϕ), pθ (θ) : Jeffreys ⇒ pϕ (ϕ)
dϕ
dθ
: Jeffreys
44 / 73
48. Baysian Statistics Prior
頑健な事前分布 (Robust prior)
▶ 結果に過度の影響を与えない事前分布
▶ 典型的には裾の重い (heavy tail) 分布
Example
ガウス分布 N (θ, 1) の平均θのRobust prior
▶ p (θ ≤ −1) = p (−1 < θ ≤ 0)
= p (0 < θ ≤ 1) = p (1 < θ) = 0.25
▶ なめらかで単峰
→ θ ∼ N (θ|0, 2.192
)とすれば上の条件をみたす
他にはコーシー分布 θ ∼ T (θ|0, 1, 1) も
45 / 73
49. Baysian Statistics Prior
共役事前分布の混合分布
▶ 共役事前分布の混合分布は共役事前分布になる
▶ 計算が楽
▶ ex) ベルヌーイ分布 Ber (x|θ) (コイン投げ)
▶ p (θ) = 0.5Beta (θ|20, 20) + 0.5Beta (θ|30, 10)
▶ (公平なコインが多めに⼊った袋 (第1項) と
表のでやすいコインが多めに⼊った袋 (第2項) から
無作為にコインを選ぶイメージ(頻度的表現))
46 / 73
50. Baysian Statistics Prior
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
mixture of Beta distributions
prior
posterior
▶ p (θ) = 0.5Beta (θ|20, 20) + 0.5Beta (θ|30, 10)
▶ p (θ|D) = 0.346Beta (θ|40, 30) + 0.654Beta (θ|50, 20)
▶ D = (N1, N0) = (20, 10)
47 / 73
51. Baysian Statistics Prior
事後分布の計算
1. 各混合要素の事後分布は普通の共役事前分布と同じ
2. 混合⽐の事後分布は
p (Z = k|D) =
p (Z = k) p (D|Z = k)
∑
k′ p (Z = k′) p (D|Z = k′)
▶ p (Z = k): k番⽬の混合要素の混合⽐の事前分布
▶ p (D|Z = k): k番⽬の混合要素についての周辺尤度´
p (D|θ) p (θ|Z = k) dθ
48 / 73
52. Baysian Statistics Prior
例: DNA塩基配列
▶ DNA塩基配列の各位置について
1. ほぼどの塩基かが決まっている (A or T or C or G)
2. どの塩基かがランダム
▶ 1の位置と対応する塩基が知りたい
▶ 多項-ディリクレモデルで混合分布を事前分布に
▶ 混合要素は
p (θ|Zt = 0) = Dir (θ| (1, 1, 1, 1))
p (θ|Zt = 1) =
1
4
Dir (θ| (10, 1, 1, 1)) + · · ·
+
1
4
Dir (θ| (1, 1, 1, 10))
▶ 事後分布の Zt = 1 の混合⽐が⼤きい位置をみる
49 / 73
54. Baysian Statistics Hierarchical Bayes
階層ベイズモデル
▶ 事前分布のハイパーパラメータにさらに事前分布を
導⼊したモデル
p (η, θ|D) ∝ p (D|θ) p (θ|η) p (η)
▶ グラフィカルモデル (→Ch.10) でかくと
η → θ → D
51 / 73
57. Baysian Statistics Empirical Bayes
経験ベイズ法 (EB; empirical Bayes)
▶ 階層モデルのハイパーパラメータの事後分布を
点推定で近似
p (η|D) =
ˆ
p (η, θ|D) dθ
≈ δˆη (η)
▶ ˆη = argmax p (η|D)
▶ η の事前分布を⼀様とする (⇒ p (η|D) ∝ p (D|η)) と
ˆη = argmax p (D|η)
= argmax
[ˆ
p (D|θ) p (θ|η) dθ
]
▶ 第2種の最尤推定 (type-II maximum likelihood)
とも呼ぶ (周辺尤度を最⼤化している)
54 / 73
58. Baysian Statistics Empirical Bayes
Bayesian check!
Method Definition
Maximum likelihood ˆθ = argmax
θ
p (D|θ)
MAP estimation ˆθ = argmax
θ
p (D|θ) p (θ)
ML-II (EB) ˆη = argmax
η
´
p (D|θ) p (θ|η) dθ = argmax
η
p (D|η)
MAP-II ˆη = argmax
η
´
p (D|θ) p (θ|η) p (η) dθ = argmax
η
p (D|η) p (η)
Full Bayes p (θ, η|D) ∝ p (D|θ) p (θ|η) p (η)
55 / 73
61. Baysian Statistics Bayesian decision theory
▶ y ∈ Y: ⾃然が選ぶ状態・パラメータ・ラベル
▶ x ∈ X: y から⽣成された観測
▶ a ∈ A: 選ぶ⾏動 (A を⾏動空間と呼ぶ)
▶ L (y, a): 状態 y に対して⾏動 a を選んだ時の損失
▶ U (y, a) = −L (y, a) を効⽤関数とも
▶ δ : X → A : 観測から⾏動を決める決定⼿順
58 / 73
62. Baysian Statistics Bayesian decision theory
▶ 期待効⽤最⼤化原理
(maximum expected utility principle)
δ (x) = argmax
a∈A
E [U (y, a)]
= argmin
a∈A
E [L (y, a)]
▶ 事後期待損失 (posterior expected loss)
ρ (a|x) ≜ Ep(y|x) [L (y, a)] =
∑
y
L (y, a) p (y|x)
▶ ベイズ推定量 (Bayes estimator)
またはベイズ決定則 (Bayes decision rule)
δ (x) = argmin
a∈A
ρ (a|x)
59 / 73
64. Baysian Statistics Bayesian decision theory
0 − 1 lossのベイズ推定量
▶ L (y, a) = I (y ̸= a) =
{
0 if a = y
1 if a ̸= y
▶ 分類問題で使う
▶ 事後期待損失は
ρ (a|x) = p (a ̸= y|x) = 1 − p (y|x)
▶ ベイズ推定量は事後分布の最頻値 (→MAP推定)
y∗
(x) = argmax
y∈Y
p (y|x)
61 / 73
67. Baysian Statistics Bayesian decision theory
⼆乗損失のベイズ推定量
▶ L (y, a) = (y − a)2
▶ 回帰問題で使う
▶ 事後期待損失は
ρ (a|x) = E
[
(y − a)2
|x
]
= E
[
y2
|a
]
− 2aE [y|x] + a2
▶ ベイズ推定量は事後分布の平均
ˆy = E [y|x] =
ˆ
yp (y|x) dy
▶ 最⼩平均⼆乗誤差推定 (minimum mean squared
error; MMSE) とよぶ
63 / 73
68. Baysian Statistics Bayesian decision theory
絶対損失のベイズ推定量
▶ L (y, a) = |y − a|
▶ これも回帰問題で使う
▶ 2乗損失より外れ値に頑健
▶ ベイズ推定量は事後分布の中央値
つまり下式を満たす a
P (y a|x) = P (y ≥ a|x) = 0.5
64 / 73
69. Baysian Statistics Bayesian decision theory
教師あり学習
真の値yに対する予測y′
についての cost function ℓ (y, y′
)
が与えられたとき,
汎化誤差 (generalization error)
L (θ, δ) ≜ E(x,y)∼p(x,y|θ) [ℓ (y, δ (x))]
=
∑
x
∑
y
L (y, δ (x)) p (x, y|θ)
の事後期待損失
ρ (δ|D) =
ˆ
p (θ|D) L (θ, δ) dθ
を最⼩化する決定⼿順 δ : X → Y を求める
65 / 73
70. Baysian Statistics Bayesian decision theory
偽陽性と偽陰性のトレードオフ
▶ 2値の決定問題
▶ 仮説検定・2クラス分類・物体検出など
▶ 2種類の過誤
▶ 偽陽性 (false positive) : y = 0 を ˆy = 1 と推定
▶ 偽陰性 (false negative) : y = 1 を ˆy = 0 と推定
▶ 0-1損失ではこれらの誤差を同等に扱ってしまう
66 / 73
71. Baysian Statistics Bayesian decision theory
ˆy = 1 ˆy = 0
y = 1 0 LFN
y = 0 LFP 0
loss matrix
▶ LFN: 偽陰性の損失 LFP: 偽陽性の損失
▶ もしLFN, LFPが与えられれば事後期待損失は
ρ
(
ˆy = 0|x
)
= LFNp (y = 1|x)
ρ
(
ˆy = 1|x
)
= LFNp (y = 0|x)
となり p (y = 1|x) /p (y = 0|x) の閾値τを決められる
▶ ROC曲線を使うと閾値を定めない (LFN, LFPが与えら
れない) 場合にも議論できる
67 / 73
76. Baysian Statistics Bayesian decision theory
False discovery rates
▶
FD (τ, D) ≜
∑
(1 − pi) I (pi τ)
FDR (τ, D) ≜ FD (τ, D) /N (τ, D)
▶ N (τ, D) =
∑
I (pi τ)
72 / 73
77. Baysian Statistics Bayesian decision theory
その他の話題
▶ Contextual bandits
▶ Utility theory
▶ Sequential decision theory
▶ 強化学習 (reinforcement learning) の問題
73 / 73