More Related Content Similar to [The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging (20) [The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging2. Overview
1
■Model Inference Methods
8.2 The Bootstrap and Maximum Likelihood Methods
8.3 Bayesian Methods
8.4 Relationship Between the Bootstrap and Bayesian Inference
■Calculation Techniques in Model Inference
8.5 The EM Algorithm
8.6 MCMC for Sampling from the Posterior
■Ensemble Methods
8.7 Bagging
8.8 Model Averaging and Stacking
8.9 Stochastic Search: Bumping
4. The Bootstrap and Maximum Likelihood Methods
スプライン平滑化の例
・スプライン平滑化の例を通して、各種モデル推定の方法論
(最小二乗法,Bootstrap,最尤法,ベイズ推定)を俯瞰する。
3
データの散布図 3次B-spline基底
生成モデル: 𝑦𝑖 = 𝜇 𝑥𝑖 + 𝜀𝑖 ,
SETUP
𝛽𝑗:回帰係数(未知パラメータ), ℎ𝑗(𝑥):B-spline基底, 𝜀𝑖:観測誤差
E 𝜀𝑖 = 0, 𝑉𝑎𝑟 𝜀𝑖 = 𝜎2(未知パラメータ) for all 𝑖
𝐲 = 𝐇𝛃 + 𝛆𝜇 𝑥𝑖 =
𝑗=1
7
𝛽𝑗ℎ𝑗 𝑥𝑖 = 𝜷 𝑇
𝒉(𝑥𝑖)
𝐲 = 𝑦𝑖, … , 𝑦 𝑁
𝑇, 𝜷 = 𝛽1, … , 𝛽7
𝑇, 𝒉 𝑥𝑖 = ℎ1 𝑥𝑖 , … , ℎ7 𝑥𝑖
𝑇, 𝐇 = 𝒉 𝑥1 , … , 𝒉 𝑥 𝑁
𝑇
5. The Bootstrap and Maximum Likelihood Methods
最小二乗法による平滑化
・前項のモデルの回帰係数を最小二乗法で推定
𝛃LS = argmin
𝛃
||𝐇𝛃 − 𝐲||2 = 𝐇 𝑇 𝐇 −1 𝐇 𝑇 𝐲
⇨ 平滑化曲線: 𝜇 𝑥 = 𝛃LS
𝑇
𝒉(𝑥)
・ 𝛃LSの分散は、 𝐇 𝑇 𝐇 −1 𝜎2 となり、適当な𝜎2の推定量 𝜎2を
プラグインすることで、 𝛃LSの分散の推定量を構成
𝑉𝑎𝑟 𝛃LS = 𝐇 𝑇 𝐇 −1 𝜎2 𝜎2の例:
・上記結果から平滑化曲線の標準誤差の推定値が得られる
𝑆𝐷 𝜇 𝑥 = 𝑆𝐷[ 𝛃LS
𝑇
𝒉(𝑥)] = 𝒉 𝑥 𝑇
𝐇 𝑇
𝐇 −1
𝒉 𝑥
1
2 𝜎
4
1
𝑁 − 7
𝑖=1
𝑁
𝑦𝑖 − 𝜇 𝑥𝑖
2
6. The Bootstrap and Maximum Likelihood Methods
最小二乗法による平滑化の結果
・最小二乗法による平滑化曲線(実線)と95%信頼区間(破線)
信頼区間を構築するため、 𝜇 𝑥 が正規分布することを仮定
(=観測誤差εに正規性を仮定)
7. The Bootstrap and Maximum Likelihood Methods
Bootstrapについて
・経験分布を母集団分布と見立て、経験分布からのリサンプリン
グにより統計的推測を行う方法
(例)θの推定量θに対する𝛼%信頼区間の構築
下記の手続きを𝑏 = 1, … , 𝐵回行う
1. 経験分布からN個データを復元抽出し、データセットを構成。
2. 得られたデータセットから推定量θ 𝑏を計算(Bootstrap標本)
Bootstrap標本集合の100 · 𝛼/2%点を信頼区間下限、100 · (1 − 𝛼/2)%点を信頼
区間上限の推定値とする
6
8. The Bootstrap and Maximum Likelihood Methods
Bootstrapによる平滑化の結果
・スプライン平滑化の例について、Bootstrapにより
平滑化曲線 𝜇 𝑥 の信頼区間を推測する
・B=200として95%信頼区間を構築
7
𝜇 𝑥 のBootstrap標本
Bootstrap標本の平均(実線)と
95%信頼区間(破線)
9. The Bootstrap and Maximum Likelihood Methods
平滑化結果の比較(最小二乗法 vs Bootstrap)
[Discussion]最小二乗法とBootstrap、どちらが妥当な結果?
8
最小二乗法
Bootstrap
10. The Bootstrap and Maximum Likelihood Methods
最尤法について
・確率変数𝑍がパラメータ𝜃を持つ確率密度𝑔 𝜃(𝑧)に従うと
仮定し、得られたデータに最もフィットする𝜃を知りたい
・𝑍の独立な𝑁個の実現値𝑧𝑖(𝑖 = 1, . . , 𝑁)が得られているとき、
尤度関数𝐿 𝑍; 𝜃 は以下で与えられる
𝐿 𝑍; 𝜃 =
𝑖=1
𝑁
𝑔 𝜃(𝑧𝑖)
・𝐿 𝑍; 𝜃 の自然対数は対数尤度関数と呼ばれる
𝑙 𝑍; 𝜃 = 𝑙𝑜𝑔𝐿 𝑍; 𝜃 =
𝑖=1
𝑁
log 𝑔 𝜃(𝑧𝑖) (𝑙 𝜃 と略記する場合あり)
・尤度関数、もしくは対数尤度関数を最大にするパラメータを
𝜃の最尤推定量と呼ぶ
𝜃MLE = argm𝑎𝑥
𝜃
𝐿 𝑍; 𝜃 = argm𝑎𝑥
𝜃
𝑙 𝑍; 𝜃
9
11. The Bootstrap and Maximum Likelihood Methods
最尤推定量の統計的性質
・𝑁 → ∞で真のパラメータ𝜃0に確率収束する(漸近不偏性)
𝜃MLE →
𝑃
𝜃0
・ 𝑁 → ∞で正規分布に分布収束する(漸近正規性)
𝜃MLE →
𝑑
𝑁 𝜃0, 𝐼 𝜃0
−1
, 𝐼 𝜃0 : Fisher情報行列
・ 𝑁 → ∞で不偏推定量のClassの中で最小分散となる(漸近有効性)
cf. Cramér-Raoの不等式
𝑉𝑎𝑟 𝜃MLE ≤ 𝑉𝑎𝑟 𝜃U𝐵 , 𝜃U𝐵 ⊆ (全ての不偏推定量)
10
12. The Bootstrap and Maximum Likelihood Methods
最尤法による平滑化
・平滑化の例について、最尤法でパラメータ推定を行う
・観測誤差εが𝑁 0, 𝜎2 に従うと仮定すると、観測変数𝑦は
𝑁 𝛃 𝑇 𝒉(𝑥𝑖) , 𝜎2 に従うので、対数尤度関数と最尤推定量は
𝑙 𝛃, 𝜎2
= −
1
𝑁
𝑙𝑜𝑔𝜎2
2𝜋 −
1
2𝜎2
𝑖=1
𝑁
(𝑦𝑖 − 𝛃 𝑇
𝒉(𝑥𝑖))
𝛃MLE = 𝐇 𝑇 𝐇 −1 𝐇 𝑇 𝐲 (最小二乗法の結果と一致)
𝜎MLE =
1
𝑁 𝑖=1
𝑁
𝑦𝑖 − 𝛃MLE
𝑇
𝒉 𝑥𝑖
2
(不偏性を持たないことに注意)
11
17. The EM Algorithm
EMアルゴリズムについて
・不完全なデータから最尤推定量を導くアルゴリズム
・ EMアルゴリズムが用いられるケース
・混合分布のパラメータ推定
・隠れマルコフモデルのパラメータ推定
・説明変数に欠損のあるデータでの最尤推定
・目的変数に欠損のあるデータでの最尤推定(半教師あり学習)
・罰則付き最尤法のパラメータ推定
・次の2つのステップを繰り返すことで尤度関数を最大化する
E-step: 観測データ𝑦と 𝜃 の暫定値が与えられた下で、完全デー
タの対数尤度の条件付期待値(Q関数)を計算するステップ
M-step: E-stepで求めたQ関数を最大化する𝜃を求めるステップ
16
19. The EM Algorithm
混合正規分布の例
・観測データ𝑦𝑖(i = 1, … , N)が得られているときの対数尤度関数
𝑙 𝑍; 𝜃 =
𝑖=1
𝑁
𝑙𝑜𝑔[ 1 − 𝜋 𝜙 𝜃1
𝑦𝑖 + 𝜋𝜙 𝜃2
𝑦𝑖 ]
⇨ 𝑙 𝑍; 𝜃 の極値は陽に求められない
・そこで、潜在変数∆𝑖が仮に観測された場合の対数尤度
(完全対数尤度)を考えると
𝑙0 𝑍; 𝜃, ∆
=
𝑖=1
𝑁
[ 1 − ∆𝑖 𝑙𝑜𝑔𝜙 𝜃1
𝑦𝑖 + ∆𝑖 𝑙𝑜𝑔𝜙 𝜃2
𝑦𝑖 ] +
𝑖=1
𝑁
[ 1 − ∆𝑖 𝑙𝑜𝑔 1 − 𝜋 + ∆𝑖 𝑙𝑜𝑔𝜋]
⇨ 𝑙0 𝑍; 𝜃, ∆ の極値は陽に求めるられる
18
23. The EM Algorithm
EMアルゴリズムの妥当性
𝑍: 観測データ, 𝑍 𝑚
: 欠損データ, 𝑇 = (𝑍, 𝑍 𝑚
) ,
𝜃′:更新パラメータ(変数), 𝜃 :更新前パラメータ(定数)
・(8.45)式から観測データに対する対数尤度関数は下記の通り
𝑙 𝜃′; 𝑍 = 𝑙0 𝜃′; 𝑇 − 𝑙1 𝜃′; 𝑍 𝑚 𝑍
= 𝐸[𝑙0 𝜃′; 𝑇 𝑍, 𝜃 − 𝐸 𝑙1 𝜃′; 𝑍 𝑚 𝑍 𝑍, 𝜃
= 𝑄 𝜃′
, 𝜃 − 𝑅 𝜃′
, 𝜃
・更新前後での尤度を比較すると
𝑙 𝜃′
; 𝑍 − 𝑙 𝜃; 𝑍 = 𝑄 𝜃′
, 𝜃 − 𝑄 𝜃, 𝜃 − [𝑅 𝜃′
, 𝜃 − 𝑅 𝜃, 𝜃 ]
・1項目はM-stepにより明らかに0以上
・2項目を評価すると
𝑅 𝜃′
, 𝜃 − 𝑅 𝜃, 𝜃 = −𝐸 𝑍 𝑚|𝑍,𝜃 log
𝑃𝑟 𝑍 𝑚 𝑍, 𝜃
𝑃𝑟 𝑍 𝑚
𝑍, 𝜃′
= −𝐾𝐿 𝑃𝑟 𝑍 𝑚
𝑍, 𝜃 , 𝑃𝑟 𝑍 𝑚
𝑍, 𝜃′
≤ 0
Hence, 𝑙 𝜃′
; 𝑍 − 𝑙 𝜃; 𝑍 ≥ 0 22
24. MCMC for Sampling from the Posterior
MCMCについて
・ベイズ推論において、解析的に導出が困難な事後分布をモンテ
カルロ法により求める方法
・定常分布が事後分布になるようなマルコフ連鎖を構成する
・Gibbsサンプラー(完全条件付分布からの逐次サンプリング)
・M-Hアルゴリズム(尤度比を用いた棄却法)
・他のアプリケーションとしては、数え上げ問題、分割表の確率
計算(Fisherの正確確率検定)など
23
25. MCMC for Sampling from the Posterior
Gibbsサンプラーについて
・同時分布の解析導出、もしくはサンプリングが困難だが、条件
付き分布からのサンプリングが容易な場合に有効なアルゴリズム
24