マルコフ連鎖モンテカルロ法と多重代入法

多重代入法と
マルコフ連鎖モンテカルロ法
2016/2/22
宜保光一郎

はじめに
• 多重代入法(MI)をマルコフ連鎖モンテカルロ法
(MCMC)の観点から俯瞰してみたいと思います。
• まずMCMCの概略からスタートして、MIに入ります
• MIに関して、少しごちゃごちゃしてしまいました..

Notation
• ボルド体はベクトル・行列を示す
• Θ, ：パラメータ
• y: データ、応答変数
• p(): 引数の確率分布


MCMCとは何の目的で使われるの
か？
• 端的に言うと、
• 「解析的に解けない積分をシミュレーションで
計算する方法」
• 統計学で、期待値と分散の計算をするには積
分を解かないといけない場面が多い

MCMCとは
• マルコフ連鎖モンテカルロ法
＝
• モンテカルロ積分＋マルコフ連鎖
• 一体何をしているの？？

モンテカルロ積分
• ある積分Hに、確率変数xの確率分布p(x)をかませよう
• ここで、x1, x2, x3,…を確率分布p(x)から独立に抽出した標本と
すると、大数の法則より
• つまり、確率分布p(x)から独立して多くのサンプルが得られ
れば、直接積分を解かなくても、漸近解が得られる。
• これをモンテカルロ積分という。
( )
( ) ( ) ( ) ( ) [ ( )]
( )
( )
, ( )
( )
p
k x
H k x dx p x dx h x p x dx E h x
p x
k x
where h x
p x
   

  
1
1
( ) ,
n
F
i
i
h x H as n
n 
  

モンテカルロ積分：例
• そうすると、扇形の面積はドロップし
た全ての標本の数の中の赤印の割
合で近似できると直感的にわかる
• 右図の例では、100個ドロップしたも
ののうち、80個が赤印。よって
• S ≒ 80/100=0.8
• ドロップした数を増やせば増やすほ
ど近似の精度は高くなる
• X2+y2=1 の円のうちx,y軸が[0,1]までの扇形の面積Sを考えてみよう
• 右図に示すように範囲[0,1]の一様分布から独立かつランダムにサン
プルした値をドロップしていく。
• そして、円の内部に落ちた標本に赤印をつけていく

確率分布からのサンプリング
• モンテカルロ積分を行うためには、確率分布
から独立してサンプリングできなければなら
ないが、これは容易でないことが多い。
• 解決策→マルコフ連鎖の性質を使う
• マルコフ連鎖を定常分布(stationary
distribution)がp(x)となるように構成できれば
サンプリングが可能になる。

マルコフ連鎖
• 状態推移の確率、例えばパラメータΘの推移確率
pr(.|.)を持つマルコフ連鎖からサンプリングすること
は次のように表すことができる
• t+1回目の推移はt回目以前の状態に依存しない。
→これがマルコフ連鎖
 1 ( )
~ ( | ), 0,1,2...
t t
pr t  

(0)
 ( )t
 ( 1)t
 

マルコフ連鎖の例
• このマルコフ連鎖を推移していったときにその分布
がどうなるか見てみよう。
• 10000回iterationする
• また初期値を変えると分布はどうなるか？
( 1) ( )
~ (0.2 , 1.0)t t
N 

10000回のシミュレーション
初期値によらず、大体似たような分布になっていると分かる

マルコフ連鎖の例
• 定常分布は正規分布になることは明らか
• 定常分布はtに依らない分布なので
( 1) ( )
( 1) ( )
~ (0.2 , 1.0)
0.2 , ~ (0, 1.0)
t t
t t
N
N
 
   



 
( 1) ( ) ( )
( 1) ( ) 2 ( )
[ ] [ ] 0.2 [ ]
[ ] 0
[ ] [ ] 0.2 [ ] 1
[ ] 1.04
~ (0, 1.04)
t t t
t t t
E E E
E
Var Var Var independently
Var
N
  

  




 
 
  
 
Q

定常分布(stationary distribution)
• 定常分布とはiteration; tに依らない、つまり初期値
にも依らない分布
• この定常分布を目的とする確率分布p(x)として構成
できれば、十分iterationしたあとの、xは独立にp(x)
からサンプリングした値といえる。
• 先の例ではΘ(t=9000), Θ(t=9020),Θ(t=9080)などは、
N(0,1.04)から独立にサンプルした値といえる。
• モンテカルロ積分に使える！ということ。

定常分布へ収束するために
• マルコフ連鎖の全てが定常分布へ収束する
わけではない。
• そのためにはある正則条件が必要(今回それ
には触れず)
• この正則条件を満たす代表的な方法が、い
わゆるメトロポリス法やギブスサンプラーとよ
ばれるアルゴリズムとなる。

Gibbs sampler (single component)
• 定常分布を得るための方法の一つである
(0) (0) (0) (0)
1 2
( 1) ( ) ( )
1 1 2
( 1) ( 1) ( ) ( )
2 2 1 3
( 1) ( 1) ( 1) ( )
3 3 1 2 4
1. ; ( , ,.., )
2. ( | ,.., )
( | , ,.., )
( | , , .
p
t t t
p
t t t t
p
t t t t
Step Setinitial parameter
Step sampledrawn from p
sampledrawn from p
sampledrawn from p
  
   
    
    

 
  
θ
( )
( 1) ( 1) ( 1)
1
( ) ( ) ( )
1 1
., )
..................., ( ,.., )
3. 2
,
( ,.., ) ( ,.., )
t
p
t t t
p
t t t
p p
and make
Step loop step
Then after enough iterations
converges to a draw from p

 
   
  


θ
θ
Joint distribution

補足：Bayesian
• P(Θ|..)とは一体何か？
• 頻度論的には、これは1 or 0 である。なぜなら
頻度論ではパラメータはある真の値と考えて
いるので、それは”あるかないか”に過ぎない
わけである。
• しかしベイジアンではパラメータも確率変数、
つまり確率分布を持っていて、確率的に変動
すると考える。(ベイズの世界ではすべてが確
率変数！)

Bayesian estimation
• ベイズの定理
• 我々は普通、データyからパラメータΘがどんなもの
(分布)であるかを知りたい。
• 分布の形が分かればおのずと代表値、ばらつき(信
用区間)が分かる。
( | ) ( )
( | )
( )
,
( | ): , ( ): , ( | ):
( ):
p y p
p y
p y
where
p y posterior p prior p y likelihood
p y normalizing factor
 

  


Bayesian estimation
• 前述の式のうちp(y)は定数になり、直接事後分布の
形状に影響しないため、外すと
• 尤度はパラメータが与えられたときのデータの分布
である。つまりこれは、実際に得られたデータの分
布と考えられる。
• ベイジアン推定の考え方の基本は「もともと持ってい
る事前情報に、手に入れたデータを適応して、改善
し、事後情報を得る」ということ
( | ) ( ) ( | )p y p p y  
事後分布事前分布尤度

多重代入法(MI)
• 多重代入法は、多くの亜流がありますが、古典的な
Rubin流の多重代入法を紹介します。亜流が多いと
いうことは、理論としては完熟していないことを意味
しています。
• 議論となる最大のポイントは「如何にして事後予測
分布から補完させるか」ということにつきます。

Imputation phase→ Analytic phase→ Pool phase

表記
• Yobs: 観察されている値、特にボルド体はベクトルで
観察されているデータ全体を表す
• Ymis: 欠測している値、特にボルド体は欠測している
データ全体を表す
• R: 欠測のインジケーター {0,1}
• Example
• Ymis={Ymis
(1), Ymis
(2),..,Ymis
(m)} ,mは欠測数

データに欠測があると..
• 手に入ったデータがYobsしかない状況
• ベイズ推定で、パラメータの事後分布をもとめたい
• モンテカルロ積分の立場からみると、p(Ymis|Yobs,R)
の分布から、YmisをD個サンプリングできて、それを
Ymis
(1),..,Ymis
(d)とすると
( | , ) ( , | , )
( | , ) ( | , )
obs mis obs mis
mis obs mis obs mis
p p d
p p d




θ Y R θ Y Y R Y
θ Y Y Y Y R Y
完全データの
事後分布
事後予測分布
( )
1
1
( | , ) ( | , )
d
i
obs mis obs
i
p p
d 
 θ Y R θ Y Y

MAR assumption;
“ignorability”
• MAR(missing at random)はMIを実行するうえで重要
な仮定
• 欠測のメカニズムが観測されているデータに依存し
て発生している。(観測されていないデータには依存
しない)
• 数式ではがいえる
• これで、今後の議論では確率変数Rについては無視
して議論できる(欠測のプロセスをモデル化する必
要がない)
( | , ) ( | )mis obs mis obsp pY Y R Y Y

多重代入法
• 前述の過程を具体的に追っていくと
• P(Θ|Yobs)を求めたいとき、ある欠測を予測する分布
p(Ymis|Yobs)からサンプリングして、欠測部分に値を
出現させる(補完)。そうしてできた完全データがd個
できる(Yobs, Ymis
(d))。
• そうしてモンテカルロ積分をすると、パラメーターの
事後分布が得られ、その平均、分散も求まるという
寸法
• これを多重代入法と呼ぶ
• 最大の問題は上記の下線部分をどう実行するか

Step-by-step
• 多重代入法を段階を追って考えてみる
• まず、あるデータの同時分布は多重正規分布とする。
また、変数をY=(Yobs,Ymis)として欠測が存在し、MAR
とする。
• パラメータΘ=(μ、∑)
• (補足：頻度論ではアウトカム以外は普通確率変数としないが、ベイジア
ンではすべて確率変数なので、データは同時分布としてあらわされる)
11 1
( , | , ) ( | , ) exp( ( ) ( ))
2(2 )
T
mis obs k
p p


    Y Y μ Σ Y μ Σ Y μ Σ Y μ
Σ

Imputation step
• まず、次の事後予測分布p(Ymis|Θ(0), Yobs)からYmis
(1)
をサンプリングし、Ymisを埋めて完全データを作る
• データの同時分布が多変量正規分布と考えている
ので、適当に初期パラメーターΘ(0)=(μ(0)、∑(0))を決め
る。
• (Θ(0), Yobs)が所与として、どうやって事後予測分布
p(Ymis|Θ(0), Yobs)を作るか？分かりやすいのは回帰
モデルを立てることかもしれない。→regression-
based imputation

I-step: regression-based imp.
• 次のIQとJob performanceのデータ
• 欠測部分を予測分布から求める
IQ Job Performance
78 NA
84 NA
84 NA
85 NA
87 NA
91 NA
92 NA
94 NA
94 NA
96 NA
99 7
105 10
105 11
106 15
108 10
112 10
113 12
115 14
118 16
134 12

I-step: regression-based imp.
(0) (0)
1 1
(0) (0)
2 2
:
* ,
~ ( , )
~ ( , )
, ,
~ *
obs obspart
mis mispart
regression
JP a b IQ
JP N
IQ N
getthe parameter distributions
of a b
JP a b IQ

 
 


  

  
観察されている部分で
回帰式を作って
欠測している部分を回
帰式から発生させる
(0) (0)
~ ( | , )mis mis obspY Y θ Y

P-step: regression-based imp.
• 次に、完全データ(Ymis
(0), Yobs)より事後分布p(Θ|
Ymis
(0), Yobs)が求まる
(0) (0)
(0) 1
(0) 1
( | , ) ( , | ) ( )
,
( | , , ) ~ Wishart ( 1, )
( | , , ) ~ ultivariate Normal( , )
,where SS means sample sumof squares
mis obs mis obs
mis obs
mis obs
p p p
and in general
p n SS
p M n




θ Y Y Y Y θ θ
Σ μ Y Y
Σ Y Y μ Σ

Imputation step: regression-based
• こうしてiterationを繰り返すと、事後予測分布
p(Ymis|Θ(0), Yobs)からYmis
(t)がサンプルできる。
(Gelman,2004)
(これらは独立とみなすことができるであろう)
• こうしてYmis
(t)の中からd個選びだし、d個の完
全データセットを作成できる

Regression-based V.S.
Data Augmentation
• Regression-based imputation
• 欠測のタイプが”モノトーン”の場
合のみに有効
• 同じ方法でデータがbinaryのとき
はロジスティック回帰などを使っ
て事後予測ができる。
• モノトーンでない場合は？(これ
が普通)
↓
• Data Augmentation≒MCMC !!
http://www.psych.york
u.ca/lab/psy6140/lectu
res/missing614-2x2.pdf

予測分布からのサンプリング
• MCMCに落とし込むときの課題は、予測分布
p(Ymis|Yobs)が定常分布になるようにマルコフ
連鎖をいかに構成するかにある。
• そこで、分布p(Ymis,Θ|Yobs)のGibbs samplerを
考えてみる
• シミュレートする変数が2つあるのでtwo-
component Gibbs samplerともいう(Liu1998)

Data Augmentation
(Dempster et al. 1977)
• 次のiterationを繰り返すと、
• が得られる。(regression-basedはこれの特殊な場合)
• Regression-based よりも、乱数の発生が困難！→コ
ンピューターの力を大いに借りる。
• この方法は、Ymisを更新してデータがどんどん大きく
なっていくので Data Augmentation という。
( ) ( )
( 1) ( )
~ ( | , )
~ ( | , )
t t
mis mis obs
t t
mis obs
p
p
Y Y θ Y
θ θ Y Y

Two-component Gibbs sampler
(Liu,1994; Schafer,1997)
• 前述したサンプルは最終的に以下の定常分布に収
束することが分かっている。
• これで欲しかった予測事後分布p(Ymis|Yobs)からのサ
ンプルが得られた。
• このdata augmentation はGibbs samplerの見地から
も正当化され、Liuは”two-component Gibbs
sampler”と呼称している。
( 1)
( 1)
~ ( | )
~ ( | )
t
obs
t
mis mis obs
p
p


θ θ Y
Y Y Y

Two-component Gibbs sampler,
Summary
( ) ( )
( 1) ( )
( 1)
( 1)
simulate these:
~ ( | , )
~ ( | , )
..........
Then,we get thesamplesdrawnfromthefollowingposterior
~ ( | )
~ ( | )
t t
mis obs
t t
mis mis obs
t
obs
t
mis mis obs
p
p
p
p



θ θ Y Y
Y Y θ Y
θ θ Y
Y Y Y

補足
• 歴史的には、data augmentationの理論的な
根拠はEMアルゴリズムであった
• その後、これがMCMCの一種であるということ
が分かった。

Rubin’s rule
• では、推定のために平均と分散を導出する
• は各完全データの推定値
( )
1
( )
1
( )
1
1
( | ) ( | , )
[ | ] ( | )
1
( | , )
1
[ | , ]
d
i
obs mis obs
i
obs obs
d
i
mis obs
i
d
i
mis obs
i
p p
d
E p d
p d
d
E
d











θ Y θ Y Y
θ Y θ θ Y θ
θ θ Y Y θ
θ Y Y
( )
[ | , ]i
mis obsE θ Y Y

Rubin’s rule
• 分散：
• ただしBは有限のデータセットによる誤差の補正とし
て次のようにする
1
1
[ | ] [ ( | , ) | ] [ ( | , ) | ]
1
( | , )
1
[ ( | , ) ( | )][ ( | , ) ( | )]
1
obs mis obs obs mis obs obs
d
mis obs
i
d
T
mis obs obs mis obs obs
i
Var E Var Var E
Var
d
E E E E
d
V B


 
 
 

 


θ Y θ Y Y Y θ Y Y Y
θ Y Y
θ Y Y θ Y θ Y Y θ Y
1
[ | ] (1 )obsVar V B
d
  θ Y

正規性
• 事前分布P(Θ)は無情報分布、尤度P(Yobs|Θ)も多変
量正規分布を考えているので、事後分布P(Θ|Yobs)も
多変量正規分布と考えられるよって95%信用区間は
次のように与えられる。検定も同様に可
• しかし、これは無限のデータセットでの仮定なので、
small sampleの場合、z検定をt検定に置換するのと
同じ理屈でt検定ができる。自由度は以下で与えら
れている(Rubin,1987)
(1 )( | ) ( | )obs obsE z Var Y Y
1
( 1)[1 ]
(1 )
V
d
d B
 
  


MIの実践における諸問題

Imputation model ≠
analytic model
• Rubin’s rule で統合する際のパラメータはデータが多
変量正規分布としたときは、データの平均ベクトルμ
と分散共分散行列∑であったが、実際の解析フェー
ズでは完全データからの回帰係数などのパラメータ
について知りたいことが多いかもしれない。
• 代入モデル(p(Ymis|Yobs)からの発生)と、解析モデル
(解析フェーズでロジスティック回帰分析など)が異な
る(使用する変数が食い違うなど)場合、統合は
Rubin’s rule で良いか？

Inferential congeniality(Meng,1994)
• 結論からいうと、「代入モデル≠解析モデルであって
もプラクティカルにはRubin’s ruleで統合してもよい」
ことになっている
• しかし、数理的には”congeniality”という条件が必要
とされている(Meng,1994)

実践的側面：仮定の整理
• Rubin 流の古典的な proper MI においては以
下のような大きな仮定を置いている
• ①MAR assumption（欠測のプロセスのモデル
化が不要）、②imputation modelにおける
データのjoint distributionが多変量正規分布

MAR assumption?
• デザインの段階で欠測がどのように生じるか予測し
ておき、欠測メカニズムを説明する補助変数
(auxiliary variable)となりうるものも測定しておく
• 感度分析として、MNARメカニズムでの感度分析を
考慮する。
• これが難しいならコンプリートケース研究の結果と
比較する(必須)。MARであればコンプリートケース研
究との大きな相違は無いはず。

同時分布が多変量正規分布？
• imputation modelにおけるデータの同時分布が多
変量正規分布であることは実務上はまれであろう
(カテゴリーなどが入るのが普通)
• いくつかのシミュレーション研究では、カテゴリーな
どが入っていても、無理やり多変量正規分布と考え
て実行しても大きなバイアスは入らないとしているも
のもある。(正規化はしてもしなくても良い？)
• しかし、このときも”丸め”の問題が生じたり、実践的
な解析には困難を伴うことが多い

MCMCは本当に収束している？
• MCMCは非常にフレキシブルだが、収束して
いるかどうかはとても重要(収束していなけれ
ば定常分布といえない)。
• Data augmentationの際に収束しているかの
視覚的チェックは必要。

参考文献
• Little, R. J. A., & Rubin, D. B.
(2002). Statistical analysis with
missing data. Hoboken, N.J: Wiley.
• Enders, C. K. (2010). Applied
missing data analysis. New York:
Guilford Press.
• Molenberghs, G., Fitzmaurice, G.,
Kenward, M. G., Tsiatis, A. A., and
Verbeke, G. (2014). Handbook of
Missing Data Methodology.
Chapman & Hall/CRC Press.
http://as.wiley.
com/WileyCDA
/WileyTitle/pr
oductCd-
0471183865.ht
ml
http://ww
w.applied
missingda
ta.com/
https://www.
crcpress.com
/Handbook-
of-Missing-
Data-
Methodology
/

参考文献
• 丹後俊郎 , Taeko Becque (2011).ベイジアン統計解
析の実際 ―WinBUGSを利用して― 朝倉書店
• 伊庭幸人, その他 (2005). 計算統計 II ― マルコフ連
鎖モンテカルロ法とその周辺 ― 岩波書店
• 岩崎学 (2004). 統計的データ解析のための数値計
算法入門 (統計ライブラリー) 朝倉書店

参考文献
• Tanner, M. A., & Wong, W. H.. (1987). The Calculation
of Posterior Distributions by Data Augmentation.
Journal of the American Statistical Association,
82(398), 528–540.
• Zhang, P.. (2003). Multiple Imputation: Theory and
Method. International Statistical Review / Revue
Internationale De Statistique, 71(3), 581–592.
• Meng, XL. (1994). Multiple-Imputation Inferences
with Uncongenial Sorces of input. Statistical Science,
9(4), 538-573.

マルコフ連鎖モンテカルロ法と多重代入法

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a マルコフ連鎖モンテカルロ法と多重代入法

Similar a マルコフ連鎖モンテカルロ法と多重代入法 (20)

Más de Koichiro Gibo

Más de Koichiro Gibo (6)

マルコフ連鎖モンテカルロ法と多重代入法