3. ・密度は同時分布,条件付分布,周辺分布によって階層的に表現する.
・ [ X ] は分布を表し,X は実現値(サンプリング値)を表す.
・分布を掛ける際は「*」を用いる.簡便のため積分は次のように表現する.
・この例の場合は Z と W について積分している.
・h で表現することもある(この場合,Z で条件付けられたある分布に対して W で周辺を
とることを表している)
.
補足:X や Y は実際に適応する際には失測値や推定したいパラメータを表す.
2.1 Substitution or Data-Augmentation Algorithm
.
・代替法はある積分の解を求める標準的な方法(Rall)
・統計学における有用性は Tanner and Wong によって示された(彼らはデータ拡大法と呼
んだ)
.
・以下に理論の説明.
・こうすることで X を段階的に求めることができる.
特徴:TW1. 真の周辺分布は unique に求まる
TW2. 初期値にかかわらず(3)式で表現される分布は真の分布に収束する
TW3. 速さ(?)
・変数が k 個の時も同様.
・例:3 変数の場合.
(5),(6)式を(4)式に代入すると,2 変数の場合と同じように X を用いて明示的に表現
できる.
[ X ] ∫Y ,Z X , Z Y ∗ [Y ]
=
∫
=
Y ,Z X , Z Y ∗ ∫Z ′, X ′ Y , X ′ Z ′ ∗ [ Z ′]
∫
=
Y ,Z X , Z Y ∗ ∫Z ′, X ′ Y , X ′ Z ′ ∗ ∫X ′′,Y ′ Z ′, Y ′ X ′′ ∗ [ X ′′]
= ∫
X ′′ {∫X ′,Y ,Y ′, Z , Z ′ }
X , Z Y ∗ Y , X ′ Z ′ ∗ Z ′, Y ′ X ′′ ∗ [ X ′′]
= ∫ g ( X , X ′′ ) ∗ [ X ′′]
X ′′
3
4. ・ゆるい仮定をおけば U r , r ≠ s U s ( s = 1, 2,..., k ) で表せる条件付分布によって同時分布を
unique に決定できる(つまり代替サンプリングを正当化できる)
.
2.2 Substitution Sampling
代替サンプリング
・X と Y の条件付分布がわかっている場合に適応可能(1 節の a の状況)
.
・代替サンプリングのサンプリング手順は以下のようになっている.
[ X ]0 ~ X 1(0) X Y1(1) ~ X 1(1)
………… ~ X 1( i −1) X Y1(i ) ~ X 1(i )
…………
Y X 1(0) ~ Y1(1) Y X 1(1) ~ Y1(2) ………… Y X 1(i −1) ~ Y1(i )
1 cycle i 回 iteration する(上の添え字 i に対応)
このペアを m 個作る(m 回 replicate する,下の添え字 j に対応)
・それぞれのペア同士(replicate)は独立であるが,あるペア内のサンプル同士(iteration)
は独立ではない.
・m ペアを replicate し,それらの条件付分布の平均をとることで分布の推定値を得る
(Monte Carlo 法)
.
4
5. データ拡大法(Tannea and Wong)
1/m で Y を発生させる分布を選ぶ
(Tanner and Wong は混合分布から Y を発生させている)
X 1(0) Y X 1(0) Y X (0) ~ Y1(1) X Y1(1) ~ X 1(1) …
j
(0)
X2 Y X 2
(0)
Y X (0) ~ Y2(1) X Y2(1) ~ X 2
(1)
…
j
[ X ]0 : : :
: : :
(0)
Xm Y X m
(0)
Y X (0) ~ Ym
(1)
X Ym ~ X m
(1) (1)
…
j
1 cycle i 回 iteration する(上の添え字が i になるまで)
m 回 replicate
・m は任意に決めることができるので計算を節約できる可能性がある(補足:初めは小さ
い m にしておいて,サンプリングが安定してきたら m を大きくする)
.
・代替法とデータ拡大法は iteration と replicate の順番が逆になっているが,本質的には
同じサンプリング方法.
補足:・Rubin はデータ拡大法を multiple imputation と呼んだ.この例の場合に MI を対
応させると,X が失測値であり Y がパラメータである.Y の分布を推定するステ
ップを“事後ステップ”と呼び,その他の X や Y をサンプルするステップを
“imputation ステップ”と呼ぶ.
・Wei and Tanner はデータ拡大法を,EM アルゴリズムの E ステップにおいて Q
function を求める際に適用することを提案した(MCEM).
以下,両方の方法に共通な説明.
・ X が [ X ] に収束する簡単な説明.
ˆ
i
・3 変数以上の場合も同様.
・完全同時分布は必要ないが,条件付分布を求める際に完全条件付分布や縮小条件付分布
が必要.
5
6. 例:3 変数の場合,X に関する式を書き下すと次のようになる.
[ X ] = ∫ X , Z Y ∗ Y , X ′ Z ′ ∗ Z ′, Y ′ X ′′ ∗ [ X ′′]
] = ∫ X Z , Y ∗ Z Y ∗ Y X ′, Z ′ ∗ X ′ Z ′ ∗ Z ′ Y ′, X ′′ ∗ Y ′ X ′′ ∗ [ X ′′]
[X
上式:400 ページの真中あたりの説明で表現される式.
下式:(8)式の上の方の説明で表現される式(実際の計算はこの式に基づく)
.
→つまり 1cycle で 6 サンプル必要となることがわかる.
・変数が k 個あるときは 1 回の cycle で k(k-1)個のサンプルが必要(3 変数の場合は 6 サン
プル)
.
・iteration を i 回行い,replicate を m 回行うためには mik(k-1)個のサンプルが必要.
・分布の推定を行う際には,2 変数の場合と同じように条件付分布の平均をとる.
2.3 Gibbs Sampling
・変数が 3 個の場合,代替法では 6 個の条件付分布が必要であった.
・しかし完全条件付分布さえあれば,unique に同時分布や周辺分布を決定できるのでこれ
を利用してサンプリングを行うことができる(Geman and Geman) →Gibbs sampler
.
と呼ぶ
・Hasting はこれより以前にこれと同等のことを述べていた.
・ギブスサンプリングはもともと画像修復やニューラルネットワーク,専門システムなど
の複雑な確率モデルのために考案された方法.
・これらの分野では同時分布を求めることが困難である.
・しかし通常は,個々の完全条件付分布は変数のある subset にしか依存しないと仮定する
ことが多い((11)式の形)
.
・この仮定のとき,どのような条件付分布であれば同時分布を unique に決定できるか?
・Geman and Geman がこの疑問に対して答えている.
・今回の論文の例は全て満たしている.
・我々の分野では k はそんなに多くないし,同時分布を特定する過程で完全条件付分布を
計算することはできるだろう.
6
7. ギブスサンプリング
初期値を任意に
決定する
U1(0) U1(1) ~ U|U 2 ,..., U k(0)
1
(0)
U1(i )
(0)
U2 U 2 ~ U|U1(1) , U 3(0) ,..., U k(0)
(1)
2 U 2i )
(
… m 回 replicate し,
: : : (9)式の形で分布を
U k(0) U k(1) ~ U|U1(1) ,..., U k(1)1
k − U k(i ) 推定することも
できる.
……………
1 i a.s.
lim
i →∞ i
∑ T (U1(l ) ,...,U k(l ) ) → E [T (U1 ,...,U k )]
l =1
i 回 iteration したものを平均すると,期待値に概収束する.
(エルゴード性)
特徴:GG1. 変数ベクトルは同時分布に分布収束し,各変数は各変数の分布に分布収束
する(変数が現れる順序が natural order でなくても,それぞれの変数が無限
回起これば良い. Infinitely often,io)
.
GG2. natural order であれば変数ベクトルは真の同時分布に収束する(natural
order でない場合は rate が変わるだけ)
.
GG3. i 回 iteration したものを平均すると期待値に概収束する.エルゴード性)
(
・k 変数,i iteration,m replicate であれば mik 個のサンプルが必要.
補足:Meng and Schilling は EM アルゴリズムにおいてギブスサンプリングを適用するこ
とを提案した.
2.4 Relationship Between Gibbs Sampling and Substitution Sampling
・2 変数の場合:ギブスサンプリングと代替サンプリングは等しい.
・k 変数の場合:ギブスサンプリングは k 個の完全条件付分布が必要(同時分布を特定する
ための最小の数)
.
代替サンプリングは k(k-1)個の条件付分布が必要.
7