8.4 グラフィカルモデルによる推論

PRML読書会第11回
8.4 グラフルモルによる推

2010-02-06
SUHARA YOSHIHIKO
(id:sleepy_yoshi)

目次
• 8.4 グラフルモルによる推
– 8.4.1 連鎖における推
– 8.4.2 木
– 8.4.3 因子グラフここまで
– 8.4.4 積和アルゴリズム
– 8.4.5 max-sumアルゴリズム
– 8.4.6 一般のグラフにおける推
– 8.4.7 ループあり伝播
– 8.4.8 グラフ構造の学習

1

本発表のポイント
(1) 連鎖ノードにおけるメッセージパッシング
(2) 因子グラフとは? 因子グラフの作り方

2

8.4 グラフィカルモデルに
お

3

グラフルモルにおける推
• 目的: グラフルモルにおける推
– いくつかのノードが観測された際に，残ったノード
(のうちいくつか) の事後分布を知りたい

• アプローチ
– グラフ構造を用して局所的なメッセージの伝播を
用いてをう
– cf. は10章で紹介

4

無向連鎖のグラフの
K状態変数

1
p(x) = ψ 1, 2 ( x1 , x2 ) 2,3 ( x2 , x3 )Lψ
ψ −1, (x −1 ,x ) (8.49)
Z
K×Kの表
N-1個
⇒ 同時分布は (N-1) K2 個のパラメータを持つ

習
※有向グラフと同じ条件付き性を持つ

7

周辺分布の推
• 連鎖中のノードの周辺分布を推したい
– どのノードも観測されていない場合
コレ

xn

周辺分布 p ( xn ) = ∑L ∑∑L ∑ p(x)
x1 xn−1 xn+1 x
(8.50)

xn以外で周辺化

⇒ xが取りうる状態の数: KN個
ポイント: 連鎖のさNに対して
指数オーダーO(KN)のメモリと計算 8

STOP! ポテンシャル関数って何なのさ？

• (規格化されるので) ψ(xC) > 0 であればなんでもよい
– えばボルマン分布: ψ C (x C ) = exp{− E (x C )}
– エネルギー関数も本文中に記述なし

• ポテンシャル関数の周辺化ってどういうこと?
– 簡単のためxc={x1,x2}，x1,x2は0,1の2 変数とする

ψ C ( x1 ) = ∑ exp{− E ( x1 , x2 )}
x2
= exp{− E ( x1 , x2 = 0)} + exp{− E ( x1 , x2 = 1)}

の
ポテンシャル関数を使って説明しているのは一般性を保つため
くなったら適に変換すべし
9

周辺分布のよい推 : て
グラフルモルの条件付き性を用
xNの周辺化の ∑ψ (x , x )ψ (x , x )Lψ
x
1, 2 1 2 2,3 2 3 −1, (x −1 ,x )
= ψ 1, 2 ( x1 , x2 ) 2,3 ( x2 , x3 )L ∑ψ
ψ −1, (x −1 ,x )
x
xNに依存する部分だけでよい

周辺化のイメージ ψ −1, (x −1 ) ≡ ∑ψ −1, (x −1 ,x )
x
ψ (x = 1, x = 1) L ψ (x = K , x = 1) 
xNについて  −1, −1 −1, −1

周辺化  M O M 
ψ ( x −1 = 1, x = K ) L ψ ( x −1 = K , x = K ) 
 −1, −1, 

(ψ −1, (x −1 = 1) L ψ −1, (x −1 = K )) 10

周辺分布のよい推 : 本番
1
p ( x) = ψ 1, 2 ( x1 , x2 )ψ 2,3 ( x2 , x3 )Lψ −1, (x −1 ,x )
Z
代入

p( xn ) = ∑L ∑∑ L ∑ p(x)
x1 xn−1 xn+1 x

さきどの条件付き性を用
1    
p ( xn ) = ∑ψ n −1,n ( xn −1 , xn )L ∑ψ 2,3 ( x2 , x3 )∑ψ 1, 2 ( x1 , x2 ) L
Z x
 n −1 x 2 x  
1 

µα ( xn )
   
∑ψ n ,n +1 (xn , xn+1 )L ∑ψ −1, (x −1 , x ) L
 xn+1
 x  
11
µ β ( xn )

入れえによる計算
• 演算による計算の : ab + ac = a(b + c)
3回 ⇒ 2回
ψ 1, 2 ( x1 , x2 ) をx1について周辺化
 ψ 1, 2 ( x1 = 1, x2 = 1) L ψ 1, 2 ( x1 = K , x2 = 1)   ψ 1, 2 ( x2 = 1) 
   
 M O M   M 
ψ ( x = 1, x = K ) L ψ ( x = K , x = K )  ψ ( x = K ) 
 1, 2 1 2 1, 2 1 2   1, 2 2 
K×Kの演算

同じことをN-1回繰り返すので，p(xn)を求めるために必要な
計算はO(NK2)
ポイント: 連鎖のさNに対して
線形オーダーO(NK2)の計算 12

局所的なメッセージ伝播
1 規格化係数
p ( x ) = µ a ( xn ) µ β ( xn ) Z = ∑ µ a ( xn ) µ β ( xn )
Z xn

– μα: 前向きに伝わるメッセージ
– μβ: 後ろ向きに伝わるメッセージ

前向き後ろ向き
   
µ a ( xn ) = ∑ψ n −1,n ( xn −1 , xn ) ∑ L µ β ( xn ) = ∑ψ n,n +1 ( xn , xn +1 ) ∑ L
xn−1  xn −2  xn+1  xn+ 2 

= ∑ψ n −1,n ( xn −1 , xn ) µα ( xn −1 ) = ∑ψ n ,n +1 ( xn , xn +1 ) µ β ( xn +1 )
xn+1
xn−1
13

連鎖上全てのノードに対しての推

• 伝播中すべてのメッセージを保存
(1) メッセージμαをx1からxNまで前向きに伝播
(2) メッセージμβをxNからx1まで後ろ向きに伝播
µ a ( x2 ) µ a ( xn −1 ) µ a ( xn ) µ a ( xn +1 ) µa ( x )

µ β ( x1 ) µ β ( xn − 2 ) µ β ( xn −1 ) µ β ( xn ) µβ ( x −1 )
※1 計算は1つのノードに対する計算の2倍
※2 Zは都合のよいノードで計算すればよい

任意のノードの周辺分布を式(8.54)を用いて計算可能
1
p ( xn ) = ∑ µ a ( xn ) µ β ( xn ) (8.54) 14
Z xn

演習8.15: する2点の同時分布
• する2点の同時分布 p(xn-1, xn)
xn, xn-1以外を周辺化する
1
p( xn −1 , xn ) = ψ (x , x )
Z n −1,n n −1 n
   
∑ψ n − 2,n −1 ( xn − 2 , xn −1 )L ∑ψ 2,3 ( x2 , x3 )∑ψ 1, 2 ( x1 , x2 ) L
 xn− 2
 x2  x1  

µα ( xn−1 )
   
∑ψ n ,n +1 ( xn , xn +1 )L ∑ψ (x −1 , x ) L
⇒ (8.54)
−1,
 xn+1
 x  

µ β ( xn ) 15

補足: チャップマン-コルモゴロフの等式

• ホワイトボードで説明

16

メッセージパッシングの拡張
• ノードの連鎖から成るグラフでは，ノード数に
線形な時間で推可能なことを示した
• 木 (tree) と呼ばれるクラスでも同様に局所的
なメッセージパッシングによる推が可能
⇒ 連鎖についてのメッセージパッシングを一般化
した積和アルゴリズムを導出

積和アルゴリズムについては
8.4.4を乞うご期待！ 18

木の種類
• 無向木
– 任意のノード間に一のが存在
• 有向木
– 根 (root) と呼ばれる親を持たないノードを1つだけ持ち，他の全ての
ノードは親を1つだけ持つ
• 多重木
– 2つ以上親を持つノードが存在するが，任意の2ノード間の (方向を無
視した) が1つしかない有向グラフ

無向木有向木多重木
モラル化で変化なしモラル化でループが発生
19

習: モラル化
• 有向グラフから無向グラフへの変換方法
– 親同士を結婚させる≒できちゃった婚
結婚!
父父

子子
モラル化

重婚! ザ・ばっくれ・バーク
レー・ボーイズ
父1 父2 父1 父2 by 和

子モラル化?! 子 20

モラル化：参考情報

などなど
21

演習8.18
• 有向木によって表現される分布が，対応する無向木上の
等価な分布によって (自明に) 表現されることを示せ．
無向木で表現される分布が，クリークポテンシャルを適
に規格化することにより，有向木で表現可能であるこ
とも示せ．ある与えられた無向木から構築できる有向木
の数を計算せよ．

⇒ ホワイトボードで説明

22

8.4.3 因子グラフ

23

因子グラフ
• 有向グラフ，無向グラフを因子グラフで表現
– 局所的な変数の部分集合のみに依存する関数の集合
の積として表現可能

因子グラフ p ( x) = ∏ f s ( x s ) (8.59)
s

有向グラフ ⇒ 親にのみ依存という条件付き性を用
K
p(x) = ∏ p( xk | pa k ) (8.5)
k =1
無向グラフ ⇒ 極大クリーク上のポテンシャル関数の積で表現
1
p(x) = ∏ψ C (x C ) (8.39) 24
Z C

因子グラフの
p(x) = f a ( x1 , x2 ) f b ( x1 , x2 ) f c ( x2 , x3 ) f d ( x3 )
• この因数分解のグラフ表現
変数ノード

因子ノード

無向グラフ表現では，これらの積は
ひとつのポテンシャル関数に統合された
⇒ 因子グラフではより詳細な情報が表現される 25

有向グラフからの変換
(1) ノードに対応する変数ノードを作る
(2) 条件付き分布に対応する因子を付け加える
(3) 適なリンクを加える

条件付き分布
に着目

f ( x1 , x2 , x3 ) f a ( x1 ) = p ( x1 )
これはダメ? なぜ?
= p ( x1 ) p( x2 ) p( x3 | x1 , x2 ) f b ( x2 ) = p ( x 2 )
f c ( x1 , x2 , x3 ) = p( x3 | x1 , x2 )
26

無向グラフからの変換
(1) 各ノードに対応する変数ノードを作る
(2) 極大クリークxsに対応する因子ノードを加える

f ( x1 , x2 , x3 ) = ψ ( x1 , x2 , x3 ) f a ( x1 , x2 , x3 ) f b ( x2 , x3 )
= ψ ( x1 , x2 , x3 )
注意点
f a ( x1 , x2 , x3 ) f b ( x2 , x3 ) ≠ ψ ( x1 , x2 , x3 )ψ ( x2 , x3 ) 27

局所的なを持つグラフ
• 有向グラフにおいて，適な因子関数をす
ることにより局所的なを可能

f ( x1 , x2 , x3 ) = p( x1 ) p( x2 | x1 ) p( x3 | x1 , x2 )

28

複数の因子グラフによる表現
• 複数の因子グラフが，ひとつの有向グラフ／無向グラフ
を表現することがある

p(x) = f ( x1 , x2 , x3 )

p(x) = f a ( x1 , x2 ) f b ( x1 , x3 ) f c ( x2 , x3 )
何の条件付き性も表現しない
29

(再掲) 本発表のポイント
(1) 連鎖ノードにおけるメッセージパッシング
(2) 因子グラフとは? 因子グラフの作り方

30

発表まとめ
• 連鎖による推をじて，メッセージによる推
の要を解説した
• 有向／無向グラフから因子グラフと因子関数を
生成する方法を解説した
• 疑問「因子グラフがなんで嬉しいの?」

続く発表に乞うご期待！
31

地ノほこ
獄ーんれ
だテとか
ーうら

…
シのが
ョ
ン

33

8.4 グラフィカルモデルによる推論

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a 8.4 グラフィカルモデルによる推論

Similar a 8.4 グラフィカルモデルによる推論 (20)

Más de sleepy_yoshi

Más de sleepy_yoshi (20)

Último

Último (7)

8.4 グラフィカルモデルによる推論