ベイズ Chow-Liu アルゴリズム

.
.
ベイズ Chow-Liu アルゴリズム
鈴木譲
大阪大学
2013 年 7 月 19 日
人工知能学会 FPAI 研究会
(北海道稚内市)
鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム
2013 年 7 月 19 日人工知能学会 FPAI 研究会
/ 22

ロードマップ
ロードマップ
1 Chow-Liu アルゴリズム
2 ユニバーサルデータ圧縮
3 ユニバーサルなベイズ測度
4 まとめ
/ 22

ロードマップ
スライドは、お手元でもご覧になれます
キーワード: Joe Suzuki
slideshare
http://www.slideshare.net/prof-joe/
/ 22

Chow-Liu アルゴリズム
Chow-Liu: 木への近似 (1968)
X(1), · · · , X(N): N (≥ 1) 離散確率変数
P1,··· ,N(x(1), · · · , x(N)): X(1) = x(1), · · · , X(N) = x(N) の分布

V := {1, · · · , N} と E ⊆ {{i, j}|i ̸= j, i, j ∈ V } が木を構成すると仮定
Q(x(1)
, · · · , x(N)
|E) =
∏
{i,j}∈E
Pi,j (x(i), x(j))
Pi (x(i))Pj (x(j))
∏
i∈V
Pi (x(i)
)
D(P1,··· ,N||Q) → 最小
ループができない限り、I(i, j) を最大にする {i, j} を辺として結ぶ
/ 22

例
i 1 1 2 1 2 3
j 2 3 3 4 4 4
I(i, j) 12 10 8 6 4 2
j j
j j
2 4
1 3
j j
j j
2 4
1 3
j j
j j
2 4
1 3
j j
j j
2 4
1 3
@@
/ 22

Kullback 情報量
D(P1,··· ,N||Q) =
∑
x(1),···x(N)
P1,··· ,N(x(1)
, · · · x(N)
) log
P1,··· ,N(x(1), · · · x(N))
Q(x(1), · · · x(N))
= −H(1, · · · , N) +
N∑
i∈V
H(i) −
∑
{i,j}∈E
I(i, j)
H(i): X(i) のエントロピー
I(i, j): X(i), X(j) の相互情報量
H(1, · · · , N): X(1), · · · , X(N) の同時エントロピー
/ 22

Kruscal のアルゴリズム
V : 有限集合
E := {{u, v}|u ̸= v, u, v ∈ V }
1 E ← {}
2 ループができない限り、w(e) 最大の e ∈ E に対して E ← E + {e}
Kruscal のアルゴリズム
∑
e∈E
w(e) を最大にする木 (V , E) が構成される
/ 22

Chow-Liu: 最尤による木の推定
推定
.
.
分布 P1,··· ,N ではなく、n 個の例 xn = {(x
(1)
i , · · · , x
(N)
i )}n
i=1 から出発
xn から得られた相対頻度 ˆpi , ˆpi,j を用いて、以下が計算される:
ˆH(i): i ∈ V の経験的エントロピー
Î(i, j): {i, j} ∈ E の経験的相互情報量

木の経験的エントロピーは以下で計算される:
ˆHn
(xn
|E) := n
∑
i∈V
ˆH(i) − n
∑
{i,j}∈E
Î(i, j)
ˆHn(xn|E) → 最小
ループができない限り、Î(i, j) を最大にする {i, j} を辺として結ぶ
/ 22

最尤法の問題点
X(i) が α(i) 通りの値をとるとき、
1 X(1), · · · X(N) が独立のときも、木を推定する
2 α(i), α(j) が大きくても、ˆI(i, j) が最大の辺 {i, j} を選ぶ (過学習)
/ 22

Chow-Liu: MDL による木の推定 (Suzuki, 1993)
π(E): E の事前確率 (一様と仮定)
E のもとでの記述長を計算:
L(xn
|E) := ˆHn
(xn
|E) +
1
2
k(E) log n
ˆHn
(xn
|E) := n
∑
i∈V
ˆH(i) − n
∑
{i,j}∈E
ˆI(i, j)
パラメータ数:
k(E) :=
∑
i∈V
α(i)
+
∑
{i,j}∈E
(α(i)
− 1)(α(j)
− 1)
ˆJ(i, j) = ˆI(i, j) −
1
2n
(α(i)
− 1)(α(j)
− 1) log n
記述長 L(xn|E) − log π(E) → 最小
ループができない限り、ˆJ(i, j) を最大にする {i, j} を辺として結ぶ
/ 22

MDL のメリット
X(i) が α(i) 通りの値をとるとき、
ˆJ(i, j) = ˆI(i, j) −
1
2n
(α(i)
− 1)(α(j)
− 1) log n
1 木ではなく森を推定する
2 X(1), · · · X(N) が独立のときも、辺を結ばない
3 α(i), α(j) を考慮して、ˆI(i, j) でなく ˆJ(i, j) が最大の辺 {i, j} を選ぶ
4 過学習は避ける
/ 22

最尤と MDL
最尤 MDL
E の選択 ˆHn(xn|E) ˆHn(xn|E) + 1
2 k(E) log n
最小最小
{i, j} の選択 ˆI(i, j) ˆI(i, j) − 1
2n (α(i) − 1)(α(j) − 1) log n
最大最大
基準 xn の E への適合性 xn の E への適合性
E の簡潔さ
/ 22

Chow-Liu: Bayes による木の推定
Q1,··· ,N(x(1)
, · · · , x(N)
|E) =
∏
{i,j}∈E
Pi,j (x(i), x(j))
Pi (x(i))Pj (x(j))
∏
i∈V
Pi (x(i)
)
Rn
(xn
|E) :=
∏
{i,j}∈E
Rn(i, j)
Rn(i)Rn(j)
∏
i∈V
Rn
(i)
Rn(i): {x
(i)
k }n
k=1 で表現
Rn(i, j): {x
(i)
k }n
k=1,{x
(j)
k }n
k=1 で表現
J(i, j) :=
1
n
log
Rn(i, j)
Rn(i)Rn(j)
事後確率 π(E)Rn(xn|E) → 最大
ループができない限り、J(i, j) を最大にする {i, j} を辺として結ぶ
x ˆ鈴木譲 (大阪大学) ベイズ Chow-Liu アルゴリズム
/ 22

ユニバーサルデータ圧縮
どんな Rn
が、Pn
の代わりになりうるのか?
A: 有限集合

yn = (y1, · · · , yn) ∈ An
真の θ = θ∗ は、使えない
.
.
Rn
(yn
) = Pn
(yn
|θ∗
)
w: θ の重み
Rn
(yn
) :=
∫
Pn
(yn
|θ)w(θ)dθ
/ 22

例: Bayes 符号
A = {0, 1} のとき、
c: yn = (y1, · · · , yn) ∈ {0, 1}n ∈ An における 1 の頻度
θ: 1 の確率
Pn
(yn
|θ) = θc
(1 − θ)n−c
a, b > 0
w(θ) ∝
1
θa(1 − θ)b
Rn
(yn
) :=
∫
P(yn
|θ)w(θ)dθ =
∏c−1
j=0 (j + a) ·
∏n−c−1
k=0 (k + b)
∏n−1
i=0 (i + a + b)
/ 22

ユニバーサル性
a = b = 1/2 とおくと (Krichevsky-Troﬁmov)、どのような P についても
−
1
n
log Rn
(yn
) → H :=
∑
y∈A
−θ log θ − (1 − θ) log(1 − θ)
/ 22

Shannon McMillian Breiman の定理
どのような P についても
−
1
n
log Pn
(yn
|θ) =
1
n
log{θc
(1 − θ)n−c
} → E[− log P(yi )] = H
/ 22

n が大きいと、どうして Pn
を Rn
にしてよいのか?
Pn(yn|θ) を Pn(yn) と書くと、どのような P についても
1
n
log
Pn(yn)
Rn(yn)
→ 0 (1)
Rn はユニバーサルなベイズ測度
離散や連続を仮定しない Rn と (1) の一般化 (Suzuki, 2012)
/ 22

ユニバーサルなベイズ測度
Chow-Liu アルゴリズムの問題に戻ると
a = 1/2 として
Rn
(i) :=
∏
x∈A
ci [x]−1
∏
j=0
(j + a)
∏n−1
k=0(k + α(i)a)
Rn
(i, j) :=
∏
x∈A
∏
y∈A
ci [x,y]−1
∏
j=0
(j + a)
∏n−1
k=0(k + α(i)α(j)a)
ci [x]: X(i) = x の頻度
ci,j [x(i), x(j)]: X(i) = x, X(j) = y の頻度
/ 22

ユニバーサル性から
Rn
(xn
|E) :=
∏
{i,j}∈E
Rn(i, j)
Rn(i)Rn(j)
∏
i∈V
Rn
(i)
−
1
n
log Rn
(i) → H(i)
−
1
n
log Rn
(i, j) → H(i, j)
J(i, j) =
1
n
log
Rn(i, j)
Rn(i)Rn(j)
→ H(i) + H(j) − H(i, j) = I(i, j)
−
1
n
log Rn
(xn
|E) →
∑
i∈V
H(i) −
∑
{i,j}∈E
I(i, j)
/ 22

Shannon McMillian Breiman の定理の適用
Q(x(1)
, · · · , x(N)
|E) =
∏
{i,j}∈E
Pi,j (x(i), x(j))
Pi (x(i))Pj (x(j))
∏
i∈V
Pi (x(i)
)
−
1
n
log Pn
({x
(i)
k }n
k=1|θ) → H(i)
−
1
n
log Pn
({x
(i)
k , x
(j)
k }n
k=1|θ) → H(i, j)
1
n
log
Pn({x
(i)
k , x
(j)
k }n
k=1|θ)
Pn({x
(i)
k }n
k=1|θ)Pn({x
(j)
k }n
k=1|θ)
→ H(i) + H(j) − H(i, j) = I(i, j)
−
1
n
log Qn
(xn
|E) →
∑
i∈V
H(i) −
∑
{i,j}∈E
I(i, j)
/ 22

まとめ
まとめ: Rn
はユニバーサルなベイズ測度
どのような Q についても
1
n
log
Qn(xn|E)
Rn(xn|E)
→ 0 (2)
その他の応用事例:
Bayesian ネットワークの構造推定の一般化 (DCC 2012)
{Xi } が連続である場合の Markov の次数推定
本講演を含む
最近のスライド
http://www.slideshare.net/prof-joe/
/ 22

ベイズ Chow-Liu アルゴリズム

Recommended

Recommended

More Related Content

What's hot

What's hot (13)

Viewers also liked

Viewers also liked (17)

More from Joe Suzuki

More from Joe Suzuki (20)

ベイズ Chow-Liu アルゴリズム