Más contenido relacionado La actualidad más candente (20) トピックモデル15. ここまでの情報が得られると,
「 とx1 は,x2 なので= = kz1 z2 の意味で類似している.」
と示すことができます.
ϕk
この「 の意味」が非常に重要で,これによってデータが持つ性質の
潜在的意味が明らかになります.
(確率的潜在変数モデルによる解析が「潜在意味解析」と呼ばれるゆえんです.)
ϕk
20. ∼ p( |ϕ)xi xi
まず,ある確率変数 が確率分布(i = 1, … , n)xi に従うとき以下のように書きます.p( |ϕ)xi
は確率分布ϕ のパラメータです.p( |ϕ)xi
( が正規分布の場合のパラメータp( |ϕ)xi は平均や分散を考えれば良いです.)ϕ
22. π = ( , , … , ), = 1π1 π2 πK
∑
k=1
K
πk
個の目が出るサイコロを考えて,各目の出る確率を以下のようにします.K
これは,各目の出る確率が異なる歪なサイコロを想像するとわかりやすいです.
24. ∼ Multi( |π)zi zi
このとき,サイコロを 回投げることによって生成されるサイコロの目の集まりn
の生成過程は以下のように表せます.= (i = 1, 2, … , n)zi
これが生成モデルの基本ですが,もう一つだけ例を紹介します.
25. ∼ p( | ) (i = 1, … , n)xi xi ϕzi
以下の生成モデルはどのような生成過程を表現しているか考えてみましょう.
ただし, とします.∈ {1, 2, … , K}(i = 1, 2, … , n), (k = 1, 2, … , K)zi ϕk
28. p( = a| )xi ϕk
を夕食で食べる料理だとすると(これも確率的に決める),
レストラン
xi
における料理k を選ぶ確率を以下のように表現できます.a
これはレストランごとに選ぶ料理の確率が異なるモデルです.
30. ∼ p( | , ϕ) (i = 1, … , n)xi xi zi
ちなみに, を用いて以下のように表現することもあります.ϕ = ( , , … , )ϕ1 ϕ2 ϕK
( ならば= kzi を選択すると決まるため,ϕk です.)p( | , ϕ) = p( | )xi zi xi ϕzi
31. ∼ p( |η) (k = 1, … , K)ϕk ϕk
ここでさらに, の∼ p( | )xi xi ϕzi
についても生成過程を考えましょう.(k = 1, 2, … , K)ϕk
の従う分布をϕk とします.すると以下のようにかけます.p( |η)ϕk
(※ この辺りから慣れていないと変数間の関係を頭の中でで把握しきれなくなってきます...)
38. 全ての に対して,
が成り立つとき, が与えられた下で と は条件付き独立であるといい
と表す.
x, y
p(x, y|z) = p(x|z)p(y|z)
z x y
x ⊥⊥ y|z
次に条件付き独立性です.
グラフィカルモデルを理解するには,次に示す3つの条件付き独立性と,
その独立性に基づく同時分布の展開を理解すれば良いです.
44. p(z|π) = p( |π)
∏
i=1
n
zi
まず, とπ の生成確率はそれぞれη ,p(π) です.p(η)
次に, が与えられた下でπ が生成される確率はz = { , , … , }z1 z2 zn です.
ところが,
p(z|π)
はプレート内で条件付き独立(tail-to-tail型)なので以下のようにかけます.z
45. p(ϕ|η) = p( |η)
∏
k=1
K
ϕk
同様に が与えられた下でのη が生成される確率はϕ = { , , … , }ϕ1 ϕ2 ϕK ですが,
これもまた条件付き独立(tail-to-tail型)なので以下のようにかけます.
p(ϕ|η)
46. p(x|z, π, ϕ, η) = p(x|z, ϕ) = p( | , ϕ)
∏
i=1
n
xi zi
次に, とz が与えられた下でϕ はそれぞれ
条件付き独立(tail-to-tail型)なので以下のようにかけます.
xi
(※1つ目の等式はhead-to-tail型を考えれば理解できます.)
47. p(x, z, π, ϕ, η) =
=
=
p(x|z, π, ϕ, η)p(z, π, ϕ, η)
p(x|z, ϕ)p(z|π)p(π)p(ϕ|η)p(η)
p( | , ϕ) p( |π)p(π) p( |η)p(η)
∏
i=1
n
xi zi
∏
i=1
n
zi
∏
k=1
K
ϕk
同時分布は以下のように展開できます.
このように同時分布であれば,ベイズの定理や条件付き独立性から
計算を比較的簡単にすることができます.
(※今度紹介するトピックモデルの学習アルゴリズムでは
どのように同時確率の計算へ帰着させるかが基本的な方針になります.)
54. π = ( , , … , ),
(
= 1
)
π1 π2 πK
∑
k=1
K
πk
サイコロの目が 個あり,それぞのの値をとる確率が以下の通りであるとします.K
この時, 回目の試行における値がi であることをk とすると,= kxi
となります.p( = k|π) =xi πk
55. p(x|π) = p( |π) =
∏
i=1
n
xi
∏
k=1
K
π
nk
k
回の独立した試行において,n という数が出る回数をk と表すことにします.
すると,
nk
の生成確率は以下のように計算できます.x = ( , , … , )x1 x2 xn
56. p({ |π, n) = Multi({ |π, n) ≡nk }
K
k=1
nk }
K
k=1
n!
!∏
K
k=1
nk
∏
k=1
K
π
nk
k
ここで,各試行における値ではなく, 回目の試行における各値の出現回数n に
興味がある場合,
nk
の確率は,{nk }
K
k=1
とπ がパラメータとなりn
で定義される多項分布 に従います.Multi({ |π, n)nk }
K
k=1
これが多項分布です.
57. p( = k|π) = Multi( = 1|π, 1) =xi nk πk
∼ Multi( |π) (i = 1, 2, … , n)xi xi
各試行における は,xi の多項分布に従うので以下のように書けます.n = 1
したがって,これを と表記します.P( |π) = Multi( |π)xi xi
また, の生成過程を次のように書きます.(i = 1, 2, … , n)xi
59. p(π|α) = Dir(π|α) ≡
Γ( )∑
K
k=1
αk
Γ( )∏
K
k=1
αk
∏
k=1
K
π
−1αk
k
単体上の確率分布としてDirichlet分布が知られており,
をパラメータとして以下のように定義されます.α = ( , , … , ) ( > 0)α1 α2 αK αk
ここで, はガンマ関数(gamma function)と呼ばれる階乗を一般化した関数です.Γ(x)
60. Γ(1) = 1, Γ(n) = (n − 1)Γ(n − 1) = (n − 1)!
Γ(α + n) = (α + n − 1)Γ(α + n − 1)
ガンマ関数は, を整数,n ≥ 2 を非負実数としたとき以下の性質を満たします.α
61. を の事前分布とします.
事後分布 の分布が と同じ分布となるとき,
は の共役事前分布であるといいます.
p(x) p(y|x)
p(x|y) ∝ p(y|x)p(x) p(x)
p(x) p(y|x)
Dirichlet分布は,多項分布の共役事前分布(conjugate prior)として知られています.
共役事前分布の性質を利用すると,計算を容易にできる場合があります.
63. 記号 説明
文書数
文書インデックス
文書 に含まれる単語数
単語インデックス
文書 の 番目の単語
文書 の 番目の単語の潜在トピック
全文書の中で現れる語彙数
語彙インデックス
トピック数
トピックインデックス
文書 でトピック が出現する確率
トピック で単語 が出現する確率
Dirichlet分布のパラメータ
M
d
nd d
i
wd,i d i
zd,i d i
V
v
K
k
θd,k d k
ϕk,v k v
α, β
今後使うことになる記号です.(全てではありませんが)
65. ∼ Dir(α) (d = 1, … , M)θd
文書 のトピック分布をd とします.
(※
= ( , … , )θd θd,1 θd,K
は文書θd,k でトピックd が出現する確率です.)
そして
k
がパラメータθd を持つDirichlet分布から生成されると仮定します.α
ここで, はα = ( , … , )α1 αK 次元ベクトルです.K
66. ∼ Dir(β) (k = 1, … , K)ϕk
同様に,トピック の単語分布をK とします.
(※
= ( , … , )ϕk
ϕk,1 ϕk,V
はトピックϕk,v における単語k の出現確率です.)
そして
v
がパラメータϕk を持つDirichlet分布から生成されると仮定します.β
ここで, はβ = ( , … , )β1 βV 次元ベクトルです.K
67. ∼ Multi( ), ∼ Multi( ) (i = 1, … , )zd,i θd wd,i ϕzd,i
nd
単語 や潜在トピックwd,i は離散値なので,多項分布を生成分布として仮定します.zd,i