トピックモデル

トピックモデルついて勉強するために以下の本を読んだので，
トピックモデルの導入部分となる部分を紹介しようと思います．
(左の本の1.2章をまとめました．)
（※今日は数式による細かい説明は省略します．）

発表の目次です
統計的潜在意味解析とは
確率的生成モデルとグラフィカルモデル
Latent Dirichlet Allocation(LDA)とは
LDAの応用例
計算実験

統計的潜在意味解析(statical latent semantic analysis)とは，
データに潜む意味を統計的に解析する手法です．
トピックモデルは統計的潜在意味解析の一手法です．

自然言語処理の分野で，「言葉の意味」をどのように数学的に記述できるのか？
ということを興味の対象とした研究が盛んに行われて発展してきました．
ただし，近年では言語に限らず，購買データにおけるユーザの嗜好など，
様々なデータの持つ「意味」が研究の対象となっています．

では，データの持つ「意味」をどのように扱えば良いのでしょうか．
統計的潜在意味解析では「意味」を数学的に扱うために，
単語の「共起性」に着目します．(以降，文書を例に考えます．)
（※共起性：ある単語がある文書中に出たとき，その文章中に限られた単語が頻繁に出現する性質）

それぞれの単語の集まりが何を表現しているか考えてみましょう．

「音楽」「演劇」「スポーツ」に関する単語が集まっていることが
なんとなくわかったと思います．
このように複数の単語の共起性によって創発される情報を「潜在的意味」と考えます．
今日の主題である統計的意味解析はこの潜在的意味を解析する手法です．

実は，「潜在的意味のカテゴリ」を「トピック」と呼びます．
したがって，さっきの例でみた単語の集合はそれぞれ３つのトピックを表しており，
それぞれ「音楽トピック」「演劇トピック」「スポーツトピック」と解釈できます．

大胆に考えれば，文書は単語の集合であり，その文書が発している情報は
単語の共起性によって生まれると考えることができます．
したがって，「単語の共起性をいかに数学的にモデリングすれば良いか」という問題が，
統計的潜在意味解析では重要な研究テーマになります．

そこで，確率的潜在変数モデル(probabilistic latent variable model)という
モデルを用いることが統計的潜在意味解析では一般的です．
確率的潜在変数モデルでは，各々のデータに対して，そのデータの性質を表現する
潜在変数(latent variable)と呼ばれる確率変数を仮定します．
(※前回のEMアルゴリズムの発表では潜在変数のことを隠れ変数を呼んでいました．)

例えば，データに潜む「有用な知識」としてデータ間の類似性を考えます．
そのために，データ間の類似性を確率変数として導入します．
具体的には，個のデータからなる集合をn とします．
そして，各データに対して潜在変数
x = { , , … , }x1 x2 xn
を仮定します．z = { , , … , }z1 z2 zn

は観測変数で，x は観測できない変数（非観測変数）です．
ここで，
z
が取りうる値の集合をzi とします．
（つまり，
 = {1, 2, … , K}
です）∈  (i = 1, 2, … , K)zi
そして，潜在変数の値が同じデータzi は「類似している」という仮定をおきます．
(つまり，データ
xi
とx1 の潜在変数の値がx2 ならば= = kz1 z2 とx1 は「類似している」とします．)x2

さらに、「類似している」とは「どのように類似しているのか」ということも
数理モデルとして扱うことにします．
そこで，「どのように類似しているのか」を表す変数数として，
を導入します．ϕ = { , , … , }ϕ1 ϕ2 ϕK

ここまでの情報が得られると，
「とx1 は，x2 なので= = kz1 z2 の意味で類似している．」
と示すことができます．
ϕk
この「の意味」が非常に重要で，これによってデータが持つ性質の
潜在的意味が明らかになります．
(確率的潜在変数モデルによる解析が「潜在意味解析」と呼ばれるゆえんです．)
ϕk

ところで，やzi は非観測変数なので，これらをデータから推定することで，
データ間の類似性とその意味を解析することができます．
ϕk

そこで，以降では非観測変数を確率変数としてデータの生成過程を記述し，
その逆問題としてそれぞれの変数の推定を行います．
このようにデータの生成過程を確率変数を用いて記述したものを
確率的生成モデル(probablistic generative model)と呼びます．

確率的生成モデルとグラフィカルモデル

次に，確率的生成モデルで用いられるデータの生成過程の記述方法と，
それを視覚的に表現するグラフィカルモデル(graphical model)について説明します．

∼ p( |ϕ)xi xi
まず，ある確率変数が確率分布(i = 1, … , n)xi に従うとき以下のように書きます．p( |ϕ)xi
は確率分布ϕ のパラメータです．p( |ϕ)xi
( が正規分布の場合のパラメータp( |ϕ)xi は平均や分散を考えれば良いです．)ϕ

例として，サイコロを回振ったときに出る目を生成モデルとして考えます．n

π = ( , , … , ), = 1π1 π2 πK
∑
k=1
K
πk
個の目が出るサイコロを考えて，各目の出る確率を以下のようにします．K
これは，各目の出る確率が異なる歪なサイコロを想像するとわかりやすいです．

ここで，をzi 番目に投げたサイコロの目を表すことにします．
(つまり
i
は，= 6z2 番目に投げたサイコロの目が2 であることを表します．)6
の従う分布として多項分布zi を仮定します．
(多項分布については後のスライドで紹介します．)
Multi( |π)zi

∼ Multi( |π)zi zi
このとき，サイコロを回投げることによって生成されるサイコロの目の集まりn
の生成過程は以下のように表せます．= (i = 1, 2, … , n)zi
これが生成モデルの基本ですが，もう一つだけ例を紹介します．

∼ p( | ) (i = 1, … , n)xi xi ϕzi
以下の生成モデルはどのような生成過程を表現しているか考えてみましょう．
ただし，とします．∈ {1, 2, … , K}(i = 1, 2, … , n), (k = 1, 2, … , K)zi ϕk

この生成モデルはが確率分布xi に従って生成されることを意味します．
さらに，この確率分布は
p( | )xi ϕzi
によって特徴付けられています．
(
ϕzi
の場合，= 2zi は確率分布xi によって生成されたことを意味します．)p( | )xi ϕ2
したがって，潜在変数の違いによって，
生成分布が異なる
zi
の生成過程をモデル化しています．xi

例えば，サイコロの目がレストランを表しているとしましょう．
（1:日本食のお店，2:イタリアンのお店，3:フレンチのお店，… などです）
そして，その日の夕食のレストランをサイコロで決めることにします．

p( = a| )xi ϕk
を夕食で食べる料理だとすると（これも確率的に決める），
レストラン
xi
における料理k を選ぶ確率を以下のように表現できます．a
これはレストランごとに選ぶ料理の確率が異なるモデルです．

つまり，まずレストランを確率的に選択し（），
レストランに応じて注文する料理を確率的に選択します．（
∼ Multi( |π)zi zi
）∼ p( | )xi xi ϕzi
データとして食べた料理の情報飲みが与えられている場合には，
潜在変数にはその料理を食べたレストランの情報が対応します．

∼ p( | , ϕ) (i = 1, … , n)xi xi zi
ちなみに，を用いて以下のように表現することもあります．ϕ = ( , , … , )ϕ1 ϕ2 ϕK
（ならば= kzi を選択すると決まるため，ϕk です．）p( | , ϕ) = p( | )xi zi xi ϕzi

∼ p( |η) (k = 1, … , K)ϕk ϕk
ここでさらに，の∼ p( | )xi xi ϕzi
についても生成過程を考えましょう．(k = 1, 2, … , K)ϕk
の従う分布をϕk とします．すると以下のようにかけます．p( |η)ϕk
（※　この辺りから慣れていないと変数間の関係を頭の中でで把握しきれなくなってきます...）

このように生成モデルを考えると変数間の依存関係が明確になります．
一方で，変数間の依存関係が一目でわかるような表現方法があると便利です．
そこで変数間の依存関係をわかりやく記述するために
グラフィカルモデルという表現方法が用いられます．

サイコロの生成モデルの例では，確率変数とそこから生成されるπ の関係を
以下のように示すことができます．(２つとも同じ関係を表現しています．)
円で囲まれている部分が確率変数で，矢印で依存関係が示してあります．
右のように矩形で囲むことで繰り返し部分を省略して書くこともできます．
zi

先ほどの例をグラフィカルモデルで表現すると次にようになります．

グラフィカルモデルは，条件付き独立性（conditional independence)や
ベイズの定理(Bayes theorem)によって同時確率を展開する際に役立ちます．
以降のスライドでそれぞれの考え方を紹介します．
まずはベイズの定理です．
使う場面が非常に多いので，是非覚えましょう．
が与えられた下での，
の条件付き分布
は，
y
x
p(x|y)

をとの同時分布
として以下で与えられ
る．
また，をの事前分布
とすれば
p(x, y) x y
p(x|y) =
p(x, y)
p(y)
p(x) x

となり，の事後分布
に対して，を
の事後分布と呼ぶ．
p(x|y) =
p(y|x)p(x)
p(y)
x
p(x) p(x|y)
x

全てのに対して，
が成り立つとき，が与えられた下でとは条件付き独立であるといい
と表す．
x, y
p(x, y|z) = p(x|z)p(y|z)
z x y
x ⊥⊥ y|z
次に条件付き独立性です．
グラフィカルモデルを理解するには，次に示す３つの条件付き独立性と，
その独立性に基づく同時分布の展開を理解すれば良いです．

そこで，有向グラフにおける有向分離性（d-separation)について紹介します．
説明するのは以下の3つのパターンです．
tail-to-tail型
head-to-tail型
head-to-head型

まずはtail-to-tail型です．

つづいてhead-to-tail型です．

そしてhead-to-head型です．

では，この３つのパターンを参考にして以下の例の変数間の関係を見てみましょう．
コツは矢印の根元から順に見ていくことです．

p(z|π) = p( |π)
∏
i=1
n
zi
まず，とπ の生成確率はそれぞれη ,p(π) です．p(η)
次に，が与えられた下でπ が生成される確率はz = { , , … , }z1 z2 zn です．
ところが，
p(z|π)
はプレート内で条件付き独立(tail-to-tail型)なので以下のようにかけます．z

p(ϕ|η) = p( |η)
∏
k=1
K
ϕk
同様にが与えられた下でのη が生成される確率はϕ = { , , … , }ϕ1 ϕ2 ϕK ですが，
これもまた条件付き独立(tail-to-tail型)なので以下のようにかけます．
p(ϕ|η)

p(x|z, π, ϕ, η) = p(x|z, ϕ) = p( | , ϕ)
∏
i=1
n
xi zi
次に，とz が与えられた下でϕ はそれぞれ
条件付き独立(tail-to-tail型)なので以下のようにかけます．
xi
(※1つ目の等式はhead-to-tail型を考えれば理解できます．)

Latent Dirichlet Allocation(LDA)とは

Latent Dirichlet Allocation(LDA)は単語の共起生を統計モデルとして
数理的に扱うために提案された手法です．
LDAは統計的機械学習における主要な研究分野の一つで，
LDAを改良した様々なモデルが提案されています．
(改良されたモデルは総称して潜在トピックモデル(latent topic model)と呼ばれます．)

LDAでは文書中の単語の順序は無視し，Bag of Words(BoW)表現と呼ばれる
単語と出現頻度のペアの集合をモデル化します．

ちなみに，潜在トピックモデルは共起性があるデータ全般に適用可能なモデルです．
例えば，ユーザーの購買履歴はBag of Itemsとみなすことができます．
自然言語処理意外にも画像処理，音声処理，情報検索，情報推薦などの様々な分野で
データをBag of XXX表現へ変換することで応用されています．

LDAを理解するには，多項分布(multinomial distribution)と
Dirichlet分布(Dirichlet distribution)の性質をある程度知っておく必要があります．

多項分布とDirichlet分布の関係は，サイコロをイメージするとわかりやすいです．
理由は，サイコロを振って出る目は多項分布からのサンプリングで，
そのサイコロの形状（出る目の種類と出やすさK )を生成する仕組みが
Dirichlet分布と考えることができるからです．
π

π = ( , , … , ),
(
= 1
)
π1 π2 πK
∑
k=1
K
πk
サイコロの目が個あり，それぞのの値をとる確率が以下の通りであるとします．K
この時，回目の試行における値がi であることをk とすると，= kxi
となります．p( = k|π) =xi πk

p(x|π) = p( |π) =
∏
i=1
n
xi
∏
k=1
K
π
nk
k
回の独立した試行において，n という数が出る回数をk と表すことにします．
すると，
nk
の生成確率は以下のように計算できます．x = ( , , … , )x1 x2 xn

p({ |π, n) = Multi({ |π, n) ≡nk }
K
k=1
nk }
K
k=1
n!
!∏
K
k=1
nk
∏
k=1
K
π
nk
k
ここで，各試行における値ではなく，回目の試行における各値の出現回数n に
興味がある場合，
nk
の確率は，{nk }
K
k=1
とπ がパラメータとなりn
で定義される多項分布に従います．Multi({ |π, n)nk }
K
k=1
これが多項分布です．

階層的な確率モデル（階層ベイズモデルとも呼ばれます）を考える場合は，
さらにに関しても確率分布をおくことを考えます．π
ここでは単体(simplex)上の点と考えることができます．
(※単体とは，総和が1で定義される空間のことを言います．)
π

p(π|α) = Dir(π|α) ≡
Γ( )∑
K
k=1
αk
Γ( )∏
K
k=1
αk
∏
k=1
K
π
−1αk
k
単体上の確率分布としてDirichlet分布が知られており，
をパラメータとして以下のように定義されます．α = ( , , … , ) ( > 0)α1 α2 αK αk
ここで，はガンマ関数(gamma function)と呼ばれる階乗を一般化した関数です．Γ(x)

Γ(1) = 1, Γ(n) = (n − 1)Γ(n − 1) = (n − 1)!
Γ(α + n) = (α + n − 1)Γ(α + n − 1)
ガンマ関数は，を整数，n ≥ 2 を非負実数としたとき以下の性質を満たします．α

をの事前分布とします．
事後分布の分布がと同じ分布となるとき，
はの共役事前分布であるといいます．
p(x) p(y|x)
p(x|y) ∝ p(y|x)p(x) p(x)
p(x) p(y|x)
Dirichlet分布は，多項分布の共役事前分布（conjugate prior）として知られています．
共役事前分布の性質を利用すると，計算を容易にできる場合があります．

いよいよLDAの具体的な定式化を行います．
そのために，いくつか記号を用意しておきます．

記号説明
文書数
文書インデックス
文書に含まれる単語数
単語インデックス
文書の番目の単語
文書の番目の単語の潜在トピック
全文書の中で現れる語彙数
語彙インデックス
トピック数
トピックインデックス
文書でトピックが出現する確率
トピックで単語が出現する確率
Dirichlet分布のパラメータ
M
d
nd d
i
wd,i d i
zd,i d i
V
v
K
k
θd,k d k
ϕk,v k v
α, β
今後使うことになる記号です．(全てではありませんが）

LDAのグラフィカルモデルは以下のとおりです．
グラフィカルモデルと照らし合わせながら式をみれば，
理解の手助けになると思います．

∼ Dir(α) (d = 1, … , M)θd
文書のトピック分布をd とします．
（※
= ( , … , )θd θd,1 θd,K
は文書θd,k でトピックd が出現する確率です．)
そして
k
がパラメータθd を持つDirichlet分布から生成されると仮定します．α
ここで，はα = ( , … , )α1 αK 次元ベクトルです．K

∼ Dir(β) (k = 1, … , K)ϕk
同様に，トピックの単語分布をK とします．
（※
= ( , … , )ϕk
ϕk,1 ϕk,V
はトピックϕk,v における単語k の出現確率です．)
そして
v
がパラメータϕk を持つDirichlet分布から生成されると仮定します．β
ここで，はβ = ( , … , )β1 βV 次元ベクトルです．K

∼ Multi( ), ∼ Multi( ) (i = 1, … , )zd,i θd wd,i ϕzd,i
nd
単語や潜在トピックwd,i は離散値なので，多項分布を生成分布として仮定します．zd,i

このようにLDAではデータの生成過程を記述した生成モデルを構築します．
そして，観測されたデータ（今の例では )から，それぞれの変数の推定を行います．wd,i

変数の推定には以下のような手法があります．
EMアルゴリズム
ギブスサンプリング
周辺化ギブスサンプリング
変分ベイズ法

今回は変数の学習アルゴリズムについての紹介はしないですが，
次回の発表でいくつか紹介するつもりです．
今回はLDAの応用例の紹介をします．

LDAやその拡張モデルの応用例は大きく
「予測」と「潜在変数の持つ隠れた情報の利用」に分けられます．

はじめに，予測に関する応用例を紹介します．
ここでは，文書におけるトピックd の出現確率を表すk と
トピック
θd,k
における単語k の出現確率を表すv を推定した場合を考えます．ϕk,v

p(v|d) = p(v|k)p(k|d)
∑
k=1
K
さらに，もう少し単純化して， ,= p(k|d)θd,k と表すことにします．
すると文書
= p(v|k)ϕk,v
における単語d の確率予測は以下のようになります．v
ポイントは，トピックを仲介しているので
文書中に実際に出現していない単語であっても確率を算出できるところです．
k

これは情報検索などに利用できます．
情報検索の基本的なアルゴリズムは，単語をクエリとして，
単語
q
に関連度の高い文書集合をランキングするというものです．q
は単語p(q|d) と文書v の関連度と見ることができるので，d
を用いてp(q|d) をランキングすることができます．d

ここで，必ずしも表面上に単語を含んでいない文書でも，
クエリ
q
と同義語や関連度の高い単語が含まれている文書であれば，
クエリ
q
と関連が高い文書の可能性があります．q

例えば「car」がクエリの場合に，
ある文書が「car」は含んでいないけれども
「automobile」は含んでいるとしましょう．
d

この時「automobile」を含む文書は，
車に関係するトピックの
d
が高くなる可能性が高いです．p(k|d)

このように，トピック情報を仲介したを用いれば，
クエリ
p(q|d)
を含んでいない文書に対しても確率を計算することができます．
(※もちろん，単に単語の出現しやすさだけが情報検索の性能の良さではないので，
実際には他の文書情報を組み合わせてランキングを行います．）
q

次に，「潜在変数のもつ隠れた情報の利用」の例を紹介します．
これは分析者の解釈次第なので明確な使い方はないのですが，
今回は解析コンペのデータにLDAを適用した結果を例として紹介します．
（jupyter notebookに切り替え）

今回は統計的潜在意味解析の概要からトピックモデルの中でも代表的なLDAの紹介を行いました．
まだまだトピックモデルについて伝えきれていないところがあるので，
次回も引き続きトピックモデルについて発表しようと思います．

次回の目次です．
LDAの学習アルゴリズム
Topic Tracking Model(TTM)の概要
TTMの学習アルゴリズム
TTMの適用例の紹介

トピックモデル

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (13)

Similar a トピックモデル

Similar a トピックモデル (20)

Más de 貴之八木

Más de 貴之八木 (6)