Dsirnlp#7

隠れセミマルコフモデルによる
教師なし形態素解析
デンソーアイティーラボラトリ
内海慶 kuchiumi@d-itlab.co.jp
塚原裕史 htsukahara@d-itlab.co.jp
統計数理理研究所
持橋⼤大地 daichi@ism.ac.jp
2015/04/30
1

教師なし形態素解析
（しょこたんブログの例例）
n  ⼊入⼒力力
クリオ寝⼦子ミルクバン渋くて(・∀・)ｲｲ!!。しようこ
寝起きらいティンは朝⻘青⿓龍龍似すなぁらいティン、iPad2のコインゲー
ムをじっと⾒見見つめて⾸首かしげ、コイン落落としに参加したwwwwwかわ
ゆすな！ギザカワユス
素晴らしいクオリティのエクステ(゜∀゜)(゜∀゜)(゜∀゜
)ーーー！！！優しいマリス野⼝口さまありがとうございます
n  出⼒力力
クリオ寝⼦子/ミルクバン/渋くて/(・∀・)/ｲｲ!!/。しようこ
寝起き/らいティン/は/朝/⻘青⿓龍龍似/すなぁ/らいティン/、/iPad/2/
の/コインゲーム/を/じっと/⾒見見つめ/て/⾸首/かしげ/、/コイン/落落と
し/に/参加/し/た/wwwww/かわゆ/すな/！/ギザカワユス
素晴らしい/クオリティ/の/エクステ/(゜∀゜)/(゜∀゜)/(゜∀゜)
/ーーー/！！！/優しい/マリス/野⼝口/さま/ありがとう/ございます
2015/04/30 2

形態素解析とは
n  ⾃自然⾔言語処理理の基礎技術
n  ⽂文章を形態素へ分割する
p  形態素：意味のある最⼩小の単位
2015/04/30 3
「吾輩は猫である。」の形態素解析結（MeCab）
我輩ワガハイ代名詞
はワ助詞-系助詞
猫ネコ名詞-普通名詞-⼀一般
でデ助動詞-ダ
あるアル動詞-⾮非⾃自⽴立立可能
。。補助記号-句句点
EOS

教師あり形態素解析
2015/04/30 4
⼊入⼒力力⽂文：我輩は猫である
⽂文頭
我輩
我輩は猫である
である
⽂文末
形態素辞書を引いて，⾒見見つかった形態素でラティスを作る
形態素辞書＋
0.3
0.3
0.3 0.1
0.1
0.2
⼀一番確率率率の⾼高い経路路を⾒見見つける

⽣生起確率率率と遷移確率率率
2015/04/30 5
⽂文頭
我輩
我輩
0.3
0.3
0.3
0.1
0.2
P(名詞 | 名詞) = 0.2
P(我輩 | 名詞) = 0.1
遷移確率率率
⽣生起確率率率

確率率率の計算
2015/04/30 6
我々名詞
と助詞
して動詞
は助詞
まだ副詞
希望名詞
は助詞
捨てて動詞
い接尾辞
ない接尾辞
。特殊
正解データ（⼈人⼿手）
P(名詞 | 名詞) =
名詞と名詞の連接回数
名詞の出現回数
n  遷移確率率率
n  ⽣生起確率率率
P(我輩 | 名詞) =
名詞と我輩の共起回数
名詞の出現回数

正解データの作成や辞書のメンテ
n  ⼈人⼿手は⾟辛い
2015/04/30 7
クリオ寝⼦子ミルクバン渋くて(・∀・)ｲｲ!!。しようこ
寝起きらいティンは朝⻘青⿓龍龍似すなぁらいティン、iPad2のコ
インゲームをじっと⾒見見つめて⾸首かしげ、コイン落落としに参加
したwwwwwかわゆすな！ギザカワユス
素晴らしいクオリティのエクステ(゜∀゜)(゜∀゜)(゜∀゜
)ーーー！！！優しいマリス野⼝口さまありがとうございます
教師なし形態素解析が望まれる
（辞書なし，正解の付与なし）

従来の教師なし形態素解析
n  最⼩小記述⻑⾧長原理理に基づく⼿手法
p 分割⽅方法はヒューリスティック
n  ベイズ学習⼿手法
p 単語境界を隠れ変数として推定する
2015/04/30 8
吾輩は猫である
単語境界では連接する⽂文字列列の
バリエーションが多くなる
閾値を記述⻑⾧長が⼩小さくなる
ように設定
エントロピー
閾値

従来の教師なし形態素解析
n  従来の教師なし形態素解析は単語分割の
みを扱っている
n  品詞は考慮されない
2015/04/30 9
品詞情報が必要ならば
別途教師なし品詞推定⼿手法と
組み合わせる必要がある

教師なし品詞推定
n  基本的に Hidden Markov Model で⾏行行う
p 事前分布や推定⽅方法がいろいろ
n  単語分割が与えられていることが前提
2015/04/30 10
x i - 1 xi xi + 1
y i - 1 yi yi+1
y: 品詞
x: 単語

単語分割精度度に品詞は影響する？
n  以下の例例⽂文を考える
n  ⽂文法的な知識識なしで解析する場合
n  名詞からは動詞・接尾には接続しにくい
という知識識
p ⽂文法的に”きのこ/れる”は出にくいと分かる
2015/04/30 11
「この先⽣生きのこれるのか？」
この/先⽣生/きのこ/れる/の/か/？
この/先/⽣生き/のこれる/の/か/？
(MeCabの解析結果)

本研究の提案
n  本質的には同時に解くべき問題
p そもそも教師あり学習では同時に解いている
n  単語分割と品詞の教師なし同時学習を提案
p 同時学習を⾏行行うことで単語分割の精度度も向上
2015/04/30 12

形態素解析の定式化
n  形態素解析:
n  　　：単語，：品詞，：⽂文字，：⽂文
n  確率率率を最⼤大化するような w を推
定する問題
ˆw = argmax
w
p(w|s)
s : c1, c2, . . . , cN
p(w|s)
wn cn szn
13
w = {w1, w2, . . . , wM , z1, z2, . . . , zM }

部分問題に分割
n  形態素解析 w の確率率率を以下とおく
n  以下のように変形
2015/04/30 14
P(w|s) =
M
i=1
P(wi, zi|hi 1)
hi = {w1, w2, . . . , wi, z1, z2, . . . , zi}
P(wi, zi|hi 1) = P(wi|zi, hi 1)P(zi|hi 1)
P(wi|zi, hi 1) = P(wi|wi 1
i N+1, zi)
P(zi|hi 1) = P(zi|zi 1
i N+1)
品詞毎の
単語ngram
品詞ngram

ngramモデル
2015/04/30 15
⽂文頭
我輩
である
⽂文末
0.1
0.2
P(我輩 | 文頭, 名詞)
P(名詞 | 名詞) 品詞 bigram
単語 bigram

提案⼿手法の⽣生成モデル
n  隠れセミマルコフモデル
p 観測値は⽂文字列列のみ
p 単語と品詞の両⽅方を隠れ変数とする
p ⽣生起確率率率が単語ngramを考慮している
2015/04/30 16

ゼロ頻度度問題
n  ⾒見見たことの無いngramの確率率率が0になる
2015/04/30 17
⽂文頭
我輩
である
⽂文末
P(猫 | は, 名詞) =
c(猫 | は, 名詞)
c(は, 名詞)
= 0
P(我輩, は, 猫, で, ある) = 0
観測されてない ngram にも適切切な確率率率を与える必要がある
教師なし学習だと最初は単語が分かってないので殆どゼロ頻度度

単語/品詞ngram確率率率
n  階層Pitman-Yor⾔言語モデルを⽤用いる
2015/04/30 18
P(w|h) =
c(w|h) d · thw
+ c(h)
+
+ d · th·
+ c(h)
P(w|h )
N-1 gram の確率率率で線形補完
（再帰的に⾏行行われる）
N-gram の確率率率
(頻度度をディスカウント)
スムージング
スムージングは従来ヒューリスティックな⼿手法が多い
HPYLMは良良く⽤用いられる Interpolated Kneser-ney を
ベイズ的な枠組みで捉え直したもの

Nested Pitman-Yor Language Model
[Mochihashi, 2009]
n  提案⼿手法の品詞数を1にした物がNPYLMと
⼀一致する
n  つまり提案法はNPYLMの拡張になっている
n  単語 unigram のスムージングには⽂文字
ngramを⽤用いている
2015/04/30 19

パラメータ推定
n  動的計画法とMCMCを組み合わせた⼿手法
p blocked Gibbs sampling
n  　　　　　　　　を推定する
2015/04/30 20
: 単語 ngram ⾔言語モデル
: 品詞 ngram モデルのパラメータ
z
P(w|s; z, )

学習アルゴリズム
1.  各⽂文にランダムに品詞を割当てる
2.  ⽂文を単語と⾒見見なし，単語/品詞HPYLMを更更新
3.  収束するまで以下を繰り返す
1.  ランダムに⽂文sを選択し，sの形態素解析結果w(s)を
パラメータから除去
2.  除去後のパラメータを⽤用いて形態素解析結果をサン
プリング
3.  w’(s)を⽤用いてパラメータを更更新
2015/04/30 21
w (s) P(w|s; z, )
※⾔言語モデルの更更新は以下を参照
Y. W. Teh. A Bayesian Interpretation of In- terpolated Kneser-Ney.
Technical Report TRA2/06, School of Computing, NUS.

形態素解析のサンプリング
n  ⼊入⼒力力：「諸⾏行行無常の響」
n  形態素解析の確率率率に従って1つサンプルす
る
2015/04/30 22
P(諸行, 無常, の, 響, 1, 1, 2, 1) = 0.1
P(諸, 行, 無常, の響, 1, 1, 1, 2) = 0.01
・
・
・
組合せが膨⼤大なので効率率率が悪い
動的計画法で効率率率的に解く

n  各単語候補と品詞の同時確率率率を計算
2015/04/30 23
周辺化
P(諸, 行, 無, 常, の,響, 1, 1, 1, 1, 2, 1)
+P(諸行, 無常, の,響, 1, 1, 2, 1)
+P(諸行無常, の,響, 1, 2, 1)
+ · · ·
= P(響, 1)

n  各形態素の確率率率を計算
n  ⽂文末から1つずつ前の形態素をサンプルする
2015/04/30 24
EOSBOS 諸⾏行行無常の響
諸⾏行行⾏行行無無常常のの響
word length
POS
index
time 諸⾏行行無⾏行行無常無常の常の響
P(EOS_w|響)P(EOS_p|1)P(響,1)

前向き確率率率の計算
2015/04/30 25
[t][k][z] =
t k
j=1
Z
r=0
P(ct
t k|ct k
t k j+1, z)P(z|r) [t k][j][r]
EOSBOS 諸⾏行行無常の響
諸⾏行行⾏行行無無常常のの響
word length
POS
index
time 諸⾏行行無⾏行行無常無常の常の響
α[6][1][1] →（α[響][1]）
つまり周辺化してを求めている P(響, 1)

評価
n  複数⾔言語で提案⼿手法の性能を検証
n  データセット
2015/04/30 26
⾔言語データ訓練データテストデータ
⽇日本語京⼤大コーパス 27,400 1,000
⽇日本語 BCCWJ OC 20,000 1,000
中国語 SIGHAN MSR 86,924 3,985
中国語 SIGHAN CITYU 53,019 1,492
中国語 SIGHAN PKU 19,056 1,945
タイ語 InterBEST Novel 1,000 1,000

実験設定1
n  教師なし学習
p  訓練データに付与されている単語境界の情報は全
て削除
p  計算の効率率率化のために最⼤大単語⻑⾧長を⾔言語毎に設定
v  ⽇日本語：⽂文字種毎に設定（漢字8，カタカナ21，etc.）
v  中国語：4⽂文字
v  タイ語：6⽂文字
p  潜在クラスの数
v  京⼤大コーパス：20
v  BCCWJ OC：30
v  SIGHAN：10
v  BEST：10
2015/04/30 27

実験設定2
n  半教師あり学習
p 品詞情報を含むデータセットを使⽤用
p 潜在クラスの数は品詞の⼤大分類に合わせる
2015/04/30 28
データセット教師訓練テスト
京⼤大コーパス 10,000 20,000 1,000
BCCWJ OC 10,000 20,000 1,000
Leiden Weibo Corpus 10,000 20,000 1,000

評価尺度度
n  単語分割の評価
p  単語の開始位置と終了了位置が教師データと⼀一致し
た時のみ正解とする
p  評価尺度度にはF値を⽤用いた
n  品詞推定の評価
p  正しく分割できた単語についての品詞精度度を⽤用い
る
p  教師データと潜在クラスの対応は，潜在クラスご
とに共起した品詞ラベルの頻度度を求め，最も多く
共起した品詞と潜在クラスを対応付けた
2015/04/30 29

教師なし単語分割の評価
2015/04/30 30
データ PYHSMM NPYLM BE+MDL HDP+HMM
京⼤大コーパス 0.715 0.621 0.713 -
BCCWJ 0.705 - - -
MSR 0.829 0.802 0.782 0.817
CITYU 0.817 0.824 0.787 -
PKU 0.816 - 0.808 0.811
BEST 0.821 - 0.821 -

教師なし品詞推定の評価
n  正しい単語分割を与えた場合よりも良良い結果
2015/04/30 31
データ PYHSMM NPYLM+BHMM 正解分割+BHMM
京⼤大コーパス 0.574 0.538 0.495
BCCWJ 0.502 0.441 0.442
LWC 0.330 0.309 0.329
※LWCの正解は既存の中国語の形態素解析器で付与されたもの
　あくまで参考数値

半教師あり学習の結果
n  ベースラインなしなので参考数値として
2015/04/30 32
データセット単語分割品詞推定
京⼤大コーパス 0.921 0.871
BCCWJ 0.894 0.831
LWC 0.885 0.869

解析結果の例例
n  三河弁の例例（K＝５０）
ウェーブスタジアム/34 刈⾕谷/28 に/2 FC/1 刈⾕谷/28 の/2 試合/
31 を/2 観/35 に/2 ⾏行行/27 って/40 み/35 りん/3 フォロバ/17
ありがと/19 ございます/19 ! /2 よろしく/19 頼む/35 のん/
3 。/10
これ/20 ぎし/37 しか/37 ない/12 だ/12 かん/3 ? /10 あけお
め/19 だ/12 ぞん/3 !! /10 今年年/18 も/2 よろしく /19 頼む/35
ぞん/3 !! /10
おま/13 ー/5 の/2 頭/25 、/2 ちんじゅう/35 だのん/3 !! /8 w/
8
ぐろ/36 と/24 も/2 ⾔言/15 う/12 のん/3 !! /8 とちんこで/35 結
んで/19 まったもん/12 で/12 、/2 と/37 れ /12 や/45 せん/
13 に/13 ー/5 (^_^;)/10
のんほい/12 は/2 若若い/24 ⼈人/20 は/2 あんまし/30 使/15 わ
ん/12 ぞん/3 !/10 じいさん/24 、/2 ばあさん/37 世代/25 の /
2 ⾔言葉葉/27 だ/12 のん/3 ! /8 /6
2015/04/30 33

獲得した潜在クラスの単語
2：助詞
3,13：⽂文末表現
9：顔⽂文字
10：⽂文末表現
36：形容詞？
34：カタカナ名詞
41：地名

誤りの例例
n  京⼤大コーパス
2015/04/30 35

まとめ
n  単語分割と品詞推定の同時学習⼿手法の提
案
n  同時学習を⾏行行うことで単語分割の精度度も
向上することを確認
2015/04/30 36

参考⽂文献
n  Miaohong Chen, et al. 2014. A Joint Model for Unsupervised Chinese Word
Segmentation. In EMNLP 2014, pages 854–1 863.
n  Sharon Goldwater, et al. A Fully Bayesian Approach to Unsupervised Part-of-Speech
Tagging. In Proceedings of ACL 2007, pages 744– 751.
n  Sharon Goldwater, et al. Contextual Dependencies in Un- supervised Word
Segmentation. In Proceedings of ACL/COLING 2006, pages 673–680.
n  Matthew J. Johnson et al. Bayesian Nonparametric Hidden Semi-Markov Models.
Journal of Machine Learning Research, 14:673–701.
n  Pierre Magistry et al. Can MDL Improve Unsupervised Chinese Word Segmenta- tion?
In Proceedings of the Seventh SIGHAN Work- shop on Chinese Language Processing,
pages 2–10.
n  Daichi Mochihashi, et al. Bayesian Unsupervised Word Seg- mentation with Nested
Pitman-Yor Language Mod- eling. In Proceedings of ACL-IJCNLP 2009, pages 100–108.
n  Yee Whye Teh. A Bayesian Interpretation of In- terpolated Kneser-Ney. Technical
Report TRA2/06, School of Computing, NUS.
n  Valentin Zhikov, et al. An Efficient Algorithm for Unsuper- vised Word Segmentation
with Branching Entropy and MDL. In EMNLP 2010, pages 832–842.
2015/04/30 37

Dsirnlp#7

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Dsirnlp#7