NLP2012
- 3. 従来の専門用語自動抽出手法
• 対象コーパスを解析
– FLR[中川:03],C-value[Frantzi et al.:2000],UC
• 対象コーパスと異なる分野のコーパスを解析
– MDP[久保:10] ,Wikipediaを用いた手法[中谷:2008]
• 対象分野のコーパスの出現頻度や出現パターン
解析する手法が主流である
– 一般名詞が抽出されやすくなり,精度が低下する
– 出現頻度が低い用語も含まれ,再現率が低下する
3
- 4. 本発表の目的
• 適合率低下の問題
– ある用語がどのようなカテゴリに属しているかは考慮さ
れていない
– ある用語のカテゴリ情報を考慮すればよいのでは
• 再現率低下の問題
– 扱われにくい専門用語が含まれている
– 他の専門用語と文字列で類似しているのでは
Wikipediaのエントリ構造(カテゴリ,リダイレク
ト)と編集距離を用いて専門用語抽出を試みる
既存の手法と比較し,改善点を見つける
4
- 5. 比較対象の従来手法:FLR
• 複合名詞CN(例.ネットワークアドレス)のスコア付
けを行う
– 単名詞に分割(ネットワーク,アドレス)
– 左右に連接する用語の種類と出現頻度を統計量
左連接
Ethernet(2)
右連接
トポロジー(2)
IP(3)
IP(5) 割り当て(2)
ネットワーク ドメイン(2)
アドホック(1) アドレス
MAC(4) 空間(1)
プロトコル(1)
コンピュータ(4) 5
- 7. 適合率の向上:アンカーテキスト集合Wq
カテゴリ集合 記事集合 アンカーテキ
Cq Aq スト集合Wq
C1 q t1
C2 t2
・ ・
・ ・
・ ・ t3
Cn
t4
• カテゴリ集合Cqの記事集合Aq内のアンカーテキス
ト集合Wqはqの専門用語が多く含まれる
7
- 8. 適合率の向上:カテゴリグラフの構築
• Wqの用語の属するカテゴリがカテゴリグラフGq内
のノードであるかを判別
– カテゴリグラフ:qをルートノードとするカテゴリ情報を階
層化したもの(depth:深さ3と設定) カテゴリグラフGq
Category:
コンピュータ
2002年(カテゴリ:2002年)
ネットワーク
旅行代理店
アンカー (カテゴリ:旅行,…) C1 C2 C3
テキスト集合 depth
阪神淡路大震災
Wq
(カテゴリ:日本の地震,…)
IPアドレス
C4 C5 C6 C7 C8
(カテゴリ:インターネットのプロトコル)
crate≧α
専門用語
– エントリ情報はWik-IE[森:09]を利用 候補集合Tq 8
- 11. 再現率向上:専門用語候補集合Tqの問題点
専門用語を抽出 形態素 専門用語
複合名詞 比較
したいコーパス 解析 候補集合
集合
Tq
• 対象コーパスと専門用語候補集合Tqの比較
– 適合率の高い用語集合
• 分野qのコーパスにも同一の用語が含まれている
しかし
• コーパスに出現する全ての専門用語がTqに含まれ
ているとは限らない
– Wikipediaの網羅性,表記の揺らぎ 11
- 13. 再現率向上:編集距離に基づく類似度計算
• 文字単位のリストW=w1,w2,w3,…,wn
• W1,i∈Nq, W2,j∈Tqに対する用語間の距離Dist(W1,i, W2,j)
• W1,i =IPv6,W2,j=IP電話の場合
13
- 14. 再現率向上:複合名詞のスコア付け
• W1,i∈Nqに専門用語性としてのスコアを付加する
– 全てのW2,j∈Tqに対してDist(W1,i, W2,j)を計算
Dist(W1,i, W2,j)
… …
距離が近いtop NのDist(W1,i, W2,j)の
平均値をW1,iのスコアとする
– スコアが低いほど分野qの専門用語候補となる
– N=10と設定
14
- 16. 評価実験:正解用語の作成2
形態素 見出しに
解析 複合名詞 ある用語か? 正解用語
集合 集合
語義文
照合
見出し
• 見出しの部分一致用語も正解用語とする
– 見出し語に「UTP」が含まれているとき
• UTPケーブルも正解用語とする
16
- 17. 評価実験:評価方法
提案手法,FLR
複合名詞 でスコア付け
集合
スコア順
にソート
1 2 3 … N-2 N-1 N
正解用語集合に含まれる
FLR …
スコア
正解用語集合に含まれない
提案手法 …
スコア
• スコア順にソートしたときのn(n:1~N)語までのF値
17
- 21. 考察:他手法の性能
• FLR
– 出現頻度がベースとなっている
– ストップワードを登録する必要がある
• アンカーテキスト集合Wqの適合率・再現率
– ジャンル:ネットワーク
• 再現率=1072/1759=60.94[%]
• 適合率=1072/4000=26.80[%]
– ジャンル:プログラミング
• 再現率=353/380=92.89[%]
• 適合率=353/3525=10.01[%]
21
- 22. 考察:パラメータ変動に対する精度
• スコア付けでtop Nの平均値がα以下の用語を専門
用語とみなした場合
α recall(N=1) precision(N=1) recall(N=10) precision(N=10) recall(N=20) precision(N=20) recall(N=50) precision(N=50)
100 0.9454 0.4140 0.8738 0.4826 0.7970 0.4902 0.5253 0.4534
200 0.9528 0.4131 0.8931 0.4819 0.8374 0.4933 0.6282 0.4870
300 0.9534 0.4133 0.9016 0.4790 0.8601 0.4938 0.6720 0.4933
400 0.9534 0.4133 0.9096 0.4778 0.8738 0.4920 0.7453 0.5085
500 0.9534 0.4133 0.9193 0.4752 0.8835 0.4907 0.7817 0.4987
600 0.9534 0.4133 0.9255 0.4716 0.8943 0.4822 0.8175 0.4991
700 0.9534 0.4133 0.9323 0.4618 0.9096 0.4778 0.8516 0.4937
800 0.9534 0.4133 0.9375 0.4555 0.9255 0.4716 0.8835 0.4907
900 0.9534 0.4133 0.9483 0.4315 0.9375 0.4540 0.9193 0.4752
999 1.0000 0.2860 1.0000 0.2950 1.0000 0.2860 1.0000 0.2860
• N個の平均値をとることでF値が上がっている 22
- 23. 考察:提案手法の有効性
• 提案手法
– Wikipediaから得られたカテゴリが知識としてある
⇒適合率の向上につながった
⇒ストップワードを事前に登録する必要がない
– 正解用語数が大きいコーパスは再現率が向上した
23
- 24. 考察:提案手法の改善点
• 複合名詞を切り出して正解用語とした
– 正解用語に登録されていれば切り出せる 専門用語
• 用語:CLR) 候補
– 正解用語に登録されていれば切り出せる CLR
• IPマスカレード機能 IPアドレス
– 切り出し方法を模索する必要がある
• 処理時間
– Wikipediaを用いた手法[中谷:2008]
• クエリqの専門用語を数秒程度で抽出できる
– 提案手法
• 数百万件のレコードを扱うためデータベースのアクセスがボト
ルネック 24