Más contenido relacionado
Más de Koji Sekiguchi (20)
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
- 2. 背景
• Lucene/Solr x固有表現抽出=便利!
• 形態素解析辞書の充実化
• ipadic: Noun.org.dic
• 固有表現
• クラス:人名、地名、組織名、・・・
• 固有表現抽出の方法
• 固有表現辞書の整備
• 固有表現タグ付きコーパスからの学習
Copyright (c) 2013 RONDHUIT 2
- 3. 全体フロー
組織名辞書(学習データ)
e.g. 日外アソシエーツ DCS-機関名辞書
Wikipedia
見出し語
Lucene ※ lucene-gosen推奨 データ
インデックス
(Noun.org.dicを除いてビルド)
東京大学
組織名
正規表現 情報処理学会
単語パターン
パターンマッチ :
学習
系列パターンマイニング
(.+)大学$
日本(.+)協会$
(.+)学会$
要重複正規表現のチェック :
Copyright (c) 2013 RONDHUIT 3
- 4. 単語パターンの学習方法
• 系列パターンマイニング(PrefixSpan)を利用
• 最小サポート:閾値以上出現する「頻出」パターン
• 各系列をprefixとpostfixに分けて考え、最も短いprefixから探索を開始
• 頻出するprefixに後続するpostfixのみ探索を段階的に繰り返す
• 組織名のための例外
• 接尾辞情報(〜大学など)が汎化される規則は適用しない
• 構成単語数が2以下のものは最初から除外
Copyright (c) 2013 RONDHUIT 4
- 5. 系列パターンマイニングの例
最小サポート=2 "a" "ab"
b=1
2.bc 2.c c=1
c=1
"b"
1.a
"" a=2
2.c
c=1
a=3 3.a
1.cdba
b=3
2.abc
c=3 "c" "cb"
3.cba
d=1
1.dba a=2 1.a 結果
a=2
3.ba b=2 3.a
a:3
b:3
c:3
"d" "db" ba : 2
ca : 2
a=1 cb : 2
1.ba 1.a a=1
b=1 cba : 2
Copyright (c) 2013 RONDHUIT 5
- 6. 学習結果の例
• IPAdic 2.7 の Noun.org.dic に最小サポート40での例
建設$ 物産$ 印刷$ 商事$
サービス$ 県立.+高等学校$ 総合.*病院$ 女子.*大学$
研究所$ 工業.*高等専門学校$ 市立.+病院$ 県立.+学校$
食品$ 商会$ 日本.+協会$ 薬品$
銀行$ 会.*病院$ 駐屯地$ 信用金庫$
女子大$ 電気$ 中央.*病院$ 女子.*短期大学$
保険$ システム$ 製薬$ エンジニアリング$
製作所$ 放送局$ 工業.*専門学校$ 学園.*短期大学$
学院$ センター$ 電機$ 女子.*短大$
工業.+学校$ 開発$ 新聞社$ 産業$
工業.*高等.*学校$ ホテル$ 販売$
テック$ 化学工業$ 学園.*短大$
Copyright (c) 2013 RONDHUIT 6
- 7. Wikipediaに適用した出力例
• 正解例
日本電気 欧州中央銀行 横浜銀行
ベル研究所 国際復興開発銀行 聖教新聞社
米国立スーパーコンピュータ応用研究所 埼玉りそな銀行 産業経済新聞社
みずほ銀行 富士銀行 東京総合車両センター
りそな銀行 日本興業銀行 ケイトー研究所
UFJ銀行 茨城県立取手第二高等学校 イスラム銀行
三井住友銀行 国立生物工学情報センター ジャパンネット銀行
フランス国立宇宙研究センター 雨宮製作所 ソニー銀行
日本音楽著作権協会 全日本ぷよ協会 楽天銀行
パナウェーブ研究所 足利銀行 セブン銀行
東京大学物性研究所 山陰合同銀行 第百十国立銀行
第一勧業銀行 日本百貨店協会 お茶の水女子大学
宇宙科学研究所 読売新聞社 三洋電機
さくら銀行 日立製作所 アントウェルペン王立芸術学院
日本サッカー協会 清水銀行 日本スポーツ振興センター
ジャストシステム 静岡銀行 :
Copyright (c) 2013 RONDHUIT 7
- 8. Wikipediaに適用した出力例(つづき)
• 誤り抽出例
オペレーティングシステム
印刷
ファイルシステム
販売
組み込みオペレーティングシステム
組み込みシステム
銀行
新たな形態の銀行
大学院
研究所
サービス
GNU/Linuxシステム
システム
法令データ提供システム
発電機
:
Copyright (c) 2013 RONDHUIT 8
- 9. 正規表現の重複チェック
• "信用金庫$"と"金庫$"はそれぞれの正規表現がマッチする文字列の集合
が"信用金庫$"⊆"金庫$"の関係
• 再現率重視の場合は"金庫$"を採用
• 精度重視の場合は"信用金庫$"を採用
• 正規表現の包含関係を多項式時間で調べるアルゴリズム
• 参考文献[2]
• そのHaskell実装が参考文献[3]
Copyright (c) 2013 RONDHUIT 9
- 10. 参考文献
1. 接尾辞情報を利用した文書からの組織名抽出、乾、村上、橋本、内海、
石川、人工知能学会論文誌 24巻6号C、2009年
2. The Inclusion Problem for Regular Expressions, Dag Hovland,
http://hdl.handle.net/1956/3956
3. http://www.ii.uib.no/~dagh/inclusion.tar.bz2
4. http://sourceforge.jp/projects/ipadic/
Copyright (c) 2013 RONDHUIT 10