Más contenido relacionado La actualidad más candente (20) Similar a 日本語の語彙平易化システムおよび評価セットの構築 (20) Más de Tomoyuki Kajiwara (11) 日本語の語彙平易化システムおよび評価セットの構築2. 自己紹介
• 梶原 智之 @moguranosenshi
• 長岡技術科学大学(新潟県)http://www.jnlp.org/
– 言い換え、特に語彙的換言
– テキスト平易化、特に語彙平易化
• 首都大学東京(東京都)http://cl.sd.tmu.ac.jp/
– 言い換え
– テキスト平易化
– NLP若手の会プログラム委員
2
6. 文章読解支援のための語彙平易化
• 語彙平易化システム
– 梶原智之, 山本和英. 日本語の語彙平易化シス
テムの構築. 情報処理学会第77回全国大会講
演論文集(第2分冊), pp.167-168, 2015.
• 語彙平易化の評価のためのデータセット
– 梶原智之, 山本和英. 日本語の語彙平易化評価
セットの構築. 言語処理学会第21回年次大会
発表論文集, pp.501-504, 2015.
6
7. Simplification 研究の盛り上がり
Text Simplification
OR
Lexical Simplification
OR
Syntactic Simplification
Matthew Shardlow. A Survey of Automated Text
Simplification. International Journal of Advanced
Computer Science and Applications, Special Issue
on Natural Language Processing, pp.58‒70, 2014.
8. English Lexical Simplification
• SemEval-2012: English Lexical Simplification Task [1]
• 9つのシステムが参加
• 文脈を考慮して高頻度語に置換
• Simple English Wikipedia
• 語彙と文法に制限をかけた平易なWikipedia
• Wikipediaとのアライメント → 対訳コーパス [2], [3]
• 語彙平易化規則を学習 [4]
• 統計翻訳の枠組みで平易化 [5], [6]
[1] Lucia Specia et al. (2012) Semeval-2012 Task 1: English Lexical Simplification
[2] Zhemin Zhu et al. (2010) A Monolingual Tree-based Translation Model for Sentence Simplification
[3] David Kauchak (2013) Improving Text Simplification Language Modeling Using Unsimplified Text Data
[4] Colby Horn et al. (2014) Learning Lexical Simplifier Using Wikipedia
[5] William Coster and David Kauchak (2011) Learning to Simplify Sentences Using Wikipedia
[6] Sander Wubben et al. (2012) Sentence Simplification by Monolingual Machine Translation
8
14. 14
語彙的換言の生成
0% 20% 40% 60% 80% 100%
PPDB: Japanese
用言等換言辞書
普通名詞換言辞書
WordNet同義語DB
動詞含意DB(Ntriv)
動詞含意DB(Triv)
略記対
異形同義語対
異表記対
常に換言可能
文脈によって換言可能
常に換言不可能
入力文
未来は若者が担う
語彙的換言の生成
担う:伝承する,引継ぐ,支える,受け継ぐ
難解語の検出
担う
出力文
未来は若者が支える
難易度に基づく並び替え
1:支える, 2:受け継ぐ, 3:伝承する, 4:担う, 5:引継ぐ
15. • 先行研究 [7] の調査に基づき、
比較的高精度な言い換えを換言知識から収集
• 内容語換言辞書(SNOW D2)
• 日本語WordNet同義語データベース
• 動詞含意関係データベース
• 基本的意味関係の事例ベース
[7] 梶原智之, 山本和英 (2014) 日本語の語彙的換言知識の質的評価
15
語彙的換言の生成
入力文
未来は若者が担う
語彙的換言の生成
担う:伝承する,引継ぐ,支える,受け継ぐ
難解語の検出
担う
出力文
未来は若者が支える
難易度に基づく並び替え
1:支える, 2:受け継ぐ, 3:伝承する, 4:担う, 5:引継ぐ
18. Precisionを改善しようとして失敗した話
• Precision:84.4 % ← 誤った16%の変換は理解を妨害
• 誤りの例
• 高騰する:上がる, 値上がりする, ・・・
• 石油の値段が【高騰する】→ 石油の値段が【上がる】
• 石油が【高騰する】→ 石油が【上がる】
石油が【値上がりする】
• 解決策
• 「値段」は上がる
• 「石油」は上がらない
→ 述語と項の関係を評価すれば精度が上がる!
→ 述語項構造解析を用いた語義曖昧性の解消
19. 19
入力文
未来は若者が担う
語彙的換言の生成
担う:伝承する,引継ぐ,支える,受け継ぐ
難解語の検出
担う
出力文
未来は若者が支える
語義曖昧性の解消
引継ぐ,支える,受け継ぐ
難易度に基づく並び替え
1:支える 2:受け継ぐ 3:引継ぐ
語義曖昧性の解消
1. 述語項構造解析(SynCha)で【項, 格, 述語】の組を抽出
2. 格フレーム辞書(京大格フレーム)で三つ組を評価
石油が高騰する → 述語:高騰する, ガ格:石油
(石油, ガ, 上がる)(石油, ガ, 値上がりする)
(石油, ガ, 上昇する) (石油, ガ, 高くなる)
21. システム入出力 http://www.jnlp.org/SNOW/S3
21
Input 【レタス】がさっぱり【 感 】を醸し出す
Original 【 野 菜 】がさっぱり【気持ち】を醸し出す
+ WSD 【 野 菜 】がさっぱり【 気 分 】を醸し出す
Input ∼と【 決 意 】を語る
Original ∼と【決まる】を語る
+ WSD ∼と【 決 心 】を語る
Input ASEANへの【加盟】はベトナムの発展に貢献し
Original ASEANへの【入る】はベトナムの発展に貢献し
+ WSD ASEANへの【参加】はベトナムの発展に貢献し
System Precision
Original 84.4 %
+ WSD 89.0 %
4.6 ポイント改善
System Precision Recall F-measure
Original 84 % 71 % 77 %
+ WSD 89 % 8 % 15 %
23. 文章読解支援のための語彙平易化
• 語彙平易化システム
– 梶原智之, 山本和英. 日本語の語彙平易化シス
テムの構築. 情報処理学会第77回全国大会講
演論文集(第2分冊), pp.167-168, 2015.
• 語彙平易化の評価のためのデータセット
– 梶原智之, 山本和英. 日本語の語彙平易化評価
セットの構築. 言語処理学会第21回年次大会
発表論文集, pp.501-504, 2015.
23
24. 研究資源の公開の重要性
• 語彙平易化システムの公開 [8]
• 読解支援を必要とする読者に語彙平易化の技術を届ける
• http://www.jnlp.org/SNOW/S3
• 語彙平易化の評価のためのデータセットの公開
• 従来の人手評価のコストと再現性の課題を解決し、
適合率および再現率の自動評価の枠組みを提供する
• 複数の語彙平易化システムの性能を直接比較する
• http://www.jnlp.org/SNOW/E4
[8] 梶原智之, 山本和英 (2015) 日本語の語彙平易化システムの構築
24
25. 日本語の語彙平易化評価セット
• 語彙的換言データセットの構築:対象語の選定
1. IPA辞書 JUMAN辞書の内容語(名詞、動詞、形容詞、副詞)
2. 平易な語を削除
※学習基本語彙(小学生のための理解語彙)に含まれる語を削除
3. 換言が存在しない語を削除
※内容語換言辞書(SNOW D2)に含まれない語を削除
4. 低頻度語を削除
※新聞記事15年分での出現頻度が10未満の語を削除
対象語:名詞・動詞 75語、形容詞・副詞 50語(無作為抽出)
25
1.語彙的換言
データセットの構築
2.語彙平易化
データセットへの変換
29. データセットの特性
29
データセットの文脈依存性
①:対象語が同じ文脈の組 10,485
②:①のうち換言リストが等しい組 1,593
③:②のうち難易度ランクが違う組 948
④:③のうち最も平易な語が違う組 463
15.2%
59.5%
48.8%
対象語と文脈 換言リスト(上段)と難易度ランク(下段)
グルメというのが、食のバブル
であるとするなら、それは【
とっくに】終わった文化である
すでに;既に;とうに;随分前に;前に;もう;
{とっくに}{すでに}{もう}{既に}{とうに}{前に}{随分前に}
どうやら職場での飲酒は【とっ
くに】ばれていたらしい
とうの昔に;すでに;既に;とうに;随分前に;もう;
{とっくに}{すでに}{既に もう}{とうの昔に}{とうに}{随分前に}
【とっくに】気付いているかも
しれないが、写真中央にいるの
はF1でもおなじみのナイジェ
ル・マンセルだ
とうの昔に;すでに;既に;とうに;随分前に;もう;
{すでに}{もう}{とっくに}{既に}{とうに}{とうの昔に 随分前に}
言い換え:
文脈にとても
強く依存
平易化:
文脈に強く依存