Más contenido relacionado Similar a Semi supervised sequence tagging with bidirectional language models (7) Semi supervised sequence tagging with bidirectional language models1. Semi-supervised sequence tagging with
bidirectional language models
長岡技術科学大学 自然言語処理研究室
修士1年 西山 浩気
Matthew E. Peters, Waleed Ammar, Chandra Bhagavatula, Russel Power, Proceedings
of the 55th Annual Meeting of the Association for Computational Linguistics, pages
1756–1765, Vancouver, Canada, July 30 - August 4, 2017.
3. NLPシステムにおいて
事前学習されたWord Embeddingが使われる
✓ 構文的・意味的な情報を獲得[Mikilov ら, ‘13]
✓ 後段のタスクに対して有効[Collobert ら, ‘11]
多くのNLPタスクでは単語の意味だけでなく
文中での意味を表すことが必要
“The Central African Republic”
“A Central Bank spokesman”
“Central(中央)” は”組織・場所”という意味を示す
2.1 Word Embedding はじめに
3
5. 階層的なTag付けモデル (baseline)
[Ma and Hovy,’16;Lampleら, ’16;Yangら, ’17;Chiu and Nichols, ’16]
✓1段目 : Bi-directional RNN
双方向の文脈表現を学習
✓2段目:2層のRNN
タスクに応じて
Gated Reccurent Units(GRU)または
Long-Short Term Memory(LSTM)でパラメータを推定
✓ 3段目: bi-gramを計算し、CRFでタグ付け[Laffertyら,’11]
2.3 Sequence tagging model 先行手法
5
6. ニューラル 言語モデル
入力は 文字CNN/RNN (baselineと同じ)
位置kまでの単語に対して、
softmax層を通してk+1番目の単語確率を計算する
事前学習 Bi-LM
順・逆方向の言語モデルを学習
softmax層を除去し、双方向のベクトルを連結
パラメータは方向ごとに独立
2.3 Bidirectional Language Model 提案手法
6
7. ニューラル 言語モデル
入力は 文字CNN/RNN (baselineと同じ)
位置kまでの単語に対して、
softmax層を通してk+1番目の単語確率を計算する
双方向ニューラル言語モデル(Bi-LM)
順・逆方向の言語モデルを学習
LM Embedding
softmax層を除去し、双方向のベクトルを連結
パラメータは方向ごとに独立
2.3 Bidirectional Language Model 提案手法
7
9. 9
3. 実験設定 実験
評価タスク (BIOESタグを使用)
CoNLL2003 NERタスク[Sang and Meulder,’03]
ニュース文
4つの固有表現(PER, LOC, ORG, MISC)でタグ付け
CoNLL2000 Chunkingタスク[Sang and Buchholz, ‘00]
11個の構文タイプ(NP, VP, ADJPなど)
訓練データから1000文を抽出
10. 事前学習
1B Word Benchmark
大規模言語モデル構築用のデータセット
CoNLLデータセットの約4,000倍のデータ(8億トークン)
10
3. 実験設定 実験
13. 他ドメインにおける精度
本実験では訓練データのドメインはニュース
SemEval 2017 Shared Task10, ScienceIE
✓ F1値を49.93から54.05(+4.12)に向上
✓ 他ドメインにおいても、性能向上に寄与
データセットサイズ
タグ付データセットのサイズにあまり依存せず
大量のタグ付訓練データでも性能を向上
13
4.2 実験
14. 系列タグ付け問題においてNeural LMは有効
✓NER, Chunkingタスクで1ポイント以上の性能向上
Neural Language Model
✓ 順・逆方向のLM Embeddingを
用いることで性能が向上
本実験では単純なベクトルの連結
将来的に Attentionモデルや非線形マッピングを追加
✓ ドメイン特有の事前学習をする必要が無い
14
まとめ