Semi supervised sequence tagging with bidirectional language models

Semi-supervised sequence tagging with
bidirectional language models
長岡技術科学大学自然言語処理研究室
修士1年西山浩気
Matthew E. Peters, Waleed Ammar, Chandra Bhagavatula, Russel Power, Proceedings
of the 55th Annual Meeting of the Association for Computational Linguistics, pages
1756–1765, Vancouver, Canada, July 30 - August 4, 2017.

 単語の意味を獲得するための事前学習
 比較的小さなラベル付データで学習
 Bi-directional Language Modelを使い、
半教師有りで学習したベクトルを加える
 ラベリングタスクにおいて先行研究を上回る
✓ 固有表現認識(Named Entity Recognition)
✓ Chunking
1. 概要
2

 NLPシステムにおいて
事前学習されたWord Embeddingが使われる
✓ 構文的・意味的な情報を獲得[Mikilov ら, ‘13]
✓ 後段のタスクに対して有効[Collobert ら, ‘11]
 多くのNLPタスクでは単語の意味だけでなく
文中での意味を表すことが必要
 “The Central African Republic”
 “A Central Bank spokesman”
 “Central(中央)” は”組織・場所”という意味を示す
2.1 Word Embedding はじめに
3

 文中の意味を獲得するため
事前学習にBi-directional RNNを利用
[Yangら,’17;Ma and Hovy,’16;Lampleら,16;Hashimotoら,’16]
 RNNのパラメータの学習手法
 同タスクのラベル付データ
 他タスクのラベル付データ
[Søgaard and Goldberg,’16; Yang ら, ‘17]
 本論文ではNeural Language Model(LM)を使用、
大規模なラベル無しデータから学習
2.2 先行研究はじめに
4

 階層的なTag付けモデル (baseline)
[Ma and Hovy,’16;Lampleら, ’16;Yangら, ’17;Chiu and Nichols, ’16]
✓１段目 : Bi-directional RNN
 双方向の文脈表現を学習
✓２段目：２層のRNN
 タスクに応じて
Gated Reccurent Units(GRU)または
Long-Short Term Memory(LSTM)でパラメータを推定
✓ 3段目: bi-gramを計算し、CRFでタグ付け[Laffertyら,’11]
2.3 Sequence tagging model 先行手法
5

 ニューラル言語モデル
 入力は文字CNN/RNN (baselineと同じ)
 位置kまでの単語に対して、
softmax層を通してk+1番目の単語確率を計算する
 事前学習 Bi-LM
 順・逆方向の言語モデルを学習
 softmax層を除去し、双方向のベクトルを連結
 パラメータは方向ごとに独立
2.3 Bidirectional Language Model 提案手法
6

 ニューラル言語モデル
 入力は文字CNN/RNN (baselineと同じ)
 位置kまでの単語に対して、
softmax層を通してk+1番目の単語確率を計算する
 双方向ニューラル言語モデル(Bi-LM)
 順・逆方向の言語モデルを学習
 LM Embedding
softmax層を除去し、双方向のベクトルを連結
 パラメータは方向ごとに独立
2.3 Bidirectional Language Model 提案手法
7

 Baselineを改良
第1層の出力にLM Embeddingを加える
事前実験で最高性能を獲得
2.4 LM Augmented Sequence Taggers(tagLM) 提案手法
8

9
3. 実験設定実験
 評価タスク (BIOESタグを使用)
 CoNLL2003 NERタスク[Sang and Meulder,’03]
 ニュース文
 ４つの固有表現(PER, LOC, ORG, MISC)でタグ付け
 CoNLL2000 Chunkingタスク[Sang and Buchholz, ‘00]
 11個の構文タイプ(NP, VP, ADJPなど)
 訓練データから1000文を抽出

 事前学習
 1B Word Benchmark
 大規模言語モデル構築用のデータセット
 CoNLLデータセットの約4,000倍のデータ(8億ﾄｰｸﾝ)
10
3. 実験設定実験

 従来手法と比べ、
LMを加えることで約1ポイントの性能向上
11
4.1 Neural LMによる性能向上実験

 他外部資源を用いた手法と比べ、
LM Embeddingは改善が大きい(+1.06/+1.37)
12
4.2 外部資源を用いた場合の精度向上比較実験

 他ドメインにおける精度
 本実験では訓練データのドメインはニュース
 SemEval 2017 Shared Task10, ScienceIE
✓ F1値を49.93から54.05(+4.12)に向上
✓ 他ドメインにおいても、性能向上に寄与
 データセットサイズ
 タグ付データセットのサイズにあまり依存せず
大量のタグ付訓練データでも性能を向上
13
4.2 実験

 系列タグ付け問題においてNeural LMは有効
✓NER, Chunkingタスクで1ポイント以上の性能向上
 Neural Language Model
✓ 順・逆方向のLM Embeddingを
用いることで性能が向上
 本実験では単純なベクトルの連結
 将来的に Attentionモデルや非線形マッピングを追加
✓ ドメイン特有の事前学習をする必要が無い
14
まとめ

 システム全体図
Language Model Augmented Sequence Taggers(tagLM)
15

Semi supervised sequence tagging with bidirectional language models

Recomendados

Recomendados

Más contenido relacionado

Similar a Semi supervised sequence tagging with bidirectional language models

Similar a Semi supervised sequence tagging with bidirectional language models (7)

Más de 浩気西山

Más de 浩気西山 (12)

Último

Último (8)