More Related Content Similar to Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016) (20) More from Toru Fujino (6) Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)2. 書誌情報
• タイトル: Tree-to-Sequence Attentional Neural
Machine Translation
• 著者: Akiko Eriguchi, Kazuma Hashimoto and
Yoshimasa Tsuruoka (鶴岡研の⽅々)
• Conference: ACL 2016
• Date: 03/19/2016
• 第22回 ⾔語処理学会(2016)でも⼀部発表あり
• 「句構造へのアテンションに基づくニューラル機械翻訳モデル」
(若⼿奨励賞)
• Code:
https://github.com/tempra28/tree2seq
3. 概要
• やったこと
• English -> Japanese におけるニューラル翻訳
• Sequential な Attention に加えて, 句構造に対する
Attention を導⼊
• 系列⻑に応じた新しい beam search 法を導⼊
• 結果
• 先⾏研究の Attention model を outperform
• 統計的機械翻訳に匹敵
普通の 句構造に対するもの
4. Attention Mechanism
• Attention Mechanism1)2)
• Seq2Seq Learning において, decode の際に ⼊⼒系列のど
こに注意して decode するか考慮する
• 機械翻訳や⾃動要約などでつかわれる
• ⼊⼒⽂と出⼒⽂のアライメントを学習することが可能に
• En-Fr, En-Ge など European ⾔語では SotA
attention
重み
重み付けの可視化
1) Luong et al., “Effective Approaches to Attention-based Neural Machine Translation”, EMNLP 2015
2) Rush et al., “A Neural Attention Model for Sentence Summarization”, EMNLP 2015
5. En-Ja の場合
• En-Ja のように構造的に遠い⾔語間のタスクでは,
ニューラル翻訳はSMTに匹敵するかどうかはまだ
わかっていない
• ⾔語間の遠さの例)
• a cup of に対応する単語がない
• a cup of tea -> 緑茶
としたい
7. Attentional Tree-to-Sequence Model
• ⼊⼒⽂を⼆分⽊で表現し, ⼦ノードから親ノード
のベクトルを計算
• f_tree は Tree-LSTM1)
• 全ての親ノードに対して Attention の重みを同
様に計算
1) K. S. Tai et al., “Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks”, ACL-IJCNLP 2015
9. input-feeding method
• Luong et al., 20141)で提案された⼿法
• decode の各隠れ層の計算の際, 前の隠れ層だけ
ではなく attention のベクトルも考慮する
• これにより, 本論⽂でも考慮しない場合より良い
結果が⽰された模様
1) Luong et al., “Effective Approaches to Attention-based Neural Machine Translation”, EMNLP 2015
10. BlackOut1)
• Decoder の各 softmax の計算で 全てのボキャ
ブラリに対する内積を計算するのは⼤変
• negative sampling に基づく近似 BlackOut
により, 計算量を減らす
• の代わりに
• を計算
1) Ji et al., “BLACKOUT: SPEEDING UP RECURRENT NEURAL NETWORK LANGUAGE MODELS WITH VERY LARGE VOCABULARIES”, ICLR 2016
11. Beam Search
• Beam Search: decode の各ステップで, 確率
の⾼い k 個を計算し, 最後にスコアの⾼いパスを
採⽤
1)
1) Le, “Sequence to Sequence Learning for NLP and Speech”, Deep Learning School (http://www.bayareadlschool.org/)
13. 実験詳細
• mini batch でサイズは 128
• SGD で lr の初期値は 1. dev loss が上がった
ら 半分にする
• 閾値 3 で gradient clipping
• CPU
• 系列⻑が50以下のもののみ
• ⼊⼒⽂がうまく parse されなかったものも使わ
ない
14. 評価
• RIBES と BLEU
• BLEU: n-gram の precison に基づく指標
• RIBES: 語順(順位正解率)を考慮した指標
• En-Ja の評価においては BLEU よりも⼈⼿に近
いという報告あり
1) Papineni et al., “BLEU: a Method for Automatic Evaluation of Machine Translation”, ACL 2002
2) Isozaki et al, “Automatic Evaluation of Translation Quality for Distant Language Pairs”, EMNLP 2010
15. 結果 (⼩さいデータセット)
• 先⾏研究よりも良い RIBES, BLEU
• softmax のほうが BlackOut よりも結果はいい.
ただ時間はかかる
• ANMT では reverse input により 結果が悪く
なっている (En-Ja)
17. 結果 (⼤きいデータセット)
• 先⾏の NMT よりも
良い結果
• SMT より BLEU は
低いが, BLEU の性
質上不利 (同義語が
考慮されていないた
め.
• ʻ⼥ʼ と ʻ⼥性ʼ など
19. Attention の例 (⻑い系列の場合)
• ʻ⽰ʼ に対する重みは, ʻshowedʼ が 0.01,
ʻshowed excellent performanceʼ が 0.25
• 前(後)の⽂脈にたいする重み付けがなされている
20. 結論
• 句構造に attention を適⽤した
• 従来の attentional NMT よりも良い性能を⽰
した.
• 構造の違う⾔語に対して適切な Attention がな
されていることが確認できた