Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)

Tree-to-Sequence Attentional Neural
Machine Translation
10/12/2016
新領域⼈間環境学陳研究室 D1 藤野暢

書誌情報
• タイトル: Tree-to-Sequence Attentional Neural
Machine Translation
• 著者: Akiko Eriguchi, Kazuma Hashimoto and
Yoshimasa Tsuruoka (鶴岡研の⽅々)
• Conference: ACL 2016
• Date: 03/19/2016
• 第22回⾔語処理学会(2016)でも⼀部発表あり
• 「句構造へのアテンションに基づくニューラル機械翻訳モデル」
（若⼿奨励賞）
• Code:
https://github.com/tempra28/tree2seq

概要
• やったこと
• English -> Japanese におけるニューラル翻訳
• Sequential な Attention に加えて, 句構造に対する
Attention を導⼊
• 系列⻑に応じた新しい beam search 法を導⼊
• 結果
• 先⾏研究の Attention model を outperform
• 統計的機械翻訳に匹敵
普通の句構造に対するもの

Attention Mechanism
• Attention Mechanism1)2)
• Seq2Seq Learning において, decode の際に⼊⼒系列のど
こに注意して decode するか考慮する
• 機械翻訳や⾃動要約などでつかわれる
• ⼊⼒⽂と出⼒⽂のアライメントを学習することが可能に
• En-Fr, En-Ge など European ⾔語では SotA
attention
重み
重み付けの可視化
1) Luong et al., “Effective Approaches to Attention-based Neural Machine Translation”, EMNLP 2015
2) Rush et al., “A Neural Attention Model for Sentence Summarization”, EMNLP 2015

En-Ja の場合
• En-Ja のように構造的に遠い⾔語間のタスクでは,
ニューラル翻訳はSMTに匹敵するかどうかはまだ
わかっていない
• ⾔語間の遠さの例)
• a cup of に対応する単語がない
• a cup of tea -> 緑茶
としたい

Attentional Encoder-Decoder Model
• Decoder の各ステップで, ⼊⼒⽂の各隠れ層の
情報を重み付けで考慮
重み
重み付け平均 (文脈ベクトル)
新しい出力ベクトル

Attentional Tree-to-Sequence Model
• ⼊⼒⽂を⼆分⽊で表現し, ⼦ノードから親ノード
のベクトルを計算
• f_tree は Tree-LSTM1)
• 全ての親ノードに対して Attention の重みを同
様に計算
1) K. S. Tai et al., “Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks”, ACL-IJCNLP 2015

⽂脈ベクトルの計算
• 系列データ(n個)と句構造データ(n-1個)両⽅か
ら計算

input-feeding method
• Luong et al., 20141)で提案された⼿法
• decode の各隠れ層の計算の際, 前の隠れ層だけ
ではなく attention のベクトルも考慮する
• これにより, 本論⽂でも考慮しない場合より良い
結果が⽰された模様
1) Luong et al., “Effective Approaches to Attention-based Neural Machine Translation”, EMNLP 2015

BlackOut1)
• Decoder の各 softmax の計算で全てのボキャ
ブラリに対する内積を計算するのは⼤変
• negative sampling に基づく近似 BlackOut
により, 計算量を減らす
• の代わりに
• を計算
1) Ji et al., “BLACKOUT: SPEEDING UP RECURRENT NEURAL NETWORK LANGUAGE MODELS WITH VERY LARGE VOCABULARIES”, ICLR 2016

Beam Search
• Beam Search: decode の各ステップで, 確率
の⾼い k 個を計算し, 最後にスコアの⾼いパスを
採⽤
1)
1) Le, “Sequence to Sequence Learning for NLP and Speech”, Deep Learning School (http://www.bayareadlschool.org/)

系列⻑を考慮したBeam Search
• 普通の Beam Search だと, 出⼒が⻑い場合に
スコアが低くなってうまく働かない
• 系列⻑に応じたペナルティを導⼊することで, 系
列⻑を考慮したスコア付が可能に

実験詳細
• mini batch でサイズは 128
• SGD で lr の初期値は 1. dev loss が上がった
ら半分にする
• 閾値 3 で gradient clipping
• CPU
• 系列⻑が50以下のもののみ
• ⼊⼒⽂がうまく parse されなかったものも使わ
ない

評価
• RIBES と BLEU
• BLEU: n-gram の precison に基づく指標
• RIBES: 語順(順位正解率)を考慮した指標
• En-Ja の評価においては BLEU よりも⼈⼿に近
いという報告あり
1) Papineni et al., “BLEU: a Method for Automatic Evaluation of Machine Translation”, ACL 2002
2) Isozaki et al, “Automatic Evaluation of Translation Quality for Distant Language Pairs”, EMNLP 2010

結果 (⼩さいデータセット)
• 先⾏研究よりも良い RIBES, BLEU
• softmax のほうが BlackOut よりも結果はいい.
ただ時間はかかる
• ANMT では reverse input により結果が悪く
なっている (En-Ja)

結果 (⼩さいデータセット)
• 提案 Beam Search
• 良くなった

結果 (⼤きいデータセット)
• 先⾏の NMT よりも
良い結果
• SMT より BLEU は
低いが, BLEU の性
質上不利 (同義語が
考慮されていないた
め.
• ʻ⼥ʼ と ʻ⼥性ʼ など

Attention の例 (短い系列の場合)
• ʻセルʼ は ʻthe cellsʼ に 0.35 の重み付け. ⽇本
語には ʻtheʼ に対応する単語がないので, これで
よい

Attention の例 (⻑い系列の場合)
• ʻ⽰ʼ に対する重みは, ʻshowedʼ が 0.01,
ʻshowed excellent performanceʼ が 0.25
• 前(後)の⽂脈にたいする重み付けがなされている

結論
• 句構造に attention を適⽤した
• 従来の attentional NMT よりも良い性能を⽰
した.
• 構造の違う⾔語に対して適切な Attention がな
されていることが確認できた

感想
• ⽂要約など, 句・節の短縮が必要になるタスクで
はより有効なのではと思った

Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (19)

Similar to Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)

Similar to Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016) (20)

More from Toru Fujino

More from Toru Fujino (6)

Recently uploaded

Recently uploaded (7)

Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)