Beyond bleu training neural machine translation with semantic similarity

Beyond BLEU: Training Neural Machine
Translation with Semantic Similarity
John Wieting, Taylor Berg-Kirkpatrick, Kevin Gimpel, Graham Neubig
ACL2019
2019/10/28 ACL論文読み会
紹介者: 吉村

Abstract
● Minimum risk training の BLEU に代わる新しい報酬
SIMILEを提案
● (cs, de, ru, tr) to English の MT で実験
● 自動評価と人手評価で BLEU が報酬の場合より良かった
● BLEUが報酬の場合よりスコアの粒度が細かくなるため収
束が早くなることが示唆される

Introduction
● 多くのNMTでは最尤推定を用いた学習
● 最近は BLEU などを直接最適化するように学習させるこ
とで翻訳精度が向上することが示されている
● BLEU を使用することの問題点
○ 出力と参照訳の意味が同じでも表層が違うとペナルティが科される
○ スコアの粒度が細かくない
→ 最適化が難しい
● SIMILE という新しい報酬関数を提案
○ STS の embedding ベースの手法

SIM
● Wieting and Gimpel (2018) をベースにしたもの
○ STSの unsupervised で SOTAの手法、ドメインに依存しない
● Model
○ LSTM の hidden state の平均
○ 300次元の subword embeddings の平均で文を encode する
○ 出力と参照訳をそれぞれ encode して cos類似度で類似度を計算
● Training
○ <s, s’> の言い換えペアに対して以下を学習
<s. s’> : 16.77M pairs of ParaNMT
g : model
δ : マージン
t：負例（ミニバッチで最も類似した文）

SIMILE
Length Penalty
● BLEUの BP と似ていて、rとhの長さが全く異なる場合に
ペナルティをかける
● LP の影響をわずかに下げることで精度が向上
○ α = 0.25に設定

BLEU, METEORとの比較
● METEOR と SIMの違いは流暢性にあるとの予測
● 流暢性をとらえるために MRT に MLE loss を追加するこ
とで改善（Edunov et al. 2018）

MT - Model Architecture
● encoder-decoder with soft attention
● gated convolutional encoders and decoders
● encoder 4 layer, decoder 3 layer
● hidden size 256
● bpe 40,000
● embedding size 256

MT - Objective Functions
● 最初にで学習させてからで fine-tuning
● サンプルする n-best size は 8
● で 200 エポック、で 10エポック学習
● γ は {0.2, 0.3, 0.4} からチューニングして決める
U(x): set of candidate hypotheses
t: reference
cost(t, u): 1 - BLEU(t, h) or 1 - SIMILE(t, h)
(Pereyra et al., 2017)

Experiments
● DATA
○ cs-en, de-en, ru-en:
■ train: News Commentary v13 (WMT18)
■ valid: validation set of WMT16, 17
■ test: test set of WMT18
○ tr-en:
■ train: SETIMES2 (WMT18)
■ valid: validation set of WMT16, validation and test set of WMT17
■ test: test set of WMT18
● Evaluation
○ Automatic Evaluation
■ BLEU, SIM (not SIMILE) 意味を重視
○ Human Evaluation
■ 200文を人手評価（情報をどれだけ伝えたかの観点）

Result (Automatic Evaluation)
● MLE: Maximum likelihood with label smoothing
● BLEU: Minimum risk training with 1-BLEU as the cost
● SIMILE: Minimum risk training with 1-SIMILE as the cost
● Half: Minimum risk training with a new cost that is 1-(BLEU + SIM)/2
● SIMの自動評価では SIMILE が全言語でベスト
● SIMILEは BLEU を最適化するモデルよりも BLEU が上がっている
● BLEUを最適化すると SIM でも大きく上がる

Result (Human Evaluation)
● tr-en が SIMILE で低くなっている
○ warm up の段階である程度良くなっていないといけないという仮説
● de-en, ru-en がBLEUに対してSIMILEで最も改善し、MLEでのBLEUが最も高
い (Table 4)ので仮説の信頼性が高まる ← warm up時のスコアをみるべきで
は？
Annotation Instructions

Quantitative Analysis - Partial Credit
● BLEU は高いコストにたくさん集まっている → 学習時の情報が少ない
● beam size 8の28ペアで
○ スコアの差が0以上の割合 BLEU: 85.1% SIMILE: 99.0%,
○ 平均差 BLEU: 4.3
SIMILE: 4.8

Quantitative Analysis - Validation loss
● SIMILE のほうが早く loss が減少
● 最終的な loss も SIMILE が低い
● 1 epoch 直後のスコア
○ BLUE でのモデル
■ SIM/BLEU = 86.71/27.63
○ SIM でのモデル
■ SIM/BLEU = 87.14/28.10

Quantitative Analysis - Effect of n-best list size
● SIMILE は n-bset size を増や
すにつれて BLEU と SIM が
大幅に改善されている
● BLEU は n-best を増やすと
SIMILEとのギャップが縮まる
と仮説 → 縮まってない
○ metric に関係なく小さい
n-best ではそもそも精度
がでないから

Quantitative Analysis - Lexical F1
● compare-mt を使用して単語タイプの
BLEU と SIMILE のF1値の差を計算
○ 出現頻度と品詞を分析
● 程頻度語をより正確に生成してる
● 文の意味に特徴的な品詞のスコア差が
高くなっている
● DETのようなあまり意味をもたない品
詞はスコア差が小さい

Qualitative Analysis
● SIMILE では他の2つでは省略されている重要な単語を生成できている
● 失敗例でも、元の文の重要な単語を生成している

Metric Comparison
● SIMスコア差が大きい場合、文の意味に違いがあることがわかる
○ BLEUスコア差が小さい場合は当てはまらない（1番上の例）
● BLEUスコアの差が大きくても意味を保持している
○ BLEUスコアの問題点

Conclusion
● MRTの報酬として BLEUに代わる SIMILE を提案
● BLEUの場合より自動評価でも人手評価でもよかった。
● 最適化が容易になり、意味的に重要な単語を翻訳する傾
向にあることがわかった。

Beyond bleu training neural machine translation with semantic similarity

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Beyond bleu training neural machine translation with semantic similarity