Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Beyond bleu training neural machine translation with semantic similarity
1. Beyond BLEU: Training Neural Machine
Translation with Semantic Similarity
John Wieting, Taylor Berg-Kirkpatrick, Kevin Gimpel, Graham Neubig
ACL2019
2019/10/28 ACL論文読み会
紹介者: 吉村
2. Abstract
● Minimum risk training の BLEU に代わる 新しい報酬
SIMILEを提案
● (cs, de, ru, tr) to English の MT で実験
● 自動評価と人手評価で BLEU が報酬の場合より良かった
● BLEUが報酬の場合よりスコアの粒度が細かくなるため収
束が早くなることが示唆される
9. Experiments
● DATA
○ cs-en, de-en, ru-en:
■ train: News Commentary v13 (WMT18)
■ valid: validation set of WMT16, 17
■ test: test set of WMT18
○ tr-en:
■ train: SETIMES2 (WMT18)
■ valid: validation set of WMT16, validation and test set of WMT17
■ test: test set of WMT18
● Evaluation
○ Automatic Evaluation
■ BLEU, SIM (not SIMILE) 意味を重視
○ Human Evaluation
■ 200文を人手評価(情報をどれだけ伝えたかの観点)
10. Result (Automatic Evaluation)
● MLE: Maximum likelihood with label smoothing
● BLEU: Minimum risk training with 1-BLEU as the cost
● SIMILE: Minimum risk training with 1-SIMILE as the cost
● Half: Minimum risk training with a new cost that is 1-(BLEU + SIM)/2
● SIMの自動評価では SIMILE が全言語でベスト
● SIMILEは BLEU を最適化するモデルよりも BLEU が上がっている
● BLEUを最適化すると SIM でも大きく上がる
11. Result (Human Evaluation)
● tr-en が SIMILE で低くなっている
○ warm up の段階である程度良くなっていないといけないという仮説
● de-en, ru-en がBLEUに対してSIMILEで最も改善し、MLEでのBLEUが最も高
い (Table 4)ので仮説の信頼性が高まる ← warm up時のスコアをみるべきで
は?
Annotation Instructions