中間⾔語モデルを⽤いた多⾔語機械翻訳の精度向上

中間⾔語モデルを⽤いた
多⾔語機械翻訳の精度向上
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 1
第3回 AAMT⻑尾賞学⽣激励賞研究発表
奈良先端科学技術⼤学院⼤学
知能コミュニケーション研究室
三浦明波 (Akiva Miura)

⽬次
1.  研究背景
2.  従来のピボット翻訳⼿法
3.  提案⼿法
4.  実験的評価
5.  まとめ・今後の課題
6.  Appendix
16/06/20 2Akiva Miura AHC-Lab, IS, NAIST

⽬次
1.  研究背景（ピボット翻訳の必要性）
3.  提案⼿法
6.  Appendix

ü  ⼈⼿によるルール記述が不要
統計的機械翻訳
l  統計的機械翻訳（Statistical Machine Translation ; SMT) :
[Brown et al., 1993]
対訳コーパス
⽬的⾔語
コーパス
翻訳モデル
⾔語モデル
デコーダ
（翻訳機）
学習データ
⼊⼒⽂
出⼒⽂
翻訳システム
ü  学習データの⽂量が増えるほど訳出の精度が向上

多⾔語翻訳における課題
16/06/20 5
l  ⾔語対によって対訳コーパスの取得性が⼤きく異なる
（例）
•  ⼗分な⽂量の対訳コーパスが得られない場合は…？
Akiva Miura AHC-Lab, IS, NAIST
OKü  ⽇本語 ⇔ 英語:
Web上で1000万⽂以上の⼤規模データが取得可能
NG✗  ⽇本語 ⇔ イタリア語:
？（⽂単位で対訳になっているデータは多くない）

ピボット翻訳
翻訳したいが⼗分な対訳コーパスが無い…
⽇本語イタリア語✗
ピボット⾔語（中間⾔語）を導⼊！
⽇本語イタリア語英語
ピボット⾔語を介して翻訳が可能に!!
⽇本語イタリア語英語
✔
Source Pivot Target

⽬次
1.  研究背景
3.  提案⼿法
6.  Appendix

ü  実現が容易、機械翻訳⽅式に依らず組合せ可能
✗  翻訳誤りが伝播される、システム全体の最適化困難
SMT
S → P
SMT
P → T
S⽂ P⽂ T⽂
l  パイプライン処理によって中間⾔語⽂を介して翻訳
[De Gispert et al.,2006]
逐次的ピボット翻訳 (Cascade)
S: 原⾔語
P: 中間⾔語
T: ⽬的⾔語

ü  独⽴したモデルを⽣成、最適化が容易
ü  逐次的ピボット翻訳よりも⾼精度
•  翻訳確率の推定⽅法に精度が依存
テーブル合成⽅式 (Triangulation)
SMT
S → P
SMT
P → T
S⽂ T⽂
SMT
S → T
l  2つの翻訳モデルを1つに合成 [Cohn et al., 2007]
S: 原⾔語
P: 中間⾔語
T: ⽬的⾔語

テーブル合成⼿法の例
approach近似
アプローチ approximation
access接近
approccio
accesso
ravvicinamento
Source（⽇） Pivot（英） Target（伊）
l  学習済みのSource-Pivot、Pivot-Targetのフレーズ対応
Ø  Source-Targetのフレーズ対応を推定（翻訳確率の推定も必要）
近似 approccio
近似 accesso
・
・
・
近似 ravvicinamento
アプローチ approccio
✗ 多義語・⽤語法の差異により適切なフレーズ対応の推定は困難

⽬次
1.  研究背景
3.  提案⼿法
6.  Appendix

着想
ü  翻訳時に⽬的⾔語と中間⾔語の⽂を同時に⽣成
ü  中間⾔語では、豊富な単⾔語資源を取得可能
Ø  中間⾔語⽂の⾃然性を考慮することで適切な語彙選択に貢献？
近似 approccio
(via: approach)
近似 ravvicinamento
(via: approach, approximation)
・・・
l  従来法：テーブル合成後には、関連していたピボットの情報が消失
近似〈approccio, approach〉
近似〈ravvicinamento, approach〉
近似〈ravvicinamento, approximation〉
l  提案法：テーブル合成時に、関連するピボットフレーズも記憶
・・・

提案⼿法: 複数同期ルール合成
X → 〈 src1, pvt1 〉
X → 〈 src2, pvt1 〉
X → 〈 src3, pvt2 〉
. . .
X → 〈 pvt1, trg1〉
. . .
l  Source-Pivot、Pivot-Targetの同期ルール(Chiang 2007)を個別に学習
Ø  共通するピボットフレーズ毎にSource-Target-Pivotの
複数同期ルール(Neubig et al., 2015)を合成
X → 〈 src1, trg1, pvt1 〉
. . .
同時翻訳確率
を推定
φ(trg,pvt | src)
φ(src | pvt,trg)
翻訳確率
φ(pvt | src)
φ(src | pvt)
φ(trg | pvt)
φ(pvt | trg)

⽬次
1.  研究背景
3.  提案⼿法
6.  Appendix

翻訳タスク
16/06/20 15
直接:
SMT
S → T
S T
SMT
S → P
S P
SMT
P → T
T
逐次:
無記憶合成 (ベースライン):
SMT
S → P
SMT
P → T
SMT
S → T
S T
記憶合成 (提案法):
SMT
S → P
SMT
P → T
SMT (Multi)
S → T, P
S
T
P

実験設定
使⽤ツール
単語アラインメント推定: GIZA++ [Och et al., 2003]
⾔語モデル学習: KenLM (5-gram) [Heaﬁeld, 2011]
翻訳モデル学習、翻訳機: Travatar (SCFG, MSCFG) [Neubig, 2013]
⾃動評価尺度: BLEU-4 [Papineni et al., 2002]
データセット
欧州議会議事録多⾔語コーパス(Europarl)
[Koehn, 2003]
対訳学習: 100k，最適化: 1.5k，評価: 1.5k
Target⾔語モデル: 100k
Pivot⾔語モデル: 2M
Pivot : 英語 (en)
Source, Pivot (全組み合わせ):
ドイツ語 (de)
スペイン語 (es)
フランス語 (fr)
イタリア語 (it)

実験結果
Src Trg
BLEU-4 スコア [%]
直接逐次無記憶合成
記憶合成
+PivotLM 2M
de
es 27.10 25.05 25.31 25.75 *
fr 25.65 23.86 24.12 24.58 *
it 23.04 20.76 21.27 22.29 **
es
de 20.11 18.52 18.77 19.40 *
fr 33.48 27.00 29.54 29.95 *
it 27.82 22.57 25.11 25.64 **
fr
de 19.69 18.01 18.73 19.19 *
es 34.36 27.26 30.31 31.00 **
it 28.48 22.73 25.31 26.22 **
it
de 19.09 14.03 17.35 18.52 **
es 31.99 25.64 28.85 29.31 *
fr 31.39 25.87 28.48 29.02 *
* : p < 0.05 ** : p < 0.01
全ての組合せで、
逐次 < 無記憶合成
無記憶合成 < 記憶合成
(0.4〜1.2 %の精度向上)

中間⾔語モデル規模の影響
16/06/20 18
21.2
21.4
21.6
21.8
22
22.2
22.4
22.6
22.8
23
23.2
0 500000 1x10
6
1.5x10
6
2x10
6
BLEUScore[%]
Pivot-LM Size [sent.]
Direct Tri. SCFG Tri. MSCFG
l  中間⾔語（英語）モデルサイズが翻訳精度に与える影響
（例：独伊ピボット翻訳）
✔ 中間⾔語モデル規模の増加に伴い、⽬的⾔語でも精度向上
↑直接翻訳
↑記憶合成
↓無記憶合成

曖昧性が解消された例
  ⼊⼒⽂ (ドイツ語):
Ich bedaure , daß es keine gemeinsame Annäherung gegeben hat .
  正解訳 (イタリア語):
Sono spiacente del mancato approccio comune .
  無記憶合成 (ベースライン):
Mi rammarico per il fatto che non si ravvicinamento comune .
(BLEU+1: 13.84)
  記憶合成 (提案法):
Mi dispiace che non esiste un approccio comune . (BLEU+1: 25.10)
I regret that there is no common approach . (同時⽣成された英⽂)
✔ ピボットフレーズの情報と中間⾔語モデルが曖昧性解消に寄与
↑✗
◯↓

曖昧性を解消できなかった例
  ⼊⼒⽂ (フランス語):
Vous avez tout à fait raison et je vous remercie dʼavoir attire´
lʼattention sur ce point .
  正解訳 (スペイン語):
Tiene usted toda la razón y le agradezco que nos llame la atención
sobre este punto .
  直接翻訳 (上限):
Tiene usted razón y le agradezco que haya llamado la atención sobre
este punto . (BLEU+1: 56.00)
  記憶合成 (提案法):
Tiene usted mucha razón y gracias por haber conseguido la atención
sobre este punto . (BLEU+1: 38.91)
You have quite right and I thank you for having courageously brought
the attention on this point . (同時⽣成された英⽂)
✗ 多品詞語「thank」の影響で訳が変わってしまっている

⽬次
1.  研究背景
3.  提案⼿法
6.  Appendix

まとめ
l  提案: 中間⾔語情報を記憶するテーブル合成⼿法
16/06/20 22
近似〈approccio, approach〉
近似〈ravvicinamento, approach〉
近似〈ravvicinamento, approximation〉
・・・
Ø  結果: 従来のテーブル合成⼿法より有意に精度向上
21.2
21.4
21.6
21.8
22
22.2
22.4
22.6
22.8
23
23.2
0 500000 1x106
1.5x106
2x106
BLEUScore[%]
Pivot-LM Size [sent.]
Direct Tri. SCFG Tri. MSCFG
Ø  課題: 多品詞語の問題や統語情報の⽋如などは未解決

今後の計画
l  表層的な単語列（語順）の扱いのみでは限界
Ø 統語情報を取り⼊れることで更なる曖昧性の解消を狙う
Ø 構⽂部分⽊を中間表現に⽤いるピボット翻訳⼿法
NP
NN
X1:DT book
[X1] 本 [X1] 書
( b ) 部分構⽂⽊が中間表現 (多品詞語に対応可）
[X1] 本
( a ) 記号列が中間表現 (多品詞語による問題）
[X1] book [X1] 預訂✗
✔

ご清聴ありがとうございました
l  本会の受賞および発表のきっかけを作って下りました⻑尾真先⽣、
選考に携わって下さった皆様やAAMT役員の皆様
に⼼より感謝申し上げます
l  本発表の元となりました修⼠論⽂の執筆にあたって、
様々な指導をして下さりました中村哲先⽣
指導および本賞へ推薦して下さりましたGraham Neubig先⽣
に⼼より感謝申し上げます

中間⾔語モデルを⽤いた多⾔語機械翻訳の精度向上

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (13)

Más de 奈良先端大情報科学研究科

Más de 奈良先端大情報科学研究科 (20)