SlideShare una empresa de Scribd logo
1 de 46
Descargar para leer sin conexión
ピボット翻訳あれこれ
奈奈良良先端科学技術⼤大学院⼤大学
知能コミュニケーション研究室  三浦  明波
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 1	
第11回  関⻄西MT勉強会  合宿
自己紹介	
  
l  氏名:	
   	
  三浦 明波 (ミウラ アキバ)	
  
	
   	
  	
  
	
  
l  経歴:	
  
	
  神戸高専(3年修了中退)	
  
	
  →	
  テクニオン	
  –	
  イスラエル工大	
  (B.Sc)	
  
	
  →	
  NAIST	
  (M1)	
  
l  関心事:	
  
•  多言語翻訳(建前)	
  
•  日本語 ↔ ヘブライ語 翻訳(本命)	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 2	
‫מיאורה‬ ‫עקיבא‬
	
	
‫ָה‬‫ר‬ּ‫ו‬‫ִיא‬‫מ‬ ‫ָא‬‫ב‬‫ִי‬‫ק‬ֲ‫ע‬
Overview	
  
0.  ⾃自⼰己紹介
1.  研究背景
2.  背景技術  -‐‑‒  機械翻訳⽅方式
3.  背景技術  -‐‑‒  ピボット翻訳
4.  研究概要
5.  実験内容、結果と考察
6.  まとめ、今後の課題
7.  Appendix
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 3
1.  研究背景
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 4
統計的機械翻訳	
  
l  統計的機械翻訳(StaHsHcal	
  Machine	
  TranslaHon	
  ;	
  SMT)	
  :	
  
	
   	
   	
   	
   	
   	
  [Brown	
  et	
  al.,	
  1993]	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 5	
ü  ⼈人⼿手によるルール記述が不不要
ü  対訳コーパスの⽂文量量が増えるほど訳出の精度度が向上
対訳コーパス
単⾔言語
コーパス
翻訳モデル
⾔言語モデル
デコーダ
(翻訳機)
学習データ
⼊入⼒力力⽂文
出⼒力力⽂文
翻訳システム
多言語翻訳における課題	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 6	
言語対(代表例)	
対訳	
  
コーパス	
英語 ↔ フランス語	
   ◯	
英語 ↔ 日本語	
 ◯	
英語 ↔ カタルーニャ語	
  
(?)	
   ✗	
日本語 ↔ フランス語	
  
(?)	
   ✗	
l  特定の⾔言語対において、
⼤大規模な対訳コーパスを短期間で取得することは困難
ピボット翻訳	
  
翻訳したいが対訳コーパスが無い…
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 7	
フランス語 ⽇日本語✗
ピボット⾔言語(中間⾔言語)を導⼊入!
フランス語 ⽇日本語英語
ピボット⾔言語を介して翻訳が可能に!!
フランス語 ⽇日本語英語
✓
多言語翻訳における課題	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 8	
言語対(代表例)	
対訳	
  
コーパス	
英語 ↔ フランス語	
   ◯	
英語 ↔ 日本語	
 ◯	
英語 ↔ カタルーニャ語	
  
(via	
  スペイン語)	
   ✗	
日本語 ↔ フランス語	
  
(via	
  英語)	
   ✗	
l  ピボット翻訳によって学習データの取得困難性を緩和
多言語翻訳における課題	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 9	
言語対(代表例)	
対訳	
  
コーパス	
言語構造	
  
の類似度	
手法 (代表例)	
英語 ↔ フランス語	
   ◯	
 ◯	
 ?	
英語 ↔ 日本語	
 ◯	
 ✗	
 ?	
英語 ↔ カタルーニャ語	
  
(via	
  スペイン語)	
   ✗	
 ◯	
 ?	
日本語 ↔ フランス語	
  
(via	
  英語?)	
   ✗	
 ✗	
 ?	
l  機械翻訳には単語の並べ替え問題がつきまとう
2.  背景技術  –  機械翻訳⽅方式
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 10
フレーズベース翻訳	
  
l  フレーズベース翻訳(Phrase-­‐Based	
  Machine	
  TranslaHon	
  ;	
  PBMT)	
  :	
  
	
   	
   	
   	
   	
   	
  [Koehn	
  et	
  al.,	
  2003]	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 11	
ü    シンプル、実装・運⽤用が容易易、⾼高速
✗  ⾔言語間の⾼高度度な並び替えは困難
natuerlich	
 hat	
 john	
 spass	
  am	
 spiel	
of	
  course	
 john	
 has	
 fun	
  with	
  the	
 game	
ドイツ語:	
英語:
階層的フレーズベース翻訳	
  
l  階層的フレーズベース翻訳	
  
(Hierarchical	
  Phrase-­‐Based	
  Machine	
  TranslaHon	
  ;	
  Hiero)	
  :	
  
	
   	
   	
   	
   	
   	
  	
  	
  	
  [Chiang,	
  2007]	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 12	
	
  
	
  
ルール対応の例 (英日翻訳):	
  
	
   	
  [X0]	
  of	
  [X1]	
  →	
  [X1]	
  の	
  [X0]	
  
ルールの適用例 :	
  
	
   	
  	
  friends	
  of	
  Taro	
  →	
  太郎 の 友人	
  
	
   	
  the	
  parents	
  of	
  Taro	
  and	
  Hanako	
  → 太郎 と 花子 の 両親	
  
	
  
	
ü    ⾼高度度な並び替えに対応可
✗  モデルサイズの肥⼤大化、計算時間の増⼤大、フレーズ⻑⾧長の制限
統語ベース翻訳	
  
l  Tree-­‐to-­‐String翻訳 (T2S)	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 13	
ü   構⽂文情報を⾼高精度度に捉えて翻訳が可能
✗       構⽂文解析器が必要、解析精度度に⼤大きく依存
X1:NP	
S	
VP	
X2:VBD	
 X3:NP	
X1 X3 X2	
(SVO → SOV)
多言語翻訳における課題	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 14	
言語対(代表例)	
対訳	
  
コーパス	
言語構造	
  
の類似度	
手法 (代表例)	
英語 ↔ フランス語	
   ◯	
 ◯	
 PBMT	
英語 ↔ 日本語	
 ◯	
 ✗	
Hiero	
  
T2S,	
  F2S	
英語 ↔ カタルーニャ語	
  
(via	
  スペイン語)	
   ✗	
 ◯	
 ?	
日本語 ↔ フランス語	
  
(via	
  英語)	
   ✗	
 ✗	
 ?	
l  ⾔言語対によって翻訳⼿手法の向き不不向きがある
3.  背景技術  –  ピボット翻訳
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 15
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 16	
SMT	
  
fr	
  →	
  en	
SMT	
  
en	
  →	
  zh	
input.fr	
 translated.en	
 translated.zh	
train.fr-­‐en.fr	
 train.fr-­‐en.en	
 train.en-­‐zh.en	
 train.en-­‐zh.zh	
パイプライン処理によってピボット言語文を介して翻訳
[De Gispert et al.,2006]
ü    実現が容易易、機械翻訳⽅方式に依らず組合せ可能
✗  翻訳誤りが伝播される、システム全体の最適化困難
逐次的ピボット翻訳	
  (Cascade)	
  
テーブル合成方式	
  (TriangulaHon)	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 17	
Phrase	
  
Table	
  
fr	
  →	
  en	
Phrase	
  
Table	
  
en	
  →	
  zh	
input.fr	
 translated.zh	
train.fr-­‐en.fr	
 train.fr-­‐en.en	
 train.en-­‐zh.en	
 train.en-­‐zh.zh	
SMT	
  
fr	
  →	
  zh	
2つの翻訳モデルを1つに合成 [Cohn et al., 2007]
ü  独⽴立立したモデルを⽣生成
•  翻訳確率率率の推定⽅方法に精度度が依存
多言語翻訳における課題	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 18	
言語対(代表例)	
対訳	
  
コーパス	
言語構造	
  
の類似度	
手法 (代表例)	
英語 ↔ フランス語	
   ◯	
 ◯	
 PBMT	
英語 ↔ 日本語	
 ◯	
 ✗	
Hiero	
  
T2S,	
  F2S	
英語 ↔ カタルーニャ語	
  
(via	
  スペイン語)	
   ✗	
 ◯	
 PBMT	
  × 合成	
日本語 ↔ フランス語	
  
(via	
  英語?)	
   ✗	
 ✗	
Hiero	
  × 合成?	
  
T2S/F2S	
  ×	
  合成?
4.  研究概要
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 19
研究概要	
  
l 調査したいこと:
①  Triangulation(テーブル合成⼿手法)は、
Hieroにおいても有効に機能するかどうか
  (昨年年12⽉月のNL研で発表)
②  Triangulationの精度度向上は可能かどうか
③  既存の⾔言語資源をどう有効に⽤用いるか
l  ⽤用いたデータセット:
•  国連⽂文書多⾔言語コーパスのうち、
仏英、英⻄西、英中の対訳コーパス10万⽂文ずつ
15/03/15	
 20	
2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST
5.  実験内容、結果と考察
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 21
実験①	
  
Triangulationは、
Hieroにおいても有効に機能するかどうか
Ø  PBMTで有⽤用性が知られているテーブル合成⼿手法を、
Hieroにおいても適⽤用
Ø  Direct(ピボットを介さない直接翻訳モデル)や、	
  
Cascade(逐次的ピボット翻訳)と合わせて比較評価	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 22
従来手法:	
  MarginalizaHon	
  
テーブル合成時に翻訳確率推定方法で比較	
  
	
  
l  従来法1:	
  MarginalizaHon(確率周辺化)[UHyama	
  et	
  al.,	
  2007]	
  
	
  
	
  
	
  
	
  
	
  
Φ	
  –	
  フレーズ翻訳確率	
  
pω	
  –	
  語彙重み	
  
	
  
※ 逆方向の翻訳確率も同様に推定	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 23	
φ(trg | src) = φ(trg | pvt)φ(pvt | src)
pvt∈T1∩T2
∑
pω (trg | src) = pω (trg | pvt)pω (pvt | src)
pvt∈T1∩T2
∑
ルール対応の推定例	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 24	
日英翻訳ルール:	
  
 [X1]	
  を出る	
  →	
  leave	
  [X1] (日英翻訳確率 =	
  0.6)	
  
 [X1]	
  を残す	
  →	
  leave	
  [X1] (日英翻訳確率 =	
  0.7)	
  
	
  
英中翻訳ルール:	
  
 leave	
  [X1]	
  →	
  離開	
  [X1] (英中翻訳確率 =	
  0.5)	
  
 leave	
  [X1]	
  →	
  留	
  [X1]   (英中翻訳確率 =	
  0.3)	
  
	
  
合成された日中翻訳ルールの例:	
  
 [X1]を出る →離開	
  [X1] (日中翻訳確率 = 0.6	
  ×	
  0.5	
  =	
  0.3)	
  
 [X1]を出る →	
  留	
  [X1]  (日中翻訳確率 = 0.6	
  ×	
  0.3	
  =	
  0.18)	
  
 [X1] を残す→離開	
  [X1] (日中翻訳確率 = 0.7	
  ×	
  0.5	
  =	
  0.35)	
  
 [X1] を残す→	
  留 [X1]  (日中翻訳確率 =	
  0.7	
  ×	
  0.3	
  =	
  0.21)	
  
実験結果①	
  –	
  Fr	
  →	
  Es	
  (via	
  En)	
  
15/03/15	
 25	
Method	
 BLUE	
PBMT	
   Hiero	
Direct	
 40.15	
 40.19	
Cascade	
 36.20	
 36.30	
TriangulaHon	
  
(MarginalizaHon)	
39.13	
 38.75	
2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
ü    Direct  >  Triangulation  >  Cascade
実験結果①	
  –	
  Fr	
  →	
  Zh	
  (via	
  En)	
  
15/03/15	
 26	
Method	
 BLUE	
PBMT	
   Hiero	
Direct	
 14.31	
 16.33	
Cascade	
 14.	
  05	
 16.23	
TriangulaHon	
  
(MarginalizaHon)	
14.3	
 16.66	
2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
ü    Direct  >  Triangulation  >  Cascade
実験②	
  
Triangulationの精度度を上げられるかどうか
Ø  昨年発表された新しい翻訳確率の推定方法で追実験	
  
Ø  もう一つ自分の提案方を導入	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 27
従来手法2:	
  MarginalizaHon	
  
l  従来法2:	
  CountMin(最小共起回数)	
  	
  [Zhu	
  et	
  al,	
  2014]	
  
	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 28	
c(src,trg) = min(c(src, pvt),c(pvt,trg))
pvt
∑
φ(trg | src) =
c(src,trg)
c(src,trg')
trg'
∑
c – 共起回数
ルール対応の推定例	
  (CountMin)	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 29	
日英翻訳ルール:	
  
 [X1]	
  を出る	
  →	
  leave	
  [X1] (共起回数 =	
  60,	
  日英翻訳確率 =	
  0.6)	
  
 [X1]	
  を残す	
  →	
  leave	
  [X1] (共起回数 =	
  70,日英翻訳確率 =	
  0.7)	
  
	
  
英中翻訳ルール:	
  
 leave	
  [X1]	
  →	
  離開	
  [X1] (共起回数 =	
  100,英中翻訳確率 =	
  0.5)	
  
 leave	
  [X1]	
  →	
  留	
  [X1]   (共起回数 =	
  75,	
  	
  英中翻訳確率 =	
  0.3)	
  
	
  
合成された日中翻訳ルールの例:	
  
 [X1]を出る →離開	
  [X1] (共起回数 =	
  60,	
  日中翻訳確率 =	
  0.5↓)	
  
 [X1]を出る →	
  留	
  [X1]  (共起回数 = 60,	
  日中翻訳確率 =	
  0.5↓)	
  
 [X1] を残す→離開	
  [X1] (共起回数 = 70,	
  日中翻訳確率 =	
  0.5↓)	
  
 [X1] を残す→	
  留 [X1]  (共起回数 = 70,	
  日中翻訳確率 =	
  0.5↓)	
  
提案法:	
  BidirecHonal	
  
l  手法3:	
  BidirecHonal	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 30	
c(src, pvt,trg) = min(c(src, pvt)φ(trg | pvt),c(pvt,trg)φ(src | pvt))
=
c(src, pvt)c(pvt,trg)
max c1(pvt),c2 (pvt)( )
c(src,trg) = c(src, pvt,trg)
pvt
∑
ルール対応の推定例	
  (BidirecHonal)	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 31	
日英翻訳ルール:	
  
 [X1]	
  を出る	
  →	
  leave	
  [X1] (共起回数 =	
  60,	
  日英翻訳確率 =	
  0.6)	
  
 [X1]	
  を残す	
  →	
  leave	
  [X1] (共起回数 =	
  70,日英翻訳確率 =	
  0.7)	
  
	
  
英中翻訳ルール:	
  
 leave	
  [X1]	
  →	
  離開	
  [X1] (共起回数 =	
  100,英中翻訳確率 =	
  0.5)	
  
 leave	
  [X1]	
  →	
  留	
  [X1]   (共起回数 =	
  75,	
  	
  英中翻訳確率 =	
  0.3)	
  
	
  
合成された日中翻訳ルールの例:	
  
 [X1]を出る →離開	
  [X1] (共起回数 =	
  min(60	
  ×	
  0.5,	
  100	
  ×	
  0.6)	
  = 30)	
  
 [X1]を出る →	
  留	
  [X1]  (共起回数 =	
  min(60	
  ×	
  0.3,	
  75	
  	
  	
  ×	
  0.6)	
  = 18)	
  
 [X1] を残す→離開	
  [X1] (共起回数 =	
  min(70	
  ×	
  0.5,	
  100	
  ×	
  0.7)	
  = 35)	
  
 [X1] を残す→	
  留 [X1]  (共起回数 = min(70	
  ×	
  0.3,	
  75	
  	
  	
  ×	
  0.7)	
  = 21)	
  
実験結果②	
  –	
  Fr	
  →	
  Es	
  (via	
  En)	
  
15/03/15	
 32	
Method	
 BLUE	
PBMT	
 Hiero	
Direct	
 40.15	
 40.19	
Cascade	
 36.20	
 36.30	
MarginalizaHon	
 39.13	
 38.75	
CountMin	
 38.25	
 37.89	
CountMin	
  
+Lex	
  MarginalizaHon	
38.77	
 37.92	
BidirecHon	
 38.52	
 38.28	
BidirecHon	
  
+Lex	
  MarginalizaHon	
39.16	
 38.82	
CountMinやBidirectionで共起回数の推定を行うのみだと精度出ず
翻訳確率推定にBidirection、語彙重み推定にMarginalizationで最も高い精度	
2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST
実験結果②	
  –	
  Fr	
  →	
  Zh	
  (via	
  En)	
  
15/03/15	
 33	
Method	
 BLUE	
PBMT	
 Hiero	
Direct	
 14.31	
 16.33	
  	
Cascade	
 14.	
  05	
 16.23	
MarginalizaHon	
 14.3	
 16.66	
CountMin	
 13.69	
 15.89	
CountMin	
  
+Lex	
  MarginalizaHon	
14.43	
 16.40	
BidirecHon	
 14.26	
 14.61	
BidirecHon	
  
+Lex	
  MarginalizaHon	
14.45	
 16.63	
Fr -> Es (via En)と同様の結果	
2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST
実験③	
  –	
  Merging	
  
直接学習した(小規模)モデルと合成されたモデルを合成	
  
l  結合手法1:	
  InterpolaHon 	
  	
  	
  [Zhu	
  et	
  al,	
  2014]	
  
	
  
	
  
	
  α	
  –	
  補完係数、慣例的に0.9を用いた	
  
	
  
l  結合手法2:	
  SumCount 	
  [Zhu	
  et	
  al,	
  2014]	
  
	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 34	
φ(trg | src) = αφ1(trg | src)+ (1−α)φ2 (trg | src)
pω (trg | src) = α pω (trg | src)+ (1−α)pω (trg | src)
c(src,trg) = c1(src,trg)+ c2 (src,trg)
実験結果③	
  –	
  Fr	
  →	
  Es	
  
15/03/15	
 35	
Method	
 BLUE	
  score	
  
Direct	
  →	
  Direct	
  w/	
  TriangulaHon	
PBMT	
 Hiero	
10k	
  Direct	
 40.15	
 40.19	
MarginalizaHon	
 39.13	
 38.75	
Direct	
  1k	
  
+	
  MarginalizaHon	
  100k	
  
(interpolaHon)	
	
  26.94	
  →	
  39.13	
 26.57	
  →	
  38.82	
Direct	
  1k	
  
+	
  BidirecHon	
  100k	
  
(integraHon)	
26.94	
  →	
  39.11	
 	
  26.57	
  →	
  38.72	
Direct	
  10k	
  
+	
  MarginalizaHon	
  
100k	
  (interpolaHon)	
36.23	
  →	
  39.25	
 37.67	
  →	
  38.89	
Direct	
  10k	
  
+	
  BidirecHon	
  100k	
  
(InterpolaHon	
36.23	
  	
  →	
  39.15	
 37.67	
  →	
  38.82	
2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST
実験結果③	
  –	
  Fr	
  →	
  Zh	
  
15/03/15	
 36	
Method	
 BLUE	
  score	
  
Direct	
  →	
  Direct	
  w/	
  TriangulaHon	
PBMT	
 Hiero	
10k	
  Direct	
 14.31	
 16.33	
MarginalizaHon	
 14.43	
 16.63	
Direct	
  1k	
  
+	
  MarginalizaHon	
  100k	
  
(interpolaHon)	
4.30	
  →	
  14.48	
 4.18	
  →	
  16.40	
Direct	
  1k	
  
+	
  BidirecHon	
  100k	
  
(integraHon)	
4.30	
  →	
  14.45	
 4.18	
  →	
  16.43	
Direct	
  10k	
  
+	
  MarginalizaHon	
  
100k	
  (interpolaHon)	
13.28	
  →	
  14.47	
 	
  16.78	
  →	
  16.67	
Direct	
  10k	
  
+	
  BidirecHon	
  100k	
  
(InterpolaHon	
13.28	
  →	
  14.44	
 16.78	
  →	
  16.59	
2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST
6.  まとめ、今後の計画
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 37
まとめ、今後の計画	
  
まとめ	
  
l  共起回数の推定のみでは従来法のMarginalizaHonよりも精
度が出なかったが、語彙重み推定のみMarginalizaHonの手
法を採用することで従来法と同等か、それ以上の精度が出
せた	
  
l  直接学習したモデルと組み合わせることによる精度向上、	
  
カバレッジ向上の期待を持てる	
  
	
  
今後の計画:	
  
l  ヒューリスティックに頼らない機械学習による翻訳確率推定
手法の提案	
  
l  T2S翻訳モデルのテーブル合成によるピボット翻訳の実装	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 38
Overview	
  
1.  研究背景
2.  背景技術  -‐‑‒  機械翻訳⽅方式
3.  背景技術  -‐‑‒  ピボット翻訳
4.  研究概要
5.  実験内容、結果と考察
6.  まとめ、今後の課題
7.  Appendix
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 39
7.  Appendix
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 40
マルチセンテンス方式	
  
15/03/15	
 41	
SMT	
  
fr	
  →	
  en	
SMT	
  
en	
  →	
  zh	
input.fr	
 translated.zh	
train.fr-­‐en.fr	
 train.fr-­‐en.en	
 train.en-­‐zh.en	
 train.en-­‐zh.zh	
1	
2	
n	
	
prepared corpus	
 trained task	
 translated text	
(	
 )	
2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
ü  O(n)
✗  逐次的ピボット翻訳と比して有意差なし
コーパス翻訳方式	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 42	
SMT	
  
en	
  →	
  zh	
SMT	
  
fr	
  →	
  zh	
train.fr-­‐en.en	
translated.zh	
  
as	
  
train.fr-­‐zh.zh	
translated.zh	
train.en-­‐zh.en	
 train.en-­‐zh.zh	
train.fr-­‐en.fr	
  
as	
  
train.fr-­‐zh.fr	
input.fr	
コーパス翻訳方式 ( Synthetic ) :
事前にコーパスを翻訳することで擬似的な対訳コーパスを生成
(De Gispert et al.,2006)
ü  擬似的な対訳コーパス生成による、言語資源獲得の恩恵
✗  学習データそのものに翻訳誤りが含まれる
ルール対応の推定法	
  
•  仏英と英日から仏日翻訳モデルを推定:	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 43	
selon	
  leurs	
  [X0]	
according	
  to	
  their	
  [X0]	
 aper	
  their	
  [X0]	
に したが っ て	
  [X0]	
 その	
  [X0]	
  に し たがい	
0.2	
 0.6	
0.4	
 1	
0.6
ルール対応の推定法	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 44	
selon	
  leurs	
  [X0]	
according	
  to	
  their	
  [X0]	
 aper	
  their	
  [X0]	
に したが っ て	
  [X0]	
 その	
  [X0]	
  に し たがい	
0.2	
 0.6	
0.4	
 1	
0.6	
0.2  ×  0.4  =  0.08
•  仏英と英日から仏日翻訳モデルを推定:	
  
ルール対応の推定法	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 45	
selon	
  leurs	
  [X0]	
according	
  to	
  their	
  [X0]	
 aper	
  their	
  [X0]	
に したが っ て	
  [X0]	
 その	
  [X0]	
  に し たがい	
0.2	
 0.6	
0.4	
 1	
0.6	
0.2  ×  0.4  =  0.08 0.2  ×  0.6  +  0.4  ×  1  =  0.52
•  仏英と英日から仏日翻訳モデルを推定:	
  
CountMin	
  (FULL)	
  
l  手法2:	
  CountMin(最小共起回数)	
  	
  [Zhu	
  et	
  al,	
  2014]	
  
	
  
15/03/15	
 2015©Akiva	
  Miura	
  	
  	
  AHC-­‐Lab,	
  IS,	
  NAIST	
 46	
c(src,trg) = min(c(src, pvt),c(pvt,trg))
pvt
∑
φ(trg | src) =
c(src,trg)
c(src,trg')
trg'
∑
ω(trg | src) =
c(src,trg)
c(src,trg')
trg'
∑
a = {(t,s)| ∃p :(s, p) ∈a1 ∧(p,t) ∈a2}
pω (trg | src,a) =
1
{j |(i, j) ∈a}i=1
n
∏ ω(trgi | srcj
(i,j)∈a
∑ )

Más contenido relacionado

Similar a Kansai MT Pivot Arekore

猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...T T
 
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価Akiva Miura
 
Introduction to mathematics of linear regression and neural network
Introduction to mathematics of linear regression and neural networkIntroduction to mathematics of linear regression and neural network
Introduction to mathematics of linear regression and neural networkHiroyoshiHashimoto
 
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳奈良先端大 情報科学研究科
 
ICASSP2020 論文読み会 資料 上乃聖
ICASSP2020 論文読み会 資料 上乃聖ICASSP2020 論文読み会 資料 上乃聖
ICASSP2020 論文読み会 資料 上乃聖SeiUeno
 
TensorFlowの使い方(in Japanese)
TensorFlowの使い方(in Japanese)TensorFlowの使い方(in Japanese)
TensorFlowの使い方(in Japanese)Toshihiko Yamakami
 
第3回nips読み会・関西『variational inference foundations and modern methods』
第3回nips読み会・関西『variational inference  foundations and modern methods』第3回nips読み会・関西『variational inference  foundations and modern methods』
第3回nips読み会・関西『variational inference foundations and modern methods』koji ochiai
 
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...Yoshitaka Ushiku
 
ランダムフォレスト
ランダムフォレストランダムフォレスト
ランダムフォレストKinki University
 
introduce "Stealing Machine Learning Models via Prediction APIs"
introduce "Stealing Machine Learning Models  via Prediction APIs"introduce "Stealing Machine Learning Models  via Prediction APIs"
introduce "Stealing Machine Learning Models via Prediction APIs"Isao Takaesu
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video RecognitionToru Tamaki
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろHiroshi Yamashita
 

Similar a Kansai MT Pivot Arekore (17)

猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
 
Introduction to mathematics of linear regression and neural network
Introduction to mathematics of linear regression and neural networkIntroduction to mathematics of linear regression and neural network
Introduction to mathematics of linear regression and neural network
 
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
 
ICASSP2020 論文読み会 資料 上乃聖
ICASSP2020 論文読み会 資料 上乃聖ICASSP2020 論文読み会 資料 上乃聖
ICASSP2020 論文読み会 資料 上乃聖
 
TensorFlowの使い方(in Japanese)
TensorFlowの使い方(in Japanese)TensorFlowの使い方(in Japanese)
TensorFlowの使い方(in Japanese)
 
第3回nips読み会・関西『variational inference foundations and modern methods』
第3回nips読み会・関西『variational inference  foundations and modern methods』第3回nips読み会・関西『variational inference  foundations and modern methods』
第3回nips読み会・関西『variational inference foundations and modern methods』
 
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
 
Frequency with nltk
Frequency with nltkFrequency with nltk
Frequency with nltk
 
ランダムフォレスト
ランダムフォレストランダムフォレスト
ランダムフォレスト
 
introduce "Stealing Machine Learning Models via Prediction APIs"
introduce "Stealing Machine Learning Models  via Prediction APIs"introduce "Stealing Machine Learning Models  via Prediction APIs"
introduce "Stealing Machine Learning Models via Prediction APIs"
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
 
NLP2017 NMT Tutorial
NLP2017 NMT TutorialNLP2017 NMT Tutorial
NLP2017 NMT Tutorial
 
HiRoshimaR3_IntroR
HiRoshimaR3_IntroRHiRoshimaR3_IntroR
HiRoshimaR3_IntroR
 
MVSR Schedulerを作るための指針
MVSR Schedulerを作るための指針MVSR Schedulerを作るための指針
MVSR Schedulerを作るための指針
 

Kansai MT Pivot Arekore

  • 2. 自己紹介   l  氏名:    三浦 明波 (ミウラ アキバ)           l  経歴:    神戸高専(3年修了中退)    →  テクニオン  –  イスラエル工大  (B.Sc)    →  NAIST  (M1)   l  関心事:   •  多言語翻訳(建前)   •  日本語 ↔ ヘブライ語 翻訳(本命)   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 2 ‫מיאורה‬ ‫עקיבא‬ ‫ָה‬‫ר‬ּ‫ו‬‫ִיא‬‫מ‬ ‫ָא‬‫ב‬‫ִי‬‫ק‬ֲ‫ע‬
  • 3. Overview   0.  ⾃自⼰己紹介 1.  研究背景 2.  背景技術  -‐‑‒  機械翻訳⽅方式 3.  背景技術  -‐‑‒  ピボット翻訳 4.  研究概要 5.  実験内容、結果と考察 6.  まとめ、今後の課題 7.  Appendix 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 3
  • 4. 1.  研究背景 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 4
  • 5. 統計的機械翻訳   l  統計的機械翻訳(StaHsHcal  Machine  TranslaHon  ;  SMT)  :              [Brown  et  al.,  1993]   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 5 ü  ⼈人⼿手によるルール記述が不不要 ü  対訳コーパスの⽂文量量が増えるほど訳出の精度度が向上 対訳コーパス 単⾔言語 コーパス 翻訳モデル ⾔言語モデル デコーダ (翻訳機) 学習データ ⼊入⼒力力⽂文 出⼒力力⽂文 翻訳システム
  • 6. 多言語翻訳における課題   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 6 言語対(代表例) 対訳   コーパス 英語 ↔ フランス語   ◯ 英語 ↔ 日本語 ◯ 英語 ↔ カタルーニャ語   (?)   ✗ 日本語 ↔ フランス語   (?)   ✗ l  特定の⾔言語対において、 ⼤大規模な対訳コーパスを短期間で取得することは困難
  • 7. ピボット翻訳   翻訳したいが対訳コーパスが無い… 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 7 フランス語 ⽇日本語✗ ピボット⾔言語(中間⾔言語)を導⼊入! フランス語 ⽇日本語英語 ピボット⾔言語を介して翻訳が可能に!! フランス語 ⽇日本語英語 ✓
  • 8. 多言語翻訳における課題   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 8 言語対(代表例) 対訳   コーパス 英語 ↔ フランス語   ◯ 英語 ↔ 日本語 ◯ 英語 ↔ カタルーニャ語   (via  スペイン語)   ✗ 日本語 ↔ フランス語   (via  英語)   ✗ l  ピボット翻訳によって学習データの取得困難性を緩和
  • 9. 多言語翻訳における課題   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 9 言語対(代表例) 対訳   コーパス 言語構造   の類似度 手法 (代表例) 英語 ↔ フランス語   ◯ ◯ ? 英語 ↔ 日本語 ◯ ✗ ? 英語 ↔ カタルーニャ語   (via  スペイン語)   ✗ ◯ ? 日本語 ↔ フランス語   (via  英語?)   ✗ ✗ ? l  機械翻訳には単語の並べ替え問題がつきまとう
  • 10. 2.  背景技術  –  機械翻訳⽅方式 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 10
  • 11. フレーズベース翻訳   l  フレーズベース翻訳(Phrase-­‐Based  Machine  TranslaHon  ;  PBMT)  :              [Koehn  et  al.,  2003]   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 11 ü   シンプル、実装・運⽤用が容易易、⾼高速 ✗  ⾔言語間の⾼高度度な並び替えは困難 natuerlich hat john spass  am spiel of  course john has fun  with  the game ドイツ語: 英語:
  • 12. 階層的フレーズベース翻訳   l  階層的フレーズベース翻訳   (Hierarchical  Phrase-­‐Based  Machine  TranslaHon  ;  Hiero)  :                    [Chiang,  2007]   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 12     ルール対応の例 (英日翻訳):      [X0]  of  [X1]  →  [X1]  の  [X0]   ルールの適用例 :        friends  of  Taro  →  太郎 の 友人      the  parents  of  Taro  and  Hanako  → 太郎 と 花子 の 両親     ü   ⾼高度度な並び替えに対応可 ✗  モデルサイズの肥⼤大化、計算時間の増⼤大、フレーズ⻑⾧長の制限
  • 13. 統語ベース翻訳   l  Tree-­‐to-­‐String翻訳 (T2S)   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 13 ü   構⽂文情報を⾼高精度度に捉えて翻訳が可能 ✗       構⽂文解析器が必要、解析精度度に⼤大きく依存 X1:NP S VP X2:VBD X3:NP X1 X3 X2 (SVO → SOV)
  • 14. 多言語翻訳における課題   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 14 言語対(代表例) 対訳   コーパス 言語構造   の類似度 手法 (代表例) 英語 ↔ フランス語   ◯ ◯ PBMT 英語 ↔ 日本語 ◯ ✗ Hiero   T2S,  F2S 英語 ↔ カタルーニャ語   (via  スペイン語)   ✗ ◯ ? 日本語 ↔ フランス語   (via  英語)   ✗ ✗ ? l  ⾔言語対によって翻訳⼿手法の向き不不向きがある
  • 15. 3.  背景技術  –  ピボット翻訳 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 15
  • 16. 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 16 SMT   fr  →  en SMT   en  →  zh input.fr translated.en translated.zh train.fr-­‐en.fr train.fr-­‐en.en train.en-­‐zh.en train.en-­‐zh.zh パイプライン処理によってピボット言語文を介して翻訳 [De Gispert et al.,2006] ü   実現が容易易、機械翻訳⽅方式に依らず組合せ可能 ✗  翻訳誤りが伝播される、システム全体の最適化困難 逐次的ピボット翻訳  (Cascade)  
  • 17. テーブル合成方式  (TriangulaHon)   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 17 Phrase   Table   fr  →  en Phrase   Table   en  →  zh input.fr translated.zh train.fr-­‐en.fr train.fr-­‐en.en train.en-­‐zh.en train.en-­‐zh.zh SMT   fr  →  zh 2つの翻訳モデルを1つに合成 [Cohn et al., 2007] ü  独⽴立立したモデルを⽣生成 •  翻訳確率率率の推定⽅方法に精度度が依存
  • 18. 多言語翻訳における課題   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 18 言語対(代表例) 対訳   コーパス 言語構造   の類似度 手法 (代表例) 英語 ↔ フランス語   ◯ ◯ PBMT 英語 ↔ 日本語 ◯ ✗ Hiero   T2S,  F2S 英語 ↔ カタルーニャ語   (via  スペイン語)   ✗ ◯ PBMT  × 合成 日本語 ↔ フランス語   (via  英語?)   ✗ ✗ Hiero  × 合成?   T2S/F2S  ×  合成?
  • 19. 4.  研究概要 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 19
  • 20. 研究概要   l 調査したいこと: ①  Triangulation(テーブル合成⼿手法)は、 Hieroにおいても有効に機能するかどうか  (昨年年12⽉月のNL研で発表) ②  Triangulationの精度度向上は可能かどうか ③  既存の⾔言語資源をどう有効に⽤用いるか l  ⽤用いたデータセット: •  国連⽂文書多⾔言語コーパスのうち、 仏英、英⻄西、英中の対訳コーパス10万⽂文ずつ 15/03/15 20 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST
  • 21. 5.  実験内容、結果と考察 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 21
  • 22. 実験①   Triangulationは、 Hieroにおいても有効に機能するかどうか Ø  PBMTで有⽤用性が知られているテーブル合成⼿手法を、 Hieroにおいても適⽤用 Ø  Direct(ピボットを介さない直接翻訳モデル)や、   Cascade(逐次的ピボット翻訳)と合わせて比較評価   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 22
  • 23. 従来手法:  MarginalizaHon   テーブル合成時に翻訳確率推定方法で比較     l  従来法1:  MarginalizaHon(確率周辺化)[UHyama  et  al.,  2007]             Φ  –  フレーズ翻訳確率   pω  –  語彙重み     ※ 逆方向の翻訳確率も同様に推定   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 23 φ(trg | src) = φ(trg | pvt)φ(pvt | src) pvt∈T1∩T2 ∑ pω (trg | src) = pω (trg | pvt)pω (pvt | src) pvt∈T1∩T2 ∑
  • 24. ルール対応の推定例   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 24 日英翻訳ルール:    [X1]  を出る  →  leave  [X1] (日英翻訳確率 =  0.6)    [X1]  を残す  →  leave  [X1] (日英翻訳確率 =  0.7)     英中翻訳ルール:    leave  [X1]  →  離開  [X1] (英中翻訳確率 =  0.5)    leave  [X1]  →  留  [X1]   (英中翻訳確率 =  0.3)     合成された日中翻訳ルールの例:    [X1]を出る →離開  [X1] (日中翻訳確率 = 0.6  ×  0.5  =  0.3)    [X1]を出る →  留  [X1]  (日中翻訳確率 = 0.6  ×  0.3  =  0.18)    [X1] を残す→離開  [X1] (日中翻訳確率 = 0.7  ×  0.5  =  0.35)    [X1] を残す→  留 [X1]  (日中翻訳確率 =  0.7  ×  0.3  =  0.21)  
  • 25. 実験結果①  –  Fr  →  Es  (via  En)   15/03/15 25 Method BLUE PBMT   Hiero Direct 40.15 40.19 Cascade 36.20 36.30 TriangulaHon   (MarginalizaHon) 39.13 38.75 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST ü   Direct  >  Triangulation  >  Cascade
  • 26. 実験結果①  –  Fr  →  Zh  (via  En)   15/03/15 26 Method BLUE PBMT   Hiero Direct 14.31 16.33 Cascade 14.  05 16.23 TriangulaHon   (MarginalizaHon) 14.3 16.66 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST ü   Direct  >  Triangulation  >  Cascade
  • 27. 実験②   Triangulationの精度度を上げられるかどうか Ø  昨年発表された新しい翻訳確率の推定方法で追実験   Ø  もう一つ自分の提案方を導入   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 27
  • 28. 従来手法2:  MarginalizaHon   l  従来法2:  CountMin(最小共起回数)    [Zhu  et  al,  2014]     15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 28 c(src,trg) = min(c(src, pvt),c(pvt,trg)) pvt ∑ φ(trg | src) = c(src,trg) c(src,trg') trg' ∑ c – 共起回数
  • 29. ルール対応の推定例  (CountMin)   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 29 日英翻訳ルール:    [X1]  を出る  →  leave  [X1] (共起回数 =  60,  日英翻訳確率 =  0.6)    [X1]  を残す  →  leave  [X1] (共起回数 =  70,日英翻訳確率 =  0.7)     英中翻訳ルール:    leave  [X1]  →  離開  [X1] (共起回数 =  100,英中翻訳確率 =  0.5)    leave  [X1]  →  留  [X1]   (共起回数 =  75,    英中翻訳確率 =  0.3)     合成された日中翻訳ルールの例:    [X1]を出る →離開  [X1] (共起回数 =  60,  日中翻訳確率 =  0.5↓)    [X1]を出る →  留  [X1]  (共起回数 = 60,  日中翻訳確率 =  0.5↓)    [X1] を残す→離開  [X1] (共起回数 = 70,  日中翻訳確率 =  0.5↓)    [X1] を残す→  留 [X1]  (共起回数 = 70,  日中翻訳確率 =  0.5↓)  
  • 30. 提案法:  BidirecHonal   l  手法3:  BidirecHonal   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 30 c(src, pvt,trg) = min(c(src, pvt)φ(trg | pvt),c(pvt,trg)φ(src | pvt)) = c(src, pvt)c(pvt,trg) max c1(pvt),c2 (pvt)( ) c(src,trg) = c(src, pvt,trg) pvt ∑
  • 31. ルール対応の推定例  (BidirecHonal)   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 31 日英翻訳ルール:    [X1]  を出る  →  leave  [X1] (共起回数 =  60,  日英翻訳確率 =  0.6)    [X1]  を残す  →  leave  [X1] (共起回数 =  70,日英翻訳確率 =  0.7)     英中翻訳ルール:    leave  [X1]  →  離開  [X1] (共起回数 =  100,英中翻訳確率 =  0.5)    leave  [X1]  →  留  [X1]   (共起回数 =  75,    英中翻訳確率 =  0.3)     合成された日中翻訳ルールの例:    [X1]を出る →離開  [X1] (共起回数 =  min(60  ×  0.5,  100  ×  0.6)  = 30)    [X1]を出る →  留  [X1]  (共起回数 =  min(60  ×  0.3,  75      ×  0.6)  = 18)    [X1] を残す→離開  [X1] (共起回数 =  min(70  ×  0.5,  100  ×  0.7)  = 35)    [X1] を残す→  留 [X1]  (共起回数 = min(70  ×  0.3,  75      ×  0.7)  = 21)  
  • 32. 実験結果②  –  Fr  →  Es  (via  En)   15/03/15 32 Method BLUE PBMT Hiero Direct 40.15 40.19 Cascade 36.20 36.30 MarginalizaHon 39.13 38.75 CountMin 38.25 37.89 CountMin   +Lex  MarginalizaHon 38.77 37.92 BidirecHon 38.52 38.28 BidirecHon   +Lex  MarginalizaHon 39.16 38.82 CountMinやBidirectionで共起回数の推定を行うのみだと精度出ず 翻訳確率推定にBidirection、語彙重み推定にMarginalizationで最も高い精度 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST
  • 33. 実験結果②  –  Fr  →  Zh  (via  En)   15/03/15 33 Method BLUE PBMT Hiero Direct 14.31 16.33   Cascade 14.  05 16.23 MarginalizaHon 14.3 16.66 CountMin 13.69 15.89 CountMin   +Lex  MarginalizaHon 14.43 16.40 BidirecHon 14.26 14.61 BidirecHon   +Lex  MarginalizaHon 14.45 16.63 Fr -> Es (via En)と同様の結果 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST
  • 34. 実験③  –  Merging   直接学習した(小規模)モデルと合成されたモデルを合成   l  結合手法1:  InterpolaHon      [Zhu  et  al,  2014]        α  –  補完係数、慣例的に0.9を用いた     l  結合手法2:  SumCount  [Zhu  et  al,  2014]     15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 34 φ(trg | src) = αφ1(trg | src)+ (1−α)φ2 (trg | src) pω (trg | src) = α pω (trg | src)+ (1−α)pω (trg | src) c(src,trg) = c1(src,trg)+ c2 (src,trg)
  • 35. 実験結果③  –  Fr  →  Es   15/03/15 35 Method BLUE  score   Direct  →  Direct  w/  TriangulaHon PBMT Hiero 10k  Direct 40.15 40.19 MarginalizaHon 39.13 38.75 Direct  1k   +  MarginalizaHon  100k   (interpolaHon)  26.94  →  39.13 26.57  →  38.82 Direct  1k   +  BidirecHon  100k   (integraHon) 26.94  →  39.11  26.57  →  38.72 Direct  10k   +  MarginalizaHon   100k  (interpolaHon) 36.23  →  39.25 37.67  →  38.89 Direct  10k   +  BidirecHon  100k   (InterpolaHon 36.23    →  39.15 37.67  →  38.82 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST
  • 36. 実験結果③  –  Fr  →  Zh   15/03/15 36 Method BLUE  score   Direct  →  Direct  w/  TriangulaHon PBMT Hiero 10k  Direct 14.31 16.33 MarginalizaHon 14.43 16.63 Direct  1k   +  MarginalizaHon  100k   (interpolaHon) 4.30  →  14.48 4.18  →  16.40 Direct  1k   +  BidirecHon  100k   (integraHon) 4.30  →  14.45 4.18  →  16.43 Direct  10k   +  MarginalizaHon   100k  (interpolaHon) 13.28  →  14.47  16.78  →  16.67 Direct  10k   +  BidirecHon  100k   (InterpolaHon 13.28  →  14.44 16.78  →  16.59 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST
  • 37. 6.  まとめ、今後の計画 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 37
  • 38. まとめ、今後の計画   まとめ   l  共起回数の推定のみでは従来法のMarginalizaHonよりも精 度が出なかったが、語彙重み推定のみMarginalizaHonの手 法を採用することで従来法と同等か、それ以上の精度が出 せた   l  直接学習したモデルと組み合わせることによる精度向上、   カバレッジ向上の期待を持てる     今後の計画:   l  ヒューリスティックに頼らない機械学習による翻訳確率推定 手法の提案   l  T2S翻訳モデルのテーブル合成によるピボット翻訳の実装   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 38
  • 39. Overview   1.  研究背景 2.  背景技術  -‐‑‒  機械翻訳⽅方式 3.  背景技術  -‐‑‒  ピボット翻訳 4.  研究概要 5.  実験内容、結果と考察 6.  まとめ、今後の課題 7.  Appendix 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 39
  • 40. 7.  Appendix 15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 40
  • 41. マルチセンテンス方式   15/03/15 41 SMT   fr  →  en SMT   en  →  zh input.fr translated.zh train.fr-­‐en.fr train.fr-­‐en.en train.en-­‐zh.en train.en-­‐zh.zh 1 2 n prepared corpus trained task translated text ( ) 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST ü  O(n) ✗  逐次的ピボット翻訳と比して有意差なし
  • 42. コーパス翻訳方式   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 42 SMT   en  →  zh SMT   fr  →  zh train.fr-­‐en.en translated.zh   as   train.fr-­‐zh.zh translated.zh train.en-­‐zh.en train.en-­‐zh.zh train.fr-­‐en.fr   as   train.fr-­‐zh.fr input.fr コーパス翻訳方式 ( Synthetic ) : 事前にコーパスを翻訳することで擬似的な対訳コーパスを生成 (De Gispert et al.,2006) ü  擬似的な対訳コーパス生成による、言語資源獲得の恩恵 ✗  学習データそのものに翻訳誤りが含まれる
  • 43. ルール対応の推定法   •  仏英と英日から仏日翻訳モデルを推定:   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 43 selon  leurs  [X0] according  to  their  [X0] aper  their  [X0] に したが っ て  [X0] その  [X0]  に し たがい 0.2 0.6 0.4 1 0.6
  • 44. ルール対応の推定法   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 44 selon  leurs  [X0] according  to  their  [X0] aper  their  [X0] に したが っ て  [X0] その  [X0]  に し たがい 0.2 0.6 0.4 1 0.6 0.2  ×  0.4  =  0.08 •  仏英と英日から仏日翻訳モデルを推定:  
  • 45. ルール対応の推定法   15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 45 selon  leurs  [X0] according  to  their  [X0] aper  their  [X0] に したが っ て  [X0] その  [X0]  に し たがい 0.2 0.6 0.4 1 0.6 0.2  ×  0.4  =  0.08 0.2  ×  0.6  +  0.4  ×  1  =  0.52 •  仏英と英日から仏日翻訳モデルを推定:  
  • 46. CountMin  (FULL)   l  手法2:  CountMin(最小共起回数)    [Zhu  et  al,  2014]     15/03/15 2015©Akiva  Miura      AHC-­‐Lab,  IS,  NAIST 46 c(src,trg) = min(c(src, pvt),c(pvt,trg)) pvt ∑ φ(trg | src) = c(src,trg) c(src,trg') trg' ∑ ω(trg | src) = c(src,trg) c(src,trg') trg' ∑ a = {(t,s)| ∃p :(s, p) ∈a1 ∧(p,t) ∈a2} pω (trg | src,a) = 1 {j |(i, j) ∈a}i=1 n ∏ ω(trgi | srcj (i,j)∈a ∑ )