SlideShare una empresa de Scribd logo
1 de 24
Descargar para leer sin conexión
中間⾔語モデルを⽤いた
多⾔語機械翻訳の精度向上
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 1
第3回 AAMT⻑尾賞学⽣激励賞 研究発表
奈良先端科学技術⼤学院⼤学
知能コミュニケーション研究室
三浦 明波 (Akiva Miura)
⽬次
1.  研究背景
2.  従来のピボット翻訳⼿法
3.  提案⼿法
4.  実験的評価
5.  まとめ・今後の課題
6.  Appendix
16/06/20 2Akiva Miura AHC-Lab, IS, NAIST
⽬次
1.  研究背景(ピボット翻訳の必要性)
2.  従来のピボット翻訳⼿法
3.  提案⼿法
4.  実験的評価
5.  まとめ・今後の課題
6.  Appendix
16/06/20 3Akiva Miura AHC-Lab, IS, NAIST
ü  ⼈⼿によるルール記述が不要
統計的機械翻訳
l  統計的機械翻訳(Statistical Machine Translation ; SMT) :
                    [Brown et al., 1993]
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 4
対訳コーパス
⽬的⾔語
コーパス
翻訳モデル
⾔語モデル
デコーダ
(翻訳機)
学習データ
⼊⼒⽂
出⼒⽂
翻訳システム
ü  学習データの⽂量が増えるほど訳出の精度が向上
多⾔語翻訳における課題
16/06/20 5
l  ⾔語対によって対訳コーパスの取得性が⼤きく異なる
(例)
•  ⼗分な⽂量の対訳コーパスが得られない場合は…?
Akiva Miura AHC-Lab, IS, NAIST
OKü  ⽇本語 ⇔ 英語:
Web上で1000万⽂以上の⼤規模データが取得可能
NG✗  ⽇本語 ⇔ イタリア語:
 ? (⽂単位で対訳になっているデータは多くない)
ピボット翻訳
翻訳したいが⼗分な対訳コーパスが無い…
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 6
⽇本語 イタリア語✗
ピボット⾔語(中間⾔語)を導⼊!
⽇本語 イタリア語英語
ピボット⾔語を介して翻訳が可能に!!
⽇本語 イタリア語英語
✔
Source Pivot Target
⽬次
1.  研究背景
2.  従来のピボット翻訳⼿法
3.  提案⼿法
4.  実験的評価
5.  まとめ・今後の課題
6.  Appendix
16/06/20 7Akiva Miura AHC-Lab, IS, NAIST
ü  実現が容易、機械翻訳⽅式に依らず組合せ可能
✗  翻訳誤りが伝播される、システム全体の最適化困難
15/03/15 Akiva Miura AHC-Lab, IS, NAIST 8
SMT
S → P
SMT
P → T
S⽂ P⽂ T⽂
l  パイプライン処理によって中間⾔語⽂を介して翻訳
             [De Gispert et al.,2006]
逐次的ピボット翻訳 (Cascade)
S: 原⾔語
P: 中間⾔語
T: ⽬的⾔語
ü  独⽴したモデルを⽣成、最適化が容易
ü  逐次的ピボット翻訳よりも⾼精度
•  翻訳確率の推定⽅法に精度が依存
テーブル合成⽅式 (Triangulation)
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 9
SMT
S → P
SMT
P → T
S⽂ T⽂
SMT
S → T
l  2つの翻訳モデルを1つに合成 [Cohn et al., 2007]
S: 原⾔語
P: 中間⾔語
T: ⽬的⾔語
テーブル合成⼿法の例
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 10
approach近似
アプローチ approximation
access接近
approccio
accesso
ravvicinamento
Source(⽇) Pivot(英) Target(伊)
l  学習済みのSource-Pivot、Pivot-Targetのフレーズ対応
Ø  Source-Targetのフレーズ対応を推定(翻訳確率の推定も必要)
近似 approccio
近似 accesso
・
・
・
近似 ravvicinamento
アプローチ approccio
✗ 多義語・⽤語法の差異により適切なフレーズ対応の推定は困難
⽬次
1.  研究背景
2.  従来のピボット翻訳⼿法
3.  提案⼿法
4.  実験的評価
5.  まとめ・今後の課題
6.  Appendix
16/06/20 11Akiva Miura AHC-Lab, IS, NAIST
着想
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 12
ü  翻訳時に⽬的⾔語と中間⾔語の⽂を同時に⽣成
ü  中間⾔語では、豊富な単⾔語資源を取得可能
Ø  中間⾔語⽂の⾃然性を考慮することで適切な語彙選択に貢献?
近似 approccio
(via: approach)
近似 ravvicinamento
(via: approach, approximation)
・・・
l  従来法:テーブル合成後には、関連していたピボットの情報が消失
近似 〈approccio, approach〉
近似 〈ravvicinamento, approach〉
近似 〈ravvicinamento, approximation〉
l  提案法:テーブル合成時に、関連するピボットフレーズも記憶
・・・
提案⼿法: 複数同期ルール合成
16/06/20	 Akiva Miura AHC-Lab, IS, NAIST 13	
X → 〈 src1, pvt1 〉
X → 〈 src2, pvt1 〉
X → 〈 src3, pvt2 〉
. . .
X → 〈 pvt1, trg1〉
X → 〈 pvt2, trg2〉
X → 〈 pvt2, trg3〉
. . .
l  Source-Pivot、Pivot-Targetの同期ルール(Chiang 2007)を個別に学習
Ø  共通するピボットフレーズ毎にSource-Target-Pivotの
複数同期ルール(Neubig et al., 2015)を合成
X → 〈 src1, trg1, pvt1 〉
X → 〈 src2, trg1, pvt1 〉
X → 〈 src3, trg2, pvt2 〉
X → 〈 src3, trg2, pvt3 〉
. . .
同時翻訳確率
を推定
φ(trg,pvt | src)
φ(src | pvt,trg)	
翻訳確率
φ(pvt | src)
φ(src | pvt)
φ(trg | pvt)
φ(pvt | trg)
⽬次
1.  研究背景
2.  従来のピボット翻訳⼿法
3.  提案⼿法
4.  実験的評価
5.  まとめ・今後の課題
6.  Appendix
16/06/20 14Akiva Miura AHC-Lab, IS, NAIST
翻訳タスク
16/06/20 15
直接:
SMT
S → T
S T
SMT
S → P
S P
SMT
P → T
T
逐次:
無記憶合成 (ベースライン):
SMT
S → P
SMT
P → T
SMT
S → T
S T
記憶合成 (提案法):
SMT
S → P
SMT
P → T
SMT (Multi)
S → T, P
S
T
P
Akiva Miura AHC-Lab, IS, NAIST
実験設定
使⽤ツール
単語アラインメント推定: GIZA++ [Och et al., 2003]
⾔語モデル学習: KenLM (5-gram) [Heafield, 2011]
翻訳モデル学習、翻訳機: Travatar (SCFG, MSCFG) [Neubig, 2013]
⾃動評価尺度: BLEU-4 [Papineni et al., 2002]
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 16
データセット
欧州議会議事録多⾔語コーパス(Europarl)
             [Koehn, 2003]
対訳学習: 100k,最適化: 1.5k,評価: 1.5k
Target⾔語モデル: 100k
Pivot⾔語モデル: 2M
Pivot : 英語 (en)
Source, Pivot (全組み合わせ):
  ドイツ語 (de)
  スペイン語 (es)
  フランス語 (fr)
  イタリア語 (it)
実験結果
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 17
Src Trg
BLEU-4 スコア [%]
直接 逐次 無記憶合成
記憶合成
+PivotLM 2M
de
es 27.10 25.05 25.31 25.75 *
fr 25.65 23.86 24.12 24.58 *
it 23.04 20.76 21.27 22.29 **
es
de 20.11 18.52 18.77 19.40 *
fr 33.48 27.00 29.54 29.95 *
it 27.82 22.57 25.11 25.64 **
fr
de 19.69 18.01 18.73 19.19 *
es 34.36 27.26 30.31 31.00 **
it 28.48 22.73 25.31 26.22 **
it
de 19.09 14.03 17.35 18.52 **
es 31.99 25.64 28.85 29.31 *
fr 31.39 25.87 28.48 29.02 *
* : p < 0.05  ** : p < 0.01
全ての組合せで、
逐次 < 無記憶合成
無記憶合成 < 記憶合成
(0.4〜1.2 %の精度向上)
中間⾔語モデル規模の影響
16/06/20 18
21.2
21.4
21.6
21.8
22
22.2
22.4
22.6
22.8
23
23.2
0 500000 1x10
6
1.5x10
6
2x10
6
BLEUScore[%]
Pivot-LM Size [sent.]
Direct Tri. SCFG Tri. MSCFG
l  中間⾔語(英語)モデルサイズが翻訳精度に与える影響
(例:独伊ピボット翻訳)
✔ 中間⾔語モデル規模の増加に伴い、⽬的⾔語でも精度向上
Akiva Miura AHC-Lab, IS, NAIST
↑直接翻訳
↑記憶合成
↓無記憶合成
曖昧性が解消された例
  ⼊⼒⽂ (ドイツ語):
Ich bedaure , daß es keine gemeinsame Annäherung gegeben hat .
  正解訳 (イタリア語):
Sono spiacente del mancato approccio comune .
  無記憶合成 (ベースライン):
Mi rammarico per il fatto che non si ravvicinamento comune .
(BLEU+1: 13.84)
  記憶合成 (提案法):
Mi dispiace che non esiste un approccio comune . (BLEU+1: 25.10)
I regret that there is no common approach . (同時⽣成された英⽂)
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 19
✔ ピボットフレーズの情報と中間⾔語モデルが曖昧性解消に寄与
↑✗
◯↓
曖昧性を解消できなかった例
  ⼊⼒⽂ (フランス語):
Vous avez tout à fait raison et je vous remercie dʼavoir attire´
lʼattention sur ce point .
  正解訳 (スペイン語):
Tiene usted toda la razón y le agradezco que nos llame la atención
sobre este punto .
  直接翻訳 (上限):
Tiene usted razón y le agradezco que haya llamado la atención sobre
este punto . (BLEU+1: 56.00)
  記憶合成 (提案法):
Tiene usted mucha razón y gracias por haber conseguido la atención
sobre este punto . (BLEU+1: 38.91)
You have quite right and I thank you for having courageously brought
the attention on this point . (同時⽣成された英⽂)
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 20
✗ 多品詞語「thank」の影響で訳が変わってしまっている
⽬次
1.  研究背景
2.  従来のピボット翻訳⼿法
3.  提案⼿法
4.  実験的評価
5.  まとめ・今後の課題
6.  Appendix
16/06/20 21Akiva Miura AHC-Lab, IS, NAIST
まとめ
l  提案: 中間⾔語情報を記憶するテーブル合成⼿法
16/06/20 22
近似 〈approccio, approach〉
近似 〈ravvicinamento, approach〉
近似 〈ravvicinamento, approximation〉
・・・
Ø  結果: 従来のテーブル合成⼿法より有意に精度向上
21.2
21.4
21.6
21.8
22
22.2
22.4
22.6
22.8
23
23.2
0 500000 1x106
1.5x106
2x106
BLEUScore[%]
Pivot-LM Size [sent.]
Direct Tri. SCFG Tri. MSCFG
Akiva Miura AHC-Lab, IS, NAIST
Ø  課題: 多品詞語の問題や統語情報の⽋如などは未解決
今後の計画
l  表層的な単語列(語順)の扱いのみでは限界
Ø 統語情報を取り⼊れることで更なる曖昧性の解消を狙う
Ø 構⽂部分⽊を中間表現に⽤いるピボット翻訳⼿法
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 23
NP
NN
X1:DT book
[X1] 本 [X1] 書
( b ) 部分構⽂⽊が中間表現 (多品詞語に対応可)
[X1] 本
( a ) 記号列が中間表現 (多品詞語による問題)
[X1] book [X1] 預訂✗
✔
ご清聴ありがとうございました
l  本会の受賞および発表のきっかけを作って下りました⻑尾真先⽣、
選考に携わって下さった皆様やAAMT役員の皆様
に⼼より感謝申し上げます
l  本発表の元となりました修⼠論⽂の執筆にあたって、
様々な指導をして下さりました中村哲先⽣
指導および本賞へ推薦して下さりましたGraham Neubig先⽣
に⼼より感謝申し上げます
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 24

Más contenido relacionado

Destacado

情報処理学会第78回全国大会"価値共創キュレーションシステムの構想 〜会員制タクシーの会話支援を実例とした概念設計〜"
情報処理学会第78回全国大会"価値共創キュレーションシステムの構想 〜会員制タクシーの会話支援を実例とした概念設計〜"情報処理学会第78回全国大会"価値共創キュレーションシステムの構想 〜会員制タクシーの会話支援を実例とした概念設計〜"
情報処理学会第78回全国大会"価値共創キュレーションシステムの構想 〜会員制タクシーの会話支援を実例とした概念設計〜"
Ubi NAIST
 
PFI seminar 2010/05/27 統計的機械翻訳
PFI seminar 2010/05/27 統計的機械翻訳PFI seminar 2010/05/27 統計的機械翻訳
PFI seminar 2010/05/27 統計的機械翻訳
Preferred Networks
 

Destacado (13)

深層リカレントニューラルネットワークを用いた日本語述語項構造解析
深層リカレントニューラルネットワークを用いた日本語述語項構造解析深層リカレントニューラルネットワークを用いた日本語述語項構造解析
深層リカレントニューラルネットワークを用いた日本語述語項構造解析
 
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
 
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
 
情報処理学会第78回全国大会"価値共創キュレーションシステムの構想 〜会員制タクシーの会話支援を実例とした概念設計〜"
情報処理学会第78回全国大会"価値共創キュレーションシステムの構想 〜会員制タクシーの会話支援を実例とした概念設計〜"情報処理学会第78回全国大会"価値共創キュレーションシステムの構想 〜会員制タクシーの会話支援を実例とした概念設計〜"
情報処理学会第78回全国大会"価値共創キュレーションシステムの構想 〜会員制タクシーの会話支援を実例とした概念設計〜"
 
様々な分野における対訳コーパスを用いた構文解析器の自己学習効果の検討
様々な分野における対訳コーパスを用いた構文解析器の自己学習効果の検討様々な分野における対訳コーパスを用いた構文解析器の自己学習効果の検討
様々な分野における対訳コーパスを用いた構文解析器の自己学習効果の検討
 
Statistical Machine Translation Overview
Statistical Machine Translation OverviewStatistical Machine Translation Overview
Statistical Machine Translation Overview
 
Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...
Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...
Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...
 
Attention-based NMT description
Attention-based NMT descriptionAttention-based NMT description
Attention-based NMT description
 
PFI seminar 2010/05/27 統計的機械翻訳
PFI seminar 2010/05/27 統計的機械翻訳PFI seminar 2010/05/27 統計的機械翻訳
PFI seminar 2010/05/27 統計的機械翻訳
 
G社のNMT論文を読んでみた
G社のNMT論文を読んでみたG社のNMT論文を読んでみた
G社のNMT論文を読んでみた
 
aiconf2017okanohara
aiconf2017okanoharaaiconf2017okanohara
aiconf2017okanohara
 
実世界の人工知能@DeNA TechCon 2017
実世界の人工知能@DeNA TechCon 2017 実世界の人工知能@DeNA TechCon 2017
実世界の人工知能@DeNA TechCon 2017
 
IPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へIPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へ
 

Más de 奈良先端大 情報科学研究科

Más de 奈良先端大 情報科学研究科 (20)

テレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみようテレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみよう
 
マイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろうマイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろう
 
5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計
 
21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発
 
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
 
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
 
8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!
 
16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう
 
15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう
 
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
 
19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御
 
13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信
 
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
 
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
 
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
 
9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう
 
6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御
 
14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築
 
17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう
 
5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!
 

中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上