Kansai MT Pivot Arekore

ピボット翻訳あれこれ
奈奈良良先端科学技術⼤大学院⼤大学
知能コミュニケーション研究室　三浦明波
15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
1
第11回関⻄西MT勉強会合宿

自己紹介

l  氏名:

三浦明波（ミウラアキバ）

l  経歴:

神戸高専（3年修了中退）

→
テクニオン
–
イスラエル工大
(B.Sc)

→
NAIST
(M1)

l  関心事:

•  多言語翻訳（建前）

•  日本語 ↔ ヘブライ語翻訳（本命）

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
2
‫מיאורה‬ ‫עקיבא‬

‫ָה‬‫ר‬ּ‫ו‬‫ִיא‬‫מ‬ ‫ָא‬‫ב‬‫ִי‬‫ק‬ֲ‫ע‬

Overview

0. ⾃自⼰己紹介
1.  研究背景
2.  背景技術 -‐‑‒ 機械翻訳⽅方式
3.  背景技術 -‐‑‒ ピボット翻訳
4.  研究概要
5.  実験内容、結果と考察
6.  まとめ、今後の課題
7.  Appendix
15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
3

1. 研究背景
15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
4

統計的機械翻訳

l  統計的機械翻訳（StaHsHcal
Machine
TranslaHon
;
SMT)
:

[Brown
et
al.,
1993]

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
5
ü  ⼈人⼿手によるルール記述が不不要
ü  対訳コーパスの⽂文量量が増えるほど訳出の精度度が向上
対訳コーパス
単⾔言語
コーパス
翻訳モデル
⾔言語モデル
デコーダ
（翻訳機）
学習データ
⼊入⼒力力⽂文
出⼒力力⽂文
翻訳システム

多言語翻訳における課題

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
6
言語対（代表例）
対訳

コーパス
英語 ↔ フランス語
◯
英語 ↔ 日本語
◯
英語 ↔ カタルーニャ語

（？）
✗
日本語 ↔ フランス語

（？）
✗
l  特定の⾔言語対において、
⼤大規模な対訳コーパスを短期間で取得することは困難

ピボット翻訳

翻訳したいが対訳コーパスが無い…
15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
7
フランス語⽇日本語✗
ピボット⾔言語（中間⾔言語）を導⼊入！
フランス語⽇日本語英語
ピボット⾔言語を介して翻訳が可能に!!
フランス語⽇日本語英語
✓


15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
8
対訳

コーパス
◯
◯

(via
スペイン語)
✗

(via
英語)
✗
l  ピボット翻訳によって学習データの取得困難性を緩和


15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
9
対訳

コーパス
言語構造

の類似度
手法 (代表例)
◯
◯
？
◯
✗
？

(via
スペイン語)
✗
◯
？

(via
英語?)
✗
✗
？
l  機械翻訳には単語の並べ替え問題がつきまとう

2. 背景技術 – 機械翻訳⽅方式
15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
10

フレーズベース翻訳

l  フレーズベース翻訳（Phrase-‐Based
Machine
TranslaHon
;
PBMT）
:

[Koehn
et
al.,
2003]

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
11
ü  シンプル、実装・運⽤用が容易易、⾼高速
✗  ⾔言語間の⾼高度度な並び替えは困難
natuerlich
hat
john
spass
am
spiel
of
course
john
has
fun
with
the
game
ドイツ語:
英語:

階層的フレーズベース翻訳

l  階層的フレーズベース翻訳

（Hierarchical
Phrase-‐Based
Machine
TranslaHon
;
Hiero）
:

[Chiang,
2007]

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
12

ルール対応の例（英日翻訳）：

[X0]
of
[X1]
→
[X1]
の
[X0]

ルールの適用例 :

friends
of
Taro
→
太郎の友人

the
parents
of
Taro
and
Hanako
→ 太郎と花子の両親

ü  ⾼高度度な並び替えに対応可
✗  モデルサイズの肥⼤大化、計算時間の増⼤大、フレーズ⻑⾧長の制限

統語ベース翻訳

l  Tree-‐to-‐String翻訳（T2S)

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
13
ü  　構⽂文情報を⾼高精度度に捉えて翻訳が可能
✗  構⽂文解析器が必要、解析精度度に⼤大きく依存
X1:NP
S
VP
X2:VBD
X3:NP
X1 X3 X2
(SVO → SOV)


15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
14
対訳

コーパス
言語構造

の類似度
手法 (代表例)
◯
◯
PBMT
◯
✗
Hiero

T2S,
F2S

(via
スペイン語)
✗
◯
？

(via
英語)
✗
✗
？
l  ⾔言語対によって翻訳⼿手法の向き不不向きがある

3. 背景技術 – ピボット翻訳
15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
15

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
16
SMT

fr
→
en
SMT

en
→
zh
input.fr
translated.en
translated.zh
train.fr-‐en.fr
train.fr-‐en.en
train.en-‐zh.en
train.en-‐zh.zh
パイプライン処理によってピボット言語文を介して翻訳
[De Gispert et al.,2006]
ü  実現が容易易、機械翻訳⽅方式に依らず組合せ可能
✗  翻訳誤りが伝播される、システム全体の最適化困難
逐次的ピボット翻訳
(Cascade)

テーブル合成方式
(TriangulaHon)

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
17
Phrase

Table

fr
→
en
Phrase

Table

en
→
zh
input.fr
translated.zh
train.fr-‐en.fr
train.fr-‐en.en
train.en-‐zh.en
train.en-‐zh.zh
SMT

fr
→
zh
2つの翻訳モデルを1つに合成 [Cohn et al., 2007]
ü  独⽴立立したモデルを⽣生成
•  翻訳確率率率の推定⽅方法に精度度が依存


15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
18
対訳

コーパス
言語構造

の類似度
手法 (代表例)
◯
◯
PBMT
◯
✗
Hiero

T2S,
F2S

(via
スペイン語)
✗
◯
PBMT
× 合成

(via
英語?)
✗
✗
Hiero
× 合成?

T2S/F2S
×
合成?

4. 研究概要
15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
19

研究概要

l 調査したいこと:
①  Triangulation（テーブル合成⼿手法）は、
Hieroにおいても有効に機能するかどうか
(昨年年12⽉月のNL研で発表）
②  Triangulationの精度度向上は可能かどうか
③  既存の⾔言語資源をどう有効に⽤用いるか
l  ⽤用いたデータセット:
•  国連⽂文書多⾔言語コーパスのうち、
仏英、英⻄西、英中の対訳コーパス10万⽂文ずつ
15/03/15
20
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST

5. 実験内容、結果と考察
15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
21

実験①

Triangulationは、
Hieroにおいても有効に機能するかどうか
Ø  PBMTで有⽤用性が知られているテーブル合成⼿手法を、
Hieroにおいても適⽤用
Ø  Direct（ピボットを介さない直接翻訳モデル）や、

Cascade（逐次的ピボット翻訳）と合わせて比較評価

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
22

ルール対応の推定例

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
24
日英翻訳ルール:

　[X1]
を出る
→
leave
[X1]　（日英翻訳確率＝
0.6）

　[X1]
を残す
→
leave
[X1]　（日英翻訳確率＝
0.7）

英中翻訳ルール:

　leave
[X1]
→
離開
[X1]　（英中翻訳確率＝
0.5)

　leave
[X1]
→
留
[X1]　　（英中翻訳確率＝
0.3）

合成された日中翻訳ルールの例:

　[X1]を出る →離開
[X1]　（日中翻訳確率＝ 0.6
×
0.5
＝
0.3）

　[X1]を出る →
留
[X1]　　（日中翻訳確率＝ 0.6
×
0.3
＝
0.18）

　[X1] を残す→離開
[X1]　（日中翻訳確率＝ 0.7
×
0.5
＝
0.35）

　[X1] を残す→
留 [X1]　　（日中翻訳確率＝
0.7
×
0.3
=
0.21）

実験結果①
–
Fr
→
Es
(via
En)

15/03/15
25
Method
BLUE
PBMT
Hiero
Direct
40.15
40.19
Cascade
36.20
36.30
TriangulaHon

(MarginalizaHon)
39.13
38.75
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
ü  Direct > Triangulation > Cascade

実験結果①
–
Fr
→
Zh
(via
En)

15/03/15
26
Method
BLUE
PBMT
Hiero
Direct
14.31
16.33
Cascade
14.
05
16.23
TriangulaHon

(MarginalizaHon)
14.3
16.66
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
ü  Direct > Triangulation > Cascade

実験②

Triangulationの精度度を上げられるかどうか
Ø  昨年発表された新しい翻訳確率の推定方法で追実験

Ø  もう一つ自分の提案方を導入

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
27

従来手法2:
MarginalizaHon

l  従来法2:
CountMin（最小共起回数）

[Zhu
et
al,
2014]

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
28
c(src,trg) = min(c(src, pvt),c(pvt,trg))
pvt
∑
φ(trg | src) =
c(src,trg)
c(src,trg')
trg'
∑
c – 共起回数

(CountMin)

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
29

　[X1]
を出る
→
leave
[X1]　（共起回数＝
60,
日英翻訳確率＝
0.6）

　[X1]
を残す
→
leave
70,日英翻訳確率＝
0.7）


　leave
[X1]
→
離開
100,英中翻訳確率＝
0.5)

　leave
[X1]
→
留
[X1]　　（共起回数＝
75,

英中翻訳確率＝
0.3）


60,
日中翻訳確率＝
0.5↓）

留
[X1]　　（共起回数＝ 60,
0.5↓）

[X1]　（共起回数＝ 70,
0.5↓）

留 [X1]　　（共起回数＝ 70,
0.5↓）

提案法:
BidirecHonal

l  手法3:
BidirecHonal

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
30
c(src, pvt,trg) = min(c(src, pvt)φ(trg | pvt),c(pvt,trg)φ(src | pvt))
=
c(src, pvt)c(pvt,trg)
max c1(pvt),c2 (pvt)( )
c(src,trg) = c(src, pvt,trg)
pvt
∑

(BidirecHonal)

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
31

　[X1]
を出る
→
leave
60,
日英翻訳確率＝
0.6）

　[X1]
を残す
→
leave
70,日英翻訳確率＝
0.7）


　leave
[X1]
→
離開
100,英中翻訳確率＝
0.5)

　leave
[X1]
→
留
75,

英中翻訳確率＝
0.3）


min(60
×
0.5,
100
×
0.6)
＝ 30)

留
min(60
×
0.3,
75

×
0.6)
＝ 18）

min(70
×
0.5,
100
×
0.7)
＝ 35）

留 [X1]　　（共起回数＝ min(70
×
0.3,
75

×
0.7)
＝ 21）

実験結果②
–
Fr
→
Es
(via
En)

15/03/15
32
Method
BLUE
PBMT
Hiero
Direct
40.15
40.19
Cascade
36.20
36.30
MarginalizaHon
39.13
38.75
CountMin
38.25
37.89
CountMin

+Lex
MarginalizaHon
38.77
37.92
BidirecHon
38.52
38.28
BidirecHon

+Lex
MarginalizaHon
39.16
38.82
CountMinやBidirectionで共起回数の推定を行うのみだと精度出ず
翻訳確率推定にBidirection、語彙重み推定にMarginalizationで最も高い精度
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST

実験結果②
–
Fr
→
Zh
(via
En)

15/03/15
33
Method
BLUE
PBMT
Hiero
Direct
14.31
16.33

Cascade
14.
05
16.23
MarginalizaHon
14.3
16.66
CountMin
13.69
15.89
CountMin

+Lex
MarginalizaHon
14.43
16.40
BidirecHon
14.26
14.61
BidirecHon

+Lex
MarginalizaHon
14.45
16.63
Fr -> Es (via En)と同様の結果
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST

実験③
–
Merging

直接学習した（小規模）モデルと合成されたモデルを合成

l  結合手法1:
InterpolaHon

[Zhu
et
al,
2014]

α
–
補完係数、慣例的に0.9を用いた

l  結合手法2:
SumCount
[Zhu
et
al,
2014]

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
34
φ(trg | src) = αφ1(trg | src)+ (1−α)φ2 (trg | src)
pω (trg | src) = α pω (trg | src)+ (1−α)pω (trg | src)
c(src,trg) = c1(src,trg)+ c2 (src,trg)

実験結果③
–
Fr
→
Es

15/03/15
35
Method
BLUE
score

Direct
→
Direct
w/
TriangulaHon
PBMT
Hiero
10k
Direct
40.15
40.19
MarginalizaHon
39.13
38.75
Direct
1k

+
MarginalizaHon
100k

(interpolaHon)

26.94
→
39.13
26.57
→
38.82
Direct
1k

+
BidirecHon
100k

(integraHon)
26.94
→
39.11

26.57
→
38.72
Direct
10k

+
MarginalizaHon

100k
(interpolaHon)
36.23
→
39.25
37.67
→
38.89
Direct
10k

+
BidirecHon
100k

(InterpolaHon
36.23

→
39.15
37.67
→
38.82
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST

実験結果③
–
Fr
→
Zh

15/03/15
36
Method
BLUE
score

Direct
→
Direct
w/
TriangulaHon
PBMT
Hiero
10k
Direct
14.31
16.33
MarginalizaHon
14.43
16.63
Direct
1k

+
MarginalizaHon
100k

(interpolaHon)
4.30
→
14.48
4.18
→
16.40
Direct
1k

+
BidirecHon
100k

(integraHon)
4.30
→
14.45
4.18
→
16.43
Direct
10k

+
MarginalizaHon

100k
(interpolaHon)
13.28
→
14.47

16.78
→
16.67
Direct
10k

+
BidirecHon
100k

(InterpolaHon
13.28
→
14.44
16.78
→
16.59
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST

まとめ、今後の計画

まとめ

l  共起回数の推定のみでは従来法のMarginalizaHonよりも精
度が出なかったが、語彙重み推定のみMarginalizaHonの手
法を採用することで従来法と同等か、それ以上の精度が出
せた

l  直接学習したモデルと組み合わせることによる精度向上、

カバレッジ向上の期待を持てる

今後の計画:

l  ヒューリスティックに頼らない機械学習による翻訳確率推定
手法の提案

l  T2S翻訳モデルのテーブル合成によるピボット翻訳の実装

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
38

Overview

1.  研究背景
2.  背景技術 -‐‑‒ 機械翻訳⽅方式
3.  背景技術 -‐‑‒ ピボット翻訳
4.  研究概要
5.  実験内容、結果と考察
6.  まとめ、今後の課題
7.  Appendix
15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
39

マルチセンテンス方式

15/03/15
41
SMT

fr
→
en
SMT

en
→
zh
input.fr
translated.zh
train.fr-‐en.fr
train.fr-‐en.en
train.en-‐zh.en
train.en-‐zh.zh
1
2
n

prepared corpus
trained task
translated text
(
)
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
ü 　O(n)
✗  逐次的ピボット翻訳と比して有意差なし

コーパス翻訳方式

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
42
SMT

en
→
zh
SMT

fr
→
zh
train.fr-‐en.en
translated.zh

as

train.fr-‐zh.zh
translated.zh
train.en-‐zh.en
train.en-‐zh.zh
train.fr-‐en.fr

as

train.fr-‐zh.fr
input.fr
コーパス翻訳方式 ( Synthetic ) :
事前にコーパスを翻訳することで擬似的な対訳コーパスを生成
(De Gispert et al.,2006)
ü 　擬似的な対訳コーパス生成による、言語資源獲得の恩恵
✗  学習データそのものに翻訳誤りが含まれる

ルール対応の推定法

•  仏英と英日から仏日翻訳モデルを推定:

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
43
selon
leurs
[X0]
according
to
their
[X0]
aper
their
[X0]
にしたがって
[X0]
その
[X0]
にしたがい
0.2
0.6
0.4
1
0.6


15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
44
selon
leurs
[X0]
according
to
their
[X0]
aper
their
[X0]
にしたがって
[X0]
その
[X0]
にしたがい
0.2
0.6
0.4
1
0.6
0.2 × 0.4 = 0.08


15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
45
selon
leurs
[X0]
according
to
their
[X0]
aper
their
[X0]
にしたがって
[X0]
その
[X0]
にしたがい
0.2
0.6
0.4
1
0.6
0.2 × 0.4 = 0.08 0.2 × 0.6 + 0.4 × 1 = 0.52

CountMin
(FULL)

l  手法2:
CountMin（最小共起回数）

[Zhu
et
al,
2014]

15/03/15
2015©Akiva
Miura

AHC-‐Lab,
IS,
NAIST
46
c(src,trg) = min(c(src, pvt),c(pvt,trg))
pvt
∑
φ(trg | src) =
c(src,trg)
c(src,trg')
trg'
∑
ω(trg | src) =
c(src,trg)
c(src,trg')
trg'
∑
a = {(t,s)| ∃p :(s, p) ∈a1 ∧(p,t) ∈a2}
pω (trg | src,a) =
1
{j |(i, j) ∈a}i=1
n
∏ ω(trgi | srcj
(i,j)∈a
∑ )

Kansai MT Pivot Arekore

Recomendados

Recomendados

Más contenido relacionado

Similar a Kansai MT Pivot Arekore

Similar a Kansai MT Pivot Arekore (17)

Kansai MT Pivot Arekore