SlideShare a Scribd company logo
1 of 24
統計的機械翻訳サーベイ 岡野原 大輔 hillbig@preferred.jp 2010/05/27 PFIセミナー
参考資料 [NLP] “統計的機械翻訳ことはじめ”, 渡辺太郎言語処理学会チュートリアル NLP2004 日本語で読める [SMT] “Statistical Machine Translation”, P. Koehn2010 統計的機械翻訳の歴史・グループ・手法など 最新手法までではないが基本は押さえられる [免責事項]SMTは専門ではないので誤りなどありましたら教えてください
対象者 自然言語処理な人ではない EM法ももちろん知らない アルゴリズム/データ構造/数学の基礎知識有 機械翻訳を知っているが失望している
機械翻訳の現状 [SMT] 2007年時点では一日あたり5億単語が機械翻訳されている 一日あたり5000万ウェブページが翻訳される 主な利用用途は Gisting(主旨・要点の理解) 内容をなんとなく理解するので十分 完璧な翻訳は限定されたドメインで 天気予報・時間情報・ニュース・マニュアル c.f. Microsoftのマニュアル
Gistingしてみよう! 今日17:00時点での アルジャジーラの トップニュース http://www.aljazeera.net
Gistingしてみよう!
Gistingしてみよう!英語読めるなら英語への翻訳がいい英語⇔アラビア語英語⇔中国語の精度はかなり良い
統計的機械翻訳(SMT: Statistical Machine translation) パラレルコーパスを用いて翻訳ルールを獲得 c.f. ロゼッタストーン 言語の専門家がいなくてもよい(国家的な理由も) 高品質・大量のパラレルコーパスは国連・EUの国際会議の議事録などで大量に入手可 LDC, Acquis, OPUS, Communautaire, … 例:Europarlの場合 11言語毎に4000万単語 言語のスケーラビリティが高い コーパスさえあれば良い c.f .Google 50言語間
統計的機械翻訳の歴史 (1/2) ~1980 用例ベース機械翻訳 1989 IBMResearchによる著名な論文 NLP業界での引用数第2位 (約1000件) 翻訳システムのパラメータをパラレルコーパスから自動推定する 簡単な手法から順に IBMモデル1 - 5がある 提案者自身らは金融業界へと去っていった 1998  ワークショップで開発祭り IBMモデルを実装
統計的機械翻訳の歴史 (2/2) 2000年以降 DARPAによる強力な資金援助 米国としてはアラブ/中国の文章を保安上読みたい NIST workshopで毎年翻訳精度競争 Language Waver, Google, Yahoo,MSの台頭 現在、研究グループは50以上 [SMT]に詳細がのっています
基本的なアイディア (1/3)[Broun+ 1993] 翻訳元:J翻訳先:E モデル:P(E|J ; θ) θはモデルを特徴付けるパラメータ パラレルコーパスからθを学習 θ = 単語対の翻訳スコアなど ,[object Object],翻訳 = 確率が最大となる翻訳先を求める
基本的なアイディア(2/3) argmaxEP(E|J; θ)= argmaxEP(J|E; θ’)   P(E; θ’’) P(J|E; θ’) 翻訳モデル 翻訳元の意図を正しく伝えているか? P(E; θ’’)言語モデル 翻訳した結果が言語として正しいか? 単言語コーパスから推定可能
基本的なアイディア(3/3) p(J|E) = ∑Ap(J,A|E) A: アライメント E中の単語とJ中の単語の対応付け A[i] = i番目の翻訳先の翻訳元番号 0                1             2             3                4                5                    6  NULL    ichgehejanichtzumhaus I   do   not   go   to   the   house A = [  1 ,  0,  4,  2,  5,  5,  6 ]
IBM モデル p(E, A, | J) をどのように定義するかで5種類 そのうち簡単なIBM Model-2まで紹介 Model-1  ∝Πk t (ek | JA[k])   アライメントに従い、各翻訳は独立に t (e | j) : 単語対の翻訳確率 Model-2  ∝Πk t (ek | JA[k]) u(A[k] | k, |E|, |J|) u:どのくらい翻訳元と先で単語が移動し得るか
翻訳モデルの学習 P(J|E; θ’)の θ’を求める Model-1の時は p(e | j )  for all e, j ある単語 j が eに翻訳される確率 使えるのはパラレルコーパスのみ アライメントAの情報はついていない もしわかったら単にペアの回数を数えるだけp(e| j ) = (eとjが翻訳ペアだった回数) / (j の回数) Aは観測できない隠れ変数 ⇒ EMアルゴリズムを使う
Expectation Maximizationアルゴリズム (EM法) 教師無学習の基礎中の基礎 Aはわからないが、Aが無いと回数が数えられず、θを求められない 1. Aの確率分布 p(A)を適当に決める 2. p(A)に基づいて回数の期待値を求める 3. θを元にp(A)を再推定する 4. 2へ戻る   動的計画法によってO(文長2) で解ける
デコーディング 「ねんがんの p(J|E) をてにいれたぞ!」 後は argmaxE P(J|E) P(E)を求めれば良い しかし、この問題はNP完全問題であることが知られている 探索問題 各状態は(翻訳済の元単語, 翻訳された単語) 遷移は未翻訳の単語を翻訳したスコア 全ての翻訳元が空になれば終了状態
理想と現実 (1/2) さきほどまできれいな話だったが・・ P(J|E) P(E) だけでなくP(E|J)も使っちゃう だけでなく他の情報も全部使っちゃう きれいな確率モデルでは、もはやない fi = log P(J|E) など(J, E)から得られる情報を全て特徴ベクトル Φ(J, E)∈Rmに入れる [Chiang+ 09] 線形モデルで学習・推定する wTΦ(J, E) 学習にはMIRAなどが利用される BLEU(翻訳精度・後述)を最大化するよう学習
理想と現実 (2/2) P(E) : 翻訳先Eを出力する確率 文法的・用法的に正しい文Eに対し高い確率を与える P(“ipadがまだ届きません”)  > P(“届きipadがませんまだ”) 利用される言語モデルはまだ非常に粗い N-gram モデル N-1単語前にのみ条件付 P(w1w2w3w4) = Πi P(wi|wi-N+1wi-N+2 .. wi-1) 非文に対しても高い確率を与えうる
話せなかった最近の話題 フレーズモデルが今は普通 翻訳元・翻訳先が複数単語 など フレーズは非連続でも良い [Galley+ 10] Synchronous CFGで構文情報も利用可能 遅い.  が高速化が進む [C. Dyer+ 10] アライメントの精緻化・高速化 p(E|J) P(J|E)を両方使う [Liang+ 06] etc. SAなどの利用 [Lopez 07] etc. 単言語コーパスから取得 [Haghighi+ 08] etc.
翻訳精度の評価 プロ翻訳家の間でも正解は大きく異なる 翻訳結果の評価もばらつきが大きい 人手による評価は非常にコストが高い システムをつくり直すたびに評価は大変 BLEU:  複数の正解例とのN-gramマッチ 自動で評価できる. 人の評価と相関が高い 今の翻訳システムはBLUEを最大化するようにパラメータ学習をするようにしている
オープンソース Moses http://www.statmt.org/moses/ 基本的な機能は一通り cdec http://cdec-decoder.org/index.php C++ と 様々な高速化により最速 最新の手法が一通り入っている 機能は不足 joshua SCFG baseで grammer抽出とかもサポート
機械翻訳の今後 日本語  多言語について Googleは人材募集 + 何でもやる [NLP2010 個人談] 今のSMTモデルは日本語に不向きと言われるがSCFGがあっているかも微妙. 別のモデル? 世界的な流れ 翻訳のベンチャー + サービス会社が牽引 市場は拡大 ビジネスモデルはB2B サービス 英西翻訳など ヒスパニック系人材向け 音声認識, 検索など他のサービスと結合
出展 [Broun+ 93] “The Mathematics of Machine Translation: Parameter Estimation”, P. F. Brown and et. al. Computational Linguistics 1993 [Chiang+ 09]“11,001 new features for statistical machine translation”, D. Chaingand et. al. NAACL 2009 [Galley+ 10] “Accurate Non-Hierarchical Phrase-Based Translation”, M. Galley and C. D. Manning NAACL 2010 [Dyer+ 10] “Two monolingual parses are better than one (synchronous parse)” C. Dyer NAACL 2010 [Liang+ 06] “Alignment by agreement”, P. Laing and et. al. NAACL 2006 [Lopez 07] “Hierarchical Phrase-Based Translation with Suffix Arrays”, A. Lopez, EMNLP 2007 [Haghighi+ 08] “Learning Bilingual Lexicons from Monolingual Corpora”, A. Haghighi+ ACL 2008

More Related Content

What's hot

言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
ニューラル機械翻訳の動向@IBIS2017
ニューラル機械翻訳の動向@IBIS2017ニューラル機械翻訳の動向@IBIS2017
ニューラル機械翻訳の動向@IBIS2017Toshiaki Nakazawa
 
G社のNMT論文を読んでみた
G社のNMT論文を読んでみたG社のNMT論文を読んでみた
G社のNMT論文を読んでみたToshiaki Nakazawa
 
自然言語処理における意味解析と意味理解
自然言語処理における意味解析と意味理解自然言語処理における意味解析と意味理解
自然言語処理における意味解析と意味理解Kanji Takahashi
 
第3回アジア翻訳ワークショップの人手評価結果の分析
第3回アジア翻訳ワークショップの人手評価結果の分析第3回アジア翻訳ワークショップの人手評価結果の分析
第3回アジア翻訳ワークショップの人手評価結果の分析Toshiaki Nakazawa
 
Non-autoregressive text generation
Non-autoregressive text generationNon-autoregressive text generation
Non-autoregressive text generationnlab_utokyo
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会Tomoyuki Kajiwara
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsMakoto Takenaka
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアルYuya Unno
 
日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用Kanji Takahashi
 
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...Yuya Unno
 
ピーFIの研究開発現場
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場Yuya Unno
 
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word EmbeddingMakoto Takenaka
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Yuya Unno
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
Deep neural models of semantic shift
Deep neural models of semantic shiftDeep neural models of semantic shift
Deep neural models of semantic shiftMakoto Takenaka
 

What's hot (20)

言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
ニューラル機械翻訳の動向@IBIS2017
ニューラル機械翻訳の動向@IBIS2017ニューラル機械翻訳の動向@IBIS2017
ニューラル機械翻訳の動向@IBIS2017
 
G社のNMT論文を読んでみた
G社のNMT論文を読んでみたG社のNMT論文を読んでみた
G社のNMT論文を読んでみた
 
自然言語処理における意味解析と意味理解
自然言語処理における意味解析と意味理解自然言語処理における意味解析と意味理解
自然言語処理における意味解析と意味理解
 
第3回アジア翻訳ワークショップの人手評価結果の分析
第3回アジア翻訳ワークショップの人手評価結果の分析第3回アジア翻訳ワークショップの人手評価結果の分析
第3回アジア翻訳ワークショップの人手評価結果の分析
 
Non-autoregressive text generation
Non-autoregressive text generationNon-autoregressive text generation
Non-autoregressive text generation
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
 
NLP2017 NMT Tutorial
NLP2017 NMT TutorialNLP2017 NMT Tutorial
NLP2017 NMT Tutorial
 
tmu_science_cafe02
tmu_science_cafe02tmu_science_cafe02
tmu_science_cafe02
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル
 
日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用
 
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
 
ピーFIの研究開発現場
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場
 
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
Signl213
Signl213 Signl213
Signl213
 
Deep neural models of semantic shift
Deep neural models of semantic shiftDeep neural models of semantic shift
Deep neural models of semantic shift
 

More from Preferred Networks

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57Preferred Networks
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Preferred Networks
 
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Preferred Networks
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...Preferred Networks
 
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Preferred Networks
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2Preferred Networks
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演Preferred Networks
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Preferred Networks
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)Preferred Networks
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)Preferred Networks
 
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るKubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るPreferred Networks
 
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Preferred Networks
 
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会Preferred Networks
 
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2Preferred Networks
 
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Preferred Networks
 
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...Preferred Networks
 
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...Preferred Networks
 
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50Preferred Networks
 

More from Preferred Networks (20)

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
 
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
 
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るKubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
 
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
 
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
 
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
 
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
 
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
 
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
 
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
 

PFI seminar 2010/05/27 統計的機械翻訳

  • 2. 参考資料 [NLP] “統計的機械翻訳ことはじめ”, 渡辺太郎言語処理学会チュートリアル NLP2004 日本語で読める [SMT] “Statistical Machine Translation”, P. Koehn2010 統計的機械翻訳の歴史・グループ・手法など 最新手法までではないが基本は押さえられる [免責事項]SMTは専門ではないので誤りなどありましたら教えてください
  • 3. 対象者 自然言語処理な人ではない EM法ももちろん知らない アルゴリズム/データ構造/数学の基礎知識有 機械翻訳を知っているが失望している
  • 4. 機械翻訳の現状 [SMT] 2007年時点では一日あたり5億単語が機械翻訳されている 一日あたり5000万ウェブページが翻訳される 主な利用用途は Gisting(主旨・要点の理解) 内容をなんとなく理解するので十分 完璧な翻訳は限定されたドメインで 天気予報・時間情報・ニュース・マニュアル c.f. Microsoftのマニュアル
  • 5. Gistingしてみよう! 今日17:00時点での アルジャジーラの トップニュース http://www.aljazeera.net
  • 8. 統計的機械翻訳(SMT: Statistical Machine translation) パラレルコーパスを用いて翻訳ルールを獲得 c.f. ロゼッタストーン 言語の専門家がいなくてもよい(国家的な理由も) 高品質・大量のパラレルコーパスは国連・EUの国際会議の議事録などで大量に入手可 LDC, Acquis, OPUS, Communautaire, … 例:Europarlの場合 11言語毎に4000万単語 言語のスケーラビリティが高い コーパスさえあれば良い c.f .Google 50言語間
  • 9. 統計的機械翻訳の歴史 (1/2) ~1980 用例ベース機械翻訳 1989 IBMResearchによる著名な論文 NLP業界での引用数第2位 (約1000件) 翻訳システムのパラメータをパラレルコーパスから自動推定する 簡単な手法から順に IBMモデル1 - 5がある 提案者自身らは金融業界へと去っていった 1998 ワークショップで開発祭り IBMモデルを実装
  • 10. 統計的機械翻訳の歴史 (2/2) 2000年以降 DARPAによる強力な資金援助 米国としてはアラブ/中国の文章を保安上読みたい NIST workshopで毎年翻訳精度競争 Language Waver, Google, Yahoo,MSの台頭 現在、研究グループは50以上 [SMT]に詳細がのっています
  • 11.
  • 12. 基本的なアイディア(2/3) argmaxEP(E|J; θ)= argmaxEP(J|E; θ’) P(E; θ’’) P(J|E; θ’) 翻訳モデル 翻訳元の意図を正しく伝えているか? P(E; θ’’)言語モデル 翻訳した結果が言語として正しいか? 単言語コーパスから推定可能
  • 13. 基本的なアイディア(3/3) p(J|E) = ∑Ap(J,A|E) A: アライメント E中の単語とJ中の単語の対応付け A[i] = i番目の翻訳先の翻訳元番号 0 1 2 3 4 5 6 NULL ichgehejanichtzumhaus I do not go to the house A = [ 1 , 0, 4, 2, 5, 5, 6 ]
  • 14. IBM モデル p(E, A, | J) をどのように定義するかで5種類 そのうち簡単なIBM Model-2まで紹介 Model-1 ∝Πk t (ek | JA[k]) アライメントに従い、各翻訳は独立に t (e | j) : 単語対の翻訳確率 Model-2 ∝Πk t (ek | JA[k]) u(A[k] | k, |E|, |J|) u:どのくらい翻訳元と先で単語が移動し得るか
  • 15. 翻訳モデルの学習 P(J|E; θ’)の θ’を求める Model-1の時は p(e | j ) for all e, j ある単語 j が eに翻訳される確率 使えるのはパラレルコーパスのみ アライメントAの情報はついていない もしわかったら単にペアの回数を数えるだけp(e| j ) = (eとjが翻訳ペアだった回数) / (j の回数) Aは観測できない隠れ変数 ⇒ EMアルゴリズムを使う
  • 16. Expectation Maximizationアルゴリズム (EM法) 教師無学習の基礎中の基礎 Aはわからないが、Aが無いと回数が数えられず、θを求められない 1. Aの確率分布 p(A)を適当に決める 2. p(A)に基づいて回数の期待値を求める 3. θを元にp(A)を再推定する 4. 2へ戻る   動的計画法によってO(文長2) で解ける
  • 17. デコーディング 「ねんがんの p(J|E) をてにいれたぞ!」 後は argmaxE P(J|E) P(E)を求めれば良い しかし、この問題はNP完全問題であることが知られている 探索問題 各状態は(翻訳済の元単語, 翻訳された単語) 遷移は未翻訳の単語を翻訳したスコア 全ての翻訳元が空になれば終了状態
  • 18. 理想と現実 (1/2) さきほどまできれいな話だったが・・ P(J|E) P(E) だけでなくP(E|J)も使っちゃう だけでなく他の情報も全部使っちゃう きれいな確率モデルでは、もはやない fi = log P(J|E) など(J, E)から得られる情報を全て特徴ベクトル Φ(J, E)∈Rmに入れる [Chiang+ 09] 線形モデルで学習・推定する wTΦ(J, E) 学習にはMIRAなどが利用される BLEU(翻訳精度・後述)を最大化するよう学習
  • 19. 理想と現実 (2/2) P(E) : 翻訳先Eを出力する確率 文法的・用法的に正しい文Eに対し高い確率を与える P(“ipadがまだ届きません”) > P(“届きipadがませんまだ”) 利用される言語モデルはまだ非常に粗い N-gram モデル N-1単語前にのみ条件付 P(w1w2w3w4) = Πi P(wi|wi-N+1wi-N+2 .. wi-1) 非文に対しても高い確率を与えうる
  • 20. 話せなかった最近の話題 フレーズモデルが今は普通 翻訳元・翻訳先が複数単語 など フレーズは非連続でも良い [Galley+ 10] Synchronous CFGで構文情報も利用可能 遅い. が高速化が進む [C. Dyer+ 10] アライメントの精緻化・高速化 p(E|J) P(J|E)を両方使う [Liang+ 06] etc. SAなどの利用 [Lopez 07] etc. 単言語コーパスから取得 [Haghighi+ 08] etc.
  • 21. 翻訳精度の評価 プロ翻訳家の間でも正解は大きく異なる 翻訳結果の評価もばらつきが大きい 人手による評価は非常にコストが高い システムをつくり直すたびに評価は大変 BLEU: 複数の正解例とのN-gramマッチ 自動で評価できる. 人の評価と相関が高い 今の翻訳システムはBLUEを最大化するようにパラメータ学習をするようにしている
  • 22. オープンソース Moses http://www.statmt.org/moses/ 基本的な機能は一通り cdec http://cdec-decoder.org/index.php C++ と 様々な高速化により最速 最新の手法が一通り入っている 機能は不足 joshua SCFG baseで grammer抽出とかもサポート
  • 23. 機械翻訳の今後 日本語  多言語について Googleは人材募集 + 何でもやる [NLP2010 個人談] 今のSMTモデルは日本語に不向きと言われるがSCFGがあっているかも微妙. 別のモデル? 世界的な流れ 翻訳のベンチャー + サービス会社が牽引 市場は拡大 ビジネスモデルはB2B サービス 英西翻訳など ヒスパニック系人材向け 音声認識, 検索など他のサービスと結合
  • 24. 出展 [Broun+ 93] “The Mathematics of Machine Translation: Parameter Estimation”, P. F. Brown and et. al. Computational Linguistics 1993 [Chiang+ 09]“11,001 new features for statistical machine translation”, D. Chaingand et. al. NAACL 2009 [Galley+ 10] “Accurate Non-Hierarchical Phrase-Based Translation”, M. Galley and C. D. Manning NAACL 2010 [Dyer+ 10] “Two monolingual parses are better than one (synchronous parse)” C. Dyer NAACL 2010 [Liang+ 06] “Alignment by agreement”, P. Laing and et. al. NAACL 2006 [Lopez 07] “Hierarchical Phrase-Based Translation with Suffix Arrays”, A. Lopez, EMNLP 2007 [Haghighi+ 08] “Learning Bilingual Lexicons from Monolingual Corpora”, A. Haghighi+ ACL 2008