Enviar búsqueda
Cargar
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistical Machine Translation
•
2 recomendaciones
•
1,987 vistas
Yusuke Oda
Seguir
ACL2014のbest long paperの紹介。2014/7/17にやったACL読み会@NAISTで発表しました。
Leer menos
Leer más
Tecnología
Denunciar
Compartir
Denunciar
Compartir
1 de 17
Descargar ahora
Descargar para leer sin conexión
Recomendados
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@
Yusuke Oda
Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)
Yusuke Oda
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Yuta Kikuchi
PCFG構文解析法
PCFG構文解析法
Yusuke Oda
GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)
Taichi Iki
RNN-based Translation Models (Japanese)
RNN-based Translation Models (Japanese)
NAIST Machine Translation Study Group
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
Naonori Nagano
音声認識と深層学習
音声認識と深層学習
Preferred Networks
Recomendados
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@
Yusuke Oda
Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)
Yusuke Oda
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Yuta Kikuchi
PCFG構文解析法
PCFG構文解析法
Yusuke Oda
GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)
Taichi Iki
RNN-based Translation Models (Japanese)
RNN-based Translation Models (Japanese)
NAIST Machine Translation Study Group
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
Naonori Nagano
音声認識と深層学習
音声認識と深層学習
Preferred Networks
Icml読み会 deep speech2
Icml読み会 deep speech2
Jiro Nishitoba
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
Masayoshi Kondo
畳み込みLstm
畳み込みLstm
tak9029
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
Deep Learning JP
Tf勉強会(5)
Tf勉強会(5)
tak9029
Deep Learning技術の今
Deep Learning技術の今
Seiya Tokui
不完全な文の構文解析に基づく同時音声翻訳
不完全な文の構文解析に基づく同時音声翻訳
奈良先端大 情報科学研究科
LT@Chainer Meetup
LT@Chainer Meetup
Shunta Saito
Chainer meetup20151014
Chainer meetup20151014
Jiro Nishitoba
Recurrent Neural Networks
Recurrent Neural Networks
Seiya Tokui
MS COCO Dataset Introduction
MS COCO Dataset Introduction
Shinagawa Seitaro
Long Short-term Memory
Long Short-term Memory
nishio
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
奈良先端大 情報科学研究科
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
Yusuke Oda
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
Shotaro Sano
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
Shirou Maruyama
Res netと派生研究の紹介
Res netと派生研究の紹介
masataka nishimori
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
Yuya Unno
Test
Test
Yusuke Oda
Pattern Recognition and Machine Learning: Section 3.3
Pattern Recognition and Machine Learning: Section 3.3
Yusuke Oda
Más contenido relacionado
La actualidad más candente
Icml読み会 deep speech2
Icml読み会 deep speech2
Jiro Nishitoba
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
Masayoshi Kondo
畳み込みLstm
畳み込みLstm
tak9029
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
Deep Learning JP
Tf勉強会(5)
Tf勉強会(5)
tak9029
Deep Learning技術の今
Deep Learning技術の今
Seiya Tokui
不完全な文の構文解析に基づく同時音声翻訳
不完全な文の構文解析に基づく同時音声翻訳
奈良先端大 情報科学研究科
LT@Chainer Meetup
LT@Chainer Meetup
Shunta Saito
Chainer meetup20151014
Chainer meetup20151014
Jiro Nishitoba
Recurrent Neural Networks
Recurrent Neural Networks
Seiya Tokui
MS COCO Dataset Introduction
MS COCO Dataset Introduction
Shinagawa Seitaro
Long Short-term Memory
Long Short-term Memory
nishio
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
奈良先端大 情報科学研究科
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
Yusuke Oda
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
Shotaro Sano
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
Shirou Maruyama
Res netと派生研究の紹介
Res netと派生研究の紹介
masataka nishimori
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
Yuya Unno
La actualidad más candente
(20)
Icml読み会 deep speech2
Icml読み会 deep speech2
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
畳み込みLstm
畳み込みLstm
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
Tf勉強会(5)
Tf勉強会(5)
Deep Learning技術の今
Deep Learning技術の今
不完全な文の構文解析に基づく同時音声翻訳
不完全な文の構文解析に基づく同時音声翻訳
LT@Chainer Meetup
LT@Chainer Meetup
Chainer meetup20151014
Chainer meetup20151014
Recurrent Neural Networks
Recurrent Neural Networks
MS COCO Dataset Introduction
MS COCO Dataset Introduction
Long Short-term Memory
Long Short-term Memory
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
Res netと派生研究の紹介
Res netと派生研究の紹介
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
Destacado
Test
Test
Yusuke Oda
Pattern Recognition and Machine Learning: Section 3.3
Pattern Recognition and Machine Learning: Section 3.3
Yusuke Oda
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
Yusuke Oda
Learning to Generate Pseudo-code from Source Code using Statistical Machine T...
Learning to Generate Pseudo-code from Source Code using Statistical Machine T...
Yusuke Oda
Tree-based Translation Models (『機械翻訳』§6.2-6.3)
Tree-based Translation Models (『機械翻訳』§6.2-6.3)
Yusuke Oda
150829 kdd2015読み会
150829 kdd2015読み会
Shinagawa Seitaro
含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識
含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識
長岡技術科学大学 自然言語処理研究室
20160716 ICML paper reading, Learning to Generate with Memory
20160716 ICML paper reading, Learning to Generate with Memory
Shinagawa Seitaro
情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム
Shinagawa Seitaro
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
株式会社メタップスホールディングス
Destacado
(11)
Test
Test
Pattern Recognition and Machine Learning: Section 3.3
Pattern Recognition and Machine Learning: Section 3.3
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
Learning to Generate Pseudo-code from Source Code using Statistical Machine T...
Learning to Generate Pseudo-code from Source Code using Statistical Machine T...
Tree-based Translation Models (『機械翻訳』§6.2-6.3)
Tree-based Translation Models (『機械翻訳』§6.2-6.3)
150829 kdd2015読み会
150829 kdd2015読み会
含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識
含意要因となるテキスト中の表現と仮説の対を用いたテキスト含意認識
20160716 ICML paper reading, Learning to Generate with Memory
20160716 ICML paper reading, Learning to Generate with Memory
情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Similar a ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistical Machine Translation
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Toru Fujino
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Ohsawa Goodfellow
20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detail
Yoshii Ryo
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
harmonylab
Neural Models for Information Retrieval
Neural Models for Information Retrieval
Keisuke Umezawa
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
Akiva Miura
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
Kosuke Tanabe
OpenStack Object Storage; Usage
OpenStack Object Storage; Usage
irix_jp
Fast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewriting
Yasuhide Miura
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
Yasushi Hara
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
論文紹介 "DARTS: Differentiable Architecture Search"
論文紹介 "DARTS: Differentiable Architecture Search"
Yuta Koreeda
Panel Discussion@WebDB forum 2014
Panel Discussion@WebDB forum 2014
Makoto Yui
2012/08/06 annotation WS
2012/08/06 annotation WS
Asahara Masayuki
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
STAIR Lab, Chiba Institute of Technology
Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminar
Kodaira Tomonori
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
harmonylab
20230105_TITECH_lecture_ishizaki_public.pdf
20230105_TITECH_lecture_ishizaki_public.pdf
Kazuaki Ishizaki
JAWS DAYS 2022
JAWS DAYS 2022
陽平 山口
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs
Deep Learning JP
Similar a ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistical Machine Translation
(20)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detail
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Neural Models for Information Retrieval
Neural Models for Information Retrieval
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
OpenStack Object Storage; Usage
OpenStack Object Storage; Usage
Fast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewriting
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
論文紹介 "DARTS: Differentiable Architecture Search"
論文紹介 "DARTS: Differentiable Architecture Search"
Panel Discussion@WebDB forum 2014
Panel Discussion@WebDB forum 2014
2012/08/06 annotation WS
2012/08/06 annotation WS
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminar
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
20230105_TITECH_lecture_ishizaki_public.pdf
20230105_TITECH_lecture_ishizaki_public.pdf
JAWS DAYS 2022
JAWS DAYS 2022
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs
Último
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Hiroshi Tomioka
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
Último
(12)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistical Machine Translation
1.
Fast and Robust
Neural Network Joint Models for Statistical Machine Translation Jacob Devlin, Rabih Zbib, Zhongqiang Huang, Thomas Lamar, Richard Schwarts, John Mackhoul Introducing by Yusuke Oda (@odashi_t) 2014/7/17 ACL Reading IS, NAIST 1 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST
2.
論文紹介: [Devlin et
al.] • "Fast and Robust Neural Network Joint Models for Statistical Machine Translation" • Best long paper award of ACL2014 • NNLMの考え方を機械翻訳プロセスへ応用 – 目的言語だけでなく、対応する原言語の単語を考慮 • "Joint Model" の由来 – NNで学習した素性をデコーダのスコアとして追加 • 今年のACLの流行り? • そのままでは遅いので高速化を検討 – 入力層のテーブル化 – "Self Normalization" • 何もしない場合より1万倍程度高速化 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 2
3.
手法の概要 • 点線部分に"the"が来たときの尤度が知りたい。 – 目的言語の「履歴」、原言語の「ある範囲」の単語を ニューラルネットに放り込む –
「ある範囲」 • "the"にアライメントがある…アライメント先を中心語とする • アライメントがない…いくつかのヒューリスティクスで中心語を決定 • 中心語の左右数語を使用 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 3
4.
NNJM: ネットワークの構造 42014/7/17 (ACL
Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 𝑠 𝑎 𝑖−2 𝑠 𝑎 𝑖−1 𝑠 𝑎 𝑖 𝑠 𝑎 𝑖+1 𝑠 𝑎 𝑖+2 𝑡𝑖−2 𝑡𝑖−1 𝑡𝑖−3 𝑃(𝑡𝑖) hidden 512 hidden 512 soft-max vocab=32k projection 192 * #input vocab=16k vocab=16k shared projection matrix input 1-of-K
5.
高速化 • 何が遅いのか? • 射影層から隠れ層への遷移 –
射影層の次元が大きい – 入力層は非常に疎なのに無駄な計算をしている • 出力層のsoft-max演算 – 分配関数の計算に、すべての出力ノードの総和が必要 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 5
6.
Self-normalization - 出力層の高速化 •
分配関数の計算に時間がかかるので、これを省略したい • 分配関数の計算が不要 ⇒ 𝑍 𝑥 = 1 ⇒ log 𝑍 𝑥 = 0 • 最適化する関数に、log 𝑍 𝑥 に関する正則化項を追加 これをSGDで学習(多少の誤差は容認する) 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 6 最大で15倍程度高速化
7.
入力層の高速化 • 隠れ層のtanh ∙
を行う直前の値をテーブルに格納 – 計算は入力単語の個数分の総和とtanh ∙ だけでよい 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 7 𝑠 𝑎 𝑖−2 𝑠 𝑎 𝑖−1 𝑠 𝑎 𝑖 𝑠 𝑎 𝑖+1 𝑠 𝑎 𝑖+2 𝑡𝑖−2 𝑡𝑖−1 𝑡𝑖−3 𝛴 メモリはそこそこ使うが 1000倍程度高速化 隠れ層への行列の乗算まで 完了したベクトル 𝜎
8.
モデルのバリエーション (1) • 履歴の方向・翻訳の方向で4種類のNNJMが定義可能。 2014/7/17
(ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 8 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7 𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7 𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7 S2T/L2R Model Source-to-Target / Left-to-Right for decoding S2T/R2L Model for rescoring Target History Affiliation
9.
モデルのバリエーション (2) • 履歴の方向・翻訳の方向で4種類のNNJMが定義可能。 2014/7/17
(ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 9 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7 𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7 𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7 T2S/L2R Model for rescoring T2S/R2L Model for rescoring Target History Affiliation
10.
デコーダの修正 • Tree-basedデコーダの場合 – より外側のルールで使用するので、使用した翻訳ルールの両端の affiliationを覚えておかなければならない。 •
探索空間はそこまで増えない 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 10 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7 foo bar baz qux quux corge
11.
NULLアライメントの考慮 • NNJMはNULLアライメントを考慮していない。 • 原言語の各単語から、NULLを含む各目的言語の単語が生成さ れる確率を定義:
Neural Network Lexical Translation Model 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 11 S2T Model: 𝑃 𝑡 𝑠 𝑖 𝑠𝑖, 𝑠𝑖−1, 𝑠𝑖+1, … T2S Model: 𝑃 𝑠𝑡 𝑗 𝑡𝑗, 𝑡𝑗−1, 𝑡𝑗+1, … 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7 𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7NULL
12.
実験設定 • 提案法をHiero系のデコーダに適用。 – Baseline
1: String-to-dependency hierarchical decoder [Shen+ 2010] – Baseline 2: Simple Hiero implementation [Chiang 2007] • NNの基本設定 – Input: 3 * 1-of-16000(history) + 11 * i-of-16000(affiliation) – Projection: (3+11) * 192 nodes – Hidden: 512 nodes * 2 layers – Output: 32000 soft-max nodes – 高速化: Self-normalizationのみ 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 12
13.
実験結果 (1) -
NIST OpenMT 2012 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 13 • Decodingとrescoringに NNJM, NNLTMを使用すると feature-richなbaselineより BLEUが3程度向上(Ar-En)。 • より素性の少ないbaselineでは BLEUが6程度向上(Ar-En)。 – 色々な素性を組み合わせたもの • Ch-Enでも変化は小さいが 基本的に適用後のBLEUは向上。
14.
実験結果 (2) -
Rescoringへの影響 • NNJMによるrescoringは RNNLMと同程度 – rescoringにRNNLMを 使う必要はもうない? • Decodingに使用した方が NNJMは効果的。 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 14
15.
実験結果 (3) -
NNの設定の影響 • パラメータを小さくすれば 性能は低下する – 大方の予想通り • パラメータを大きくしても 大きな性能上昇はない – 論文の設定が妥当 (個人的に気になる) • 活性化関数が線形でも 論文の2/3程度向上 – NNの実装が面倒ならlog-linearか 何かで実装してしまってよい? 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 15
16.
実験結果 (4) -
高速化の影響 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 16 • 厳密なモデル(Standard)と他のモデルで そこまで精度に差があるわけではない。 – 速いのを使えばよい。
17.
まとめ • Neural Networkを使って、目的言語の履歴と原言語から単語を 推定するモデルを作成 •
色々な高速化を実装 • 結果 – Hiero系のデコーダに適用すると、従来法より高い翻訳精度 • 単独で既存の素性いくつか分の有効性 • メリット – 既存のデコーダに適用しやすい • 素性と内部情報の追加だけでよい – デコード時と再ランキング時の両方で使用可能 2014/7/17 (ACL Reading at NAIST) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 17
Descargar ahora