SlideShare una empresa de Scribd logo
1 de 27
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Ordered Neurons: IntegratingTree Structures into
Recurrent Neural Networks (ICLR2019)
Kazuki Fujikawa, DeNA
サマリ
• 書誌情報
– Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks
• ICLR2019(Best paper)
• Yikang Shen, hawn Tan, Alessandro Sordoni, Aaron Courville
• 概要
– 系列データから抽出される特徴量が階層化されて学習されるように設計された
”ON-LSTM” (Ordered Neuron LSTM) を提案
• Forget gate / Input gate が階層的に動作するような ”Ordered Neuron (Gate)” を導入
– 言語モデルや教師なし構文解析などのタスクで有効性を確認
2
アウトライン
• 背景
• 提案手法
• 実験・結果
3
アウトライン
• 背景
• 提案手法
• 実験・結果
4
背景
• 自然言語は、単純な系列ではなく階層構造で考えることができる
• ニューラル言語モデルにも階層構造を導入することが重要である可能性がある
– DNNでは階層を重ねることで抽象度の高い特徴量を獲得できることが知られている
– 長期に渡った依存関係を学習しやすくできる可能性がある
– 良い帰納バイアスはモデルの汎化、データ効率の改善に貢献する
5
図: 人手でアノテーションされた構文木の例 [Shen+, ICLR2019]
アウトライン
• 背景
• 提案手法
• 実験・結果
6
ON-LSTM
• 着想
– 一般的なRNNと同様、系列データを順々に入力して特徴抽出する過程で、(a) のような
木構造や各ノードの特徴が学習されるようにしたい
– (a) の構文木は (b) の Block と見なすこともできる
– LSTMのメモリ状態が (c) のように変化していれば、階層性を学習できたと考えられる
• トークン 𝑥 𝑡 のEmbedding入力時のLSTMのメモリ状態が、構文木上での各階層の特徴量を示す
• 構文木で変化が無い階層(ex. 𝑥2, 𝑥3 の “S”, “VP”)は、対応するLSTMのメモリ状態にも変化が無い
• 構文木で上の階層が変化する場合(ex. 𝑥1, 𝑥2 の “NP” → “VP” )、それより下の階層に対応する
LSTMのメモリ状態は全て更新される
7
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– 標準のLSTMのメモリ更新
① 過去の情報𝑐𝑡−1をどの程度利用するかを制御する𝑓𝑡 (forget gate) を導出
② 新規の情報 𝑐𝑡をどの程度利用するかを制御する𝑖 𝑡 (input gate) を導出
③ 過去の情報𝑐𝑡−1と新規の情報 𝑐𝑡を𝑓𝑡と𝑖 𝑡で重み付けしてメモリを更新する
8図引用: https://colah.github.io/posts/2015-08-Understanding-LSTMs/
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTM
• 下図 “ON GATES” の部分以外は標準のLSTMと同様
9
ON GATES
図引用: https://colah.github.io/posts/2015-08-Understanding-LSTMs/
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
10
𝑔 𝑘 =
exp(𝒛 𝑘)
𝑘′ exp(𝒛 𝑘′)
𝑔 𝑘 =
𝑘′≤𝑘
𝑔 𝑘
𝑐𝑢𝑚𝑎𝑥(∙)𝑠𝑜𝑓𝑡𝑚𝑎𝑥(∙)
活性化関数: 𝑐𝑢𝑚𝑎𝑥 (cumulative softmax) を利用
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
11
𝑓𝑡, 𝑖 𝑡 の特性
𝑓𝑡 𝑖 𝑡
▪ 𝑐𝑢𝑚𝑎𝑥 は 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 の累積和
→ ピークを迎えた後は1に近い値を連続して出力する
▪ 𝑓𝑡, 𝑖 𝑡 は逆側の次元で1に近い値を持つ
▪ 構文木の上位階層が変化するノードでは、 𝑓𝑡 は0に近い
値が多く、 𝑖 𝑡 は1に近い値が多いことが期待される
(学習で求まるものであり、陽に与えるものではない)
▪ 𝑓𝑡, 𝑖 𝑡 は足して1になる訳ではない
→ 重複している部分 = “不完全な” 部分
(一部更新が必要な部分?)
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
12
𝑓𝑡, 𝑖 𝑡 の特性
𝑓𝑡 𝑖 𝑡
▪ 𝑐𝑢𝑚𝑎𝑥 は 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 の累積和
→ ピークを迎えた後は1に近い値を連続して出力する
▪ 𝑓𝑡, 𝑖 𝑡 は逆側の次元で1に近い値を持つ
▪ 構文木の上位階層が変化するノードでは、 𝑓𝑡 は0に近い
値が多く、 𝑖 𝑡 は1に近い値が多いことが期待される
(学習で求まるものであり、陽に与えるものではない)
▪ 𝑓𝑡, 𝑖 𝑡 は足して1になる訳ではない
→ 重複している部分 = “不完全な” 部分
(一部更新が必要な部分?)
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出
13
𝑓𝑡 𝑖 𝑡
°
𝑤𝑡
=
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出
③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出
ON-LSTM
14
𝑓𝑡 𝑤𝑡
− = 𝑖 𝑡 と重複していない部分
→ 𝑓𝑡をそのまま利用
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出
③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出
ON-LSTM
15
𝑓𝑡 𝑤𝑡
° = 𝑖 𝑡 と重複している部分
→ 𝑓𝑡との合議で決定
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出
③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出
④ 𝑖 𝑡, 𝑤𝑡, 𝑖 𝑡 (標準のLSTMのinput gate) を使って 𝑖 𝑡 (ON-LSTM input gate) を導出
ON-LSTM
16
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出
③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出
④ 𝑖 𝑡, 𝑤𝑡, 𝑖 𝑡 (標準のLSTMのinput gate) を使って 𝑖 𝑡 (ON-LSTM input gate) を導出
⑤ 過去の情報𝑐𝑡−1と新規の情報 𝑐𝑡を𝑓𝑡と𝑖 𝑡で重み付けしてメモリを更新する
ON-LSTM
17
アウトライン
• 背景
• 提案手法
• 実験・結果
18
実験1: 言語モデル
• 言語モデル(次の単語を予測するタスク)を学習し、Perplexity で評価
– データセット: Penn TreeBank (PTB)
– ハイパーパラメータはAWD-LSTM [Merity+, 2017] に合わせた
• 結果・考察
– レイヤー数などのハイパーパラメータを Merity+ と統一していながら、Perplexityを改善
– AWD-LSTM-MoS [Yang+, 2017] には負けているものの、Softmaxレイヤーの改善であり、
本研究とは共存可能
19
実験2: 教師なし構文解析
• 言語モデルの学習済みモデルを使い、構文解析木を推定
① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘 を算出
(𝐷 𝑚: 隠れ層の次元数、 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘: master forget gateのactivationの総和)
② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する
20
She enjoys playing tennis .
𝑑1 𝑑2 𝑑3 𝑑4
ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順
She enjoys playing tennis .
実験2: 教師なし構文解析
• 言語モデルの学習済みモデルを使い、構文解析木を推定
① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘 を算出
(𝐷 𝑚: 隠れ層の次元数、 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘: master forget gateのactivationの総和)
② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する
21
She enjoys playing tennis .
𝑑1 𝑑2 𝑑3 𝑑4
ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順
She enjoys playing tennis .
実験2: 教師なし構文解析
• 言語モデルの学習済みモデルを使い、構文解析木を推定
① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘 を算出
(𝐷 𝑚: 隠れ層の次元数、 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘: master forget gateのactivationの総和)
② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する
22
She enjoys playing tennis .
𝑑1 𝑑2 𝑑3 𝑑4
ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順
She enjoys playing tennis .
実験2: 教師なし構文解析
• 言語モデルの学習済みモデルを使い、構文解析木を推定
① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘 を算出
(𝐷 𝑚: 隠れ層の次元数、 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘: master forget gateのactivationの総和)
② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する
23
She enjoys playing tennis .
𝑑1 𝑑2 𝑑3 𝑑4
ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順
She enjoys playing tennis .
実験2: 教師なし構文解析
• 言語モデルの学習済みモデルを使い、構文解析木を推定
① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘 を算出
(𝐷 𝑚: 隠れ層の次元数、 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘: master forget gateのactivationの総和)
② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する
24
She enjoys playing tennis .
𝑑1 𝑑2 𝑑3 𝑑4
ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順
She enjoys playing tennis .
実験2: 教師なし構文解析
• 結果・考察
– 3層ON-LSTMの各層のmaster forget gateの値を用いてParsingした結果を比較
• 2層目のmaster forget gateでparsingした場合が最も良い結果となった
• 1, 3層目は言語モデルのタスクに対してより有用な特徴表現になっていて、抽象化されていなかった
可能性が考えられる
25
ON-LSTM 2nd-layer Human expert annotations
結論
• RNNに対する新しい帰納バイアスの与え方としてordered neuronsを提案
– 新規のRecurrent unit: ON-LSTM、活性化関数: cumaxを含む
– 長期 / 短期の情報がRNNのメモリの別領域に書き込まれるようにすることで、木構造の
ようなデータ構造を表現できるようにした
• 言語モデル、教師なし構文解析のタスクで有効性を検証
– ON-LSTMは言語モデルの学習過程で文構造を暗に学習することができ、それによって
言語モデル自体の性能を改善することができた
26
References
• Yikang Shen, hawn Tan, Alessandro Sordoni, Aaron Courville. Ordered Neurons: Integrating Tree
Structures into Recurrent Neural Networks. In ICLR2019.
• Stephen Merity, Nitish Shirish Keskar, and Richard Socher. Regularizing and Optimizing LSTM
Language Models. In ICLR2018.
• Zhilin Yang, Zihang Dai, Ruslan Salakhutdinov, and William W Cohen. Breaking the softmax
bottleneck: A high-rank rnn language model. In ICLR2018.
27

Más contenido relacionado

Similar a Ordered neurons integrating tree structures into recurrent neural networks

Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Ohsawa Goodfellow
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介Masayoshi Kondo
 
Learning to forget continual prediction with lstm
Learning to forget continual prediction with lstmLearning to forget continual prediction with lstm
Learning to forget continual prediction with lstmFujimoto Keisuke
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
ニューラルネットワークを用いた自然言語処理
ニューラルネットワークを用いた自然言語処理ニューラルネットワークを用いた自然言語処理
ニューラルネットワークを用いた自然言語処理Sho Takase
 
プログラミングコンテストでのデータ構造
プログラミングコンテストでのデータ構造プログラミングコンテストでのデータ構造
プログラミングコンテストでのデータ構造Takuya Akiba
 
PostgreSQL運用管理入門
PostgreSQL運用管理入門PostgreSQL運用管理入門
PostgreSQL運用管理入門Yoshiyuki Asaba
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingYasunori Ozaki
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...T T
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...Deep Learning JP
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358Ace12358
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the FutureDeep Learning JP
 
Hybrid computing using a neural network with dynamic external memory
Hybrid computing using a neural network with dynamic external memoryHybrid computing using a neural network with dynamic external memory
Hybrid computing using a neural network with dynamic external memorypoppyuri
 
BERTに関して
BERTに関してBERTに関して
BERTに関してSaitama Uni
 
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep LearningまでHokuto Kagaya
 
プログラミングコンテストでのデータ構造 2 ~動的木編~
プログラミングコンテストでのデータ構造 2 ~動的木編~プログラミングコンテストでのデータ構造 2 ~動的木編~
プログラミングコンテストでのデータ構造 2 ~動的木編~Takuya Akiba
 
本当にわかる Spectre と Meltdown
本当にわかる Spectre と Meltdown本当にわかる Spectre と Meltdown
本当にわかる Spectre と MeltdownHirotaka Kawata
 
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
[DL輪読会]An Iterative Framework for Self-supervised Deep  Speaker Representatio...[DL輪読会]An Iterative Framework for Self-supervised Deep  Speaker Representatio...
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...Deep Learning JP
 

Similar a Ordered neurons integrating tree structures into recurrent neural networks (20)

Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
Learning to forget continual prediction with lstm
Learning to forget continual prediction with lstmLearning to forget continual prediction with lstm
Learning to forget continual prediction with lstm
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
ニューラルネットワークを用いた自然言語処理
ニューラルネットワークを用いた自然言語処理ニューラルネットワークを用いた自然言語処理
ニューラルネットワークを用いた自然言語処理
 
プログラミングコンテストでのデータ構造
プログラミングコンテストでのデータ構造プログラミングコンテストでのデータ構造
プログラミングコンテストでのデータ構造
 
PostgreSQL運用管理入門
PostgreSQL運用管理入門PostgreSQL運用管理入門
PostgreSQL運用管理入門
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future
 
Hybrid computing using a neural network with dynamic external memory
Hybrid computing using a neural network with dynamic external memoryHybrid computing using a neural network with dynamic external memory
Hybrid computing using a neural network with dynamic external memory
 
Random Forests
Random ForestsRandom Forests
Random Forests
 
BERTに関して
BERTに関してBERTに関して
BERTに関して
 
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
 
プログラミングコンテストでのデータ構造 2 ~動的木編~
プログラミングコンテストでのデータ構造 2 ~動的木編~プログラミングコンテストでのデータ構造 2 ~動的木編~
プログラミングコンテストでのデータ構造 2 ~動的木編~
 
本当にわかる Spectre と Meltdown
本当にわかる Spectre と Meltdown本当にわかる Spectre と Meltdown
本当にわかる Spectre と Meltdown
 
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
[DL輪読会]An Iterative Framework for Self-supervised Deep  Speaker Representatio...[DL輪読会]An Iterative Framework for Self-supervised Deep  Speaker Representatio...
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
 

Más de Kazuki Fujikawa

Stanford Covid Vaccine 2nd place solution
Stanford Covid Vaccine 2nd place solutionStanford Covid Vaccine 2nd place solution
Stanford Covid Vaccine 2nd place solutionKazuki Fujikawa
 
BMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solutionBMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solutionKazuki Fujikawa
 
Kaggle参加報告: Champs Predicting Molecular Properties
Kaggle参加報告: Champs Predicting Molecular PropertiesKaggle参加報告: Champs Predicting Molecular Properties
Kaggle参加報告: Champs Predicting Molecular PropertiesKazuki Fujikawa
 
Kaggle参加報告: Quora Insincere Questions Classification
Kaggle参加報告: Quora Insincere Questions ClassificationKaggle参加報告: Quora Insincere Questions Classification
Kaggle参加報告: Quora Insincere Questions ClassificationKazuki Fujikawa
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classificationKazuki Fujikawa
 
Graph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generationGraph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generationKazuki Fujikawa
 
Conditional neural processes
Conditional neural processesConditional neural processes
Conditional neural processesKazuki Fujikawa
 
NIPS2017 Few-shot Learning and Graph Convolution
NIPS2017 Few-shot Learning and Graph ConvolutionNIPS2017 Few-shot Learning and Graph Convolution
NIPS2017 Few-shot Learning and Graph ConvolutionKazuki Fujikawa
 
Matrix capsules with em routing
Matrix capsules with em routingMatrix capsules with em routing
Matrix capsules with em routingKazuki Fujikawa
 
Predicting organic reaction outcomes with weisfeiler lehman network
Predicting organic reaction outcomes with weisfeiler lehman networkPredicting organic reaction outcomes with weisfeiler lehman network
Predicting organic reaction outcomes with weisfeiler lehman networkKazuki Fujikawa
 
SchNet: A continuous-filter convolutional neural network for modeling quantum...
SchNet: A continuous-filter convolutional neural network for modeling quantum...SchNet: A continuous-filter convolutional neural network for modeling quantum...
SchNet: A continuous-filter convolutional neural network for modeling quantum...Kazuki Fujikawa
 
Matching networks for one shot learning
Matching networks for one shot learningMatching networks for one shot learning
Matching networks for one shot learningKazuki Fujikawa
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用Kazuki Fujikawa
 

Más de Kazuki Fujikawa (15)

Stanford Covid Vaccine 2nd place solution
Stanford Covid Vaccine 2nd place solutionStanford Covid Vaccine 2nd place solution
Stanford Covid Vaccine 2nd place solution
 
BMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solutionBMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solution
 
ACL2020 best papers
ACL2020 best papersACL2020 best papers
ACL2020 best papers
 
Kaggle参加報告: Champs Predicting Molecular Properties
Kaggle参加報告: Champs Predicting Molecular PropertiesKaggle参加報告: Champs Predicting Molecular Properties
Kaggle参加報告: Champs Predicting Molecular Properties
 
NLP@ICLR2019
NLP@ICLR2019NLP@ICLR2019
NLP@ICLR2019
 
Kaggle参加報告: Quora Insincere Questions Classification
Kaggle参加報告: Quora Insincere Questions ClassificationKaggle参加報告: Quora Insincere Questions Classification
Kaggle参加報告: Quora Insincere Questions Classification
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classification
 
Graph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generationGraph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generation
 
Conditional neural processes
Conditional neural processesConditional neural processes
Conditional neural processes
 
NIPS2017 Few-shot Learning and Graph Convolution
NIPS2017 Few-shot Learning and Graph ConvolutionNIPS2017 Few-shot Learning and Graph Convolution
NIPS2017 Few-shot Learning and Graph Convolution
 
Matrix capsules with em routing
Matrix capsules with em routingMatrix capsules with em routing
Matrix capsules with em routing
 
Predicting organic reaction outcomes with weisfeiler lehman network
Predicting organic reaction outcomes with weisfeiler lehman networkPredicting organic reaction outcomes with weisfeiler lehman network
Predicting organic reaction outcomes with weisfeiler lehman network
 
SchNet: A continuous-filter convolutional neural network for modeling quantum...
SchNet: A continuous-filter convolutional neural network for modeling quantum...SchNet: A continuous-filter convolutional neural network for modeling quantum...
SchNet: A continuous-filter convolutional neural network for modeling quantum...
 
Matching networks for one shot learning
Matching networks for one shot learningMatching networks for one shot learning
Matching networks for one shot learning
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用
 

Ordered neurons integrating tree structures into recurrent neural networks

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Ordered Neurons: IntegratingTree Structures into Recurrent Neural Networks (ICLR2019) Kazuki Fujikawa, DeNA
  • 2. サマリ • 書誌情報 – Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks • ICLR2019(Best paper) • Yikang Shen, hawn Tan, Alessandro Sordoni, Aaron Courville • 概要 – 系列データから抽出される特徴量が階層化されて学習されるように設計された ”ON-LSTM” (Ordered Neuron LSTM) を提案 • Forget gate / Input gate が階層的に動作するような ”Ordered Neuron (Gate)” を導入 – 言語モデルや教師なし構文解析などのタスクで有効性を確認 2
  • 5. 背景 • 自然言語は、単純な系列ではなく階層構造で考えることができる • ニューラル言語モデルにも階層構造を導入することが重要である可能性がある – DNNでは階層を重ねることで抽象度の高い特徴量を獲得できることが知られている – 長期に渡った依存関係を学習しやすくできる可能性がある – 良い帰納バイアスはモデルの汎化、データ効率の改善に貢献する 5 図: 人手でアノテーションされた構文木の例 [Shen+, ICLR2019]
  • 7. ON-LSTM • 着想 – 一般的なRNNと同様、系列データを順々に入力して特徴抽出する過程で、(a) のような 木構造や各ノードの特徴が学習されるようにしたい – (a) の構文木は (b) の Block と見なすこともできる – LSTMのメモリ状態が (c) のように変化していれば、階層性を学習できたと考えられる • トークン 𝑥 𝑡 のEmbedding入力時のLSTMのメモリ状態が、構文木上での各階層の特徴量を示す • 構文木で変化が無い階層(ex. 𝑥2, 𝑥3 の “S”, “VP”)は、対応するLSTMのメモリ状態にも変化が無い • 構文木で上の階層が変化する場合(ex. 𝑥1, 𝑥2 の “NP” → “VP” )、それより下の階層に対応する LSTMのメモリ状態は全て更新される 7
  • 8. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – 標準のLSTMのメモリ更新 ① 過去の情報𝑐𝑡−1をどの程度利用するかを制御する𝑓𝑡 (forget gate) を導出 ② 新規の情報 𝑐𝑡をどの程度利用するかを制御する𝑖 𝑡 (input gate) を導出 ③ 過去の情報𝑐𝑡−1と新規の情報 𝑐𝑡を𝑓𝑡と𝑖 𝑡で重み付けしてメモリを更新する 8図引用: https://colah.github.io/posts/2015-08-Understanding-LSTMs/
  • 9. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTM • 下図 “ON GATES” の部分以外は標準のLSTMと同様 9 ON GATES 図引用: https://colah.github.io/posts/2015-08-Understanding-LSTMs/
  • 10. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 10 𝑔 𝑘 = exp(𝒛 𝑘) 𝑘′ exp(𝒛 𝑘′) 𝑔 𝑘 = 𝑘′≤𝑘 𝑔 𝑘 𝑐𝑢𝑚𝑎𝑥(∙)𝑠𝑜𝑓𝑡𝑚𝑎𝑥(∙) 活性化関数: 𝑐𝑢𝑚𝑎𝑥 (cumulative softmax) を利用
  • 11. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 11 𝑓𝑡, 𝑖 𝑡 の特性 𝑓𝑡 𝑖 𝑡 ▪ 𝑐𝑢𝑚𝑎𝑥 は 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 の累積和 → ピークを迎えた後は1に近い値を連続して出力する ▪ 𝑓𝑡, 𝑖 𝑡 は逆側の次元で1に近い値を持つ ▪ 構文木の上位階層が変化するノードでは、 𝑓𝑡 は0に近い 値が多く、 𝑖 𝑡 は1に近い値が多いことが期待される (学習で求まるものであり、陽に与えるものではない) ▪ 𝑓𝑡, 𝑖 𝑡 は足して1になる訳ではない → 重複している部分 = “不完全な” 部分 (一部更新が必要な部分?)
  • 12. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 12 𝑓𝑡, 𝑖 𝑡 の特性 𝑓𝑡 𝑖 𝑡 ▪ 𝑐𝑢𝑚𝑎𝑥 は 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 の累積和 → ピークを迎えた後は1に近い値を連続して出力する ▪ 𝑓𝑡, 𝑖 𝑡 は逆側の次元で1に近い値を持つ ▪ 構文木の上位階層が変化するノードでは、 𝑓𝑡 は0に近い 値が多く、 𝑖 𝑡 は1に近い値が多いことが期待される (学習で求まるものであり、陽に与えるものではない) ▪ 𝑓𝑡, 𝑖 𝑡 は足して1になる訳ではない → 重複している部分 = “不完全な” 部分 (一部更新が必要な部分?)
  • 13. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 ② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出 13 𝑓𝑡 𝑖 𝑡 ° 𝑤𝑡 =
  • 14. • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 ② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出 ③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出 ON-LSTM 14 𝑓𝑡 𝑤𝑡 − = 𝑖 𝑡 と重複していない部分 → 𝑓𝑡をそのまま利用
  • 15. • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 ② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出 ③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出 ON-LSTM 15 𝑓𝑡 𝑤𝑡 ° = 𝑖 𝑡 と重複している部分 → 𝑓𝑡との合議で決定
  • 16. • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 ② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出 ③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出 ④ 𝑖 𝑡, 𝑤𝑡, 𝑖 𝑡 (標準のLSTMのinput gate) を使って 𝑖 𝑡 (ON-LSTM input gate) を導出 ON-LSTM 16
  • 17. • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 ② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出 ③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出 ④ 𝑖 𝑡, 𝑤𝑡, 𝑖 𝑡 (標準のLSTMのinput gate) を使って 𝑖 𝑡 (ON-LSTM input gate) を導出 ⑤ 過去の情報𝑐𝑡−1と新規の情報 𝑐𝑡を𝑓𝑡と𝑖 𝑡で重み付けしてメモリを更新する ON-LSTM 17
  • 19. 実験1: 言語モデル • 言語モデル(次の単語を予測するタスク)を学習し、Perplexity で評価 – データセット: Penn TreeBank (PTB) – ハイパーパラメータはAWD-LSTM [Merity+, 2017] に合わせた • 結果・考察 – レイヤー数などのハイパーパラメータを Merity+ と統一していながら、Perplexityを改善 – AWD-LSTM-MoS [Yang+, 2017] には負けているものの、Softmaxレイヤーの改善であり、 本研究とは共存可能 19
  • 20. 実験2: 教師なし構文解析 • 言語モデルの学習済みモデルを使い、構文解析木を推定 ① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘 を算出 (𝐷 𝑚: 隠れ層の次元数、 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘: master forget gateのactivationの総和) ② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する 20 She enjoys playing tennis . 𝑑1 𝑑2 𝑑3 𝑑4 ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順 She enjoys playing tennis .
  • 21. 実験2: 教師なし構文解析 • 言語モデルの学習済みモデルを使い、構文解析木を推定 ① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘 を算出 (𝐷 𝑚: 隠れ層の次元数、 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘: master forget gateのactivationの総和) ② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する 21 She enjoys playing tennis . 𝑑1 𝑑2 𝑑3 𝑑4 ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順 She enjoys playing tennis .
  • 22. 実験2: 教師なし構文解析 • 言語モデルの学習済みモデルを使い、構文解析木を推定 ① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘 を算出 (𝐷 𝑚: 隠れ層の次元数、 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘: master forget gateのactivationの総和) ② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する 22 She enjoys playing tennis . 𝑑1 𝑑2 𝑑3 𝑑4 ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順 She enjoys playing tennis .
  • 23. 実験2: 教師なし構文解析 • 言語モデルの学習済みモデルを使い、構文解析木を推定 ① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘 を算出 (𝐷 𝑚: 隠れ層の次元数、 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘: master forget gateのactivationの総和) ② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する 23 She enjoys playing tennis . 𝑑1 𝑑2 𝑑3 𝑑4 ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順 She enjoys playing tennis .
  • 24. 実験2: 教師なし構文解析 • 言語モデルの学習済みモデルを使い、構文解析木を推定 ① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘 を算出 (𝐷 𝑚: 隠れ層の次元数、 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘: master forget gateのactivationの総和) ② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する 24 She enjoys playing tennis . 𝑑1 𝑑2 𝑑3 𝑑4 ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順 She enjoys playing tennis .
  • 25. 実験2: 教師なし構文解析 • 結果・考察 – 3層ON-LSTMの各層のmaster forget gateの値を用いてParsingした結果を比較 • 2層目のmaster forget gateでparsingした場合が最も良い結果となった • 1, 3層目は言語モデルのタスクに対してより有用な特徴表現になっていて、抽象化されていなかった 可能性が考えられる 25 ON-LSTM 2nd-layer Human expert annotations
  • 26. 結論 • RNNに対する新しい帰納バイアスの与え方としてordered neuronsを提案 – 新規のRecurrent unit: ON-LSTM、活性化関数: cumaxを含む – 長期 / 短期の情報がRNNのメモリの別領域に書き込まれるようにすることで、木構造の ようなデータ構造を表現できるようにした • 言語モデル、教師なし構文解析のタスクで有効性を検証 – ON-LSTMは言語モデルの学習過程で文構造を暗に学習することができ、それによって 言語モデル自体の性能を改善することができた 26
  • 27. References • Yikang Shen, hawn Tan, Alessandro Sordoni, Aaron Courville. Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks. In ICLR2019. • Stephen Merity, Nitish Shirish Keskar, and Richard Socher. Regularizing and Optimizing LSTM Language Models. In ICLR2018. • Zhilin Yang, Zihang Dai, Ruslan Salakhutdinov, and William W Cohen. Breaking the softmax bottleneck: A high-rank rnn language model. In ICLR2018. 27