【DL輪読会】Learning to-combine-top-down-and-bottom-up-signals-in-recurrent-neural-networks-with-attention-over-modules upload

書誌情報
● ICML 2020
○ http://proceedings.mlr.press/v119/mittal20a.html
● 組織: MILA, Google Brainなど
● 著者: Sarthak Mittal, Alex Lamb, Anirudh Goyal, Vikram Voleti, Murray
Shanahan, Guillaume Lajoie, Michael Mozer, Yoshua Bengio
● Recurrent Independent Mechanisms(Goyal, 2019)の発展
● 実装: https://github.com/sarthmit/BRIMs
● 一言で
○ Bottom-up情報, Top-down情報をAttentionによって組み合わせ, また隠れ状態を複数のModule
で構成するBRIMsを提案. Top-down情報の活用によりノイズに頑健で,学習と評価時で分布が
変化するようなタスクにおいて既存モデルよりも性能が高いことを示した.
2

神経科学の知見: 脳内処理での前半と後半領域の相互作用
● Visual: 後段処理に伴って, 前段の処理の活動を調節する
○ 他のsensory modalitiesでも同じようなことを観測
● Global Workspace Theory:
○ > 機能特化型のモジュールの計算結果の情報が、全体にブロードキャストされて、それがフレキ
シブルに自由に使えることで、多様な認知機能が実現されるという考え
■ 引用: https://note.com/kanair/n/n3c7c6d20288a
● 神経同士でどのようにBottom-up情報とTop-down情報が相互作用しやり取り
しているかは詳細には分かっていない
● Top-down:
○ ノイズや曖昧なsensory dataを処理するのに役立つ
■ よく知っている部屋が暗闇になっても把握できる
● Bottom-up:
○ エージェントが予期せぬ刺激に反応することを可能にする
● 機械学習においてもTop-down構造役立つ??
背景
3

Bidirectional layerd modelsは十分に探索されていない
● 既存研究
○ Dayan et al.,1995; Larochelle & Bengio, 2008; Salakhutdinov & Hinton,2009
○ feedforward models ほど研究されていない
■ 通常のDeepなモデルはBottom-upのみの構造
○ 既存モデルにただ双方向性を出せばいいってものでもない
■ Iuzzoline et al., 2019
○ ちゃんと結果が出るようにモデル構造を考えたい
● 取り入れたい仕組み(お気持ち)
○ 効果的にTop-down信号を選び抜く
○ Bottom-up信号をmodulateする
○ 信号の混ざり合いがいい感じになって欲しい
● →ModularityとAttention
背景
4

Bidirectional Recurrent Independent Mechanisms
提案手法
5

Key-Value Attention
● 隠れ状態の更新の際用いる
● Q: queries, K: keys(d次元), V: values
● AS: Attention score, AR: Attention modulated results
提案手法を構成する要素
6

Attention補足: https://web.eecs.umich.edu/~justincj/slides/eecs498/498_FA2019_lecture13.pdfより
7

Modularity
● 物理プロセスは独立で, 相互作用することはそんなに頻繁ではない
○ 2つのボールの動きをモデリングするときに, 2つのボールの動きを別々の独立したメカニズム
としてモデル化できる
■ 実際は2つのボールは地球からもお互いのボールからも引力が働くけれども
■ ボール同士が衝突することはそれほど頻繁でない
● 独立なメカニズムを持つModulesが組み合わさって現象が構成されていると
すると
○ 着目すべき重要なModuleの変化を時間ごとに絞れる
■ 学習が容易に
○ 他タスクへ汎化する
■ 特定のModuleのMechanismsは変わるかもしれないがそれ以外は前回学んだ
mechanismsを活かせる
8

Recurrent Independent Mechanisms(RIMs)
● 隠れ状態hはnこのmoduleを持つとする
○ n個のうち数個のみが各時刻でactivateする
● 隠れ状態の更新手順
○ 1. Selective Activation
入力との関係性からactivateするmoduleを選択する
○ 2. Independent Dynamics
activateするmoduleはそれぞれ処理を行う
(通常のRNNの隠れ状態の更新と同じ手順)
○ 3.Communication
他のmoduleの情報を統合して隠れ状態の更新
9

RIMs 手順(1): Selective Activation
● Key-Value Activationを用いてAttention scoreを算出
○ scoreの上位m個のmoduleをactivateする
10

RIMs 手順(2): Independent Dynamics
● St: activateするmoduleのkey集合
● Fk: 更新を担う関数(GRU or LSTMなど)
11

RIMs 手順(3): Communication
● ActiveなmodulesがQueryを発行
12

Bidirectional Recurrent Independent Mechanisms(BRIMs)
提案手法
13

Communication between layers
● 第L層のactivateするmodule選択の際にL-1, L+1層の隠れ状態の情報を用いる
○ RIMsにおけるSelective Activation
提案手法
14
＝

Sparse Activation
● RIMsにおけるIndependent Dynamics
提案手法
15

Communication within layers
● RIMsにおけるcommunication
提案手法
16

Bidirectional Recurrent Independent Mechanisms(BRIMs)
提案手法
17

Top-down情報は汎化性能の向上に繋がるか??
A: Attention, H: Hierarchy, M: modularity, B: Bidirectional
実験: Sequential MNIST, Sequential CIFAR
18

観測データにノイズが増えるとTop-downの情報の重要性が増す
実験: ノイズありSequential CIFAR
19

遷移の予測性能向上, 高い階層の表現の有用性
● 提案手法が既存手法上回る
● Top-downの情報が役立ってい
る??
● →locationを当てるタスクも解
かせてみた
○ 1 layer RIMs
■ 82% acc
○ higher layer of LSTM(2layer)
■ 76% acc
○ higher layer of BRIMs(2layer)
■ 88% acc
○ lower layer of BRIMs(2layer)
■ 58% acc
実験: Stochastic Moving MNIST Video prediction
20

long-term plan(高い階層)と予期せぬ危険から逃れる(低い階層)
実験: Atari
21

まとめ
● Bidirectional構造によって汎化性能の向上が期待される
○ Top-down構造の情報からbottom-up情報で注目すべき情報を選別する
■ priorのような働き
○ Bidirectionalのみでは不十分
■ ただconcatとかするよりはAttention
■ Modularity (Independent Dynamics)も大事
● Modularity無し(LSTM) < Modularity有り(RIMs)
● BRIMsは既存のRecurrent構造の置き換え可能
○ 追加のロスが必要な訳ではない
○ LSTMの部分をBRIMsに変えるみたいなことができる
22

【DL輪読会】Learning to-combine-top-down-and-bottom-up-signals-in-recurrent-neural-networks-with-attention-over-modules upload

Recomendados

Recomendados

Más contenido relacionado

Más de Deep Learning JP

Más de Deep Learning JP (20)

Último

Último (11)

【DL輪読会】Learning to-combine-top-down-and-bottom-up-signals-in-recurrent-neural-networks-with-attention-over-modules upload

Notas del editor