SlideShare una empresa de Scribd logo
1 de 28
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Temporal DifferenceVariational Auto-Encoder
Presenter: Masahiro Suzuki, Matsuo Lab
2018/11/30(発表後一部修正)
輪読内容について
• Temporal Difference Variational Auto-Encoder
– Karol Gregor, Frederic Besse
• GregorさんはDRAWを提案した人
• ICLRに採録(オーラル,スコアが8,9,7)
• TD-VAEを提案した論文
– 系列情報を扱う深層生成モデル
– ある任意ステップまで「飛び越えて」推論ができる点がすごい
-> 汎用AIの大きな課題の一つである「時系列の抽象化」に挑んだ研究
• 本論文についての私見
– 強化学習(特にPOMDP)との関係を意識しており,世界モデル研究の1つと位置づけられる.
• どうでもいいけど最近「世界モデル」がバズワード化しないか勝手に心配している.
– 非常に素直なモデルだが,ぱっと見分かりづらい.
• ICLR版でだいぶ改善されている.
• 謝罪
– 関連研究についてあまり調べられませんでした.
– 完全版はまた別の勉強会(強化学習アーキテクチャとか)で話すかもしれない.
2
論文に載ってるTD-VAEの概要図
3
ちょっとよくわからない・・・
背景
4
研究背景
• 系列の生成モデルは様々な領域で応用されている.
– 音声合成(WaveNet,PixelRNN)
– 翻訳(NMT)
– 画像キャプショニング
• 本研究では部分観測環境の強化学習の問題を考える
– エージェントはこれまで収集した情報から計算した,世界の不確実性を表現する必要がある.
– モデルベースで考えると,エージェントは過去と一貫性のある遠い未来を想像しなければならない.
• ステップごとにプランニングするのは認知学的にも計算量的にも現実的ではない.
-> これらを一気に解決できるような世界モデルを考えたい
5
部分観測環境における世界モデルに求められること
• 著者らは次の3つの性質を同時に持つことが必要であるとしている.
1. データから抽象的な状態表現を学習して,状態表現を利用した予測を行える必要がある.
2. ある時間までの全ての観測データが与えられた下での,状態のフィルタリング分布の決定論的かつコード化され
た表現(信念状態)を学習しなければならない.
• この信念状態にはエージェントが世界について知っている全ての情報が含まれている.
• つまり,最適化するための行動に関する情報も含まれている.
3. 時間方向について抽象化している必要がある.
• ステップを飛び越えて(jumpy)未来を予測することができる.
• 時間的に離れたデータから(その間のステップを誤差逆伝播せずに)学習できる必要がある.
• 既存研究ではこれらをすべて満たす研究は存在しない.
-> Temporal Difference Variational Auto-Encoder (TD-VAE)を提案
6
既存の系列モデル
7
系列情報の扱い方:自己回帰モデル
系列データ(𝑥1, … , 𝑥 𝑇)をモデル化する方法としては,自己回帰モデルと状態空間モデ
ルが知られている.
• 自己回帰モデル
– 尤度を条件付き分布の積で表す.
log 𝑝(𝑥1, … , 𝑥 𝑇) =
𝑡
log 𝑝(𝑥𝑡|𝑥1, … , 𝑥𝑡−1)
– RNNをつかって,これまでのデータを内部状態ℎにまとめることで簡単に計算できる.
• 欠点:
– 元の観測空間でしか学習しない(圧縮した表現を学習しない).
– 計算コストがかかる(各ステップでデコードとエンコードを繰り返す必要性).
– 不安定(実データを入れるRNNには,テスト時に前の予測が入ってくる). 8
ℎ 𝑡 = 𝑓(ℎ 𝑡−1, 𝑥𝑡)
系列情報の扱い方:状態空間モデル
• 状態空間モデル
– 状態系列𝐳 = (𝑧1, … , 𝑧 𝑇)および観測系列𝐱 = (𝑥1, … , 𝑥 𝑇)が与えられたときに,
とすると,ELBO(変分下界)は次のようになる.
• 特徴:
– 入力𝑥を確率的な状態(潜在変数)𝑧に圧縮する.
• ちなみに,この辺りの研究ではxとzを逆にしたりするらしい.
– 状態空間内での遷移が可能(自己回帰モデルのように毎回エンコードとデコードをする必要がない)
9
同時分布:𝑝(𝐱, 𝐳) = 𝑡 𝑝 𝑧𝑡 𝑧𝑡−1 𝑝(𝑥𝑡|𝑧𝑡)
推論分布:𝑞(𝐳|𝐱) = 𝑡 𝑞 𝑧𝑡 𝑧𝑡−1, 𝜙 𝑡(𝐱) (自己回帰)
log 𝑝(𝐱) ≥ 𝐸 𝑧~𝑞 𝑧|𝑥
𝑡
log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝 𝑧𝑡 𝑧𝑡−1 − log 𝑞 𝑧𝑡 𝑧𝑡−1, 𝜙 𝑡(𝐱)
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
TD-VAE
10
状態空間モデルにおける未来の入力の予測
• 時系列モデルでは,過去の入力が与えられた下での未来の入力を予測したい.
– つまり条件付き分布𝑝(𝑥𝑡+1, … , 𝑥 𝑇|𝑥1, … , 𝑥𝑡) の推論
• 状態空間モデルでは,推論分布を使って入力𝐱から𝑧を推論してから未来の入力を
生成する
– 𝑧への推論は自己回帰的な事後分布𝑞 𝐳 𝐱 = 𝑡 𝑞(𝑧𝑡|𝑧𝑡−1, 𝐱)で計算していた.
– しかし,入力𝐱における状態𝑧𝑡を得るためには,𝑧𝑡−1の再サンプリングが必要であり,𝑧𝑡−1について
も・・・と考えると,𝑧1から全て再サンプリングしなければならない.
11
𝑥 𝑡−1
𝑧𝑡−1
𝑥 𝑡
𝑧𝑡
フィルタリング分布と信念状態
• そこで,新たにフィルタリング分布 𝑝(𝑧𝑡|𝑥1, … , 𝑥𝑡) を導入する.
– 𝑧𝑡の推論は現在までの入力(𝑥1, … , 𝑥𝑡)のみに依存する(未来の𝑥や他の時点の𝑧には依存しない).
– 強化学習(POMDP)における信念状態といわれるものに相当.
• フィルタリング分布を使うと,未来の入力の予測分布は次のように導出できる.
• 信念状態とPOMDP
– POMDPにおける最適方策との関わりでこれまでも知られていたが,学習した深層モデルにおける信念状態
を考える研究は殆どなかった.
12
𝑥 𝑡−1
𝑧𝑡−1
𝑥 𝑡
𝑧𝑡
𝑝 𝑥𝑡+1, … , 𝑥 𝑇 𝑥1, … , 𝑥𝑡 = 𝑝 𝑥𝑡+1, … , 𝑥 𝑇 𝑧𝑡 𝑝 𝑧𝑡 𝑥1, . . , 𝑥𝑡 𝑑𝑧𝑡
𝑝 𝑧𝑡 𝑥1, . . , 𝑥 𝑡
状態空間モデルにおける条件付き分布のELBO
• 状態空間モデルの尤度を条件付き分布の積で表す(自己回帰的に分解).
– このとき条件付き分布のELBOは,信念状態𝑝(𝑧𝑡|𝑥≤𝑡)を導入することで,2つの潜在変数( 𝑧𝑡−1 , 𝑧𝑡)だけを
使って表現できる.
13
信念状態 推論モデル
信念状態
さりげなく過去への推論になってる
log 𝑝 𝐱 =
𝑡
log 𝑝(𝑥 𝑡|𝑥<𝑡)
log 𝑝(𝑥𝑡|𝑥<𝑡) ≥ 𝔼 𝑞(𝑧 𝑡−1 𝑧 𝑡|𝑥≤𝑡) log
𝑝(𝑥𝑡, 𝑧𝑡−1 𝑧𝑡|𝑥<𝑡)
𝑞 𝑧𝑡−1, 𝑧𝑡 𝑥≤𝑡
= 𝔼 𝑞(𝑧 𝑡|𝑥≤𝑡)𝑞(𝑧 𝑡−1|𝑧 𝑡,𝑥≤𝑡)[log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝(𝑧𝑡−1|𝑥<𝑡) + log 𝑝(𝑧𝑡|𝑧𝑡−1)
− log 𝑞 𝑧𝑡 𝑥≤𝑡 − log 𝑞(𝑧𝑡−1|𝑧𝑡, 𝑥≤𝑡)]
生成モデル生成モデル
𝑥 𝑡−1
𝑧𝑡−1
𝑥 𝑡
𝑧𝑡
信念状態のコードの導入
• 信念状態の「コード」𝑏𝑡 = 𝑓(𝑏𝑡−1, 𝑥𝑡)を導入する.
– 𝑓は任意の関数(RNNとか)
– すると信念状態は𝑝 𝑧𝑡 𝑥≤𝑡 = 𝑝(𝑧𝑡|𝑏𝑡)と表せる(入力が𝑏になる).
– また,推論分布はコードを使って𝑞 𝑧𝑡−1 𝑧𝑡, 𝑥≤𝑡 = 𝑞(𝑧𝑡−1|𝑧𝑡, 𝑏𝑡−1, 𝑏𝑡)と
なる.
• 以上より,目的関数(ELBO)は次のようになる.
14
信念状態 推論モデル
信念状態
− log 𝑝 𝐵 𝑧𝑡 𝑏𝑡 − log 𝑞(𝑧𝑡−1|𝑧𝑡, 𝑏𝑡−1, 𝑏𝑡)]
生成モデル生成モデル
ℒ = 𝔼 𝑝 𝐵(𝑧 𝑡|𝑏 𝑡)𝑞(𝑧 𝑡−1|𝑧 𝑡,𝑏 𝑡−1,𝑏 𝑡)[log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝 𝐵(𝑧𝑡−1|𝑏𝑡−1) + log 𝑝(𝑧𝑡|𝑧𝑡−1)
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
𝑏𝑡−1 𝑏𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
Jumpy状態のモデリング
• ここまで導出したモデルは,あるステップから次のステップで状態がどのように変わる
かを表したモデル
• しかし実際のプランニングでは,各ステップで観測を受け取って単純に行動する訳では
ない.
– 例:海外旅行のプランニングでは,旅行オプションの議論,目的地の選択,チケット購入など
– それぞれは異なるタイムスケールになっており,一秒ごとにプランニングを立てる訳ではない.
-> 直接将来の状態を想像できる(jumpy)モデルが必要
• その他にも未来を直接モデル化する幾つかのモチベーションがある.
– 未来からの訓練信号は時間ステップ間の小さな変化に対して頑健であるべき.
– 時間を任意に取りたい場合,データの時間的なサブサンプリングと独立であるべき.
– Jumpy予測は,時間効率的にもいい.
• 類似の研究はあるが,状態の学習を行わず,完全観測問題のみに焦点を当てている.
15
TD-VAE
• 前ページの議論から,時間について抽象化できるようにモデルを拡張する.
– 𝑡から𝑡 + 1の遷移をモデル化するのではなく,任意のステップ 𝑡1 ,𝑡2 間の状態をjumpyに推論するモデルを考える.
– ELBOは次のように変わる(時間ステップが変わっただけ)
– 学習するときには𝑡2 − 𝑡1として[1, 𝐷]の任意の範囲をサンプリングして学習する.
• 𝑝(𝑧𝑡2
|𝑧𝑡1
)と𝑞(𝑧𝑡1
|𝑧𝑡2
, 𝑏𝑡1
, 𝑏𝑡2
)はどう設計するの????
– これらの分布は任意の時間幅で飛べるらしい(𝑡2 − 𝑡1 = 𝛿𝑡として𝑝(𝑧2|𝑧1, 𝛿𝑡)といった感じ)
– arXiv版をみると,
という感じでパラメータ化している.
16
ℒ 𝑡1,𝑡2
= 𝔼 𝑝 𝐵(𝑧 𝑡2|𝑏 𝑡2)𝑞(𝑧 𝑡1|𝑧 𝑡2,𝑏 𝑡1,𝑏 𝑡2)[log 𝑝 𝑥𝑡2
𝑧𝑡2
+ log 𝑝 𝐵(𝑧𝑡1
|𝑏𝑡1
) + log 𝑝(𝑧𝑡2
|𝑧𝑡1
)
− log 𝑝 𝐵 𝑧𝑡2
𝑏𝑡2
− log 𝑞(𝑧𝑡1
|𝑧𝑡2
, 𝑏𝑡1
, 𝑏𝑡2
)]
改めて図をみる
17
やっぱりよくわからん・・・
Gregor先生のお気持ち解説(4.2節)を読むといいかも
ポイント
• 重要なのは,第2項と第5項
– 学習するときには(先ほどの図では)KLダイバージェンスになっている.
– これはつまり,現在の推論を未来からの推論と近づけているということ
– 𝑡1の時点で利用可能な情報だけを使って,どれだけ未来からの推論と同じくらいの推論ができたか?を評価して
いる
-> CVAEやGQNなどと共通する考え方
– “TD”-VAEという名前は,このあたりとTD誤差との関連性から. 18
𝑥 𝑡−1
𝑧𝑡−1
𝑥 𝑡
𝑧𝑡
𝑏𝑡−1 𝑏𝑡
ℒ 𝑡1,𝑡2
= 𝔼 𝑝 𝐵(𝑧 𝑡2|𝑏 𝑡2)𝑞(𝑧 𝑡1|𝑧 𝑡2,𝑏 𝑡1,𝑏 𝑡2)[log 𝑝 𝑥 𝑡2
𝑧𝑡2
+ log 𝑝 𝐵(𝑧𝑡1
|𝑏𝑡1
) + log 𝑝(𝑧𝑡2
|𝑧𝑡1
)
− log 𝑝 𝐵 𝑧𝑡2
𝑏𝑡2
− log 𝑞(𝑧𝑡1
|𝑧𝑡2
, 𝑏𝑡1
, 𝑏𝑡2
)]
𝐷 𝐾𝐿[𝑞(𝑧𝑡1
|𝑧𝑡2
, 𝑏𝑡1
, 𝑏𝑡2
)| 𝑝(𝑧𝑡1
𝑏𝑡1
)]
補足:VAE×RNN Zoo
• VAE×RNNの研究一覧(生成モデル(上段)で分類,VSMC系は載せていない)
※分布(矢印)は概ね時刻𝑡に関するもののみ描画
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
Deep Markov Model [Krishnan+ 17]
(Deep Kalman Filter [Krishnan+ 15])
※推論分布は論文内でいくつか提案されている
ℎ 𝑡−1 ℎ 𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
SRNN [Fraccaro+ 16]
ℎ 𝑡−1 ℎ 𝑡
𝑑 𝑡−1 𝑑 𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
TD-VAE [Gregor+ 18]
𝑏𝑡−1 𝑏𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
VRNN [Chung+ 16]
ℎ 𝑡−1 ℎ 𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
STORN [Bayer+ 15]
ℎ 𝑡−1 ℎ 𝑡
𝑑 𝑡−1 𝑑 𝑡
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
Z-forcing [Goyal+ 17]
ℎ 𝑡−1 ℎ 𝑡
𝑏𝑡−1 𝑏𝑡
𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) = 𝑝(𝑧𝑡|𝑧1:𝑡−1, 𝑥1:𝑡−1)
𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) = 𝑝(𝑧𝑡) 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) = 𝑝(𝑧𝑡|𝑧𝑡−1, 𝑥)
𝑥𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
状態空間モデル
※actionは省略
𝑝 𝑥, 𝑧 = Π 𝑡 𝑝 𝑥𝑡 𝑧𝑡 𝑝 𝑧𝑡 𝑧𝑡−1
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
𝑥𝑡−1
𝑝 𝑥, 𝑧 = Π 𝑡 𝑝 𝑥𝑡 𝑥1:𝑡−1, 𝑧1:𝑡 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡)
𝑧𝑡−1
𝑥𝑡
𝑧𝑡
𝑥𝑡−1
𝑝 𝑥, 𝑧
= Π 𝑡 𝑝 𝑥𝑡+1 𝑥1:𝑡, 𝑧1:𝑡 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡)
19
実験
20
実験1
• 部分観測なMiniPacman [Racanière et al., 2017]
– エージェントは幽霊を避けながら迷路内のすべての食物を食べようとする.
– 観測できるのは5×5のウィンドウ(右)
-> 高いスコアを達成するためには(過去の経験や環境の不確実性を考慮しつつ)信念状態を形成する必要がある.
• この実験では,non-jumpyなTD-VAEが適切に学習できるか確認する.
– 標準的なELBOの下での2つの状態空間モデルと比較
-> TD-VAEのELBOの有効性を評価
21
Under review as aconference paper at ICLR 2019
ELBO − logp(x) (est.)
Filtering model 0.1169± 0.0003 0.0962± 0.0007
Mean-field model 0.1987± 0.0004 0.1678± 0.0010
TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006
Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is
navigating the mazetrying to eat all the food (blue) whilebeing chased by aghost (red). Top right:
A sequence of observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right:
ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter.
Log probability isestimated using importance sampling with theencoder as proposal.
Under review asaconference paper at ICLR 2019
ELBO − logp(x) (est.)
Filtering model 0.1169± 0.0003 0.0962± 0.0007
Mean-field model 0.1987± 0.0004 0.1678± 0.0010
TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006
Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is
navigating themazetrying to eat all thefood (blue) whilebeing chased by aghost (red). Top right:
A sequenceof observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right:
ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter.
Log probability isestimated using importance sampling with theencoder asproposal.
実験1
• 実験結果
– テスト集合に対する(恐らく負の)変分下界と負の対数尤度での評価
– 小さい方が良いモデル.
– TD-VAEが最も良い結果
– 平均場モデルが低い結果になっている
• 平均場モデルでは𝑏𝑡が信念状態のコードになっているが,フィルタリングモデルではそうなっていないことに注意(フィルタリングモデルでは,
エンコーダで前のステップの𝑧に依存しているので)
信念状態を得るために単純にエンコーダを制限するだけでは精度が下がる
22
Under review asaconference paper at ICLR 2019
ELBO − logp(x) (est.)
Filtering model 0.1169± 0.0003 0.0962± 0.0007
Mean-field model 0.1987± 0.0004 0.1678± 0.0010
TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006
Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is
navigating themazetrying to eat all thefood (blue) whilebeing chased by aghost (red). Top right:
A sequenceof observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right:
ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter.
Log probability isestimated using importance sampling with theencoder asproposal.
実験2
• Moving MNIST
– 各ステップで移動するMNIST
– [1,4]の範囲でステップを飛び越えて学習し,生成できるかを実験
• 実験結果:
– ステップ数を飛ばしても生成できた.
– (明示的に書いてないが恐らく)一番左が元画像で各列が飛ばしたステップ数[1,4]に対応している
23
Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is
navigating themazetrying to eat all the food (blue) whilebeing chased by aghost (red). Top right:
A sequence of observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right:
ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter.
Log probability isestimated using importance sampling with theencoder asproposal.
Figure 3: Moving MNIST. Left: Rowsare example input sequences. Right: Jumpy rollouts from
themodel. Weseethat themodel isable to roll forward by skipping frames, keeping thecorrect digit
and thedirection of motion.
5.2 MOVING MNIST
In thisexperiment, weshow that themodel isable to learn thestateand roll forward in jumps. We
consider sequencesof length 20 of images of MNIST digits. For each sequence, arandom digit from
thedataset ischosen, aswell asthedirection of movement (left or right). At each timestep, thedigit
movesby one pixel in the chosen direction, asshown in Figure 3. Wetrain the model with t1 and
t2 separated by arandom amount t2 − t1 from theinterval [1, 4]. Wewould liketo seewhether the
model at agiven timecan roll out asimulated experience in timesteps t1 = t + δ1, t2 = t1 + δ2, . . .
with δ1, δ2, . . . > 1, without considering theinputsin between thesetimepoints. Notethat it isnot
sufficient to predict thefuture inputs xt 1 , . . . asthey do not contain information about whether the
digit movesleft or right. Weneed to sample astate that contains this information.
Weroll out asequence from themodel asfollows: (a) bt iscomputed by the aggregation recurrent
network from observations up to time t; (b) a state zt is sampled from pB (zt | bt ); (c) a sequence
0 0
ELBO − logp(x) (est.)
Filtering model 0.1169± 0.0003 0.0962± 0.0007
Mean-field model 0.1987± 0.0004 0.1678± 0.0010
TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006
re 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is
gating themazetrying to eat all the food (blue) whilebeing chased by aghost (red). Top right:
quence of observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right:
O and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter.
probability isestimated using importance sampling with theencoder asproposal.
re 3: Moving MNIST. Left: Rowsare example input sequences. Right: Jumpy rollouts from
model. Wesee that themodel isable to roll forward by skipping frames, keeping thecorrect digit
the direction of motion.
実験3
• ノイズの多い高調波発振器から得られた1次元シーケンス
– 各観測で情報がほとんどなくても(ノイズが入っていても)モデルが状態を構築できることを示す.
– RNNにはLSTMを用いて,階層TD-VAEを使って学習.
• bが階層化している(説明は省略)
– ステップ幅は確率0.8で[1,10]の間,確率0.2で[1,120]の間として学習
• 実験結果:
– 20ステップ及び100ステップ飛ばした結果
– ノイズが多い観測データでも生成できている.
24
Under review asaconference paper at ICLR 2019
Figure4: Skip-state prediction for 1D signal. Theinput isgenerated by anoisy harmonic oscillator.
Rollouts consist of (a) ajumpy state transition with either dt = 20 or dt = 100, followed by 20 state
transitions with dt = 1. The model is able to create a state and predict it into the future, correctly
predicting frequency and magnitude of thesignal.
predict asmuch aspossible about thestate, which consists of frequency, magnitude and position, and
it isonly theposition that cannot beaccurately predicted.
実験4
• DeepMInd Lab環境
– アーキテクチャはConvDRAWを参考したものに変更(恐らくGQNと同じ使い方)
• 実験結果:
– モデルの信念の確認(ある信念からランダムに𝑧を生成)
– 左の画像:それぞれの𝑧サンプルから画像を生成
-> 同じフレームが生成できている
– 右の画像:それぞれの𝑧サンプルから任意にステップを飛んで生成
• 各信念内では同じような画像が生成されているが,信念によって出てくるフレームが異なる
->各信念で取りうる未来が異なっている
25
実験4
• 実験結果:
– ステップを飛び越えて行動を進めることができる.
– 図をどう見ればいいかは正直不明(rolloutと書いているので,多分MNISTと同じ感じ)
26
まとめ
27
まとめ
• 本研究では,時系列を扱う世界モデルとしてTD-VAEを提案した.
– 特に,時間方向の抽象化を意識している.
– arXiv版ではあまり強調されていなかった気がする.
• 感想:
– 世界モデルにおいて「時間を抽象化」できるようになった初めての研究(ICLR的には結構受けそう)
– 個人的にはGQNよりも好き.
– 細かい記述がなかったりするので,とりあえずPixyzとかで実装して動作確認してみたい(公式の実装は公開され
ていない).
28

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 

Similar a [DL輪読会]Temporal DifferenceVariationalAuto-Encoder

プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズム
Takuya Akiba
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Yuya Unno
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Yuya Unno
 

Similar a [DL輪読会]Temporal DifferenceVariationalAuto-Encoder (20)

GANの基本
GANの基本GANの基本
GANの基本
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
Analyze by StatsModels or Numpy
Analyze by StatsModels or NumpyAnalyze by StatsModels or Numpy
Analyze by StatsModels or Numpy
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
KDD2014 勉強会
KDD2014 勉強会KDD2014 勉強会
KDD2014 勉強会
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
第3回nips読み会・関西『variational inference foundations and modern methods』
第3回nips読み会・関西『variational inference  foundations and modern methods』第3回nips読み会・関西『variational inference  foundations and modern methods』
第3回nips読み会・関西『variational inference foundations and modern methods』
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
 
Maeshori missing
Maeshori missingMaeshori missing
Maeshori missing
 
Machine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEEMachine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEE
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズム
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
Rで学ぶロバスト推定
Rで学ぶロバスト推定Rで学ぶロバスト推定
Rで学ぶロバスト推定
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
 

Más de Deep Learning JP

Más de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]Temporal DifferenceVariationalAuto-Encoder

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Temporal DifferenceVariational Auto-Encoder Presenter: Masahiro Suzuki, Matsuo Lab 2018/11/30(発表後一部修正)
  • 2. 輪読内容について • Temporal Difference Variational Auto-Encoder – Karol Gregor, Frederic Besse • GregorさんはDRAWを提案した人 • ICLRに採録(オーラル,スコアが8,9,7) • TD-VAEを提案した論文 – 系列情報を扱う深層生成モデル – ある任意ステップまで「飛び越えて」推論ができる点がすごい -> 汎用AIの大きな課題の一つである「時系列の抽象化」に挑んだ研究 • 本論文についての私見 – 強化学習(特にPOMDP)との関係を意識しており,世界モデル研究の1つと位置づけられる. • どうでもいいけど最近「世界モデル」がバズワード化しないか勝手に心配している. – 非常に素直なモデルだが,ぱっと見分かりづらい. • ICLR版でだいぶ改善されている. • 謝罪 – 関連研究についてあまり調べられませんでした. – 完全版はまた別の勉強会(強化学習アーキテクチャとか)で話すかもしれない. 2
  • 5. 研究背景 • 系列の生成モデルは様々な領域で応用されている. – 音声合成(WaveNet,PixelRNN) – 翻訳(NMT) – 画像キャプショニング • 本研究では部分観測環境の強化学習の問題を考える – エージェントはこれまで収集した情報から計算した,世界の不確実性を表現する必要がある. – モデルベースで考えると,エージェントは過去と一貫性のある遠い未来を想像しなければならない. • ステップごとにプランニングするのは認知学的にも計算量的にも現実的ではない. -> これらを一気に解決できるような世界モデルを考えたい 5
  • 6. 部分観測環境における世界モデルに求められること • 著者らは次の3つの性質を同時に持つことが必要であるとしている. 1. データから抽象的な状態表現を学習して,状態表現を利用した予測を行える必要がある. 2. ある時間までの全ての観測データが与えられた下での,状態のフィルタリング分布の決定論的かつコード化され た表現(信念状態)を学習しなければならない. • この信念状態にはエージェントが世界について知っている全ての情報が含まれている. • つまり,最適化するための行動に関する情報も含まれている. 3. 時間方向について抽象化している必要がある. • ステップを飛び越えて(jumpy)未来を予測することができる. • 時間的に離れたデータから(その間のステップを誤差逆伝播せずに)学習できる必要がある. • 既存研究ではこれらをすべて満たす研究は存在しない. -> Temporal Difference Variational Auto-Encoder (TD-VAE)を提案 6
  • 8. 系列情報の扱い方:自己回帰モデル 系列データ(𝑥1, … , 𝑥 𝑇)をモデル化する方法としては,自己回帰モデルと状態空間モデ ルが知られている. • 自己回帰モデル – 尤度を条件付き分布の積で表す. log 𝑝(𝑥1, … , 𝑥 𝑇) = 𝑡 log 𝑝(𝑥𝑡|𝑥1, … , 𝑥𝑡−1) – RNNをつかって,これまでのデータを内部状態ℎにまとめることで簡単に計算できる. • 欠点: – 元の観測空間でしか学習しない(圧縮した表現を学習しない). – 計算コストがかかる(各ステップでデコードとエンコードを繰り返す必要性). – 不安定(実データを入れるRNNには,テスト時に前の予測が入ってくる). 8 ℎ 𝑡 = 𝑓(ℎ 𝑡−1, 𝑥𝑡)
  • 9. 系列情報の扱い方:状態空間モデル • 状態空間モデル – 状態系列𝐳 = (𝑧1, … , 𝑧 𝑇)および観測系列𝐱 = (𝑥1, … , 𝑥 𝑇)が与えられたときに, とすると,ELBO(変分下界)は次のようになる. • 特徴: – 入力𝑥を確率的な状態(潜在変数)𝑧に圧縮する. • ちなみに,この辺りの研究ではxとzを逆にしたりするらしい. – 状態空間内での遷移が可能(自己回帰モデルのように毎回エンコードとデコードをする必要がない) 9 同時分布:𝑝(𝐱, 𝐳) = 𝑡 𝑝 𝑧𝑡 𝑧𝑡−1 𝑝(𝑥𝑡|𝑧𝑡) 推論分布:𝑞(𝐳|𝐱) = 𝑡 𝑞 𝑧𝑡 𝑧𝑡−1, 𝜙 𝑡(𝐱) (自己回帰) log 𝑝(𝐱) ≥ 𝐸 𝑧~𝑞 𝑧|𝑥 𝑡 log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝 𝑧𝑡 𝑧𝑡−1 − log 𝑞 𝑧𝑡 𝑧𝑡−1, 𝜙 𝑡(𝐱) 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡
  • 11. 状態空間モデルにおける未来の入力の予測 • 時系列モデルでは,過去の入力が与えられた下での未来の入力を予測したい. – つまり条件付き分布𝑝(𝑥𝑡+1, … , 𝑥 𝑇|𝑥1, … , 𝑥𝑡) の推論 • 状態空間モデルでは,推論分布を使って入力𝐱から𝑧を推論してから未来の入力を 生成する – 𝑧への推論は自己回帰的な事後分布𝑞 𝐳 𝐱 = 𝑡 𝑞(𝑧𝑡|𝑧𝑡−1, 𝐱)で計算していた. – しかし,入力𝐱における状態𝑧𝑡を得るためには,𝑧𝑡−1の再サンプリングが必要であり,𝑧𝑡−1について も・・・と考えると,𝑧1から全て再サンプリングしなければならない. 11 𝑥 𝑡−1 𝑧𝑡−1 𝑥 𝑡 𝑧𝑡
  • 12. フィルタリング分布と信念状態 • そこで,新たにフィルタリング分布 𝑝(𝑧𝑡|𝑥1, … , 𝑥𝑡) を導入する. – 𝑧𝑡の推論は現在までの入力(𝑥1, … , 𝑥𝑡)のみに依存する(未来の𝑥や他の時点の𝑧には依存しない). – 強化学習(POMDP)における信念状態といわれるものに相当. • フィルタリング分布を使うと,未来の入力の予測分布は次のように導出できる. • 信念状態とPOMDP – POMDPにおける最適方策との関わりでこれまでも知られていたが,学習した深層モデルにおける信念状態 を考える研究は殆どなかった. 12 𝑥 𝑡−1 𝑧𝑡−1 𝑥 𝑡 𝑧𝑡 𝑝 𝑥𝑡+1, … , 𝑥 𝑇 𝑥1, … , 𝑥𝑡 = 𝑝 𝑥𝑡+1, … , 𝑥 𝑇 𝑧𝑡 𝑝 𝑧𝑡 𝑥1, . . , 𝑥𝑡 𝑑𝑧𝑡 𝑝 𝑧𝑡 𝑥1, . . , 𝑥 𝑡
  • 13. 状態空間モデルにおける条件付き分布のELBO • 状態空間モデルの尤度を条件付き分布の積で表す(自己回帰的に分解). – このとき条件付き分布のELBOは,信念状態𝑝(𝑧𝑡|𝑥≤𝑡)を導入することで,2つの潜在変数( 𝑧𝑡−1 , 𝑧𝑡)だけを 使って表現できる. 13 信念状態 推論モデル 信念状態 さりげなく過去への推論になってる log 𝑝 𝐱 = 𝑡 log 𝑝(𝑥 𝑡|𝑥<𝑡) log 𝑝(𝑥𝑡|𝑥<𝑡) ≥ 𝔼 𝑞(𝑧 𝑡−1 𝑧 𝑡|𝑥≤𝑡) log 𝑝(𝑥𝑡, 𝑧𝑡−1 𝑧𝑡|𝑥<𝑡) 𝑞 𝑧𝑡−1, 𝑧𝑡 𝑥≤𝑡 = 𝔼 𝑞(𝑧 𝑡|𝑥≤𝑡)𝑞(𝑧 𝑡−1|𝑧 𝑡,𝑥≤𝑡)[log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝(𝑧𝑡−1|𝑥<𝑡) + log 𝑝(𝑧𝑡|𝑧𝑡−1) − log 𝑞 𝑧𝑡 𝑥≤𝑡 − log 𝑞(𝑧𝑡−1|𝑧𝑡, 𝑥≤𝑡)] 生成モデル生成モデル 𝑥 𝑡−1 𝑧𝑡−1 𝑥 𝑡 𝑧𝑡
  • 14. 信念状態のコードの導入 • 信念状態の「コード」𝑏𝑡 = 𝑓(𝑏𝑡−1, 𝑥𝑡)を導入する. – 𝑓は任意の関数(RNNとか) – すると信念状態は𝑝 𝑧𝑡 𝑥≤𝑡 = 𝑝(𝑧𝑡|𝑏𝑡)と表せる(入力が𝑏になる). – また,推論分布はコードを使って𝑞 𝑧𝑡−1 𝑧𝑡, 𝑥≤𝑡 = 𝑞(𝑧𝑡−1|𝑧𝑡, 𝑏𝑡−1, 𝑏𝑡)と なる. • 以上より,目的関数(ELBO)は次のようになる. 14 信念状態 推論モデル 信念状態 − log 𝑝 𝐵 𝑧𝑡 𝑏𝑡 − log 𝑞(𝑧𝑡−1|𝑧𝑡, 𝑏𝑡−1, 𝑏𝑡)] 生成モデル生成モデル ℒ = 𝔼 𝑝 𝐵(𝑧 𝑡|𝑏 𝑡)𝑞(𝑧 𝑡−1|𝑧 𝑡,𝑏 𝑡−1,𝑏 𝑡)[log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝 𝐵(𝑧𝑡−1|𝑏𝑡−1) + log 𝑝(𝑧𝑡|𝑧𝑡−1) 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 𝑏𝑡−1 𝑏𝑡 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡
  • 15. Jumpy状態のモデリング • ここまで導出したモデルは,あるステップから次のステップで状態がどのように変わる かを表したモデル • しかし実際のプランニングでは,各ステップで観測を受け取って単純に行動する訳では ない. – 例:海外旅行のプランニングでは,旅行オプションの議論,目的地の選択,チケット購入など – それぞれは異なるタイムスケールになっており,一秒ごとにプランニングを立てる訳ではない. -> 直接将来の状態を想像できる(jumpy)モデルが必要 • その他にも未来を直接モデル化する幾つかのモチベーションがある. – 未来からの訓練信号は時間ステップ間の小さな変化に対して頑健であるべき. – 時間を任意に取りたい場合,データの時間的なサブサンプリングと独立であるべき. – Jumpy予測は,時間効率的にもいい. • 類似の研究はあるが,状態の学習を行わず,完全観測問題のみに焦点を当てている. 15
  • 16. TD-VAE • 前ページの議論から,時間について抽象化できるようにモデルを拡張する. – 𝑡から𝑡 + 1の遷移をモデル化するのではなく,任意のステップ 𝑡1 ,𝑡2 間の状態をjumpyに推論するモデルを考える. – ELBOは次のように変わる(時間ステップが変わっただけ) – 学習するときには𝑡2 − 𝑡1として[1, 𝐷]の任意の範囲をサンプリングして学習する. • 𝑝(𝑧𝑡2 |𝑧𝑡1 )と𝑞(𝑧𝑡1 |𝑧𝑡2 , 𝑏𝑡1 , 𝑏𝑡2 )はどう設計するの???? – これらの分布は任意の時間幅で飛べるらしい(𝑡2 − 𝑡1 = 𝛿𝑡として𝑝(𝑧2|𝑧1, 𝛿𝑡)といった感じ) – arXiv版をみると, という感じでパラメータ化している. 16 ℒ 𝑡1,𝑡2 = 𝔼 𝑝 𝐵(𝑧 𝑡2|𝑏 𝑡2)𝑞(𝑧 𝑡1|𝑧 𝑡2,𝑏 𝑡1,𝑏 𝑡2)[log 𝑝 𝑥𝑡2 𝑧𝑡2 + log 𝑝 𝐵(𝑧𝑡1 |𝑏𝑡1 ) + log 𝑝(𝑧𝑡2 |𝑧𝑡1 ) − log 𝑝 𝐵 𝑧𝑡2 𝑏𝑡2 − log 𝑞(𝑧𝑡1 |𝑧𝑡2 , 𝑏𝑡1 , 𝑏𝑡2 )]
  • 18. ポイント • 重要なのは,第2項と第5項 – 学習するときには(先ほどの図では)KLダイバージェンスになっている. – これはつまり,現在の推論を未来からの推論と近づけているということ – 𝑡1の時点で利用可能な情報だけを使って,どれだけ未来からの推論と同じくらいの推論ができたか?を評価して いる -> CVAEやGQNなどと共通する考え方 – “TD”-VAEという名前は,このあたりとTD誤差との関連性から. 18 𝑥 𝑡−1 𝑧𝑡−1 𝑥 𝑡 𝑧𝑡 𝑏𝑡−1 𝑏𝑡 ℒ 𝑡1,𝑡2 = 𝔼 𝑝 𝐵(𝑧 𝑡2|𝑏 𝑡2)𝑞(𝑧 𝑡1|𝑧 𝑡2,𝑏 𝑡1,𝑏 𝑡2)[log 𝑝 𝑥 𝑡2 𝑧𝑡2 + log 𝑝 𝐵(𝑧𝑡1 |𝑏𝑡1 ) + log 𝑝(𝑧𝑡2 |𝑧𝑡1 ) − log 𝑝 𝐵 𝑧𝑡2 𝑏𝑡2 − log 𝑞(𝑧𝑡1 |𝑧𝑡2 , 𝑏𝑡1 , 𝑏𝑡2 )] 𝐷 𝐾𝐿[𝑞(𝑧𝑡1 |𝑧𝑡2 , 𝑏𝑡1 , 𝑏𝑡2 )| 𝑝(𝑧𝑡1 𝑏𝑡1 )]
  • 19. 補足:VAE×RNN Zoo • VAE×RNNの研究一覧(生成モデル(上段)で分類,VSMC系は載せていない) ※分布(矢印)は概ね時刻𝑡に関するもののみ描画 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 Deep Markov Model [Krishnan+ 17] (Deep Kalman Filter [Krishnan+ 15]) ※推論分布は論文内でいくつか提案されている ℎ 𝑡−1 ℎ 𝑡 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 SRNN [Fraccaro+ 16] ℎ 𝑡−1 ℎ 𝑡 𝑑 𝑡−1 𝑑 𝑡 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 TD-VAE [Gregor+ 18] 𝑏𝑡−1 𝑏𝑡 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 VRNN [Chung+ 16] ℎ 𝑡−1 ℎ 𝑡 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 STORN [Bayer+ 15] ℎ 𝑡−1 ℎ 𝑡 𝑑 𝑡−1 𝑑 𝑡 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 Z-forcing [Goyal+ 17] ℎ 𝑡−1 ℎ 𝑡 𝑏𝑡−1 𝑏𝑡 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) = 𝑝(𝑧𝑡|𝑧1:𝑡−1, 𝑥1:𝑡−1) 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) = 𝑝(𝑧𝑡) 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) = 𝑝(𝑧𝑡|𝑧𝑡−1, 𝑥) 𝑥𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 状態空間モデル ※actionは省略 𝑝 𝑥, 𝑧 = Π 𝑡 𝑝 𝑥𝑡 𝑧𝑡 𝑝 𝑧𝑡 𝑧𝑡−1 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 𝑥𝑡−1 𝑝 𝑥, 𝑧 = Π 𝑡 𝑝 𝑥𝑡 𝑥1:𝑡−1, 𝑧1:𝑡 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) 𝑧𝑡−1 𝑥𝑡 𝑧𝑡 𝑥𝑡−1 𝑝 𝑥, 𝑧 = Π 𝑡 𝑝 𝑥𝑡+1 𝑥1:𝑡, 𝑧1:𝑡 𝑝 𝑝𝑟𝑖𝑜𝑟(𝑧𝑡) 19
  • 21. 実験1 • 部分観測なMiniPacman [Racanière et al., 2017] – エージェントは幽霊を避けながら迷路内のすべての食物を食べようとする. – 観測できるのは5×5のウィンドウ(右) -> 高いスコアを達成するためには(過去の経験や環境の不確実性を考慮しつつ)信念状態を形成する必要がある. • この実験では,non-jumpyなTD-VAEが適切に学習できるか確認する. – 標準的なELBOの下での2つの状態空間モデルと比較 -> TD-VAEのELBOの有効性を評価 21 Under review as aconference paper at ICLR 2019 ELBO − logp(x) (est.) Filtering model 0.1169± 0.0003 0.0962± 0.0007 Mean-field model 0.1987± 0.0004 0.1678± 0.0010 TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006 Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is navigating the mazetrying to eat all the food (blue) whilebeing chased by aghost (red). Top right: A sequence of observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right: ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter. Log probability isestimated using importance sampling with theencoder as proposal. Under review asaconference paper at ICLR 2019 ELBO − logp(x) (est.) Filtering model 0.1169± 0.0003 0.0962± 0.0007 Mean-field model 0.1987± 0.0004 0.1678± 0.0010 TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006 Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is navigating themazetrying to eat all thefood (blue) whilebeing chased by aghost (red). Top right: A sequenceof observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right: ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter. Log probability isestimated using importance sampling with theencoder asproposal.
  • 22. 実験1 • 実験結果 – テスト集合に対する(恐らく負の)変分下界と負の対数尤度での評価 – 小さい方が良いモデル. – TD-VAEが最も良い結果 – 平均場モデルが低い結果になっている • 平均場モデルでは𝑏𝑡が信念状態のコードになっているが,フィルタリングモデルではそうなっていないことに注意(フィルタリングモデルでは, エンコーダで前のステップの𝑧に依存しているので) 信念状態を得るために単純にエンコーダを制限するだけでは精度が下がる 22 Under review asaconference paper at ICLR 2019 ELBO − logp(x) (est.) Filtering model 0.1169± 0.0003 0.0962± 0.0007 Mean-field model 0.1987± 0.0004 0.1678± 0.0010 TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006 Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is navigating themazetrying to eat all thefood (blue) whilebeing chased by aghost (red). Top right: A sequenceof observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right: ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter. Log probability isestimated using importance sampling with theencoder asproposal.
  • 23. 実験2 • Moving MNIST – 各ステップで移動するMNIST – [1,4]の範囲でステップを飛び越えて学習し,生成できるかを実験 • 実験結果: – ステップ数を飛ばしても生成できた. – (明示的に書いてないが恐らく)一番左が元画像で各列が飛ばしたステップ数[1,4]に対応している 23 Figure 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is navigating themazetrying to eat all the food (blue) whilebeing chased by aghost (red). Top right: A sequence of observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right: ELBO and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter. Log probability isestimated using importance sampling with theencoder asproposal. Figure 3: Moving MNIST. Left: Rowsare example input sequences. Right: Jumpy rollouts from themodel. Weseethat themodel isable to roll forward by skipping frames, keeping thecorrect digit and thedirection of motion. 5.2 MOVING MNIST In thisexperiment, weshow that themodel isable to learn thestateand roll forward in jumps. We consider sequencesof length 20 of images of MNIST digits. For each sequence, arandom digit from thedataset ischosen, aswell asthedirection of movement (left or right). At each timestep, thedigit movesby one pixel in the chosen direction, asshown in Figure 3. Wetrain the model with t1 and t2 separated by arandom amount t2 − t1 from theinterval [1, 4]. Wewould liketo seewhether the model at agiven timecan roll out asimulated experience in timesteps t1 = t + δ1, t2 = t1 + δ2, . . . with δ1, δ2, . . . > 1, without considering theinputsin between thesetimepoints. Notethat it isnot sufficient to predict thefuture inputs xt 1 , . . . asthey do not contain information about whether the digit movesleft or right. Weneed to sample astate that contains this information. Weroll out asequence from themodel asfollows: (a) bt iscomputed by the aggregation recurrent network from observations up to time t; (b) a state zt is sampled from pB (zt | bt ); (c) a sequence 0 0 ELBO − logp(x) (est.) Filtering model 0.1169± 0.0003 0.0962± 0.0007 Mean-field model 0.1987± 0.0004 0.1678± 0.0010 TD-VAE 0.0773 ± 0.0002 0.0553 ± 0.0006 re 2: MiniPacman. Left: A full frame from the game (size 15 ⇥ 19). Pacman (green) is gating themazetrying to eat all the food (blue) whilebeing chased by aghost (red). Top right: quence of observations, consisting of consecutive5⇥5 windowsaround Pacman. Bottom right: O and estimated negativelog probability on atest set of MiniPacman sequences. Lower isbetter. probability isestimated using importance sampling with theencoder asproposal. re 3: Moving MNIST. Left: Rowsare example input sequences. Right: Jumpy rollouts from model. Wesee that themodel isable to roll forward by skipping frames, keeping thecorrect digit the direction of motion.
  • 24. 実験3 • ノイズの多い高調波発振器から得られた1次元シーケンス – 各観測で情報がほとんどなくても(ノイズが入っていても)モデルが状態を構築できることを示す. – RNNにはLSTMを用いて,階層TD-VAEを使って学習. • bが階層化している(説明は省略) – ステップ幅は確率0.8で[1,10]の間,確率0.2で[1,120]の間として学習 • 実験結果: – 20ステップ及び100ステップ飛ばした結果 – ノイズが多い観測データでも生成できている. 24 Under review asaconference paper at ICLR 2019 Figure4: Skip-state prediction for 1D signal. Theinput isgenerated by anoisy harmonic oscillator. Rollouts consist of (a) ajumpy state transition with either dt = 20 or dt = 100, followed by 20 state transitions with dt = 1. The model is able to create a state and predict it into the future, correctly predicting frequency and magnitude of thesignal. predict asmuch aspossible about thestate, which consists of frequency, magnitude and position, and it isonly theposition that cannot beaccurately predicted.
  • 25. 実験4 • DeepMInd Lab環境 – アーキテクチャはConvDRAWを参考したものに変更(恐らくGQNと同じ使い方) • 実験結果: – モデルの信念の確認(ある信念からランダムに𝑧を生成) – 左の画像:それぞれの𝑧サンプルから画像を生成 -> 同じフレームが生成できている – 右の画像:それぞれの𝑧サンプルから任意にステップを飛んで生成 • 各信念内では同じような画像が生成されているが,信念によって出てくるフレームが異なる ->各信念で取りうる未来が異なっている 25
  • 26. 実験4 • 実験結果: – ステップを飛び越えて行動を進めることができる. – 図をどう見ればいいかは正直不明(rolloutと書いているので,多分MNISTと同じ感じ) 26
  • 28. まとめ • 本研究では,時系列を扱う世界モデルとしてTD-VAEを提案した. – 特に,時間方向の抽象化を意識している. – arXiv版ではあまり強調されていなかった気がする. • 感想: – 世界モデルにおいて「時間を抽象化」できるようになった初めての研究(ICLR的には結構受けそう) – 個人的にはGQNよりも好き. – 細かい記述がなかったりするので,とりあえずPixyzとかで実装して動作確認してみたい(公式の実装は公開され ていない). 28