SlideShare una empresa de Scribd logo
1 de 74
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
"SimPLe", "Improved Dynamics Model", "PlaNet"
近年のVAEベース系列モデルの進展とそのモデルベースRLへの応用
Presentater: Kei Akuzawa, Matsuo Lab. D1
発表のモチベーション&目的
• モチベーション: モデルベースRL, 気づいたら進展してないか?
• PlaNet: D4PGの50+倍のサンプル効率(DeepMind Control Suit)
• SimPLe: Rainbowの2~10+倍(Atari)
• SOLAR: PPOの40倍(Reacher),および実機画像データ2時間(Lego block stacking)
• ……
※ここでのサンプル効率=一定の性能を出すために必要な真の環境とのInteraction数
• 目的: 進展の背景に何があるのかをサーベイすること
• 切り方1: 環境モデル(世界モデル)として働く系列モデルの進展(発表の中心)
• 切り方2: 系列モデルをどうRLに組み入れるかの進展
• (鈴木さんの資料のp10で言われていること:
https://www.slideshare.net/masa_s/ss-97848402 )
AGENDA
• 前置き
• モデルベースRLと環境モデル
• 環境モデルのRLへの活用法
• 環境モデルの系列モデリングとしての区分
• 論文紹介
• SimPLe
• Improved Dynamics Model
• PlaNet
モデルベースRLと環境のモデル
• モデルベースRLの定義(この発表での):
• 現在の状態と行動から次の状態(と得られる報酬)を予測する環境モデルを
何らかの形(次ページ)でRLに組み込んだアルゴリズム
• Notation:
• 𝑠𝑡: 状態.POMDPでは観測されない.
• 𝑜𝑡: 観測.MDPでは𝑠𝑡に一致.
• 𝑎 𝑡: アクション
• 𝑟𝑡: 報酬
• 𝑜𝑡+1 = 𝑓(𝑜𝑡, 𝑎 𝑡): 環境モデルの基本形
環境モデルのRLへの活用法
• 本発表ではKe+2019, Kaiser+2019を参考に発表者が活用法を以下に区分
1. 方策の改善
• Dyna: 環境モデルをシミュレーターとして方策の学習に利用
• I2A: 環境モデルの不正確さ自体ををDNNに丸投げする
• PILCO: 解析的な方策勾配の活用
• GPS: 環境モデルから作ったLocalなコントローラにNNをfitting
• MPC: シミュレーター上で報酬が最大になるような行動の選択
• etc.
2. 表現学習
• 環境モデルを用いて観測𝑜𝑡の低次元表現や,過去未来の観測𝑜の情報を十分含
む表現を獲得し,Policy Networkのサンプル効率性を高める
3. 探索への活用
• モデルの予測の尤度や不確実性を用いて,効率的な探索を行う
環境モデルの系列モデリングとしての区分
• Buesing+2018を参考に環境モデルとして用いられる系列モデルを以下の3つに区分
• Recurrent Autoregressive Models (RAM) (=Observation Dependent)
• State Space Models (SSM) (=Observation Independent)
• その他 (Gaussian Process(PILCO系), Local Linear Models(GPS系), Feedforward NN, …)
• 注1: モデルベースRL以外のコミュニティではARM/ SMMという分け方は適当でない
• Buesing+2018では観測について自己回帰的であるモデル(observation dependent)
=ASRとそうでないモデル=SSMを区分するためにASR/SSMを採用している
• 例1. AR(p)モデルはSSMの一種
• 例2. Fraccaro+2016 (SRNN)はSSMと言いつつObservation Dependent
• 注2: 本発表ではモデルベースRLの中でもPILCO系,Guided Policy Search系は扱わない
• サーベイが追いつきませんでした
環境モデルの系列モデリングとしての区分
• RAM: 過去のすべての観測から次の観測を逐次的に予測
• 過去の観測を集約するリカレント構造を持つ
• ℎ 𝑟 = 𝑓(ℎ 𝑟−1, 𝑎 𝑟−1, 𝑜 𝑟−1).要はRNN
• 高品質な生成が可能
• SSM: 観測の背後にある状態だけから観測が決まる.
• 高速(観測の逐次的な生成が必要ない)
ℎ 𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
ℎ 𝑡
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
𝑠𝑡
𝑜𝑡
𝑎 𝑡−1
𝑝 𝑜𝑡+1|𝑡+𝑘|𝑜1:𝑡, 𝑎1:𝑡+𝑘 =
𝑟=𝑡+1
𝑡+𝑘
𝑝(𝑜 𝑟|𝑓(𝑜1:𝑟−1, 𝑎1:𝑟−1))
𝑝 𝑜𝑡+1|𝑡+𝑘|𝑜1:𝑡, 𝑎1:𝑡+𝑘 =
𝑟=𝑡+1
𝑡+𝑘
𝑝 𝑠𝑟 𝑠 𝑟−1, 𝑎 𝑟−1 𝑝 𝑜 𝑟 𝑠𝑟 𝑝 (𝑠𝑡|𝑜≤𝑡, 𝑎<𝑡)𝑑𝑠𝑡:𝑡+𝑘
付録: 環境モデルの活用法 x 系列モデルのタイプによる区分
Recurrent Autoregressive Models State Space Models その他
Sequential
Modeling
(non-RL)
Bayer+2014 (STORNs)
Chung+2015 (VRNN)
Oh+2015
Finn+2016 (CDNA)
Goyal+2017 (Z-forcing)
Babaeizadeh+2018 (SV2P)
Denton+2018 (SVG-L(F)P)
Kaiser+2018 (DSAE)
Krishnan+2015 (DKF)
Fraccaro+2016 (SRNN)
Chiappa+2017 (RES)
Hsu+2017 (FHVAE)
Karl+2017 (DVBF)
Li+2018 (DS-AE)
Gregor+2019 (TD-VAE)
Oh+2015
Oord+2017 (VQ-VAE)
RL
方策
改善
Buesing+2018
Ebert+2018
Ke+2019
Buesing+2018
Hafner+2019 (PlaNet)
Zhang+2019 (Solar)
Deisenroth+2011 (PILCO)
Levin+2014 (GPS+iLQG)
Weber+2017 (I2A)
Kaiser+2019 (SimPLe)
表現
学習
Ke+2019 Watter+2015* (E2C)
Ha+2018* (World Models)
Finn+2016
Oh+2017
探索 Chiappa+2017 (RES)
Ke+2019
Oh+2015
*: Two-Step
※本日の発表に関係するものを中心に掲載.網羅性はありません.
一本目: SimPLe
• 書誌情報:
• タイトル: Model Based Reinforcement Learning for Atari
• 著者: Lukasz Kaiser, Mohammad Babaeizadeh, Piotr Milos, Blazej Osinski, Roy H
Campbell, Konrad Czechowski, Dumitru Erhan, Chelsea Finn, Piotr Kozakowski, Sergey
Levine, Ryan Sepassi, George Tucker, Henryk Michalewski
• グループ: GoogleBrain等
• 投稿先: arixv2019, ICML2019 under review
• 概要:
• Atariの多くのゲームでRainbowよりも高性能かつサンプル効率性2~10倍を達成
するモデルベースRLを提案
SimPLe: 環境モデル.???
SimPLe: 環境モデル側から見ると……
• 環境モデル:
• アーキテクチャはOh+2015で提案されたFeedForwardモデル
• Babaeizadeh+2018 (SV2P)を参考に確率的な潜在変数を組み入れる
• Oord+2017 (VQ-VAE), Kaiser+2018 (DSAE)を参考に潜在変数を離散化する
• 環境モデルのRLへの活用法:
• 単に高速なシミュレーターとして利用し,環境モデル内でPPOを学習
SimPLeとその系譜
Finn+2016
(CDNA)
Ebert+2018
Babaeizadeh
+2018 (SV2P)
Kaiser+2019
(SimPLe)
Kaiser+2018
(DSAE)
系列モデル
RL
Oord+2017
(VQ-VAE)
Oh+2015
PixelMotion
の
モ
デ
リ
ン
グ
確
率
的
な
生
成
離散的な潜在変数を
持つ系列モデル
RARによるVideo Prediction
SimPLeとその系譜
Finn+2016
(CDNA)
Ebert+2018
Babaeizadeh
+2018 (SV2P)
Kaiser+2019
(SimPLe)
Kaiser+2018
(DSAE)
系列モデル
RL
Oh+2015
PixelMotion
の
モ
デ
リ
ン
グ
確
率
的
な
生
成
離散的な潜在変数を
持つ系列モデル
RARによるVideo Prediction
Oord+2017
(VQ-VAE)
Oh+2015, Action-conditional video prediction using deep networks in atari games
• 環境モデル:
• Atariを訓練データに用いてaction-conditionalなvideo predictionを行う
• FeedforwardモデルとRecurrentモデルの二つを提案
• auto-encoderのように出力の画像はDeconvでbottleneckから生成
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
ℎ 𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
ℎ 𝑡
𝑜𝑡
𝑎 𝑡−1
FeedForwardモデル Reccurentモデル
𝑜𝑡−2
生成過程:
𝑝(𝑜𝑡|𝑎 𝑡−1, 𝑜𝑡−4:𝑡−1)
生成過程
𝑝(𝑜𝑡|ℎ 𝑡 = 𝑓 𝑜𝑡−4:𝑡−1, 𝑎 𝑡−1, ℎ 𝑡−1 )
※𝑜𝑡−4:𝑡−2からℎ 𝑡のパスは省略
Oh+2015 Video Predictionの実験:
• Atariの動画を正確に予測できることを示した
• ゲームにもよるが,50~200ステップの予測でも見た目は大きく崩れない
• この時代から,AtariのVideo Prediction自体はそこそこできていた
一例: 174ステップ目の予測
Oh+2015 RLの実験:
• 環境モデルをシミュレーターとして用いる実験(SimPLeと似てる)
1. 最初の真の1~100フレームを元に環境モデルが1~100フレームを生成(図の横軸)
2. 生成したフレームでDQNを訓練(Rewardは真の環境から??)
• 環境モデルで長期の系列を生成するとDQNの精度が落ちる
• (見た目が本物らしいからといってRLに使えるわけではない? c.f. 前項の敵の数)
• ゲームにも依るがFeedForwardとRARで結果はあまり変わらない(Atariが簡単だから?)
Finn+2016 (CDNA), Unsupervised learning for physical interaction through video prediction
• 環境モデル:
• Oh+2015のRecurrentモデルの拡張
• 𝑜𝑡のpixel valueを直接生成するのではなく,𝑜𝑡−1からのpixel motionを予測
• 未知の物体に汎化しやすい
• Recurrentモデルと違ってさりげなく𝑎からℎのパスになってる
ℎ 𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
ℎ 𝑡
𝑜𝑡
𝑎 𝑡−1
1期前の観測にPixel Motionを加える
Finn+2016 (CDNA) アルゴリズム補足
DNNで出力されたパラ
メータをカーネルとした
畳み込みでpixel motion
をモデル化
Finn+2016 (CDNA)
• 実験: 実機のTrajectoryを用いて検証
• Oh+2015と違い10step程度予測可能
Oh+2015
提案法
Babaeizadeh+2018 (SV2P), Stochastic variational video prediction
• 環境モデル:
• CDNAに潜在変数を導入し,確率的な予測を可能にした
• 潜在変数がtime-stepに依存する・しない場合で比較
• 訓練時はVAEの推論分布𝑞(𝑧𝑡|𝑜1:𝑇)から,生成時はpriorから 𝑧𝑡 をサンプリング
ℎ 𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
ℎ 𝑡
𝑜𝑡
𝑎 𝑡−1
𝑧Time step独立
ℎ 𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
ℎ 𝑡
𝑜𝑡
𝑎 𝑡−1
𝑧𝑡−1 𝑧𝑡
Time step依存
Babaeizadeh+2018 (SV2P) 補足 系列VAEの推論分布
• VAE(amortized variational inference)を系列モデリングに用いる場合,用途に応じて
𝑞(𝑧𝑡| ∙)を以下のように設計することが多い(気がする)
1. 𝑞(𝑧𝑡|𝑜1:𝑇): smoothing(-like).
• 観測の系列がすべて与えられた前提で現在の潜在変数𝑧𝑡を推論
2. 𝑞(𝑧𝑡|𝑜1:𝑡): filtering.
• 現在までの観測𝑜1:𝑡を使って現在の潜在変数𝑧𝑡を推論
3. 𝑞(𝑧𝑡+1|𝑜1:𝑡): predictive.
• 現在までの観測𝑜1:𝑡を使って未来の潜在変数𝑧𝑡+1を推論
4. 𝑞(𝑧𝑡|𝑜𝑡+1:𝑇): backward.
• 未来の観測𝑜𝑡+1:𝑇を使って現在の潜在変数𝑧𝑡を推論
• SV2Pでは生成時に𝑧𝑡をPriorから生成するのではなく𝑞(𝑧𝑡+1|𝑜1:𝑡)から生成すること
も検証したが,訓練がうまくいかない
• そもそも自己回帰なので潜在変数が無視されやすく(Posterior collapse),
smoothing-likeのようにリッチな情報を与える必要がある
Babaeizadeh+2018 (SV2P) 実験
• 確率的な予測を行うことで,動いている物体がぼやけにくくなる(CDNAのように
決定的な予測を行うとぼやけやすくなる)
SimPLeとその系譜
Finn+2016
(CDNA)
Ebert+2018
Babaeizadeh
+2018 (SV2P)
Kaiser+2019
(SimPLe)
Kaiser+2018
(DSAE)
系列モデル
RL
Oh+2015
PixelMotion
の
モ
デ
リ
ン
グ
確
率
的
な
生
成
離散的な潜在変数を
持つ系列モデル
RARによるVideo Prediction
Oord+2017
(VQ-VAE)
Kaiser+2018 (DSAE), Discrete autoencoders for sequence models
• 概要:
• 系列モデルに離散的な潜在変数を導入(Discrete Sequential Autoencoding)
• 既存手法(Gumbel-softmax)よりもハイパラにロバストであることを主張
• 提案手法:
• オートエンコーダーの中間層が離散になるようにSaturating Sigmoidを入れる
• 𝜎′
𝑥 = max(0, min(1, 1.2𝜎 𝑥 − 0.1)
• Saturating Sigmoidは勾配を流せるので,普通にオートエンコーダ訓練するだけ
• 勾配を流す,訓練を安定させるための細かい工夫は色々ある.
SimPLeとその系譜
Finn+2016
(CDNA)
Ebert+2018
Babaeizadeh
+2018 (SV2P)
Kaiser+2019
(SimPLe)
Kaiser+2018
(DSAE)
系列モデル
RL
Oh+2015
PixelMotion
の
モ
デ
リ
ン
グ
確
率
的
な
生
成
離散的な潜在変数を
持つ系列モデル
RARによるVideo Prediction
Oord+2017
(VQ-VAE)
SimPLe: 環境モデル側から見ると……(再掲)
• 環境モデル:
• アーキテクチャはOh+2015で提案されたFeedForwardモデル
• Babaeizadeh+2018 (SV2P)を参考に確率的な潜在変数を組み入れる
• Oord+2017 (VQ-VAE), Kaiser+2018 (DSAE)を参考に潜在変数を離散化する
• 環境モデルの用途:
• 単に高速なシミュレーターとして利用し,環境モデル内でPPOを学習
SimPLe: 環境モデルの詳細
• 生成モデルは𝑝(𝑜𝑡|𝑜𝑡−4:𝑡−1),推論分布は𝑞 𝑧𝑡|𝑜𝑡−4:𝑡
• なぜOh+2015のFeedfowardか? => Oh+2015の実験結果でもあったように,Atari
程度ならリカレントな構造はいらないから?
• 推論分布にSaturating Sigmoidを挟んで,𝑧𝑡を離散化
• 生成時は推論分布が使えない(推論に未来の観測が必要)のでLSTMから潜在
変数をサンプリング(後述)
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑧𝑡−1 𝑧𝑡
𝑜𝑡−1
SimPLe: 離散化の詳細
• なぜ𝑧𝑡を離散化するのか
• VAEなのでKL項𝐷 𝐾𝐿(𝑞(𝑧| ∙)||𝑝(𝑧| ∙))が必要だが,この係数はsensitive
• (実験に使う20+個の)ゲームごとにハイパラ調整したくない
• Atariの場合係数は[1e-5, 1e-3]くらいだが,そんなに係数小さいとテスト時に
Priorからサンプリングする時に困る(PriorとPosteriorが近づかない)
• 𝑧𝑡を離散化する際の疑問
• 変分下界のKL項をどうやって計算する?
=>定数項なので最適化には関係ない(もはやそれはVAEなのか……?)
• テスト時にどうやって𝑧𝑡をサンプリングする?
=>学習済みの環境モデルの推論分布𝑞から𝑧1:𝑇をサンプリングし,
その𝑧1:𝑇を予測するようなLSTMを訓練する
どちらも,
VQ-VAEと同じ処理(明示的には書いてないが,たぶんそう)
SimPLe: アーキテクチャ詳細
Simple: 環境モデルのRLへの活用: 単なるシミュレーター
Oh+2015 のRLの実験とほぼ同じ
ただし環境モデルと方策の訓練を交互に行う,報酬を予測するなどが異なる
SimPLe: 実験
• 環境: Atari
• SOTAなモデルフリーで一般に解けるとされている26個のゲーム
• ベースライン:
• Rainbow
• PPO
• 提案手法:
• 真の環境と100K(現実の2時間)のインタラクションを行い環境モデルを訓練
• 環境モデルの中で15Mのインタラクションを行いPPOを訓練
SimPLe: 実験-サンプル効率性
• 青いバーは,100Kサンプルを使った
提案手法と,素の(環境モデルを用
いない)PPOが同じ性能に到達する
までに必要なサンプルサイズ(真の
環境とのインタラクション)を表す
• PPOが提案手法と同じ精度を達成す
るためには,2~10倍のサンプルサイ
ズが必要
SimPLe: 実験-離散潜在変数の効果
• 青は潜在変数なし,赤は連続潜在変数あり
• 離散潜在変数の提案手法が一番良い
• 連続潜在変数のときのKL項の重みは言及なし?
SimPLe: 実験: リカレントの効果
• 詳細が書かれてないので自信がない
• おそらく青がrecurrentかつ(連続 or 離散)
潜在変数あり,赤がリカレントかつ潜在変数
なし
• 要は,再帰的な構造はいらないということ?
• Oh+2015と似た結果?
• Atariが簡単だから?
SimPLe: 感想
• 系列モデルも,そのRLへの組み込み方も本当にシンプル
• Atari程度なら環境を完全に学習し切れてしまうこと,そしてその環境モデル
が有用であることを示した
• Policy Networkへの入力を 𝑜にしているため表現学習としての要素が抜けてしまっ
ているのが勿体無い
• KL項の重みは結構面倒なことが多いので,Saturating Sigmoidが本当にハイパラロ
バストなら良さそう
Improved Dynamics Model: 概要
• 書誌情報:
• タイトル: Learning Improved Dynamics Model in Reinforcement Learning by
Incorporating the Long Term Future
• 著者: Ke, N. R., Singh, A., Touati, A., Goyal, A., Bengio, Y., Parikh, D., and Batra, D.
• グループ: モントリオール大学,Facebook等
• 投稿先: ICLR2019
• 概要:
• RAR型の環境モデルに確率的な潜在変数を取り入れる.
• その際補助タスクを取り入れることで潜在変数が未来の情報を保持しやすくし,長期の
予測を可能にする
• Imitation LearningとRLに有効
Improved Dynamics Model: 環境モデル側から見ると……
• 環境モデル:
• z-forcingを素直に使う
• z-forcingの野中さん資料: https://www.slideshare.net/DeepLearningJP2016/dlzforcing-training-
stochastic-recurrent-networks-nips2017
• 環境モデルの用途:
• Imitatio Learningの場合:
• z-forcingでナイーブにBehaviour Cloning
• RLの場合:
• 潜在変数を用いたMPC
• 探索への活用
潜在空間上のplanning
Improved Dynamics Model とその系譜
Fraccaro
+2016
(SRNN)
Ke+2019
Goyal+2017
(Z-forcing)
Buesing
+2018
系列モデル
RL
Karl+2017
(DVBF)
Bayer+2014
(STORNs)
Chung+2015
(VRNN)
RAR+潜在変数系 SSM
未来からの推論,
長期予測のモチベーション
潜在空間上のplanning
Improved Dynamics Model とその系譜
Fraccaro
+2016
(SRNN)
Ke+2019
Goyal+2017
(Z-forcing)
Buesing
+2018
系列モデル
RL
Karl+2017
(DVBF)
Bayer+2014
(STORNs)
Chung+2015
(VRNN)
RAR+潜在変数系 SSM
未来からの推論,
長期予測のモチベーション
Bayer+2014 (STORNs) and Chung+2015 (VRNN)
• 概要: RARに確率的な変数𝑧𝑡を加えたもの
• STORNではSV2Pとグラフィカルモデル的に(ほぼ)同じ
• 違い:確率的な揺らぎが内生的か外生的か
ℎ 𝑡−1
𝑜𝑡−1
ℎ 𝑡
𝑜𝑡
𝑧𝑡−1 𝑧𝑡
STORN,
生成過程: 𝑡
𝑇
𝑝 𝑜𝑡 𝑜<𝑡, 𝑧<𝑡 𝑝(𝑧𝑡)
推論分布: 𝑞(𝑧𝑡|𝑜1:𝑡)
ℎ 𝑡−1
𝑜𝑡−1
ℎ 𝑡
𝑜𝑡
𝑧𝑡−1 𝑧𝑡
VRNN
生成過程:
𝑡
𝑇
𝑝 𝑜𝑡 𝑜<𝑡, 𝑧<𝑡 𝑝(𝑧𝑡|𝑜<𝑡−1, 𝑧<𝑡−1)
推論分布: 𝑞(𝑧𝑡|ℎ 𝑡−1, 𝑜𝑡)
※ 図の矢印は
生成過程のみ表示
Chung+2015 (VRNN)
• 実験: VRNNの方がSTORNに比べてspeech modelingで尤度が高い
• (余談: じゃあSV2Pも𝑧𝑡のprior変えた方が良いのでは…… => Denton+2018)
STORNに相当
潜在空間上のplanning
Improved Dynamics Model とその系譜
Fraccaro
+2016
(SRNN)
Ke+2019
Goyal+2017
(Z-forcing)
Buesing
+2018
系列モデル
RL
Karl+2017
(DVBF)
Bayer+2014
(STORNs)
Chung+2015
(VRNN)
RAR+潜在変数系 SSM
未来からの推論,
Posterior Collapse対策の
モチベーション
Goyal+2017 (Z-forcing)
• 問題: 自己回帰モデルでは潜在変数が無視されやすい(Posterior Collapse)
• 提案: 𝑧𝑡が未来の情報を持つような推論分布𝑞(𝑧𝑡|𝑜1:𝑇)を作ると無視されにくい
• SSMの文脈でFraccaro +2016 (SRNN)によってすでに提案された
• 実際は𝑜<𝑡 , 𝑜>𝑡をそれぞれRNNで集約
• 加えて𝑧𝑡から𝑜𝑡<を予測するような補助タスクも組み入れる
ℎ 𝑡−1
𝑜𝑡−1
ℎ 𝑡
𝑜𝑡
𝑧𝑡−1 𝑧𝑡
𝑏𝑡−1 𝑏𝑡
※赤色の破線は推論分布
潜在空間上のplanning
Improved Dynamics Model とその系譜
Fraccaro
+2016
(SRNN)
Ke+2019
Goyal+2017
(Z-forcing)
Buesing
+2018
系列モデル
RL
Karl+2017
(DVBF)
Bayer+2014
(STORNs)
Chung+2015
(VRNN)
RAR+潜在変数系 SSM
未来からの推論,
長期予測のモチベーション
Improved Dynamics Model: 環境モデル側から見ると……(再掲)
• 環境モデル:
• z-forcing
• 野中さん資料: https://www.slideshare.net/DeepLearningJP2016/dlzforcing-training-stochastic-
recurrent-networks-nips2017
• 環境モデルの用途:
• Imitatio Learningの場合:
• z-forcingでナイーブにモデル化できる
• RLの場合:
• 潜在変数を用いたMPC
• 探索への活用
• (表現学習)
Improved Dynamics Model: 環境の詳細
• z-forcingにアクションデコーダー(青線)を加えただけ
• (さりげなく𝑧𝑡−1から𝑜𝑡−1 のパスも生えている)
ℎ 𝑡−1
𝑜𝑡−1
ℎ 𝑡
𝑜𝑡
𝑧𝑡−1 𝑧𝑡
𝑎 𝑡−2 𝑎 𝑡−1
Improved Dynamics Model: 環境モデルのRLへの活用
• Imitation Learningの場合
• actionも含めたz-forcingでエキスパートを学習
• できあがったアクションデコーダーをそのまま方策に用いればよい
• (ただのBehavior Cloningなんだけど,Cloneingを行うモデルがz-forcingで強い)
• RLの場合
• 潜在空間上でのMPC
1. 環境モデル上でMPCを行い潜在変数の系列𝑧1:𝑘を集める(not 𝑎1:𝑘)
2. 𝑧1:𝑘からアクション𝑎1:𝑘を生成する(記載がないが,アクションデコーダーを使う?)
• 潜在変数を経由させることで,直接アクションをサンプリングするよりも安定する(アク
ションデコーダーを介することで分布の外に出ていかないということだと思う)
• 探索への活用
• 訓練データ収集時は,環境モデルの予測が当たりづらいところを重点的に探索する
• (環境モデルの負の尤度を報酬とした方策を学習すれば良い)
Improved Dynamics Model: 実験
• ベースライン:
• recurrent policy. 𝑝(𝑎 𝑡|𝑜1:𝑡)をLSTMでモデル化してBehavior Cloning
• SeCTAr(Sparse rewardに強い)
• 提案手法の補助タスクなしversion
• 実験環境:
• IL: Mujoco tasks, Baby AI Pick Unlock(長期の予測が大事なPOMDPのタスク)
• RL: Wheeled Locomotion. Sparce rewardのタスク
Improved Dynamics Model: ILの実験
• オレンジ: 提案手法
• 緑: recurrent policy
• 紫: 補助タスクなし提案手法
Improved Dynamics Model: ILとRLの実験
• 長期の予測が重要となる二つのタスクでベースラインを上回る精度
• 提案手法は未来の情報を持つ(と期待される)潜在変数を持っているが,それが
寄与したのではないか
Improved Dynamics Model: 感想
• 実験は小規模だけど,長期の予測が必要なタスクを持ってくるなど設計がうまい
• ILの実験では,InverseRLの手法との比較も欲しかった
• z-forcingみたいにちゃんとした系列モデル立てればBehavior Cloningで十分なの
か知りたい
PlaNet: 概要
• 書誌情報:
• タイトル: Learning Latent Dynamics for Planning from Pixels.
• 著者: Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha, Honglak
Lee, James Davidson.
• グループ: GoogleBrain等
• 投稿先: arxiv2018, ICML2019 under review
• 概要:
• SSMを環境のモデルとして用いたモデルベースRL.
• SSMをモデルベースRLに適用するのはほぼ先行研究がない
• SSM側での新規の提案の貢献も大きい
• Mujocoタスクを画像入力で行いD4PGの50+倍のサンプル効率を達成
• この輪読会で谷口くんが一度発表済み
• https://www.slideshare.net/DeepLearningJP2016/dllearning-latent-dynamics-for-
planning-from-pixels
PlaNet:環境モデル側から見ると……
• 環境モデル
• Fraccaro +2016 (SRNN)やBuesing+2018と類似した確率的なパスと決定的なパス
の組み合わせ
• 長期の予測を行うための新しい訓練法Latent Over Shootingを提案
• RLへの用途
• 潜在空間上のMPC.SSMなので高速.
PlaNetとその系譜
系列モデル
RL
Ha+2018
(World
Models)
Watter+2015
(E2C)
Two-step SSM
DeepなSSM
Hafner+2019
(PlaNet)
Buesing
+2018
SSM
Fraccaro
+2016
(SRNN)
Krishnan
+2015
(DKF)
決
定
的
な
遷
移
と
の
融
合
Chiappa
+2017
(RES)
PlaNetとその系譜
系列モデル
RL
Ha+2018
(World
Models)
Watter+2015
(E2C)
Two-step SSM
DeepなSSM
Hafner+2019
(PlaNet)
Buesing
+2018
SSM
Fraccaro
+2016
(SRNN)
Krishnan
+2015
(DKF)
決
定
的
な
遷
移
と
の
融
合
Chiappa
+2017
(RES)
Krishnan+2015(DKF) and Fraccaro +2016 (SRNN)
• 環境モデル: SRNNはDKFに決定的なパスを追加した形になっている
• 実験: MNIST,尤度計算(not 生成)など比較的小規模
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
ℎ 𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
ℎ 𝑡
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
DKF
SRNN
PlaNetとその系譜
系列モデル
RL
Ha+2018
(World
Models)
Watter+2015
(E2C)
Two-step SSM
DeepなSSM
Hafner+2019
(PlaNet)
Buesing
+2018
SSM
Fraccaro
+2016
(SRNN)
Krishnan
+2015
(DKF)
決
定
的
な
遷
移
と
の
融
合
Chiappa
+2017
(RES)
Buesing+2018, Learning and querying fast generative models for reinforcement learning
• 概要:
• SSMを環境のモデルとして用いた初めての論文
• 4つの環境のモデルを比較して,SSMが速度,精度ともに良いことを示した
• RL側は環境モデルをI2Aに活用
𝑠𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
𝑠𝑡
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
𝑠𝑡
𝑜𝑡
𝑎 𝑡−1
RAR dSSM-DET
4つの環境モデル
Buesing+2018
𝑠𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
𝑠𝑡
𝑜𝑡
𝑎 𝑡−1
𝑧𝑡−1 𝑧𝑡
𝑠𝑡−1
𝑜𝑡−1
𝑎 𝑡−2
𝑠𝑡
𝑜𝑡
𝑎 𝑡−1
𝑧𝑡−1 𝑧𝑡
dSSM-VAE sSSM
4つの環境モデル
※推論は filtering like
Buesing+2018
• RLへの用途: I2A (Weber+2017)を基本
• 環境モデルが不完全であることを前提に,不完全さ自体もDNNに解釈させる
• I2Aの手順
1. 価値関数,方策,ロールアウト用方策を用意する
2. 環境モデル上でロールアウト用方策𝜋(𝑎|𝑠)から𝑎 𝑡:𝑡+𝑘, 𝑠𝑡:𝑡+𝑘をロールアウト
3. ロールアウトした𝑠𝑡:𝑡+𝑘をLSTMで集約し,価値関数と方策への入力とする
4. 価値関数と方策を使ってactor-criticで訓練
5. (ロールアウト用方策の学習法は2つ提案されている)
• 余談: ベースラインのRARにI2Aを使う時は𝑠𝑡:𝑡+𝑘ではなく𝑜𝑡:𝑡+𝑘をロールアウトし
てLSTMで集約しているが……
• ℎ 𝑡:𝑡+𝑘での比較も欲しい?(表現学習としての環境モデル)
Buesing+2018
• MS_PACMANでの実験: SSM+I2Aの必要性をablation studyする
• baseline model-free: actor-critic
• baseline copy model: I2Aへの入力を𝑠𝑡:𝑡+𝑘から 𝑠𝑡に変更
Buesing+2018
• Atariの4つでの実験: sSSMがRARより性能,速度ともに勝ることを示す
• 表の数字は環境のモデルの尤度がbaselineモデルの何倍か
• SSMは観測𝑜を逐次的に生成する必要がないため高速
• baseline: Oh+2015のFeedForwardモデルのVAE版
• 一般的にどれくらいの強さか?
PlaNetとその系譜
系列モデル
RL
Ha+2018
(World
Models)
Watter+2015
(E2C)
Two-step SSM
DeepなSSM
Hafner+2019
(PlaNet)
Buesing
+2018
SSM
Fraccaro
+2016
(SRNN)
Krishnan
+2015
(DKF)
決
定
的
な
遷
移
と
の
融
合
Chiappa
+2017
(RES)
PlaNet:環境モデル側から見ると……(再掲)
• 環境モデル
• Fraccaro +2016 (SRNN)やBuesing+2018と類似した確率的なパスと決定的なパス
の組み合わせ
• 長期の予測を行うための新しい訓練法Latent Over Shootingを提案
• RLへの用途
• 潜在空間上のMPC.SSMなので高速.
PlaNet: 環境モデルの詳細
• 確率的と決定的,両方の遷移を持つ
• 完全に決定的だとデータの性質に合わない,確率的だと学習が難しいのだと思う
• Fraccaro+2016やBuesing+2018でも軽く言及されていたこと
• 本論文でも実験で示す
• Buesing+2018のsSSMと似ているが,𝑠から𝑧のパスのタイムステップが違う
• どちらが良い等の言及は特になし
𝑠𝑡−1
𝑜𝑡−1, 𝑟𝑡−1
𝑎 𝑡−2
𝑠𝑡
𝑜𝑡, 𝑟𝑡
𝑎 𝑡−1
𝑧𝑡−1 𝑧𝑡
RSSM
PlaNet: 訓練の詳細
• 複数ステップ先の予測を安定させるためLatent overshootingを提案
• 詳細は谷口くんの資料: https://www.slideshare.net/DeepLearningJP2016/dllearning-
latent-dynamics-for-planning-from-pixels
• 潜在変数に未来の情報を持たせたいというモチベーションは"Improved Dynamics
Model"と似てる?
PlaNet: RLへの用途
• 基本的にはMPC,ただしSSM観測𝑜を逐次的に生成する必要がない
• 観測の逐次的な生成が必要ない点でHa+2018 (world models)と似ているが,あちら
は𝑞(𝑧𝑡|𝑜𝑡) を事前学習して固定する => 潜在変数にマルコフ性がない
𝑠𝑡−1
𝑟𝑡−1
𝑎 𝑡−2
𝑠𝑡
𝑟𝑡
𝑎 𝑡−1
𝑧𝑡−1 𝑧𝑡
𝑜𝑡はいらない
𝑟𝑡を予測して,サンプリングした
アクション系列の良さを測る
PlaNet: 実験
• 提案手法RSSMによるビデオ生成.50ステップ先も生成できる
• SSMによるビデオ生成はKrishnan+2015やKarl+2017のToyなものしかこれまで(発
表者の知る限り)なかったので,(RL抜きの)SSMの研究としてもすごい気がする
PlaNet: 実験
• RLではDeepMiind Control suiteの4つのタスクで実験
• サンプル効率がモデルフリーの手法の50+倍
• タスクによってはモデルフリーの手法(A3C, D4PG)より精度が良い
• 詳細は谷口くんの資料にあります
• https://www.slideshare.net/DeepLearningJP2016/dllearning-latent-dynamics-for-
planning-from-pixels
PlaNet: 感想
• SSM(observation-independent)で50ステップ先まで動画を生成できるのはすごい.
• タスクによってはモデルフリーの手法(A3C, D4PG)より精度が良いが,これは
SimPLeのように単にシミュレータとして用いると難しいはず
• SSMなので潜在変数がマルコフ性を満たすよい表現になっている??
• SSMはRARよりも画像の生成が難しいが,(1)速度による恩恵は大きい(2)マルコフ
性を満たす表現の学習になっているので,いずれ本命になってくるかも
全体まとめと感想
• まとめ
• いろいろあるよVAE x 系列モデル
• 3つのモデルベースRLの論文を題材に,VAE x 系列モデルの進展がモデルベー
スRLの進展を支えていることを紹介した
• 感想:
• 系列モデルをより複雑な動画にスケールさせるための研究がこれからさらに
増えてくるだろうし,それを利用すればより高度なRLタスクが解けるように
なっていくはず
参考にさせていただいた資料
• 強化学習ロボティクスの動向サーベイ, 島田さん,
https://speakerdeck.com/caprest/di-33hui-qiang-hua-xue-xi-akitekutiyamian-qiang-hui-
qiang-hua-xue-xi-roboteikusufalsedong-xiang-falsesabei
• (今日は紹介できなかったが)PILCOやGPSの解説がある貴重な日本語資料
• TD-VAEの輪読資料, 鈴木さん, https://www.slideshare.net/masa_s/ss-97848402
• VAE x 系列モデルがまとまっている
• PlaNetの輪読資料, 谷口くん,
https://www.slideshare.net/DeepLearningJP2016/dllearning-latent-dynamics-for-
planning-from-pixels
• z-forcingの輪読資料, 野中さん,
https://www.slideshare.net/DeepLearningJP2016/dlzforcing-training-stochastic-
recurrent-networks-nips2017
References
• Marc Deisenroth and Carl E Rasmussen. Pilco: A model-based and data-efficient approach to policy search. ICML2011
• Levine, Sergey and Abbeel, Pieter. Learning neural network policies with guided policy search under unknown dynamics. NIPS2014
• Justin Bayer and Christian Osendorfer. Learning stochastic recurrent networks. arXiv2014
• Rahul G Krishnan, Uri Shalit, and David Sontag. Deep kalman filters. arXiv2015.
• Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. Embed to control: A locally linear latent dynamics model for control from raw images.
NIPS2015
• Chung, Junyoung, Kastner, Kyle, Dinh, Laurent, Goel, Kratarth, Courville, Aaron C, and Bengio, Yoshua. A recurrent latent variable model for sequential
data. NIPS2015
• Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, Richard L Lewis, and Satinder Singh. Action-conditional video prediction using deep networks in atari games.
NIPS2015
• Finn, C., Tan, X. Y., Duan, Y., Darrell, T., Levine, S., and Abbeel, P. Deep spatial autoencoders for visuomotor learning. ICRA2016
• Fraccaro, M., Sønderby, S. K., Paquet, U., and Winther, O. Sequential neural models with stochastic layers. NIPS2016
• Chelsea Finn, Ian Goodfellow, and Sergey Levine. Unsupervised learning for physical interaction through video prediction. NIPS2016
• Oh, J., Singh, S., and Lee, H. Value prediction network. NIPS2017
• Hsu, W.-N., Zhang, Y., and Glass, J. Unsupervised learning of disentangled and interpretable representations from sequential data. NIPS2017
• Anirudh ALIAS PARTH Goyal, Alessandro Sordoni, Marc-Alexandre Coˆte ́, Nan Ke, and Yoshua Bengio. Z-forcing: Training stochastic recurrent networks.
NIPS2017
References
• Weber, T., Racanière, S., Reichert, D. P., Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y., et al. Imagination-augmented agents for deep
reinforcement learning. NIPS2017
• van den Oord, A., Vinyals, O., and Kavukcuoglu, K. Neural discrete representation learning. NIPS2017.
• Silvia Chiappa, Se ́bastien Racaniere, Daan Wierstra, and Shakir Mohamed. Recurrent environment simulators. ICLR2017
• Karl, M., Soelch, M., Bayer, J., and van der Smagt, P. Deep variational bayes filters: Unsupervised learning of state space models from raw data. ICLR2017
• Babaeizadeh, M., Finn, C., Erhan, D., Campbell, R. H., and Levine, S. Stochastic variational video prediction. ICLR2018
• David Ha, Jurgen Schmidhuber. Recurrent World Models Facilitate Policy Evaluation. NIPS2018
• Yingzhen Li, Stephan Mandt. Disentangled Sequential Autoencoder. ICML2018
• Denton, E. and Fergus, R. Stochastic video generation with a learned prior. ICML2018
• Kaiser, L. and Bengio, S. Discrete autoencoders for sequence models. arxiv2018
• Lars Buesing, Theophane Weber, Sebastien Racaniere, SM Eslami, Danilo Rezende, David P Re- ichert, Fabio Viola, Frederic Besse, Karol Gregor, Demis Hassabis, et al.
Learning and querying fast generative models for reinforcement learning. arxiv2018
• Gregor, K. and Besse, F. Temporal difference variational auto-encoder. ICLR2019
• Ke, N. R., Singh, A., Touati, A., Goyal, A., Bengio, Y., Parikh, D., and Batra, D. Learning Improved Dynamics Model in Reinforcement Learning by Incorporating the
Long Term Future. ICLR2019
• Ebert, F., Finn, C., Dasari, S., Xie, A., Lee, A., and Levine, S. Visual foresight: Model-based deep reinforcement learning for vision-based robotic control. arxiv2018
• Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha, Honglak Lee, James Davidson. Learning Latent Dynamics for Planning from Pixels. arxiv2019
• Kaiser, L., Babaeizadeh, M., Milos, P., Osinski, B., Campbell, R.H., Czechowski, K., Erhan, D., Finn, C., Kozakowski, P., Levine, S., Others: Model-Based Reinforcement
Learning for Atari. arxiv2019
• Marvin Zhang, Sharad Vikram, Laura Smith, Pieter Abbeel, Matthew J. Johnson, Sergey Levine. SOLAR: Deep Structured Representations for Model-Based
Reinforcement Learning. arxiv2019

Más contenido relacionado

La actualidad más candente

【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling ProblemDeep Learning JP
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...Deep Learning JP
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)harmonylab
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine IntelligenceDeep Learning JP
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展Deep Learning JP
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめたKatsuya Ito
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Shohei Taniguchi
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.Deep Learning JP
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 

La actualidad más candente (20)

【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 

Similar a [DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベースRLへの応用

[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A SurveyDeep Learning JP
 
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)Kotaro Nakayama
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかRecruit Technologies
 
ピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築するピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築するTakahito Tejima
 
ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来
ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来
ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来Kazuto Kusama
 
Hivemall Talk@SIGMOD-J Oct.4, 2014.
Hivemall Talk@SIGMOD-J Oct.4, 2014.Hivemall Talk@SIGMOD-J Oct.4, 2014.
Hivemall Talk@SIGMOD-J Oct.4, 2014.Makoto Yui
 
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニングNGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニングNVIDIA Japan
 
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...Amazon Web Services Japan
 
Hadoopデータ基盤とMulti-CloudなML基盤への取り組みの紹介
Hadoopデータ基盤とMulti-CloudなML基盤への取り組みの紹介Hadoopデータ基盤とMulti-CloudなML基盤への取り組みの紹介
Hadoopデータ基盤とMulti-CloudなML基盤への取り組みの紹介MicroAd, Inc.(Engineer)
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC EnterpriseYusukeKuramata
 
Participation report of data stax accelerate 2019
Participation report of data stax accelerate 2019Participation report of data stax accelerate 2019
Participation report of data stax accelerate 2019MKT-INTHEFOREST
 
アジャイル開発の現在・過去・未来~今を知り、源流を訪ね、先を見据える~
アジャイル開発の現在・過去・未来~今を知り、源流を訪ね、先を見据える~アジャイル開発の現在・過去・未来~今を知り、源流を訪ね、先を見据える~
アジャイル開発の現在・過去・未来~今を知り、源流を訪ね、先を見据える~Kenji Hiranabe
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介Narihira Takuya
 
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image GeneratorsDeep Learning JP
 
Getting Started GraalVM / GraalVM超入門 #jjug_ccc #ccc_c2
Getting Started GraalVM / GraalVM超入門 #jjug_ccc #ccc_c2Getting Started GraalVM / GraalVM超入門 #jjug_ccc #ccc_c2
Getting Started GraalVM / GraalVM超入門 #jjug_ccc #ccc_c2tamtam180
 
Getting Started GraalVM (再アップロード)
Getting Started GraalVM (再アップロード)Getting Started GraalVM (再アップロード)
Getting Started GraalVM (再アップロード)tamtam180
 
GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...
GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...
GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...Rescale Japan株式会社
 
Bridging between Vision and Language
Bridging between Vision and LanguageBridging between Vision and Language
Bridging between Vision and LanguageShion Honda
 
[141004] cedec 2014 참관기 & 강연 리뷰 #1
[141004] cedec 2014 참관기 & 강연 리뷰 #1[141004] cedec 2014 참관기 & 강연 리뷰 #1
[141004] cedec 2014 참관기 & 강연 리뷰 #1MinGeun Park
 

Similar a [DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベースRLへの応用 (20)

[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
 
ピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築するピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築する
 
ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来
ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来
ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来
 
Hivemall Talk@SIGMOD-J Oct.4, 2014.
Hivemall Talk@SIGMOD-J Oct.4, 2014.Hivemall Talk@SIGMOD-J Oct.4, 2014.
Hivemall Talk@SIGMOD-J Oct.4, 2014.
 
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニングNGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
 
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
 
Hadoopデータ基盤とMulti-CloudなML基盤への取り組みの紹介
Hadoopデータ基盤とMulti-CloudなML基盤への取り組みの紹介Hadoopデータ基盤とMulti-CloudなML基盤への取り組みの紹介
Hadoopデータ基盤とMulti-CloudなML基盤への取り組みの紹介
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
 
Participation report of data stax accelerate 2019
Participation report of data stax accelerate 2019Participation report of data stax accelerate 2019
Participation report of data stax accelerate 2019
 
アジャイル開発の現在・過去・未来~今を知り、源流を訪ね、先を見据える~
アジャイル開発の現在・過去・未来~今を知り、源流を訪ね、先を見据える~アジャイル開発の現在・過去・未来~今を知り、源流を訪ね、先を見据える~
アジャイル開発の現在・過去・未来~今を知り、源流を訪ね、先を見据える~
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
 
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
 
Getting Started GraalVM / GraalVM超入門 #jjug_ccc #ccc_c2
Getting Started GraalVM / GraalVM超入門 #jjug_ccc #ccc_c2Getting Started GraalVM / GraalVM超入門 #jjug_ccc #ccc_c2
Getting Started GraalVM / GraalVM超入門 #jjug_ccc #ccc_c2
 
Getting Started GraalVM (再アップロード)
Getting Started GraalVM (再アップロード)Getting Started GraalVM (再アップロード)
Getting Started GraalVM (再アップロード)
 
GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...
GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...
GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...
 
Bridging between Vision and Language
Bridging between Vision and LanguageBridging between Vision and Language
Bridging between Vision and Language
 
[141004] cedec 2014 참관기 & 강연 리뷰 #1
[141004] cedec 2014 참관기 & 강연 리뷰 #1[141004] cedec 2014 참관기 & 강연 리뷰 #1
[141004] cedec 2014 참관기 & 강연 리뷰 #1
 
Tokyo r50 beginner_2
Tokyo r50 beginner_2Tokyo r50 beginner_2
Tokyo r50 beginner_2
 

Más de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Más de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Último

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 

Último (9)

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 

[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベースRLへの応用

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ "SimPLe", "Improved Dynamics Model", "PlaNet" 近年のVAEベース系列モデルの進展とそのモデルベースRLへの応用 Presentater: Kei Akuzawa, Matsuo Lab. D1
  • 2. 発表のモチベーション&目的 • モチベーション: モデルベースRL, 気づいたら進展してないか? • PlaNet: D4PGの50+倍のサンプル効率(DeepMind Control Suit) • SimPLe: Rainbowの2~10+倍(Atari) • SOLAR: PPOの40倍(Reacher),および実機画像データ2時間(Lego block stacking) • …… ※ここでのサンプル効率=一定の性能を出すために必要な真の環境とのInteraction数 • 目的: 進展の背景に何があるのかをサーベイすること • 切り方1: 環境モデル(世界モデル)として働く系列モデルの進展(発表の中心) • 切り方2: 系列モデルをどうRLに組み入れるかの進展 • (鈴木さんの資料のp10で言われていること: https://www.slideshare.net/masa_s/ss-97848402 )
  • 3. AGENDA • 前置き • モデルベースRLと環境モデル • 環境モデルのRLへの活用法 • 環境モデルの系列モデリングとしての区分 • 論文紹介 • SimPLe • Improved Dynamics Model • PlaNet
  • 4. モデルベースRLと環境のモデル • モデルベースRLの定義(この発表での): • 現在の状態と行動から次の状態(と得られる報酬)を予測する環境モデルを 何らかの形(次ページ)でRLに組み込んだアルゴリズム • Notation: • 𝑠𝑡: 状態.POMDPでは観測されない. • 𝑜𝑡: 観測.MDPでは𝑠𝑡に一致. • 𝑎 𝑡: アクション • 𝑟𝑡: 報酬 • 𝑜𝑡+1 = 𝑓(𝑜𝑡, 𝑎 𝑡): 環境モデルの基本形
  • 5. 環境モデルのRLへの活用法 • 本発表ではKe+2019, Kaiser+2019を参考に発表者が活用法を以下に区分 1. 方策の改善 • Dyna: 環境モデルをシミュレーターとして方策の学習に利用 • I2A: 環境モデルの不正確さ自体ををDNNに丸投げする • PILCO: 解析的な方策勾配の活用 • GPS: 環境モデルから作ったLocalなコントローラにNNをfitting • MPC: シミュレーター上で報酬が最大になるような行動の選択 • etc. 2. 表現学習 • 環境モデルを用いて観測𝑜𝑡の低次元表現や,過去未来の観測𝑜の情報を十分含 む表現を獲得し,Policy Networkのサンプル効率性を高める 3. 探索への活用 • モデルの予測の尤度や不確実性を用いて,効率的な探索を行う
  • 6. 環境モデルの系列モデリングとしての区分 • Buesing+2018を参考に環境モデルとして用いられる系列モデルを以下の3つに区分 • Recurrent Autoregressive Models (RAM) (=Observation Dependent) • State Space Models (SSM) (=Observation Independent) • その他 (Gaussian Process(PILCO系), Local Linear Models(GPS系), Feedforward NN, …) • 注1: モデルベースRL以外のコミュニティではARM/ SMMという分け方は適当でない • Buesing+2018では観測について自己回帰的であるモデル(observation dependent) =ASRとそうでないモデル=SSMを区分するためにASR/SSMを採用している • 例1. AR(p)モデルはSSMの一種 • 例2. Fraccaro+2016 (SRNN)はSSMと言いつつObservation Dependent • 注2: 本発表ではモデルベースRLの中でもPILCO系,Guided Policy Search系は扱わない • サーベイが追いつきませんでした
  • 7. 環境モデルの系列モデリングとしての区分 • RAM: 過去のすべての観測から次の観測を逐次的に予測 • 過去の観測を集約するリカレント構造を持つ • ℎ 𝑟 = 𝑓(ℎ 𝑟−1, 𝑎 𝑟−1, 𝑜 𝑟−1).要はRNN • 高品質な生成が可能 • SSM: 観測の背後にある状態だけから観測が決まる. • 高速(観測の逐次的な生成が必要ない) ℎ 𝑡−1 𝑜𝑡−1 𝑎 𝑡−2 ℎ 𝑡 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑜𝑡−1 𝑎 𝑡−2 𝑠𝑡 𝑜𝑡 𝑎 𝑡−1 𝑝 𝑜𝑡+1|𝑡+𝑘|𝑜1:𝑡, 𝑎1:𝑡+𝑘 = 𝑟=𝑡+1 𝑡+𝑘 𝑝(𝑜 𝑟|𝑓(𝑜1:𝑟−1, 𝑎1:𝑟−1)) 𝑝 𝑜𝑡+1|𝑡+𝑘|𝑜1:𝑡, 𝑎1:𝑡+𝑘 = 𝑟=𝑡+1 𝑡+𝑘 𝑝 𝑠𝑟 𝑠 𝑟−1, 𝑎 𝑟−1 𝑝 𝑜 𝑟 𝑠𝑟 𝑝 (𝑠𝑡|𝑜≤𝑡, 𝑎<𝑡)𝑑𝑠𝑡:𝑡+𝑘
  • 8. 付録: 環境モデルの活用法 x 系列モデルのタイプによる区分 Recurrent Autoregressive Models State Space Models その他 Sequential Modeling (non-RL) Bayer+2014 (STORNs) Chung+2015 (VRNN) Oh+2015 Finn+2016 (CDNA) Goyal+2017 (Z-forcing) Babaeizadeh+2018 (SV2P) Denton+2018 (SVG-L(F)P) Kaiser+2018 (DSAE) Krishnan+2015 (DKF) Fraccaro+2016 (SRNN) Chiappa+2017 (RES) Hsu+2017 (FHVAE) Karl+2017 (DVBF) Li+2018 (DS-AE) Gregor+2019 (TD-VAE) Oh+2015 Oord+2017 (VQ-VAE) RL 方策 改善 Buesing+2018 Ebert+2018 Ke+2019 Buesing+2018 Hafner+2019 (PlaNet) Zhang+2019 (Solar) Deisenroth+2011 (PILCO) Levin+2014 (GPS+iLQG) Weber+2017 (I2A) Kaiser+2019 (SimPLe) 表現 学習 Ke+2019 Watter+2015* (E2C) Ha+2018* (World Models) Finn+2016 Oh+2017 探索 Chiappa+2017 (RES) Ke+2019 Oh+2015 *: Two-Step ※本日の発表に関係するものを中心に掲載.網羅性はありません.
  • 9. 一本目: SimPLe • 書誌情報: • タイトル: Model Based Reinforcement Learning for Atari • 著者: Lukasz Kaiser, Mohammad Babaeizadeh, Piotr Milos, Blazej Osinski, Roy H Campbell, Konrad Czechowski, Dumitru Erhan, Chelsea Finn, Piotr Kozakowski, Sergey Levine, Ryan Sepassi, George Tucker, Henryk Michalewski • グループ: GoogleBrain等 • 投稿先: arixv2019, ICML2019 under review • 概要: • Atariの多くのゲームでRainbowよりも高性能かつサンプル効率性2~10倍を達成 するモデルベースRLを提案
  • 11. SimPLe: 環境モデル側から見ると…… • 環境モデル: • アーキテクチャはOh+2015で提案されたFeedForwardモデル • Babaeizadeh+2018 (SV2P)を参考に確率的な潜在変数を組み入れる • Oord+2017 (VQ-VAE), Kaiser+2018 (DSAE)を参考に潜在変数を離散化する • 環境モデルのRLへの活用法: • 単に高速なシミュレーターとして利用し,環境モデル内でPPOを学習
  • 14. Oh+2015, Action-conditional video prediction using deep networks in atari games • 環境モデル: • Atariを訓練データに用いてaction-conditionalなvideo predictionを行う • FeedforwardモデルとRecurrentモデルの二つを提案 • auto-encoderのように出力の画像はDeconvでbottleneckから生成 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 ℎ 𝑡−1 𝑜𝑡−1 𝑎 𝑡−2 ℎ 𝑡 𝑜𝑡 𝑎 𝑡−1 FeedForwardモデル Reccurentモデル 𝑜𝑡−2 生成過程: 𝑝(𝑜𝑡|𝑎 𝑡−1, 𝑜𝑡−4:𝑡−1) 生成過程 𝑝(𝑜𝑡|ℎ 𝑡 = 𝑓 𝑜𝑡−4:𝑡−1, 𝑎 𝑡−1, ℎ 𝑡−1 ) ※𝑜𝑡−4:𝑡−2からℎ 𝑡のパスは省略
  • 15. Oh+2015 Video Predictionの実験: • Atariの動画を正確に予測できることを示した • ゲームにもよるが,50~200ステップの予測でも見た目は大きく崩れない • この時代から,AtariのVideo Prediction自体はそこそこできていた 一例: 174ステップ目の予測
  • 16. Oh+2015 RLの実験: • 環境モデルをシミュレーターとして用いる実験(SimPLeと似てる) 1. 最初の真の1~100フレームを元に環境モデルが1~100フレームを生成(図の横軸) 2. 生成したフレームでDQNを訓練(Rewardは真の環境から??) • 環境モデルで長期の系列を生成するとDQNの精度が落ちる • (見た目が本物らしいからといってRLに使えるわけではない? c.f. 前項の敵の数) • ゲームにも依るがFeedForwardとRARで結果はあまり変わらない(Atariが簡単だから?)
  • 17. Finn+2016 (CDNA), Unsupervised learning for physical interaction through video prediction • 環境モデル: • Oh+2015のRecurrentモデルの拡張 • 𝑜𝑡のpixel valueを直接生成するのではなく,𝑜𝑡−1からのpixel motionを予測 • 未知の物体に汎化しやすい • Recurrentモデルと違ってさりげなく𝑎からℎのパスになってる ℎ 𝑡−1 𝑜𝑡−1 𝑎 𝑡−2 ℎ 𝑡 𝑜𝑡 𝑎 𝑡−1 1期前の観測にPixel Motionを加える
  • 19. Finn+2016 (CDNA) • 実験: 実機のTrajectoryを用いて検証 • Oh+2015と違い10step程度予測可能 Oh+2015 提案法
  • 20. Babaeizadeh+2018 (SV2P), Stochastic variational video prediction • 環境モデル: • CDNAに潜在変数を導入し,確率的な予測を可能にした • 潜在変数がtime-stepに依存する・しない場合で比較 • 訓練時はVAEの推論分布𝑞(𝑧𝑡|𝑜1:𝑇)から,生成時はpriorから 𝑧𝑡 をサンプリング ℎ 𝑡−1 𝑜𝑡−1 𝑎 𝑡−2 ℎ 𝑡 𝑜𝑡 𝑎 𝑡−1 𝑧Time step独立 ℎ 𝑡−1 𝑜𝑡−1 𝑎 𝑡−2 ℎ 𝑡 𝑜𝑡 𝑎 𝑡−1 𝑧𝑡−1 𝑧𝑡 Time step依存
  • 21. Babaeizadeh+2018 (SV2P) 補足 系列VAEの推論分布 • VAE(amortized variational inference)を系列モデリングに用いる場合,用途に応じて 𝑞(𝑧𝑡| ∙)を以下のように設計することが多い(気がする) 1. 𝑞(𝑧𝑡|𝑜1:𝑇): smoothing(-like). • 観測の系列がすべて与えられた前提で現在の潜在変数𝑧𝑡を推論 2. 𝑞(𝑧𝑡|𝑜1:𝑡): filtering. • 現在までの観測𝑜1:𝑡を使って現在の潜在変数𝑧𝑡を推論 3. 𝑞(𝑧𝑡+1|𝑜1:𝑡): predictive. • 現在までの観測𝑜1:𝑡を使って未来の潜在変数𝑧𝑡+1を推論 4. 𝑞(𝑧𝑡|𝑜𝑡+1:𝑇): backward. • 未来の観測𝑜𝑡+1:𝑇を使って現在の潜在変数𝑧𝑡を推論 • SV2Pでは生成時に𝑧𝑡をPriorから生成するのではなく𝑞(𝑧𝑡+1|𝑜1:𝑡)から生成すること も検証したが,訓練がうまくいかない • そもそも自己回帰なので潜在変数が無視されやすく(Posterior collapse), smoothing-likeのようにリッチな情報を与える必要がある
  • 22. Babaeizadeh+2018 (SV2P) 実験 • 確率的な予測を行うことで,動いている物体がぼやけにくくなる(CDNAのように 決定的な予測を行うとぼやけやすくなる)
  • 24. Kaiser+2018 (DSAE), Discrete autoencoders for sequence models • 概要: • 系列モデルに離散的な潜在変数を導入(Discrete Sequential Autoencoding) • 既存手法(Gumbel-softmax)よりもハイパラにロバストであることを主張 • 提案手法: • オートエンコーダーの中間層が離散になるようにSaturating Sigmoidを入れる • 𝜎′ 𝑥 = max(0, min(1, 1.2𝜎 𝑥 − 0.1) • Saturating Sigmoidは勾配を流せるので,普通にオートエンコーダ訓練するだけ • 勾配を流す,訓練を安定させるための細かい工夫は色々ある.
  • 26. SimPLe: 環境モデル側から見ると……(再掲) • 環境モデル: • アーキテクチャはOh+2015で提案されたFeedForwardモデル • Babaeizadeh+2018 (SV2P)を参考に確率的な潜在変数を組み入れる • Oord+2017 (VQ-VAE), Kaiser+2018 (DSAE)を参考に潜在変数を離散化する • 環境モデルの用途: • 単に高速なシミュレーターとして利用し,環境モデル内でPPOを学習
  • 27. SimPLe: 環境モデルの詳細 • 生成モデルは𝑝(𝑜𝑡|𝑜𝑡−4:𝑡−1),推論分布は𝑞 𝑧𝑡|𝑜𝑡−4:𝑡 • なぜOh+2015のFeedfowardか? => Oh+2015の実験結果でもあったように,Atari 程度ならリカレントな構造はいらないから? • 推論分布にSaturating Sigmoidを挟んで,𝑧𝑡を離散化 • 生成時は推論分布が使えない(推論に未来の観測が必要)のでLSTMから潜在 変数をサンプリング(後述) 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑧𝑡−1 𝑧𝑡 𝑜𝑡−1
  • 28. SimPLe: 離散化の詳細 • なぜ𝑧𝑡を離散化するのか • VAEなのでKL項𝐷 𝐾𝐿(𝑞(𝑧| ∙)||𝑝(𝑧| ∙))が必要だが,この係数はsensitive • (実験に使う20+個の)ゲームごとにハイパラ調整したくない • Atariの場合係数は[1e-5, 1e-3]くらいだが,そんなに係数小さいとテスト時に Priorからサンプリングする時に困る(PriorとPosteriorが近づかない) • 𝑧𝑡を離散化する際の疑問 • 変分下界のKL項をどうやって計算する? =>定数項なので最適化には関係ない(もはやそれはVAEなのか……?) • テスト時にどうやって𝑧𝑡をサンプリングする? =>学習済みの環境モデルの推論分布𝑞から𝑧1:𝑇をサンプリングし, その𝑧1:𝑇を予測するようなLSTMを訓練する どちらも, VQ-VAEと同じ処理(明示的には書いてないが,たぶんそう)
  • 30. Simple: 環境モデルのRLへの活用: 単なるシミュレーター Oh+2015 のRLの実験とほぼ同じ ただし環境モデルと方策の訓練を交互に行う,報酬を予測するなどが異なる
  • 31. SimPLe: 実験 • 環境: Atari • SOTAなモデルフリーで一般に解けるとされている26個のゲーム • ベースライン: • Rainbow • PPO • 提案手法: • 真の環境と100K(現実の2時間)のインタラクションを行い環境モデルを訓練 • 環境モデルの中で15Mのインタラクションを行いPPOを訓練
  • 33. SimPLe: 実験-離散潜在変数の効果 • 青は潜在変数なし,赤は連続潜在変数あり • 離散潜在変数の提案手法が一番良い • 連続潜在変数のときのKL項の重みは言及なし?
  • 34. SimPLe: 実験: リカレントの効果 • 詳細が書かれてないので自信がない • おそらく青がrecurrentかつ(連続 or 離散) 潜在変数あり,赤がリカレントかつ潜在変数 なし • 要は,再帰的な構造はいらないということ? • Oh+2015と似た結果? • Atariが簡単だから?
  • 35. SimPLe: 感想 • 系列モデルも,そのRLへの組み込み方も本当にシンプル • Atari程度なら環境を完全に学習し切れてしまうこと,そしてその環境モデル が有用であることを示した • Policy Networkへの入力を 𝑜にしているため表現学習としての要素が抜けてしまっ ているのが勿体無い • KL項の重みは結構面倒なことが多いので,Saturating Sigmoidが本当にハイパラロ バストなら良さそう
  • 36. Improved Dynamics Model: 概要 • 書誌情報: • タイトル: Learning Improved Dynamics Model in Reinforcement Learning by Incorporating the Long Term Future • 著者: Ke, N. R., Singh, A., Touati, A., Goyal, A., Bengio, Y., Parikh, D., and Batra, D. • グループ: モントリオール大学,Facebook等 • 投稿先: ICLR2019 • 概要: • RAR型の環境モデルに確率的な潜在変数を取り入れる. • その際補助タスクを取り入れることで潜在変数が未来の情報を保持しやすくし,長期の 予測を可能にする • Imitation LearningとRLに有効
  • 37. Improved Dynamics Model: 環境モデル側から見ると…… • 環境モデル: • z-forcingを素直に使う • z-forcingの野中さん資料: https://www.slideshare.net/DeepLearningJP2016/dlzforcing-training- stochastic-recurrent-networks-nips2017 • 環境モデルの用途: • Imitatio Learningの場合: • z-forcingでナイーブにBehaviour Cloning • RLの場合: • 潜在変数を用いたMPC • 探索への活用
  • 38. 潜在空間上のplanning Improved Dynamics Model とその系譜 Fraccaro +2016 (SRNN) Ke+2019 Goyal+2017 (Z-forcing) Buesing +2018 系列モデル RL Karl+2017 (DVBF) Bayer+2014 (STORNs) Chung+2015 (VRNN) RAR+潜在変数系 SSM 未来からの推論, 長期予測のモチベーション
  • 39. 潜在空間上のplanning Improved Dynamics Model とその系譜 Fraccaro +2016 (SRNN) Ke+2019 Goyal+2017 (Z-forcing) Buesing +2018 系列モデル RL Karl+2017 (DVBF) Bayer+2014 (STORNs) Chung+2015 (VRNN) RAR+潜在変数系 SSM 未来からの推論, 長期予測のモチベーション
  • 40. Bayer+2014 (STORNs) and Chung+2015 (VRNN) • 概要: RARに確率的な変数𝑧𝑡を加えたもの • STORNではSV2Pとグラフィカルモデル的に(ほぼ)同じ • 違い:確率的な揺らぎが内生的か外生的か ℎ 𝑡−1 𝑜𝑡−1 ℎ 𝑡 𝑜𝑡 𝑧𝑡−1 𝑧𝑡 STORN, 生成過程: 𝑡 𝑇 𝑝 𝑜𝑡 𝑜<𝑡, 𝑧<𝑡 𝑝(𝑧𝑡) 推論分布: 𝑞(𝑧𝑡|𝑜1:𝑡) ℎ 𝑡−1 𝑜𝑡−1 ℎ 𝑡 𝑜𝑡 𝑧𝑡−1 𝑧𝑡 VRNN 生成過程: 𝑡 𝑇 𝑝 𝑜𝑡 𝑜<𝑡, 𝑧<𝑡 𝑝(𝑧𝑡|𝑜<𝑡−1, 𝑧<𝑡−1) 推論分布: 𝑞(𝑧𝑡|ℎ 𝑡−1, 𝑜𝑡) ※ 図の矢印は 生成過程のみ表示
  • 41. Chung+2015 (VRNN) • 実験: VRNNの方がSTORNに比べてspeech modelingで尤度が高い • (余談: じゃあSV2Pも𝑧𝑡のprior変えた方が良いのでは…… => Denton+2018) STORNに相当
  • 42. 潜在空間上のplanning Improved Dynamics Model とその系譜 Fraccaro +2016 (SRNN) Ke+2019 Goyal+2017 (Z-forcing) Buesing +2018 系列モデル RL Karl+2017 (DVBF) Bayer+2014 (STORNs) Chung+2015 (VRNN) RAR+潜在変数系 SSM 未来からの推論, Posterior Collapse対策の モチベーション
  • 43. Goyal+2017 (Z-forcing) • 問題: 自己回帰モデルでは潜在変数が無視されやすい(Posterior Collapse) • 提案: 𝑧𝑡が未来の情報を持つような推論分布𝑞(𝑧𝑡|𝑜1:𝑇)を作ると無視されにくい • SSMの文脈でFraccaro +2016 (SRNN)によってすでに提案された • 実際は𝑜<𝑡 , 𝑜>𝑡をそれぞれRNNで集約 • 加えて𝑧𝑡から𝑜𝑡<を予測するような補助タスクも組み入れる ℎ 𝑡−1 𝑜𝑡−1 ℎ 𝑡 𝑜𝑡 𝑧𝑡−1 𝑧𝑡 𝑏𝑡−1 𝑏𝑡 ※赤色の破線は推論分布
  • 44. 潜在空間上のplanning Improved Dynamics Model とその系譜 Fraccaro +2016 (SRNN) Ke+2019 Goyal+2017 (Z-forcing) Buesing +2018 系列モデル RL Karl+2017 (DVBF) Bayer+2014 (STORNs) Chung+2015 (VRNN) RAR+潜在変数系 SSM 未来からの推論, 長期予測のモチベーション
  • 45. Improved Dynamics Model: 環境モデル側から見ると……(再掲) • 環境モデル: • z-forcing • 野中さん資料: https://www.slideshare.net/DeepLearningJP2016/dlzforcing-training-stochastic- recurrent-networks-nips2017 • 環境モデルの用途: • Imitatio Learningの場合: • z-forcingでナイーブにモデル化できる • RLの場合: • 潜在変数を用いたMPC • 探索への活用 • (表現学習)
  • 46. Improved Dynamics Model: 環境の詳細 • z-forcingにアクションデコーダー(青線)を加えただけ • (さりげなく𝑧𝑡−1から𝑜𝑡−1 のパスも生えている) ℎ 𝑡−1 𝑜𝑡−1 ℎ 𝑡 𝑜𝑡 𝑧𝑡−1 𝑧𝑡 𝑎 𝑡−2 𝑎 𝑡−1
  • 47. Improved Dynamics Model: 環境モデルのRLへの活用 • Imitation Learningの場合 • actionも含めたz-forcingでエキスパートを学習 • できあがったアクションデコーダーをそのまま方策に用いればよい • (ただのBehavior Cloningなんだけど,Cloneingを行うモデルがz-forcingで強い) • RLの場合 • 潜在空間上でのMPC 1. 環境モデル上でMPCを行い潜在変数の系列𝑧1:𝑘を集める(not 𝑎1:𝑘) 2. 𝑧1:𝑘からアクション𝑎1:𝑘を生成する(記載がないが,アクションデコーダーを使う?) • 潜在変数を経由させることで,直接アクションをサンプリングするよりも安定する(アク ションデコーダーを介することで分布の外に出ていかないということだと思う) • 探索への活用 • 訓練データ収集時は,環境モデルの予測が当たりづらいところを重点的に探索する • (環境モデルの負の尤度を報酬とした方策を学習すれば良い)
  • 48. Improved Dynamics Model: 実験 • ベースライン: • recurrent policy. 𝑝(𝑎 𝑡|𝑜1:𝑡)をLSTMでモデル化してBehavior Cloning • SeCTAr(Sparse rewardに強い) • 提案手法の補助タスクなしversion • 実験環境: • IL: Mujoco tasks, Baby AI Pick Unlock(長期の予測が大事なPOMDPのタスク) • RL: Wheeled Locomotion. Sparce rewardのタスク
  • 49. Improved Dynamics Model: ILの実験 • オレンジ: 提案手法 • 緑: recurrent policy • 紫: 補助タスクなし提案手法
  • 50. Improved Dynamics Model: ILとRLの実験 • 長期の予測が重要となる二つのタスクでベースラインを上回る精度 • 提案手法は未来の情報を持つ(と期待される)潜在変数を持っているが,それが 寄与したのではないか
  • 51. Improved Dynamics Model: 感想 • 実験は小規模だけど,長期の予測が必要なタスクを持ってくるなど設計がうまい • ILの実験では,InverseRLの手法との比較も欲しかった • z-forcingみたいにちゃんとした系列モデル立てればBehavior Cloningで十分なの か知りたい
  • 52. PlaNet: 概要 • 書誌情報: • タイトル: Learning Latent Dynamics for Planning from Pixels. • 著者: Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha, Honglak Lee, James Davidson. • グループ: GoogleBrain等 • 投稿先: arxiv2018, ICML2019 under review • 概要: • SSMを環境のモデルとして用いたモデルベースRL. • SSMをモデルベースRLに適用するのはほぼ先行研究がない • SSM側での新規の提案の貢献も大きい • Mujocoタスクを画像入力で行いD4PGの50+倍のサンプル効率を達成 • この輪読会で谷口くんが一度発表済み • https://www.slideshare.net/DeepLearningJP2016/dllearning-latent-dynamics-for- planning-from-pixels
  • 53. PlaNet:環境モデル側から見ると…… • 環境モデル • Fraccaro +2016 (SRNN)やBuesing+2018と類似した確率的なパスと決定的なパス の組み合わせ • 長期の予測を行うための新しい訓練法Latent Over Shootingを提案 • RLへの用途 • 潜在空間上のMPC.SSMなので高速.
  • 56. Krishnan+2015(DKF) and Fraccaro +2016 (SRNN) • 環境モデル: SRNNはDKFに決定的なパスを追加した形になっている • 実験: MNIST,尤度計算(not 生成)など比較的小規模 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡 ℎ 𝑡−1 𝑜𝑡−1 𝑎 𝑡−2 ℎ 𝑡 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡 DKF SRNN
  • 58. Buesing+2018, Learning and querying fast generative models for reinforcement learning • 概要: • SSMを環境のモデルとして用いた初めての論文 • 4つの環境のモデルを比較して,SSMが速度,精度ともに良いことを示した • RL側は環境モデルをI2Aに活用 𝑠𝑡−1 𝑜𝑡−1 𝑎 𝑡−2 𝑠𝑡 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑜𝑡−1 𝑎 𝑡−2 𝑠𝑡 𝑜𝑡 𝑎 𝑡−1 RAR dSSM-DET 4つの環境モデル
  • 59. Buesing+2018 𝑠𝑡−1 𝑜𝑡−1 𝑎 𝑡−2 𝑠𝑡 𝑜𝑡 𝑎 𝑡−1 𝑧𝑡−1 𝑧𝑡 𝑠𝑡−1 𝑜𝑡−1 𝑎 𝑡−2 𝑠𝑡 𝑜𝑡 𝑎 𝑡−1 𝑧𝑡−1 𝑧𝑡 dSSM-VAE sSSM 4つの環境モデル ※推論は filtering like
  • 60. Buesing+2018 • RLへの用途: I2A (Weber+2017)を基本 • 環境モデルが不完全であることを前提に,不完全さ自体もDNNに解釈させる • I2Aの手順 1. 価値関数,方策,ロールアウト用方策を用意する 2. 環境モデル上でロールアウト用方策𝜋(𝑎|𝑠)から𝑎 𝑡:𝑡+𝑘, 𝑠𝑡:𝑡+𝑘をロールアウト 3. ロールアウトした𝑠𝑡:𝑡+𝑘をLSTMで集約し,価値関数と方策への入力とする 4. 価値関数と方策を使ってactor-criticで訓練 5. (ロールアウト用方策の学習法は2つ提案されている) • 余談: ベースラインのRARにI2Aを使う時は𝑠𝑡:𝑡+𝑘ではなく𝑜𝑡:𝑡+𝑘をロールアウトし てLSTMで集約しているが…… • ℎ 𝑡:𝑡+𝑘での比較も欲しい?(表現学習としての環境モデル)
  • 61. Buesing+2018 • MS_PACMANでの実験: SSM+I2Aの必要性をablation studyする • baseline model-free: actor-critic • baseline copy model: I2Aへの入力を𝑠𝑡:𝑡+𝑘から 𝑠𝑡に変更
  • 62. Buesing+2018 • Atariの4つでの実験: sSSMがRARより性能,速度ともに勝ることを示す • 表の数字は環境のモデルの尤度がbaselineモデルの何倍か • SSMは観測𝑜を逐次的に生成する必要がないため高速 • baseline: Oh+2015のFeedForwardモデルのVAE版 • 一般的にどれくらいの強さか?
  • 64. PlaNet:環境モデル側から見ると……(再掲) • 環境モデル • Fraccaro +2016 (SRNN)やBuesing+2018と類似した確率的なパスと決定的なパス の組み合わせ • 長期の予測を行うための新しい訓練法Latent Over Shootingを提案 • RLへの用途 • 潜在空間上のMPC.SSMなので高速.
  • 65. PlaNet: 環境モデルの詳細 • 確率的と決定的,両方の遷移を持つ • 完全に決定的だとデータの性質に合わない,確率的だと学習が難しいのだと思う • Fraccaro+2016やBuesing+2018でも軽く言及されていたこと • 本論文でも実験で示す • Buesing+2018のsSSMと似ているが,𝑠から𝑧のパスのタイムステップが違う • どちらが良い等の言及は特になし 𝑠𝑡−1 𝑜𝑡−1, 𝑟𝑡−1 𝑎 𝑡−2 𝑠𝑡 𝑜𝑡, 𝑟𝑡 𝑎 𝑡−1 𝑧𝑡−1 𝑧𝑡 RSSM
  • 66. PlaNet: 訓練の詳細 • 複数ステップ先の予測を安定させるためLatent overshootingを提案 • 詳細は谷口くんの資料: https://www.slideshare.net/DeepLearningJP2016/dllearning- latent-dynamics-for-planning-from-pixels • 潜在変数に未来の情報を持たせたいというモチベーションは"Improved Dynamics Model"と似てる?
  • 67. PlaNet: RLへの用途 • 基本的にはMPC,ただしSSM観測𝑜を逐次的に生成する必要がない • 観測の逐次的な生成が必要ない点でHa+2018 (world models)と似ているが,あちら は𝑞(𝑧𝑡|𝑜𝑡) を事前学習して固定する => 潜在変数にマルコフ性がない 𝑠𝑡−1 𝑟𝑡−1 𝑎 𝑡−2 𝑠𝑡 𝑟𝑡 𝑎 𝑡−1 𝑧𝑡−1 𝑧𝑡 𝑜𝑡はいらない 𝑟𝑡を予測して,サンプリングした アクション系列の良さを測る
  • 68. PlaNet: 実験 • 提案手法RSSMによるビデオ生成.50ステップ先も生成できる • SSMによるビデオ生成はKrishnan+2015やKarl+2017のToyなものしかこれまで(発 表者の知る限り)なかったので,(RL抜きの)SSMの研究としてもすごい気がする
  • 69. PlaNet: 実験 • RLではDeepMiind Control suiteの4つのタスクで実験 • サンプル効率がモデルフリーの手法の50+倍 • タスクによってはモデルフリーの手法(A3C, D4PG)より精度が良い • 詳細は谷口くんの資料にあります • https://www.slideshare.net/DeepLearningJP2016/dllearning-latent-dynamics-for- planning-from-pixels
  • 70. PlaNet: 感想 • SSM(observation-independent)で50ステップ先まで動画を生成できるのはすごい. • タスクによってはモデルフリーの手法(A3C, D4PG)より精度が良いが,これは SimPLeのように単にシミュレータとして用いると難しいはず • SSMなので潜在変数がマルコフ性を満たすよい表現になっている?? • SSMはRARよりも画像の生成が難しいが,(1)速度による恩恵は大きい(2)マルコフ 性を満たす表現の学習になっているので,いずれ本命になってくるかも
  • 71. 全体まとめと感想 • まとめ • いろいろあるよVAE x 系列モデル • 3つのモデルベースRLの論文を題材に,VAE x 系列モデルの進展がモデルベー スRLの進展を支えていることを紹介した • 感想: • 系列モデルをより複雑な動画にスケールさせるための研究がこれからさらに 増えてくるだろうし,それを利用すればより高度なRLタスクが解けるように なっていくはず
  • 72. 参考にさせていただいた資料 • 強化学習ロボティクスの動向サーベイ, 島田さん, https://speakerdeck.com/caprest/di-33hui-qiang-hua-xue-xi-akitekutiyamian-qiang-hui- qiang-hua-xue-xi-roboteikusufalsedong-xiang-falsesabei • (今日は紹介できなかったが)PILCOやGPSの解説がある貴重な日本語資料 • TD-VAEの輪読資料, 鈴木さん, https://www.slideshare.net/masa_s/ss-97848402 • VAE x 系列モデルがまとまっている • PlaNetの輪読資料, 谷口くん, https://www.slideshare.net/DeepLearningJP2016/dllearning-latent-dynamics-for- planning-from-pixels • z-forcingの輪読資料, 野中さん, https://www.slideshare.net/DeepLearningJP2016/dlzforcing-training-stochastic- recurrent-networks-nips2017
  • 73. References • Marc Deisenroth and Carl E Rasmussen. Pilco: A model-based and data-efficient approach to policy search. ICML2011 • Levine, Sergey and Abbeel, Pieter. Learning neural network policies with guided policy search under unknown dynamics. NIPS2014 • Justin Bayer and Christian Osendorfer. Learning stochastic recurrent networks. arXiv2014 • Rahul G Krishnan, Uri Shalit, and David Sontag. Deep kalman filters. arXiv2015. • Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. Embed to control: A locally linear latent dynamics model for control from raw images. NIPS2015 • Chung, Junyoung, Kastner, Kyle, Dinh, Laurent, Goel, Kratarth, Courville, Aaron C, and Bengio, Yoshua. A recurrent latent variable model for sequential data. NIPS2015 • Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, Richard L Lewis, and Satinder Singh. Action-conditional video prediction using deep networks in atari games. NIPS2015 • Finn, C., Tan, X. Y., Duan, Y., Darrell, T., Levine, S., and Abbeel, P. Deep spatial autoencoders for visuomotor learning. ICRA2016 • Fraccaro, M., Sønderby, S. K., Paquet, U., and Winther, O. Sequential neural models with stochastic layers. NIPS2016 • Chelsea Finn, Ian Goodfellow, and Sergey Levine. Unsupervised learning for physical interaction through video prediction. NIPS2016 • Oh, J., Singh, S., and Lee, H. Value prediction network. NIPS2017 • Hsu, W.-N., Zhang, Y., and Glass, J. Unsupervised learning of disentangled and interpretable representations from sequential data. NIPS2017 • Anirudh ALIAS PARTH Goyal, Alessandro Sordoni, Marc-Alexandre Coˆte ́, Nan Ke, and Yoshua Bengio. Z-forcing: Training stochastic recurrent networks. NIPS2017
  • 74. References • Weber, T., Racanière, S., Reichert, D. P., Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y., et al. Imagination-augmented agents for deep reinforcement learning. NIPS2017 • van den Oord, A., Vinyals, O., and Kavukcuoglu, K. Neural discrete representation learning. NIPS2017. • Silvia Chiappa, Se ́bastien Racaniere, Daan Wierstra, and Shakir Mohamed. Recurrent environment simulators. ICLR2017 • Karl, M., Soelch, M., Bayer, J., and van der Smagt, P. Deep variational bayes filters: Unsupervised learning of state space models from raw data. ICLR2017 • Babaeizadeh, M., Finn, C., Erhan, D., Campbell, R. H., and Levine, S. Stochastic variational video prediction. ICLR2018 • David Ha, Jurgen Schmidhuber. Recurrent World Models Facilitate Policy Evaluation. NIPS2018 • Yingzhen Li, Stephan Mandt. Disentangled Sequential Autoencoder. ICML2018 • Denton, E. and Fergus, R. Stochastic video generation with a learned prior. ICML2018 • Kaiser, L. and Bengio, S. Discrete autoencoders for sequence models. arxiv2018 • Lars Buesing, Theophane Weber, Sebastien Racaniere, SM Eslami, Danilo Rezende, David P Re- ichert, Fabio Viola, Frederic Besse, Karol Gregor, Demis Hassabis, et al. Learning and querying fast generative models for reinforcement learning. arxiv2018 • Gregor, K. and Besse, F. Temporal difference variational auto-encoder. ICLR2019 • Ke, N. R., Singh, A., Touati, A., Goyal, A., Bengio, Y., Parikh, D., and Batra, D. Learning Improved Dynamics Model in Reinforcement Learning by Incorporating the Long Term Future. ICLR2019 • Ebert, F., Finn, C., Dasari, S., Xie, A., Lee, A., and Levine, S. Visual foresight: Model-based deep reinforcement learning for vision-based robotic control. arxiv2018 • Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha, Honglak Lee, James Davidson. Learning Latent Dynamics for Planning from Pixels. arxiv2019 • Kaiser, L., Babaeizadeh, M., Milos, P., Osinski, B., Campbell, R.H., Czechowski, K., Erhan, D., Finn, C., Kozakowski, P., Levine, S., Others: Model-Based Reinforcement Learning for Atari. arxiv2019 • Marvin Zhang, Sharad Vikram, Laura Smith, Pieter Abbeel, Matthew J. Johnson, Sergey Levine. SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning. arxiv2019

Notas del editor

  1. TODO: とりあえず全部書き出したversionを自分用に作って,その後発表に関連するものだけ抽出する
  2. rewardはどうしてる?
  3. というわけで,OhらのころからRecurrent Autoregressiveもだいぶ進化してる
  4. Finn+2016(CDNA)で提案されたPixel MotionはよいOperatorになってそう Atariだと簡単なのでSimPLeでは採用してない? でもこれSSMだと使えない?
  5. ILでは10kのエキスパート.一般的かどうかはわからん. Sectarは著者らのソースコードを使用
  6. STORN, VRNNの比較はないの?
  7. STORN, VRNNの比較はないの?
  8. 尤度の何倍なのにマイナスがつくのが変.log-尤度? baselineの強さはわからないが,PACMANに関してはactor-criticとの比較がある
  9. Marc Deisenroth and Carl E Rasmussen. Pilco: A model-based and data-efficient approach to policy search. ICML2011 Levine, Sergey and Abbeel, Pieter. Learning neural network policies with guided policy search under unknown dynamics. NIPS2014 Justin Bayer and Christian Osendorfer. Learning stochastic recurrent networks. arXiv2014 Rahul G Krishnan, Uri Shalit, and David Sontag. Deep kalman filters. arXiv2015. Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. Embed to control: A locally linear latent dynamics model for control from raw images. NIPS2015 Chung, Junyoung, Kastner, Kyle, Dinh, Laurent, Goel, Kratarth, Courville, Aaron C, and Bengio, Yoshua. A recurrent latent variable model for sequential data. NIPS2015 Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, Richard L Lewis, and Satinder Singh. Action-conditional video prediction using deep networks in atari games. NIPS2015 Finn, C., Tan, X. Y., Duan, Y., Darrell, T., Levine, S., and Abbeel, P. Deep spatial autoencoders for visuomotor learning. ICRA2016 Fraccaro, M., Sønderby, S. K., Paquet, U., and Winther, O. Sequential neural models with stochastic layers. NIPS2016 Chelsea Finn, Ian Goodfellow, and Sergey Levine. Unsupervised learning for physical interaction through video prediction. NIPS2016 Oh, J., Singh, S., and Lee, H. Value prediction network. NIPS2017 Hsu, W.-N., Zhang, Y., and Glass, J. Unsupervised learning of disentangled and interpretable representations from sequential data. NIPS2017 Anirudh ALIAS PARTH Goyal, Alessandro Sordoni, Marc-Alexandre Coˆte ́, Nan Ke, and Yoshua Bengio. Z-forcing: Training stochastic recurrent networks. NIPS2017 Weber, T., Racanière, S., Reichert, D. P., Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y., et al. Imagination-augmented agents for deep reinforcement learning. NIPS2017 van den Oord, A., Vinyals, O., and Kavukcuoglu, K. Neural discrete representation learning. NIPS2017. Silvia Chiappa, Se ́bastien Racaniere, Daan Wierstra, and Shakir Mohamed. Recurrent environment simulators. ICLR2017 Karl, M., Soelch, M., Bayer, J., and van der Smagt, P. Deep variational bayes filters: Unsupervised learning of state space models from raw data. ICLR2017 Babaeizadeh, M., Finn, C., Erhan, D., Campbell, R. H., and Levine, S. Stochastic variational video prediction. ICLR2018 David Ha, Jurgen Schmidhuber. Recurrent World Models Facilitate Policy Evaluation. NIPS2018 Yingzhen Li, Stephan Mandt. Disentangled Sequential Autoencoder. ICML2018 Denton, E. and Fergus, R. Stochastic video generation with a learned prior. ICML2018 Kaiser, L. and Bengio, S. Discrete autoencoders for sequence models. arxiv2018 Lars Buesing, Theophane Weber, Sebastien Racaniere, SM Eslami, Danilo Rezende, David P Re- ichert, Fabio Viola, Frederic Besse, Karol Gregor, Demis Hassabis, et al. Learning and querying fast generative models for reinforcement learning. arxiv2018 Gregor, K. and Besse, F. Temporal difference variational auto-encoder. ICLR2019 Ke, N. R., Singh, A., Touati, A., Goyal, A., Bengio, Y., Parikh, D., and Batra, D. Learning Improved Dynamics Model in Reinforcement Learning by Incorporating the Long Term Future. ICLR2019 Ebert, F., Finn, C., Dasari, S., Xie, A., Lee, A., and Levine, S. Visual foresight: Model-based deep reinforcement learning for vision-based robotic control. arxiv2018 Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha, Honglak Lee, James Davidson. Learning Latent Dynamics for Planning from Pixels. arxiv2019 Kaiser, L., Babaeizadeh, M., Milos, P., Osinski, B., Campbell, R.H., Czechowski, K., Erhan, D., Finn, C., Kozakowski, P., Levine, S., Others: Model-Based Reinforcement Learning for Atari. arxiv2019 Marvin Zhang, Sharad Vikram, Laura Smith, Pieter Abbeel, Matthew J. Johnson, Sergey Levine. SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning. arxiv2019