Más contenido relacionado
La actualidad más candente (20)
Similar a MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2) (20)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
- 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
DL ゼミ
MASTERING ATARI WITH DISCRETE
WORLD MODELS (DreamerV2)
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
修士課程2年 織田 智矢
- 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
メタ情報
著者
• Danijar Hafner (Google Research)
• Timothy Lillicrap(DeepMind)
• Mohammad Norouzi (Google Research)
• Jimmy Ba(University of Toronto)
発表
• ICLR 2021
概要
• World Modelの派生系のDreamerの2代目
• 画像入力から学習した世界モデルの潜在空間内のみで学習
• 同じ計算資源・サンプル数でIQN, Rainbow(モデルフリー)を凌駕
リンク
• https://arxiv.org/pdf/2010.02193.pdf
• https://ai.googleblog.com/2021/02/mastering-atari-with-discrete-world.html
- 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
イントロ
• 世界モデルとは、環境に関するエージェントの知識
を明示的に表現する方法
• 入力よりコンパクトな内部表現に変換するため、環
境を一般的に捉えることができていると考えられる
• この学習された世界モデル上で強化学習を行う
• メモリ使用量が抑えられ、1GPUで数千の軌道が並列
予測ができる
• アルゴリズムを厳密に比較するためのAtariスコアリ
ング手法も提案
- 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
MuZeroの成功
• 潜在変数を使ったプランニング(MuZeroはMCTS)
が、囲碁、将棋、Atari等のゲームに有効であること
をMuZeroが示した
• しかし重たすぎて実用的じゃない(2ヶ月学習、大量
GPU)
• 学習した世界モデル内で方策を学習したDreamerの
改良手法であるDreamerV2を提案
– 潜在変数をカテゴリカルに
– KL Balancingを提案
- 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
生成モデルとしての世界モデル
• 観測される刺激が環境から生成されると仮定
• その観測を生成している環境を近似するように、世
界モデルを学習
環境
世界モデル
近似
観測
生成
推論
潜在
変数
- 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
生成モデル
• データセットは、とある生成器によって生成されてい
ると考える
• 真の分布𝑝𝑑𝑎𝑡𝑎 𝑥 はわからないので、 生成モデル 𝑝𝜃 𝑥
を設計して(𝜃はパラメータ)、真の分布と同じモデル
を構築することを目標とする
https://qiita.com/xkumiyu/items/1cc0223486c560062e00
生成器 観測されたデータセット
生成
{𝑥1, … , 𝑥𝑁}
𝑝𝑑𝑎𝑡𝑎 𝑥
- 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
経験分布
• 真の分布となんらかの距離を測って、生成モデルを
近づけたいが真の分布は手に入らない
• 真の分布の代わりにデータセットで決まる経験分布
を定義
• 後はKLダイバージェンス最小化でパラメータ𝜃に関し
て最尤推定などいろいろ(だいぶはしょりました)
- 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
識別モデルとの違い
• データ集合 𝐱, 𝑦 𝑖=1
𝑁
(𝐱は入力,𝑦はラベル)から
𝑝 𝑦 𝐱 を求める
• イメージ
識別モデル:
𝑝(𝑦|𝐱)を直接データ集合から学習
学習した𝑝(𝑦|𝐱) を用いて𝐱から𝑦 を予測
生成モデル:
同時分布𝑝(𝐱, 𝑦)をデータ集合から学習
𝑝 𝑦 𝐱 =
𝑝 𝐱,𝑦
𝑝 𝐱,𝑦 𝑑𝑦
を求めて,𝐱から𝑦 を予測
識別モデル 生成モデル
𝑝 𝑦 𝐱 𝑝 𝑦 𝐱 =
𝑝 𝐱, 𝑦
𝑝 𝐱, 𝑦 𝑑𝑦
- 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
潜在変数モデル
• 観測データとして現れないデータの背後に隠れている要
因として考える
• 実は投げるコインはk個あると仮定
• 毎回の試行でk個のうちいずれかのコインが選ばれて投
げられる
• K個のコインのうちどのコインかを表す潜在変数𝑧を導入
問題
表裏のある歪んだコインを複数回投げた結果が以下のと
き
結果:(表、裏、裏、…)
このコインはどのくらいの確率で表がでる?
Q
A
- 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
グラフィカルモデル
• コイン選択はカテゴリカル分布
• コインの歪みはベルヌーイ分布
• 後は同時分布を周辺化してパラメータ推定(EMアルゴリズム)
𝐱𝑖
𝐱𝑖~𝑝𝝁 (𝐱|𝐳𝑖)
𝐳𝑖
𝐳𝑖 ~𝑝𝛑(𝐳)
𝝅
𝑁
パラメータ
(コインを選択)
潜在変数
𝝁
観測変数
パラメータ
(コインの歪み)
• k番目が選ばれる確率𝜋𝑘 𝝅 = [𝜋1, … , 𝜋𝑘]𝑇
• 𝜇𝑘はk番目のコインが表(𝑥 = 1)となる確率 𝝁 = [𝜇1, … , 𝜇𝑘]𝑇
- 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
対数尤度の式変形
• 潜在変数に関して周辺化(𝜋, 𝜇をまとめて𝜃とすると)
• そのままだと周辺尤度を最大化できない(2つパラメー
タがある)
• 対数尤度は潜在変数𝐳における任意の分布𝑞(𝐳)を用いて
log 𝑝𝜃 𝐱 = log 𝑝𝜃 𝐱, 𝐳 𝑑𝐳 = log 𝑝𝜃 𝐱|𝐳 𝑝(𝐳)𝑑𝐳
= log𝑝𝜃 𝐱 𝑞(𝐳) 𝑑𝐳
= 𝑞(𝐳)log 𝑝𝜃 𝐱 𝑑𝐳
= 𝑞(𝐳)log
𝑞(𝐳)𝑝𝜃 𝐳|𝐱 𝑝𝜃 𝐱
𝑞(𝐳)𝑝𝜃 𝐳|𝐱
𝑑𝐳
= 𝑞(𝐳)log
𝑝𝜃 𝐳|𝐱 𝑝𝜃 𝐱
𝑞(𝐳)
𝑑𝐳 + 𝑞 𝐳 log
𝑞 𝐳
𝑝𝜃 𝐳|𝐱
𝑑𝐳
= ℒ(𝑞, 𝜃; 𝐱) + 𝐷𝐾𝐿[𝑞(𝐳)||𝑝𝜃(𝐳|𝐱)]
log𝑝𝜃 𝐱
ただし 𝑞 𝐳 log
𝑝𝜃 𝐱,𝐳
𝑞 𝐳
𝑑𝐳 ≡ ℒ(𝑞, 𝜃; 𝐱) とした
- 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
エビデンス下界(ELBO)
• 前ページより
• 第1項はエビデンス下界(ELBO)と呼ばれる
– 第2項は0以上なので、ELBOは必ず周辺尤度以下になるため
• このELBO代わりに最大化すれば良い
EMアルゴリズム
1. 𝑞について最大化(Eステップ)
• θを固定すると第2項が0となるとき最大
• 𝑞(𝐳) = 𝑝𝜃(𝐳|𝐱)とすれば良い
2. 𝜃について最大化(Mステップ)
log 𝑝𝜃 𝐱 = ℒ(𝑞, 𝜃; 𝐱) + 𝐷𝐾𝐿[𝑞(𝐳)||𝑝𝜃(𝐳|𝐱)]
- 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
深層生成モデル
• 従来の生成モデルはデータを生成することは意図し
てなかった
• 事後分布𝑝𝜽 (𝐳|𝐱)を計算し、𝑥から事後分布を計算し
てクラス分類等に使うのが主な用途(例: LDA)
• DNNの研究がすすんで、DNNで確率分布を表現でき
るようになった
• 従来の生成モデルとは違い、誤差逆伝播法によって
勾配を求めて学習する
- 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
Amortized(償却)変分推論
• 生成モデルの事後分布(推論分布、推論モデル)
• しかし生成モデルが複雑な場合(DNNとか)でモデ
ル化されている場合、分母の周辺化の計算が解析的に
できない
• 𝜙(学習可能なパラメータ)を使った𝑞𝜙(𝐳|𝐱)を導入
• するとELBOは𝜙と𝜃の関数になる
• 𝜙について最大化することで推論が求まる
• ELBO最大化は𝜙と𝜃について最大化
𝑝𝜃 𝐳 𝐱 =
𝑝𝜃 𝐱, 𝐳
𝑝𝜃 𝐱, 𝐳 𝑑𝐳
ℒ 𝜙, 𝜃; 𝐱 ≡ 𝑞𝜙(𝐳|𝐱)log
𝑝𝜃 𝐱, 𝐳
𝑞𝜙(𝐳|𝐱)
𝑑𝐳
- 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
Variational Autoencoder (VAE)
• 潜在変数モデルの確率分布をDNNで表現
• ELBO最大化によって学習(ELBOを目的関数に)
• 第1項は解析的に求まらないので近似する
ℒ 𝜃, 𝜙; 𝐱 = 𝔼𝑞𝜙 𝐳 𝐱 log 𝑝𝜃 𝐱|𝐳 − 𝐷𝐾𝐿[𝑞𝜙 𝐳 𝐱 ∥ 𝑝 𝐳 ]
解析的にもとまる
𝔼𝑞𝜙 𝐳 𝐱 log 𝑝𝜃 𝐱|𝐳 ≅
1
𝐿
𝑙=1
𝐿
log 𝑝𝜃 𝐱|𝐳(𝑙)
, 𝐳(𝑙)
∼ 𝑞𝜙 𝐳 𝐱
𝐱
𝝁 𝝈
𝝀
勾配が通らない
• しかし入力までの計算グラフに確率的
な仮定が入り、自動微分できない
• 再パラメータトリックを使う
(通称リパラ)
- 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
再パラメータ化トリック
• 推論分布を次のように再パラメータ化
• よく知られている分布なら大体できる
• ガウス分布の場合
• するとELBOの第1項の勾配は
http://blog.shakirm.com/2015/10/machine-learning-trick-of-the-day-4-reparameterisation-tricks/
𝐳 = 𝝁 + 𝝈 ⊙ 𝜺,ただし𝜺~𝒩(0, 𝐈)
𝛻𝜃,𝜙𝔼𝑞𝜙 𝐳 𝐱 log 𝑝𝜃 𝐱|𝐳 = 𝔼𝜺∼𝒩(0,𝐈) 𝛻𝜃,𝜙log 𝑝𝜃 𝐱|𝐳 = 𝝁 + 𝝈 ⊙ 𝜺
≅
1
𝐿
𝑙=1
𝐿
𝛻𝜃,𝜙log 𝑝𝜃 𝐱|𝐳 = 𝝁 + 𝝈 ⊙ 𝜺(𝑙)
, 𝜺(𝑙)
∼ 𝒩(0, 𝐈)
𝜺
𝑞𝜙 𝐳 𝐱 𝑝𝜃 𝐱 𝐳
𝐱
𝝁 𝝈
𝝀
リパラ
- 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
VAEのELBO(目的関数)
ℒ 𝜃, 𝜙; 𝐱
= 𝔼𝑞𝜙 𝐳 𝐱 log 𝑝𝜃 𝐱|𝐳 − 𝐷𝐾𝐿[𝑞𝜙 𝐳 𝐱 ∥ 𝑝 𝐳 ]
=
1
𝐿
𝑙=1
𝐿
log 𝑝𝜃 𝐱|𝐳(𝑙)
− 𝐷𝐾𝐿[𝑞𝜙 𝐳 𝐱 ∥ 𝑝 𝐳 ]
=
1
𝐿
𝑙=1
𝐿
(𝐱 log 𝝀 𝑙
+ 1 − 𝐱 log(1− 𝝀 𝑙
)) +
1
2
𝑗=1
𝐽
(1 + log 𝜎𝑗
2
− 𝜇𝑗
2
− 𝜎𝑗
2
)
負の再構成誤差
(生成モデルがベルヌーイ分布の場合)
正則化項
(事前分布𝑝 𝐳 が標準ガウス分布𝒩(0, 𝐈) の場合)
ただし, 𝝁 = 𝑔𝜙
𝜇
𝐱 , 𝝈 = 𝑔𝜙
𝜎
𝐱 ,
𝝀 𝑙 = 𝑓𝜃 𝐳 𝑙 , 𝐳 𝑙 = 𝝁 + 𝝈 ⊙ 𝜺 𝑙 , 𝜺 𝑙 ~𝒩 0, 𝐈
𝜺
𝑞𝜙 𝐳 𝐱
𝑝𝜃 𝐱 𝐳
𝐱
𝝁 𝝈
𝝀
• VAEでは推論モデルで入力𝐱を𝐳にエンコードし,生成モデルで𝐳から
𝐱をデコード
→オートエンコーダーとみなせる
𝐳
推論モデル 𝑞𝜙(𝐳|𝐱) 生成モデル 𝑝𝜃(𝐱|𝐳)
𝐱 𝐱
再構成
入力
- 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
VAEと表現学習
• VAEでは再構成だけでなく、表現𝐳~𝑞𝜙(𝐳|𝐱)も学習し
ているとみなせる
• 深層生成モデルにおいては,表現学習は推論と等価
– エンコーダで入力から表現へ写像
表現学習?
• データから「良い表現」を(できれば教師なしで)
獲得する学習
良い表現?
• 元のデータの性質をある程度保持しつつ,他のタス
クにも使い回せるような表現
- 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
強化学習 主要アルゴリズム系譜
• あ
出典: https://twitter.com/ImAI_Eruel/status/1303677795806056451/photo/1
- 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
強化学習の定式化
• 環境にマルコフ性を仮定し,マルコフ決定過程で定式化
• マルコフ性
- 現在の状態𝑠tと行動𝑎tのみに依存して𝑡 + 1の状態𝑠t+1が決ま
る性質
- 次の状態が現在の状態にのみ依存する
https://ja.wikipedia.org/wiki/マルコフ決定過程
- 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
目的関数
• エージェントが環境内で得る報酬の総和を最大化する方策
を獲得することが,強化学習の目的
• 無限ステップの行動で発散するため,割引率𝛾を導入
• 収益に関連した目的関数を最大化する方策を学習する問題
に帰着
• 以下価値関数を、方策の良さを示す目的関数とする場合が
多い
𝑅𝑡 = 𝑟𝑡+1 + 𝛾𝑟𝑡+2 + 𝛾2𝑟𝑡+3 … =
𝑘=0
∞
𝛾𝑘𝑟𝑡+𝑘+1
V𝜋 𝑠 = 𝔼 𝑅𝑡+1|𝑆𝑡 = 𝑠
- 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
価値関数と方策
• 状態価値関数: V
- 状態𝑠から方策𝜋に従って行動したときに得る収益の期待値
• 行動価値関数: 𝑄
- ある状態𝑠で行動𝑎を選択して,その後方策𝜋に従って行動し
たときに得る収益の期待値
• 方策:𝜋(𝑎|s)
– ある状態𝑠で行動𝑎を選択する確率を出力する関数
– 他にGreedy, ε-greedy, ソフトマックス方策, ボルツマン方策が
ある
V𝜋 𝑠 = 𝔼 𝑅𝑡+1|𝑆𝑡 = 𝑠
𝑄𝜋 = 𝔼 𝑅𝑡+1|𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎
- 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
ベルマン方程式
• 価値関数が満たすべき式
• 以下の再帰的な式をベルマン方程式という
– ベルマン方程式は価値関数の定義から再帰的に導かれる
https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning から抜粋
- 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
基本性質
• 探索と活用のジレンマ
– 現状最も良いと思われる行動を続けるだけでは,他にもっ
と良い行動を見逃す可能性がある
– 活用(Exploitation),探索(Exploration)のバランスが大事
• 遅延報酬
– 多くの行動を繰り返した後でなければ,大きな報酬を与え
られないような環境もある
– 長期的な利益を考える必要→期待報酬の最大化
• 価値(Value)ベース or 方策(Policy)ベース
– 価値評価を学習するか,戦略を学習するか
- 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
25
方策 or 価値関数の学習
価値関数の学習
• ある状態・行動における価値を学習し、それに基づき(価値関数に
従って)行動
• ε-greedy, softmax方策等を使う
• 学習方法: DP, MC, TD学習
• 例: SARSA, Q-Learning, DQN
方策の学習
• 価値関数を参照せず直接方策を学習
• (しかし最近の手法は、状態価値関数を一緒に学習する)
• 行動生成: 確率分布からサンプリング
• 学習方法: 累積報酬和Rの期待値𝐽 𝜃 を勾配上昇法で最大化
• 例: VPG, TRPO, PPO
- 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
26
方策勾配定理(方策の学習)
• 方策の良さの指標を𝑓(∙)として目的関数𝐽 𝜃 =
𝐸𝜋𝜃
[𝑓(∙)]を最大化する𝜃を学習
• 累積報酬和の良さの指標にした方策の最適化を考え
る
θで微分して勾配上昇
http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-5.pdf
- 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
27
REINFORCE アルゴリズム
欠点
• 収益𝑟(𝜏)の分散によって方策が大きく変わってしまう
CS285 Fa19 9/16/19 https://youtu.be/Ds1trXd6pos?t=2020
- 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
28
ベースラインの導入
松尾研強化学習セミナーから抜粋
http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-5.pdf
- 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
29
方策勾配計算の改善
エピソード終端
までの報酬和
松尾研強化学習セミナーから抜粋
http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-5.pdf
- 30. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
30
Advantage関数の学習
松尾研強化学習セミナーから抜粋
http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-5.pdf
- 31. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
31
状態価値関数の学習
松尾研強化学習セミナーから抜粋
http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-5.pdf
- 32. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
32
ここまでまとめ
松尾研強化学習セミナーから抜粋
http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-5.pdf
- 33. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
33
モデルフリーとモデルベース
https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning から抜粋
- 34. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
34
世界モデル
• Atariタスクの入力は高次元画像
• コンパクトな状態表現を学習す
る方が有益[1,2,3]
• これらのモデルはlatent
dynamics modelと呼ばれる
https://ai.googleblog.com/2021/02/mastering-atari-with-discrete-world.html
[1] M Watter, J Springenberg, J Boedecker, M Riedmiller. Embed to Control: A Locally Linear Latent Dynamics Model for Control
From Raw Images. Advances in Neural Information Processing Systems, 2015.
[2] M Karl, M Soelch, J Bayer, P van der Smagt. Deep Variational Bayes Filters: Unsupervised Learning of State Space Models
From Raw Data. ArXiv Preprint ArXiv:1605.06432, 2016.
[3] D Ha J Schmidhuber. World Models. ArXiv Preprint ArXiv:1803.10122, 2018.
• 潜在空間で先を予測することは、長期的な予測を容易に
する
• 一括して予測できるので効率的である
- 35. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
35
学習の流れ
データセット
• エージェントの過去の経験から学習
– 方策がある程度学習したら方策に従って環境とインタラク
ションしてデータセットを増やす(Atariでは4回)
• 学習時はエピソードからランダムにサンプルされた
固定長𝐿=50のシーケンスで取り出し
– エピソード終端を十分に観測するため、エピソードはみ出
す場合はクロップする
DreamerV1より, https://ai.googleblog.com/2020/03/introducing-dreamer-scalable.html
- 36. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
36
世界モデルのコンポーネント
• Image predictor
• Recurrent state-space model (RSSM)
• Predictors (for image, reward, discount factor)
• エンコーダが各画像を確率的な表現に変換
• それを世界モデルの再帰的な状態に組み込む
→表現が確率的なため、必要な情報のみを抽出するようになり、
未知画像に対してロバストに
https://arxiv.org/pdf/1811.04551.pdf
- 37. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
37
コンポーネント詳細
• RSSMは決定論的なシーケンスh𝑡を使用
• Transition predictorで状態𝑧𝑡を更新
• そこから各ステップで確率的な状態に関する分布を
計算
• コンパクトな状態表現とはh𝑡と𝑧𝑡のconcatenation
• すべてのコンポーネントはNNで実装
– 画像のencoder-decoderはCNN
– recurrent modelはGRU
– あとはMLP (4 layer, 400 units)
- 38. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
38
世界モデルの学習
確率分布
image predictor: ガウス分布(ピクセル分)
reward predictor: 1変数ガウス分布
discount predictor: ベルヌーイ分布
transition predictor: カテゴリカル分布
誤差関数
• すべてのコンポーネントは同時に最適化される
カテゴリカル分布の勾配の通し方
- 39. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
39
KL Balancing
• 世界モデルはrepresentation modelが事後状態の近似、
transition predictorが時間的な事前状態である、sequential
VAEであると解釈できる
• ELBOではKL lossが2つの役割を果たす
– representationに対する事前状態の学習
– 事前状態に対するrepresentationの正則化
• transitionの学習は簡単ではないため、学習が不十分なと
きは事前状態に対して正則化してほしくない
• 事前状態に対する学習率を𝛼 = 0.8, 近似事後状態に対する
学習率を1 − 𝛼にする
• これにより正確な事前状態の学習を促す
- 40. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
40
方策の学習 (Actor-Critic)
Imagination MDP
• 世界モデルの潜在空間の行動を学習するために、
imagination MDPを次のように定義
– 初期分布は世界モデルの学習中に出会ったもの
– transition, reward, discountはシーケンスで出力
Actor-Criticの学習はrepresentationのパラメータ固定
- 41. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
41
方策の学習 (Actor-Critic)
ActorはCriticの出力を最大化するように学習
Criticはactorが獲得する将来の合計を予測するように学習
Critic loss
• n-step learning, general 𝜆 target, 100 step target network
• sg関数は最終ステップだった場合に勾配をストップ
Actor loss
• Reinforceの勾配と、predictorsたちのstraight-through勾配
- 42. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
42
実験
• 4つのモデルフリーアルゴリズムと比較
– IQN, Rainbow, C51, DQN
• Atariでよく比較される55ゲームで評価
• 1GPU, 1環境, 環境とのインタラクションは200Mまで
• 1episodeあたり108,000stepの制限
• モデルフリーアルゴリズムが200Mの中、世界モデル
内で468Bもコンパクトな状態から学習(1万倍)
- 43. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
43
評価手法の提案
Gamer Median
• ランダムポリシーとプロゲーマーで正規化されて、複数
シードで平均とり、すべてのタスクの中央値
しかし半分のゲームのスコアが0でも値が変わらずロバス
トじゃない
Gamer Mean
• すべてのタスクを考慮しているが、ゲーマーが苦手(RL
が得意)なゲームで高い正規化されたスコア出せるので、
平均で人間超えは余裕
Record Mean
• プロゲーマーではなく人間の世界記録で正規化するとた
しかに改善するが、やはりRLが得意なゲームが支配的
Chipped Record Mean
• 人間の世界記録でクリップすることで、1を超えないよう
にする
これでRLのイカれた記録がででも堅牢
- 44. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
44
実験結果
schedulesはActor lossの係数をアニーリングしたら結果
がよくなった
Video pingballというゲームはDreamerV2が全負け
理由として、ボールが1pixelしかなかったから世界モデ
ルで再構成できなかったためと考察
- 45. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
45
世界モデルの学習結果
• イメージデコーダーで画像を復元したとき、
どれだけ環境を再現できているか比較
- 46. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
カテゴリカル潜在変数(V2) vs ガウシアン潜在変数(V1)
• カテゴリカルが42ゲームが勝ち、8負け、5タイ
• なぜかはハッキリとはわかっていない
KL balancingなし
• 44ゲームが勝ち、6負け、5タイ
• 世界モデルの事前状態を先に正確に学習することは大切
• 世界モデル以外の確率モデルにも有効だと考えられる
Image gradient stop
• 3勝ち, 51負け, 1タイ
reward gradient stop
• 15勝ち, 22負け, 18タイ
reinforce gradient stop
• 18勝ち, 24負け, 13タイ
46
各要素の検証(Ablation Study)
- 47. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
47
まとめ
• モデルベース手法である世界モデルでモデル
フリーの手法を超えたDreamerV2を提案
• 潜在変数をガウス分布ではなく、カテゴリカ
ル分布にすることで性能が向上
• KL Balancingを提案
• Atariのベンチマーク方法を提案
• 1GPUで数千の軌道が並列予測が可能