"Universal Planning Networks" and "Composable Planning with Attributes"

DEEP LEARNING JP
[DL Papers]
“Universal Planning Networks” and “Compostable
Planning wit Attributes” (Both ICML2018)
Yusuke Iwasawa, Matsuo Lab
http://deeplearning.jp/

DEEP LEARNING JP
[DL Papers]
副題：状態の抽象化、プランニング、転移
Yusuke Iwasawa, Matsuo Lab
http://deeplearning.jp/

紹介する論文
3
ICML2018
UC Berkley
ICML2018
Facebook + NYU
共通点１：どちらもタスクの汎化に関連
共通点２：プランニングが必要なタスクを

目次
• 背景
• 論文１ “Universal Planning Networks”
• 論文２ ”Composable Planning with Attributes”
4

Success of Neural Agents
6
DQN [Minh+2015] AlphaGo [Silver+2016]
DLの利用により高次元の入力を扱えるように
コンピュータゲーム、囲碁、ロボティクスなどで応用

7
State
Representation in
DRL
[Minh+2015]

State Representation with Rewards (in Robotics)
• [Lange+2012] “Autonomous reinforcement learning on raw visual
input data in real world application”
• [Jonschowski+2015] “Learning state representations with robotic
priors”
• [Higgins+2017] “DARLA: Improving Zero-Shot Transfer in
Reinforcement Learning ”
• [Bruin+2018] ”Integrating State Representation Learning Into
Deep Reinforcement Learning”
8

Problem of Reward Based Approach
• モデルミスマッチに敏感、タスクの転移ができない
– 例：迷路のゴールがかわる
– 例：モデルミスマッチ
• 上記の問題を解く場合、
• 1) 報酬を各タスクに設計する必要がある
• 2) 各タスクでサンプルを大量に集める必要がある
• =>厳しい
9

なぜこんなことが起こるのか？個人的な解釈
• 結局は状態の表現が報酬ベースで学習されている
– 例：DQNは、Q関数を近似する中間状態を抽象表現と言っている
• 報酬は明らかにタスク依存
• => 結果として状態表現もタスクに依存する（当たりまえ）
（あるタスクを解く上で必要な情報のみが保持される）
• タスクに依存しない（環境のみに依存する）状態の表現を
得るには？
– 言い換えると、物理世界そのものに関する知識
10

11
Goal Specification
with Images
[Deguchi+1999]

ゴール画像が与えられているとすると
• 現在の状態からゴールにいたるまでのプランが作れれば良い
– ※ 人間もだいたいそうしている気がする
– ※ ゴールが画像なのかという問題はある気がするが
• 高次元な画像上でどうプランを立てるか？
– 生データ上では厳しい（距離を測れない）
➡ “Universal Planning Networks”
➡ “Composable Planning with Attributes”
12

Policyを作る方法まとめ
1. 報酬設計＋強化学習 ⬅ DQNとかAlphaGoとか
1. Pro：データがたくさんあればうまくいく（たぶん）
2. Con：サンプル効率が悪い
3. Con：一般に汎化しない、転移ができない
4. Con：汎化しようとしたときにタスクを指定する明示的な方法無
2. ゴール状態を画像で指定する ⬅本発表はこっち
1. Pro：報酬を設計する必要がない
2. Con：生画像上での距離は意味のある距離になってない
13

14
”Universal Plannable Networks” (ICML2018)

プランニング、普通のアプローチとその問題
• モデルを普通にRNNとかで学習した後にプランニングする
– [Schmidhuber+1990]
– [Henaff+2017]
問題点
1. モデリングエラーが発生する（特に高次限入力）
2. モデル誤差を減らすために不必要に詳細を記録する
3. プランニングに使える表現になっているとは限らない
15

Plannable Representations?
• 報酬以外の方法で状態を普通に学習しようとすると、教師なし学
習や弱教師あり学習が考えられる
– [Watter+2015] “Embed to Control” (NIPS)
• VAEで埋め込んだzの上で逆モデルを学習
– [David+2018] “World Model”
• VAEで埋め込んだz上で次の状態のzを予測
– [Finn+2016] “Deep Spatial Autoencoders for Visuomotor
Learning”(ICRA)
• 物体の位置を予測するようにAEを訓練
• これらの状態表現は、ゴールにたどり着けるかを考慮したものに
ならない（Reactiveな方策に必要な状態になる）
• => ゴールまでの計画を立てる上で必要な状態表現を学習
16

Proposed Method: Universal Planning Networks
17

Input, Outputs, and Objectives
18
入力１：現在の観測Ot
入力２：ゴール状態の画像Og
出力：行動の計画
目的：エキスパート系列の模倣（Limitateは普通のMSE）
（ただし、ここは何でも良い）

f,g
19
f(o): 各状態を埋め込む関数
順モデルg(xt, at)

GDP：Gradient Decent Planner
20
f(o): 各状態を埋め込む関数
順モデルg(xt, at)
GDP：現在のfとgを使って最終状態がf(xg)に近づくように
プランを生成（注：fとgはプランを生成するときには固定）

GDPの学習アルゴリズムと擬似コード
21

全体のアルゴリズム
23

UPNまとめ
• モチベーション：プランニング可能な表現を学習したい
• UPNは大きく分けて2プロセスを繰り返す
– (1) 現在の埋め込みfとダイナミクスgにおいて、最終状態がf(xg)に近づく
ように行動の系列を更新
– (2) GDPで得られた行動のプランがエキスパートの系列に近くなるようにf
とgを更新
• プランを立てる方法を学習するGDPと、立てたプラン自体がよくな
るようにfとgを修正する2プロセス
24

結局何が嬉しいか（個人的理解）
• 状態表現が、状態の抽象表現における遷移のしやすさをふまえ
たようなものになる
– プランニングする上では、状態間の遷移確率をうまく表すことが重要なの
で
• 状態間の「遷移」はタスクの小さな変化に依存しない
– 例：いい例を考える
– =>転移ができる！（実験で検証）
25

• 学習後にf(xt)とf(xg)の距離が同じ環境の
別タスクにおいて報酬として使える
• 厳密にはHuber損失を使っている
26
転移の意味

実験
• たくさんある
– そもそもうまくゴール状態にたどり着けるようになるか
– 訓練データの量が変化したときに、普通のリアクティブな方策（RNNとか）
と比較してどうか
– UPNでどのような表現が学習されているか
– 普通の教師あり学習（VAE）と比較して、転移できるような表現が獲得さ
れているか
• いくつか紹介
27

模倣学習の効率（4.1節）
29

難しいタスクへの転移（4.4）
31

異なるロボットへの転移（4.5）
32
• Reacher
– fの学習：関節が3こと4個
– RL：関節が5個
• Point to Ant
– 足の数が違う

異なるロボットへの転移（4.5）
33

Non-Orthogonal View （4.6）
34

その他の実験
• 4.7. Transfer from Point Robot to Humanoid
– ポイントロボットで学習したUPNのfをより複雑なロボットに使う
– Antへの転移のより複雑版
– 定量評価はないが動いている（いろいろ工夫はしているっぽい）
• 4.8. Using UPN rewards for long horizon tasks
– より長い系列が必要なタスク
– 定量評価はないが動く
• See: https://sites.google.com/view/upn-public/home
35

Universal Planning Networksまとめ
• ゴールにたどり着くまでのプランを立てるのに適した状態
表現を学習するネットワークを提案
• 構築済みのモデルを使ってプランニングするのではなく、
プランニングに使えるような状態表現を学習する
• 結果
• (1) UPNは良い方策を学習できる
• (2) UPNの潜在表現は転移できる
• (3) 学習されたGDPは、更新回数を多くすると性能が上がる
（学習されたプランナーが有望であることを示唆） 36

37
” Composable Planning with Attributes”
(ICML2018)
https://www.youtube.com/watch?v=r7oSmy_AtZY

What is ”Composable”?
• Task1: “making pancakes”
• Task2: “making an omelets”
• どちらのタスクも”cracking an egg”というサブタスクがある
• あるタスクが別のサブタスクで構成的に表せることをComposable
と呼ぶ
• タスクが構成的に表せると、サブタスクを解く方法とその組み合わ
せ方を理解すればもとのタスクが解ける
– 汎化！ 38

Composable Planning with Attributes
本研究の目的
• 初期状態からゴール状態にたどり着くエージェントをつくる
• ただし、知らないゴールにたどり着く必要がある
本研究のアプローチ
• 各状態が離散的な属性で表されるとする
• (1) 離散的な属性、(2) 離散的な属性間の遷移行列、(3) 離散的な
状態間の遷移を実現する方策の3つを学習する
39

Planning in attributes space
• 目的：初期状態からゴール状態にたどり着く
• オレンジ・紫が属性の有無に対応、線が遷移確率に相当 40

Component of the Proposed Method
1. Attribute detector f: z=f(s)
– 状態から属性を予測する関数
2. Policy: π(s, zg）
– 状態sとゴール属性が与えられたときの方策
3. Transition table: c
– 方策π上で属性間がどのくらい遷移可能かの行列
（厳密には、少数ステップ以内にzi からzjにたどり着ける確率）
41
※論文中では属性としてρが使われているが
うつのめんどくさいのでzで代用

Component of the Proposed Method
42
(1)
Attribute
Detector
(3) Transition Table
(2) Policy

Evaluating the Attribute Planner
• 入力：現在の状態stと終点状態sT
• Step1 s0とsTをfで離散属性zに変換
• Step2 cに基づいたグラフを使って離散属性空間上での
最短経路を探索
– ダイクストラ法で解ける
– 遷移するべき順番を得る [z0, z1, z2, …, zm]
• Step3 次に到達するべき属性への方策を実行
43

Training the Attribute Planner
• Step1 Attribute Detectorを学習
– つまり、sとzのペアがいくつか与えられる
– zは、人間が与える（全部のsにつける必要はない）
– もしくは、f自体を与えても良い（あまり現実的ではない）
• Step2 探索用の方策を使ってcを初期化
– 適当な状態sから動かしてみて、zがどう変化するかを見る
– zi, zjの回数を記録
– 探索用の方策は何でも良い
• Step3 初期化されたcを使ってπを学習
– 適当な状態sから、近傍のz (cが大きい）へ移動するように学習
– 移動できたら+1、できなかったら-1の報酬
– cも更新する
44

実験結果：Block Stacking
45

タスクの遂行例
46
AP
A3C
AP
A3C

“Composable Planning…”のまとめ
• Attribute Planerを提案
– 人手で設計した離散属性情報を活用して、ゴールにたどり着く最短パス
を算出
– 階層的強化学習
– 普通にやると難しいタスクも解ける
• 将来課題
– 離散属性を人手で設計は流石に無理
– cを表形式じゃなくパラメトリックに持ちたい
– 探索方策をどうするか
48

49
まとめと感想
https://www.youtube.com/watch?v=r7oSmy_AtZY

まとめ
• 複雑で多様なタスクを解ける方策を学習するにはどうしたらよい
か？
• 普通のRLの問題
– 状態表現がタスク依存になる
• 今回の2つ：プランニングできるような状態表現を学習/利用
– UPN：メタ学習
– AP：外的に与える
50

議論：なぜプランニング可能な状態表現は転移できるのか？
• プランニングに必要なのは、（抽象的なレベルで）どういう遷移が
起こるかを予測しやすいこと
• 遷移を予測するのに十分なぐらい抽象化された表現が学習される？
– AE系だと、余計な細部の情報が残ってしまう
– 報酬ベースだと、タスク依存か環境依存かを切り分けられない
• [Schaul+, 2016] “Universal Value Function Approximator”とかもあるが
• タスクやエージェントによらず抽象的なレベルでは状態の遷移関係は同じ
– 間でどういう方策を取ると遷移が発生するかはエージェント依存
– どの抽象状態にたどり着くとよいかはタスク依存
• UPNやAPは、これらを切り分けていると考えられる（気がする）
51

その他感想
• 離散に飛ばすのは、言語と組み合わせる布石な気がする
– Deep Mind：想像による知能
– UC Berkley：運動による知能
– Facebook：言語による知能
• ゴール状態をどう指定するのかは多分次の大きな課題
– ゴールや状態のモダリティが変わるといろんなタスクが解けそう
– Facebookは言語との組み合わせをやる気がする
• （UPN、GDPの中の計算グラフがエグいことになるような気がする
（理解が正しければ））
52

"Universal Planning Networks" and "Composable Planning with Attributes"

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (12)

Similar a "Universal Planning Networks" and "Composable Planning with Attributes"

Similar a "Universal Planning Networks" and "Composable Planning with Attributes" (20)

Más de Yusuke Iwasawa

Más de Yusuke Iwasawa (18)

"Universal Planning Networks" and "Composable Planning with Attributes"

Notas del editor