Más contenido relacionado La actualidad más candente (12) Similar a "Universal Planning Networks" and "Composable Planning with Attributes" (20) Más de Yusuke Iwasawa (18) "Universal Planning Networks" and "Composable Planning with Attributes"1. DEEP LEARNING JP
[DL Papers]
“Universal Planning Networks” and “Compostable
Planning wit Attributes” (Both ICML2018)
Yusuke Iwasawa, Matsuo Lab
http://deeplearning.jp/
2. DEEP LEARNING JP
[DL Papers]
副題:状態の抽象化、プランニング、転移
Yusuke Iwasawa, Matsuo Lab
http://deeplearning.jp/
4. 目次
• 背景
• 論文1 “Universal Planning Networks”
• 論文2 ”Composable Planning with Attributes”
4
6. Success of Neural Agents
6
DQN [Minh+2015] AlphaGo [Silver+2016]
DLの利用により高次元の入力を扱えるように
コンピュータゲーム、囲碁、ロボティクスなどで応用
8. State Representation with Rewards (in Robotics)
• [Lange+2012] “Autonomous reinforcement learning on raw visual
input data in real world application”
• [Jonschowski+2015] “Learning state representations with robotic
priors”
• [Higgins+2017] “DARLA: Improving Zero-Shot Transfer in
Reinforcement Learning ”
• [Bruin+2018] ”Integrating State Representation Learning Into
Deep Reinforcement Learning”
8
9. Problem of Reward Based Approach
• モデルミスマッチに敏感、タスクの転移ができない
– 例:迷路のゴールがかわる
– 例:モデルミスマッチ
• 上記の問題を解く場合、
• 1) 報酬を各タスクに設計する必要がある
• 2) 各タスクでサンプルを大量に集める必要がある
• =>厳しい
9
13. Policyを作る方法まとめ
1. 報酬設計+強化学習 ⬅ DQNとかAlphaGoとか
1. Pro:データがたくさんあればうまくいく(たぶん)
2. Con:サンプル効率が悪い
3. Con:一般に汎化しない、転移ができない
4. Con:汎化しようとしたときにタスクを指定する明示的な方法無
2. ゴール状態を画像で指定する ⬅本発表はこっち
1. Pro:報酬を設計する必要がない
2. Con:生画像上での距離は意味のある距離になってない
13
16. Plannable Representations?
• 報酬以外の方法で状態を普通に学習しようとすると、教師なし学
習や弱教師あり学習が考えられる
– [Watter+2015] “Embed to Control” (NIPS)
• VAEで埋め込んだzの上で逆モデルを学習
– [David+2018] “World Model”
• VAEで埋め込んだz上で次の状態のzを予測
– [Finn+2016] “Deep Spatial Autoencoders for Visuomotor
Learning”(ICRA)
• 物体の位置を予測するようにAEを訓練
• これらの状態表現は、ゴールにたどり着けるかを考慮したものに
ならない(Reactiveな方策に必要な状態になる)
• => ゴールまでの計画を立てる上で必要な状態表現を学習
16
18. Input, Outputs, and Objectives
18
入力1:現在の観測Ot
入力2:ゴール状態の画像Og
出力:行動の計画
目的:エキスパート系列の模倣(Limitateは普通のMSE)
(ただし、ここは何でも良い)
35. その他の実験
• 4.7. Transfer from Point Robot to Humanoid
– ポイントロボットで学習したUPNのfをより複雑なロボットに使う
– Antへの転移のより複雑版
– 定量評価はないが動いている(いろいろ工夫はしているっぽい)
• 4.8. Using UPN rewards for long horizon tasks
– より長い系列が必要なタスク
– 定量評価はないが動く
• See: https://sites.google.com/view/upn-public/home
35
36. Universal Planning Networksまとめ
• ゴールにたどり着くまでのプランを立てるのに適した状態
表現を学習するネットワークを提案
• 構築済みのモデルを使ってプランニングするのではなく、
プランニングに使えるような状態表現を学習する
• 結果
• (1) UPNは良い方策を学習できる
• (2) UPNの潜在表現は転移できる
• (3) 学習されたGDPは、更新回数を多くすると性能が上がる
(学習されたプランナーが有望であることを示唆) 36
38. What is ”Composable”?
• Task1: “making pancakes”
• Task2: “making an omelets”
• どちらのタスクも”cracking an egg”というサブタスクがある
• あるタスクが別のサブタスクで構成的に表せることをComposable
と呼ぶ
• タスクが構成的に表せると、サブタスクを解く方法とその組み合わ
せ方を理解すればもとのタスクが解ける
– 汎化! 38
39. Composable Planning with Attributes
本研究の目的
• 初期状態からゴール状態にたどり着くエージェントをつくる
• ただし、知らないゴールにたどり着く必要がある
本研究のアプローチ
• 各状態が離散的な属性で表されるとする
• (1) 離散的な属性、(2) 離散的な属性間の遷移行列、(3) 離散的な
状態間の遷移を実現する方策の3つを学習する
39
41. Component of the Proposed Method
1. Attribute detector f: z=f(s)
– 状態から属性を予測する関数
2. Policy: π(s, zg)
– 状態sとゴール属性が与えられたときの方策
3. Transition table: c
– 方策π上で属性間がどのくらい遷移可能かの行列
(厳密には、少数ステップ以内にzi からzjにたどり着ける確率)
41
※論文中では属性としてρが使われているが
うつのめんどくさいのでzで代用
42. Component of the Proposed Method
42
(1)
Attribute
Detector
(3) Transition Table
(2) Policy
43. Evaluating the Attribute Planner
• 入力:現在の状態stと終点状態sT
• Step1 s0とsTをfで離散属性zに変換
• Step2 cに基づいたグラフを使って離散属性空間上での
最短経路を探索
– ダイクストラ法で解ける
– 遷移するべき順番を得る [z0, z1, z2, …, zm]
• Step3 次に到達するべき属性への方策を実行
43
44. Training the Attribute Planner
• Step1 Attribute Detectorを学習
– つまり、sとzのペアがいくつか与えられる
– zは、人間が与える(全部のsにつける必要はない)
– もしくは、f自体を与えても良い(あまり現実的ではない)
• Step2 探索用の方策を使ってcを初期化
– 適当な状態sから動かしてみて、zがどう変化するかを見る
– zi, zjの回数を記録
– 探索用の方策は何でも良い
• Step3 初期化されたcを使ってπを学習
– 適当な状態sから、近傍のz (cが大きい)へ移動するように学習
– 移動できたら+1、できなかったら-1の報酬
– cも更新する
44
52. その他感想
• 離散に飛ばすのは、言語と組み合わせる布石な気がする
– Deep Mind:想像による知能
– UC Berkley:運動による知能
– Facebook:言語による知能
• ゴール状態をどう指定するのかは多分次の大きな課題
– ゴールや状態のモダリティが変わるといろんなタスクが解けそう
– Facebookは言語との組み合わせをやる気がする
• (UPN、GDPの中の計算グラフがエグいことになるような気がする
(理解が正しければ))
52
Notas del editor https://www.youtube.com/watch?v=Q4bMcUk6pcw