[DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration

Deep Learning JP 輪読
Continuous Deep Q-Learning with Model-based Acceleration
那須野薫
2017年1月6日
東京大学松尾研究室

東京大学松尾研究室那須野薫 2017年1月6日 2
紹介する文献
• タイトル
– Continuous Deep Q-Learning with Model-based Acceleration
• 著者
– Shixiang Gu, Timothy Lillicrap, Ilya Sutskever, Sergey Levine
• 発表
– 2016年3月
• 選択理由
– DRLで
– Sample Efficiencyに
– 取り組んでいるため。

概要の訳（Google 翻訳ベース）
モデルフリーの強化学習は、幅広い困難な問題にうまく適用され、最近は大規模なNN
ポリシーや価値関数を扱うように拡張された。
しかし、モデルフリーアルゴリズム(が必要とする)サンプルの複雑性は、特に高次元
近似関数を使用する場合、物理系への適用を制限する傾向がある。
本稿では、連続値による制御タスクのための深層強化学習(が必要とする)サンプルの
複雑性を軽減するためのアルゴリズムと表現について説明する。
我々は、このようなアルゴリズムの効率を改善するための2つの補完的な手法を提案す
る。
まず、より一般的に使用されるpolicy gradientおよびactor criticの代わりに、正規化さ
れたadvantage function（NAF）と呼ばれるQ-Learningアルゴリズムの連続値への変形
を導出する。
NAFの表現を使用することで、experience replayによるQ-Learningを行動空間が連続
値のタスクに適用でき、シミュレーションによる幅広いのロボット制御タスクのパ
フォーマンスが大幅に向上した。
我々のアプローチの効率をさらに向上させるために、モデルフリー強化学習を加速す
るための学習済みのモデルの使用法を検討した。
iteratively refitted local linear modelsが特に効果的であり、そのようなモデルが適用可
能な領域での学習が大幅に高速であることを示された。

主な貢献
• 行動空間が連続値の問題において効果的なQ-learningを可能にするQ
関数の表現を導出し評価した。
• 学習済みの(システムダイナミクスの)モデルをモデルフリーのQ-
learningに組み込むための、いくつかの選択肢を評価し、連続値の制
御タスクで小さい効果があることを示した。
• 局所線形モデルと局所on-policyなimagination rolloutsを組み合わせる
ことで、モデルフリーの連続値のQ-learningを加速させ、サンプルの
複雑さを大幅に改善できることを示した。
• 上記のため、シミュレーションによる幅広いロボットタスクに対して、
提案手法を適用し、従来手法と比較した。

前提
• 既存手法
– DQN：行動空間が離散値、 Q-learning
– DDPG：行動空間が連続値、Actor Critic
• 今回
– NAF：行動空間が連続値、Q-learning

DDPG
方策更新のイメージ
「あっちの方がいい」
ただ、方策が壊れやすい。
行きすぎてデータ点がな
いところまで行ってしまう
等のためか。

NAF単体
Aは常に負。
Qが最大となる方策uは常にμ と
なる。
P = 𝐿𝐿 𝑇
Lは下三角行列、
各成分は線形NNの出力で、特
に対角成分はexp(x)にかけてあ
る。
<< expかける理由がわからない。
わかる人いたら教えてください。
<< どうやら正定値行列にするに
は対角成分がすべて正である必
要があるらしい。
方策更新のイメージ
「ここら辺がいい」

NAF + iLQG + Imagination Rollouts
iLQG Exploration(あんまきかない)
system dynamicsをadditional bufferのデータで学習・更新
モデルMを使ってシミュレートして、fictional bufferにいれる。
fictional bufferとreplay bufferからサンプリングして、NNを学習。

実験結果 DDPGとNAFの比較

実験結果 Imagination RolloutsやiLQG Explorationの効果

[DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration

Recomendados

Recomendados

Más contenido relacionado

Más de Deep Learning JP

Más de Deep Learning JP (20)

Último

Último (11)

[DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration