Más contenido relacionado
Similar a Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving (20)
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving
- 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Efficient Deep Reinforcement Learning with
Imitative Expert Priors for Autonomous
Driving
2022/07/05(火)
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
M1 清水雅之
- 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報
• タイトル
– Efficient Deep Reinforcement Learning with Imitative Expert
Priors for Autonomous Driving
• 著者
– Zhiyu Huang, Jingda Wu, Chen Lv
• 発表
– IEEE Transactions on Neural Networks and Learning Systems
2022
• 論文URL
– https://ieeexplore.ieee.org/document/9694460
• Github
– https://github.com/MCZhi/Expert-Prior-RL
- 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
概要・背景
• 深層強化学習(DRL)は人間のような自律走行を実現す
るための有望な方法
• DRLの実際の応用の妨げとなっているのはサンプル
効率の低さと報酬関数の設計の難しさ
• DRLに人間の事前情報を組み込むことで、これらの
問題を解消する新しいフレームワークを提案
• 2つの都市交通シナリオ(無防備左折、環状交差点)で
実験し、既存の手法と比較して最も良い性能を示し
た
- 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
提案手法
• 以下の主要3ステップで構成
1. エキスパートの実演
2. 方策導出
3. RL
- 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
提案手法
• ステップ1 エキスパートの実演
– 人間のエキスパートがタスクを実演し、その動作を状態-行
動の組の系列として符号化
• ステップ2 方策導出
– 実演データをもとに模倣エキスパート方策を導出
• 人間のエキスパートがその状態で実行する行動分布
• 価値関数に不一致ペナルティを加えるか、エージェントの方策との間
の分布の不一致を正則化することで、RLエージェントの学習過程を導
くために適用
- 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
提案手法
• ステップ2 方策導出 (続き)
– 方策導出の際には、(1)方策の不確実性、(2)エキスパートの
方策のモデルの不確実性を推定
① 方策の不確実性
– 同じ状態でも異なる実行可能な行動を取る
– 人間のエキスパートが行動を生成する際の潜在的なランダ
ム性に由来
– 行動に関するパラメトリック確率分布のパラメータを出力
• 行動はガウス分布、𝐚𝑡~𝒩(𝜇𝜃 𝐬𝑡 , 𝜎𝜃
2
(𝐬𝑡))
• 最尤法によりエキスパート方策を学習
𝜇𝜃:予測平均
𝜎𝜃
2
:予測分散
c: 定数
- 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
提案手法
② モデルの不確実性
– 学習データセットに含まれないデータは、予測平均と予測
分散が不確実で信頼できない
– モデルがその行動出力に確信を持っているかを定量化
– 評価指標としてディープアンサンブル法を採用
• 計算効率が良く、実装が簡単
– 異なるランダムな初期化とデータ次数で学習したM個のネッ
トワーク(確率的方策)のアンサンブルを採用
– 全てのネットワーク(𝜃𝑖はi番目のネットワークのパラメータ)
の結果をガウス混合分布に結合
- 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
提案手法
3. RL
– エージェント方策が模倣エキスパート方策に向かうように
正則化できる修正Actor-Criticを提案
– 2つのQネットワーク(𝑄𝜙1
, 𝑄𝜙2
)、価値関数ネットワーク(𝑉𝜓 )、
確率的方策ネットワーク(𝜋𝜃)の4つのネットワークを学習
Qネットワークの更新
i = 1,2
D: リプレイバッファ
𝑉𝑡𝑎𝑟𝑔: 目標値関数
- 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
提案手法
価値関数ネットワークの更新
方策ネットワークの更新
行動は𝐚𝑡~𝜋𝜃(・|𝑠𝑡)からサンプリング
𝑠𝑡はリプレイバッファ参照
学習したエージェント方策 𝜋𝜃をエキスパート方策 𝜋E
に対して正則化するアプローチを追加
- 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
価値ペナルティ
• 報酬関数にペナルティ項を追加
– 𝛼:温度パラメータ
– 𝐷:行動に関する2つの分布間の発散度を測る確率指標
• KLダイバージェンスを選択
ペナルティ項付き価値関数の更新
𝐷𝐾𝐿: KLダイバージェンスの標本推定値
𝜋𝜃(・| 𝑠𝑡):学習した方策
𝜋𝐸
(・| 𝑠𝑡):エキスパート方策
- 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
価値ペナルティ
• 方策ネットワークの更新
- 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
方策制約
• 方策最適化の際に,学習された方策とエキスパート
方策の間の偏差を小さな値で明示的に制約
方策学習の制約付き最適化
𝜖:KLダイバージェンスの許容量
学習された方策がエキスパート方策と近いことを表す
- 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
方策制約
• 手順(𝜃と𝜆に対して勾配降下)
1. 以下の式を解く
2. 制約違反なら𝜆を更新
3. 方策ネットワークを更新
𝜆 ≥ 0
- 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
実験設定
• SMARTSシミュレーションプラットフォームを使用
• 都市走行シナリオは以下の2種類
1. 無保護左折
• 重い交通量の中で信号機による規制なし
• 対面4車線の道路を横断、一番右の車線に到達して幹線道路に左折
• 操作が容易(速度制御中心)
2. 環状交差点
• 衝突回避、渋滞回避のための車線変更などの操作が必要
無保護左折 環状交差点
S
S
- 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
実験設定
• ドライバー設定
– 速度分布、操縦の不完全性、交差点での待ち時間の焦り、協力の
意思をランダムな範囲で選択
• 訓練設定
– 20種類の交通流を生成
– 各エピソード開始時に、初期状態(スポーン場所など)をランダムに
生成
– AMD Ryzen 3900X CPU
– シミュレーション間隔は0.1秒
– 1ステップ:0.1秒
– 1エピソード:無保護左折 40秒
環状交差点 60秒
– 合計100,000ステップ学習
• テスト設定
– 訓練で作成したものとは別に50種類の交通流を生成
- 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
MDPの定式化
• 状態空間
– 自車両を中心とした32m×32mの正方形領域の鳥瞰図画像
• RGB画像
• サイズ:80×80×3
• 検出領域:0.4m/pixel
– 時間ステップt-2,t-1,t(tは現在の
時間ステップ)の3枚の画像を重ねた
ものを使用
• 状態空間の形状:80×80×9
• 行動空間
道路
自車両
周辺車両
縦方向の運動(目標速度𝑉𝑡)
[m/s]
横方向の運動(車線変更𝐿𝑡)
[0,10] [-1,1]に正規化 左車線へ移動 𝐿𝑡 = −1 [-1,-1/3]
車線維持 𝐿𝑡 = 0 [-1/3,1/3]
右車線へ移動 𝐿𝑡 = 1 [1/3,1]
- 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
MDPの定式化
• 報酬関数
– rcollision:衝突した場合-1、それ以外0
– rgoal:ゴール時1、それ以外0
– rspeed:車両の速度
– ベースラインRLアルゴリズムの性能向上
- 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
実装の詳細
• ニューラルネットワークの構造
活性化関数:ReLU
最適化関数:Adam
- 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
ハイパーパラメータ
- 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
エキスパートデモ
• シミュレータ上で人間のエキスパートが都市走行タスクを実行
– 攻撃的、保守的など様々な行動をデモ
• エキスパートデモンストレーションデータとして収集
– 状態は[0,1]に、行動は[-1,1]に正規化
• 1人称視点で走行環境を観察
• 操作可能な行動
1. 縦方向
• スピードアップ(速度を2m/s上げる)
• スローダウン(速度を2m/s下げる)
2. 横方向(デフォルトは現在の車線維持)
• 左車線への変更
• 右車線への変更
• 用意する軌跡の数
– 環状交差点:40個
– 無保護左折
• 攻撃的、保守的ともに40個 エキスパートの視点
- 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
比較ベースライン手法
• SAC
– 最新のオフポリシーRLアルゴリズム
• PPO
– 最新のオンポリシーRLアルゴリズム
• GAIL(Generative adversarial imitation learning)
• Behavioral Cloning(BC)
- 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
アンサンブルエキスパート方策モデル
• 5つの単一方策ネットワークを学習
– ネットワーク重みの初期化、データセットのシャッフルに
は異なるランダムシードを使用
• アンサンブルの各ネットワークは100エポック分学習
• エキスパートの行動は離散値であるため、これに小
さな正規分布の乱数を加算
- 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
訓練結果
• ランダムシードを変えて10回試行
• 平均成功率で学習性能を評価
– (過去20回の成功したエピソード数)/20
結果
• 提案手法の性能が最も高い
• SACと比べてサンプル効率約70%↑
• 保守的な行動の学習は攻撃的な行動の学習よ
り難しい
考察
• 保守的な行動
• 十分なギャップを見つけるために停止す
ることが非常に微妙な行動
• いつ横断を開始するかについて曖昧さが
ある
• 攻撃的な行動
• 環境車両は安全要件に反していても自車
両に譲る→これを利用
左折(A)
左折(C)
- 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
訓練結果
環状交差点
結果
• 提案手法の成功率が最も高い
• SACと比較してサンプル効率約60%↑
• 方策制約法より価値ペナルティ法の方が有利
考察
• 環境からの報酬フィードバックが疎であり、報酬に追加的なフィードバッ
クを加えることで、行動や状態の価値をより良く推定できる可能性がある
- 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
25
テスト結果
異なる学習手法のテスト成功率(%)
異なる学習手法のテスト時間(s)
結果
• 提案手法が最もテスト成功率が高
い
• 他の手法と同じ学習ステップ数で
より高いサンプル効率
• SACの行動は攻撃的であるため、
安全性が犠牲に
• 提案手法は安全性と効率性のバラ
ンスを示す人間の専門家や、異な
る運転スタイルから学習可能
- 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
26
車両の動的状態分析
無保護左折における異なる方策での車両挙動
速度 加速度 曲率
提案手法(A)
提案手法(C)
SAC
低速で交差点通過
交差点で停止
十分なクリアランスを待つ
非常に不安定
安定
- 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
27
車両の動的状態分析
環状における異なる方策での車両挙動
速度 加速度 曲率
提案手法
SAC
減速して進入 退出時に減速
頻繁な減速
不安定
- 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
28
模倣エキスパート方策の効果
1. 不確実性の推定
– 以下の3つの方法を比較
1. 提案手法(方策の不確実性+モデルの不確実性)
2. 方策の不確実性のみを考慮したガウス分布方策
3. 不確実性を固定したガウス分布方策
– 単一の政策ネットワークから平均値をとり,分布の標準
偏差を定数とする
2. 訓練サンプル数
– デモのサンプル数を以下の3種類で変化
1. 10個
2. 20個
3. 40個
- 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
29
模倣エキスパート方策の効果
1. 不確実性の推定
平
均
成
功
率
左折(C)
左折(A) 環状交差点
• 大きな差はなし
• 行動が単純であるため
• 提案手法以外は異なる
試行間でばらつき
• 提案手法は他の2つよ
りも良い結果
異なる手法のテスト成功率(%)
難易度が上がるほど違いが顕著
- 30. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
30
模倣エキスパート方策の効果
2. 訓練サンプル数
左折(A) 左折(C) 環状交差点
平
均
成
功
率
• サンプル数が多いほどエキスパート
方策の学習に有効
• 問題の難易度が上がるほど顕著
• 訓練サンプルを増やすことで,RLエー
ジェントの行動を正則化するための行
動分布をより正確に提供できる
異なるサンプル数のテスト成功率(%)
- 31. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
31
考察
• 提案手法はサンプル効率の低さと、報酬関数の設計
が困難さというRLの問題に対して有効
• しかし、欠点もいくつかある
1. 人間のエキスパートのハイレベルな判断を実証データとし
て用いていること
• 軌道のみが利用可能な実世界のシナリオに対してスケールしない
2. より多くのハイパーパラメータが導入されており、最良の
性能を達成するための調整に時間がかかる
- 32. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
32
まとめ
• 人間の事前知識とDRLを組み込んだフレームワーク
を提案し、自律走行シナリオに適用
• 学習結果からベースラインアルゴリズムと比較して、
最高の性能を達成しサンプル効率も大幅に改善
• 学習した運転方針を様々な交通状況下でテストした
結果、最も高い成功率を確認