Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
Efficient Deep Reinforcement Learning with
Imitative Expert Priors for Autonomous
Driving
2022/07/05(火)
北海道大学大学院情報科学研究院
情報理工学部門複合情報工学分野調和系工学研究室
M1 清水雅之

論文情報
• タイトル
– Efficient Deep Reinforcement Learning with Imitative Expert
Priors for Autonomous Driving
• 著者
– Zhiyu Huang, Jingda Wu, Chen Lv
• 発表
– IEEE Transactions on Neural Networks and Learning Systems
2022
• 論文URL
– https://ieeexplore.ieee.org/document/9694460
• Github
– https://github.com/MCZhi/Expert-Prior-RL

3
概要・背景
• 深層強化学習(DRL)は人間のような自律走行を実現す
るための有望な方法
• DRLの実際の応用の妨げとなっているのはサンプル
効率の低さと報酬関数の設計の難しさ
• DRLに人間の事前情報を組み込むことで、これらの
問題を解消する新しいフレームワークを提案
• 2つの都市交通シナリオ(無防備左折、環状交差点)で
実験し、既存の手法と比較して最も良い性能を示し
た

4
提案手法
• 以下の主要3ステップで構成
1. エキスパートの実演
2. 方策導出
3. RL

5
提案手法
• ステップ1 エキスパートの実演
– 人間のエキスパートがタスクを実演し、その動作を状態-行
動の組の系列として符号化
• ステップ2 方策導出
– 実演データをもとに模倣エキスパート方策を導出
• 人間のエキスパートがその状態で実行する行動分布
• 価値関数に不一致ペナルティを加えるか、エージェントの方策との間
の分布の不一致を正則化することで、RLエージェントの学習過程を導
くために適用

6
提案手法
• ステップ2 方策導出 (続き)
– 方策導出の際には、(1)方策の不確実性、(2)エキスパートの
方策のモデルの不確実性を推定
① 方策の不確実性
– 同じ状態でも異なる実行可能な行動を取る
– 人間のエキスパートが行動を生成する際の潜在的なランダ
ム性に由来
– 行動に関するパラメトリック確率分布のパラメータを出力
• 行動はガウス分布、𝐚𝑡～𝒩(𝜇𝜃 𝐬𝑡 , 𝜎𝜃
2
(𝐬𝑡))
• 最尤法によりエキスパート方策を学習
𝜇𝜃：予測平均
𝜎𝜃
2
：予測分散
c: 定数

7
提案手法
② モデルの不確実性
– 学習データセットに含まれないデータは、予測平均と予測
分散が不確実で信頼できない
– モデルがその行動出力に確信を持っているかを定量化
– 評価指標としてディープアンサンブル法を採用
• 計算効率が良く、実装が簡単
– 異なるランダムな初期化とデータ次数で学習したM個のネッ
トワーク(確率的方策)のアンサンブルを採用
– 全てのネットワーク(𝜃𝑖はi番目のネットワークのパラメータ)
の結果をガウス混合分布に結合

8
提案手法
3. RL
– エージェント方策が模倣エキスパート方策に向かうように
正則化できる修正Actor-Criticを提案
– 2つのQネットワーク(𝑄𝜙1
, 𝑄𝜙2
)、価値関数ネットワーク(𝑉𝜓 )、
確率的方策ネットワーク(𝜋𝜃)の4つのネットワークを学習
Qネットワークの更新
i = 1,2
D: リプレイバッファ
𝑉𝑡𝑎𝑟𝑔: 目標値関数

9
提案手法
価値関数ネットワークの更新
方策ネットワークの更新
行動は𝐚𝑡~𝜋𝜃(・|𝑠𝑡)からサンプリング
𝑠𝑡はリプレイバッファ参照
学習したエージェント方策 𝜋𝜃をエキスパート方策 𝜋E
に対して正則化するアプローチを追加

10
価値ペナルティ
• 報酬関数にペナルティ項を追加
– 𝛼：温度パラメータ
– 𝐷：行動に関する2つの分布間の発散度を測る確率指標
• KLダイバージェンスを選択
ペナルティ項付き価値関数の更新
𝐷𝐾𝐿: KLダイバージェンスの標本推定値
𝜋𝜃(・| 𝑠𝑡)：学習した方策
𝜋𝐸
(・| 𝑠𝑡)：エキスパート方策

11
価値ペナルティ
• 方策ネットワークの更新

12
方策制約
• 方策最適化の際に，学習された方策とエキスパート
方策の間の偏差を小さな値で明示的に制約
方策学習の制約付き最適化
𝜖：KLダイバージェンスの許容量
学習された方策がエキスパート方策と近いことを表す

13
方策制約
• 手順(𝜃と𝜆に対して勾配降下)
1. 以下の式を解く
2. 制約違反なら𝜆を更新
3. 方策ネットワークを更新
𝜆 ≥ 0

14
実験設定
• SMARTSシミュレーションプラットフォームを使用
• 都市走行シナリオは以下の2種類
1. 無保護左折
• 重い交通量の中で信号機による規制なし
• 対面4車線の道路を横断、一番右の車線に到達して幹線道路に左折
• 操作が容易(速度制御中心)
2. 環状交差点
• 衝突回避、渋滞回避のための車線変更などの操作が必要
無保護左折環状交差点
S
S

15
実験設定
• ドライバー設定
– 速度分布、操縦の不完全性、交差点での待ち時間の焦り、協力の
意思をランダムな範囲で選択
• 訓練設定
– 20種類の交通流を生成
– 各エピソード開始時に、初期状態(スポーン場所など)をランダムに
生成
– AMD Ryzen 3900X CPU
– シミュレーション間隔は0.1秒
– 1ステップ：0.1秒
– 1エピソード：無保護左折 40秒
環状交差点 60秒
– 合計100,000ステップ学習
• テスト設定
– 訓練で作成したものとは別に50種類の交通流を生成

16
MDPの定式化
• 状態空間
– 自車両を中心とした32m×32mの正方形領域の鳥瞰図画像
• RGB画像
• サイズ：80×80×3
• 検出領域：0.4m/pixel
– 時間ステップt-2,t-1,t(tは現在の
時間ステップ)の3枚の画像を重ねた
ものを使用
• 状態空間の形状：80×80×9
• 行動空間
道路
自車両
周辺車両
縦方向の運動(目標速度𝑉𝑡)
[m/s]
横方向の運動(車線変更𝐿𝑡)
[0,10] [-1,1]に正規化左車線へ移動 𝐿𝑡 = −1 [-1,-1/3]
車線維持 𝐿𝑡 = 0 [-1/3,1/3]
右車線へ移動 𝐿𝑡 = 1 [1/3,1]

17
MDPの定式化
• 報酬関数
– rcollision：衝突した場合-1、それ以外0
– rgoal：ゴール時1、それ以外0
– rspeed：車両の速度
– ベースラインRLアルゴリズムの性能向上

18
実装の詳細
• ニューラルネットワークの構造
活性化関数：ReLU
最適化関数：Adam

19
ハイパーパラメータ

20
エキスパートデモ
• シミュレータ上で人間のエキスパートが都市走行タスクを実行
– 攻撃的、保守的など様々な行動をデモ
• エキスパートデモンストレーションデータとして収集
– 状態は[0,1]に、行動は[-1,1]に正規化
• 1人称視点で走行環境を観察
• 操作可能な行動
1. 縦方向
• スピードアップ(速度を2m/s上げる)
• スローダウン(速度を2m/s下げる)
2. 横方向(デフォルトは現在の車線維持)
• 左車線への変更
• 右車線への変更
• 用意する軌跡の数
– 環状交差点：40個
– 無保護左折
• 攻撃的、保守的ともに40個エキスパートの視点

21
比較ベースライン手法
• SAC
– 最新のオフポリシーRLアルゴリズム
• PPO
– 最新のオンポリシーRLアルゴリズム
• GAIL(Generative adversarial imitation learning)
• Behavioral Cloning(BC)

22
アンサンブルエキスパート方策モデル
• 5つの単一方策ネットワークを学習
– ネットワーク重みの初期化、データセットのシャッフルに
は異なるランダムシードを使用
• アンサンブルの各ネットワークは100エポック分学習
• エキスパートの行動は離散値であるため、これに小
さな正規分布の乱数を加算

23
訓練結果
• ランダムシードを変えて10回試行
• 平均成功率で学習性能を評価
– (過去20回の成功したエピソード数)/20
結果
• 提案手法の性能が最も高い
• SACと比べてサンプル効率約70％↑
• 保守的な行動の学習は攻撃的な行動の学習よ
り難しい
考察
• 保守的な行動
• 十分なギャップを見つけるために停止す
ることが非常に微妙な行動
• いつ横断を開始するかについて曖昧さが
ある
• 攻撃的な行動
• 環境車両は安全要件に反していても自車
両に譲る→これを利用
左折(A)
左折(C)

24
訓練結果
環状交差点
結果
• 提案手法の成功率が最も高い
• SACと比較してサンプル効率約60％↑
• 方策制約法より価値ペナルティ法の方が有利
考察
• 環境からの報酬フィードバックが疎であり、報酬に追加的なフィードバッ
クを加えることで、行動や状態の価値をより良く推定できる可能性がある

25
テスト結果
異なる学習手法のテスト成功率(％)
異なる学習手法のテスト時間(s)
結果
• 提案手法が最もテスト成功率が高
い
• 他の手法と同じ学習ステップ数で
より高いサンプル効率
• SACの行動は攻撃的であるため、
安全性が犠牲に
• 提案手法は安全性と効率性のバラ
ンスを示す人間の専門家や、異な
る運転スタイルから学習可能

26
車両の動的状態分析
無保護左折における異なる方策での車両挙動
速度加速度曲率
提案手法(A)
提案手法(C)
SAC
低速で交差点通過
交差点で停止
十分なクリアランスを待つ
非常に不安定
安定

27
車両の動的状態分析
環状における異なる方策での車両挙動
速度加速度曲率
提案手法
SAC
減速して進入退出時に減速
頻繁な減速
不安定

28
模倣エキスパート方策の効果
1. 不確実性の推定
– 以下の3つの方法を比較
1. 提案手法(方策の不確実性+モデルの不確実性)
2. 方策の不確実性のみを考慮したガウス分布方策
3. 不確実性を固定したガウス分布方策
– 単一の政策ネットワークから平均値をとり，分布の標準
偏差を定数とする
2. 訓練サンプル数
– デモのサンプル数を以下の3種類で変化
1. 10個
2. 20個
3. 40個

29
1. 不確実性の推定
平
均
成
功
率
左折(C)
左折(A) 環状交差点
• 大きな差はなし
• 行動が単純であるため
• 提案手法以外は異なる
試行間でばらつき
• 提案手法は他の2つよ
りも良い結果
異なる手法のテスト成功率(%)
難易度が上がるほど違いが顕著

30
2. 訓練サンプル数
左折(A) 左折(C) 環状交差点
平
均
成
功
率
• サンプル数が多いほどエキスパート
方策の学習に有効
• 問題の難易度が上がるほど顕著
• 訓練サンプルを増やすことで，RLエー
ジェントの行動を正則化するための行
動分布をより正確に提供できる
異なるサンプル数のテスト成功率(%)

31
考察
• 提案手法はサンプル効率の低さと、報酬関数の設計
が困難さというRLの問題に対して有効
• しかし、欠点もいくつかある
1. 人間のエキスパートのハイレベルな判断を実証データとし
て用いていること
• 軌道のみが利用可能な実世界のシナリオに対してスケールしない
2. より多くのハイパーパラメータが導入されており、最良の
性能を達成するための調整に時間がかかる

32
まとめ
• 人間の事前知識とDRLを組み込んだフレームワーク
を提案し、自律走行シナリオに適用
• 学習結果からベースラインアルゴリズムと比較して、
最高の性能を達成しサンプル効率も大幅に改善
• 学習した運転方針を様々な交通状況下でテストした
結果、最も高い成功率を確認

Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving

Recomendados

Recomendados

Más contenido relacionado

Similar a Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving

Similar a Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving (20)

Más de harmonylab

Más de harmonylab (20)

Último

Último (10)

Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving