SlideShare una empresa de Scribd logo
1 de 27
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
西佑希
マルチエージェント深層強化学習による
自動運転車両の追越行動の獲得に
関する研究
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
研究背景
• 加速する自動運転車の開発
– 様々な運転タスクがエンドツーエンドで行われることが期待
• 交差点の右左折
• 高速道路の合流
• 追越し
• 特に追越し操作はルール化が困難[1]
– 追越しされる車両の数
– 関係車両間の相対速度
– 関係車両間の距離
• 自律的に経験を収集できる学習ベースの追越行動獲得
が有効
– 対向車のいない高速道路での追越しを扱う研究[2]が多い
• 一般道路等での対向車の存在も扱う必要性
[1] Shilp Dixit, Saber Fallah, Umberto Montanaro, Mehrdad Dianati, Alan Stevens, Francis Mccullough, Alexandros Mouzakitis, Trajectory
planning and tracking for autonomous overtaking: State-of-the-art and future prospects, Annual Reviews in Control, Volume 45, 2018,
Pages 76-86, ISSN 1367-5788, https://doi.org/10.1016/j.arcontrol.2018.02.001.
[2] J. Liao, T. Liu, X. Tang, X. Mu, B. Huang and D. Cao, "Decision-Making Strategy on Highway for Autonomous Vehicles Using Deep
Reinforcement Learning," in IEEE Access, vol. 8, pp. 177804-177814, 2020, doi: 10.1109/ACCESS.2020.3022755.
交通状況のバリエーションが多い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
研究目的
• 対向車が存在する追越場面における,学習ベースによ
る追越行動の獲得
– 追越車,低速走行車,対向車をマルチエージェントで学習
• 獲得したい追越行動
– 安全性と走行効率性のトレードオフを考慮
– 協調による安全性,走行効率性の向上
低速走行車
追越車
対向車
安全性
• 車間距離が大きい
• 衝突しない
走行効率性
• 低速走行車への追従
時間が短い
追従 追越し
車間距離
協調:減速で
車間距離広く
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
研究の方向性
精緻なシミュレータ
(Autoware[3]など)
実車両
・
・
・
直接的な実利用
選定
走行制御1,2,…
セキュリティ1,2,…
センサ1,2,…
GPS1,2,…
マルチエージェントでの追越行動獲得ができるか
と協調的な追越行動の効果を検証
[3] THE AUTOWARE FOUNDATION, https://www.autoware.org/, Accessed:2022/02/08
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 追越行動の実装手法は主に3つ
– ルールベース(例:MOBIL[4])
• 多様な運転,交通状況に対して効率的なルールの設計が困難
– 最適化ベース(例:MPC[5])
• 状況が複雑になるにつれて計算量が増加
– 学習ベース(例:深層強化学習による追越車単体の加速度・
舵角制御[6])
• ルールの設計なしで多様な状況に対応できる可能性
• 多様な状況になりうる追越しタスクでは学習ベースが
有効
• シングルエージェントの学習では,協調的な行動獲得
が困難
→マルチエージェント深層強化学習による追越行動獲得
追越行動の実装手法 5
[4] Kesting, A., Treiber, M. and Helbing, D.: General Lane-Changing Model MOBIL for Car-Following Models, Vol.1999(1), p.86–94 (2007).
[5] An, G. and Talebpour, A.: Lane-Changing Trajectory Optimization to Minimize Traffic Flow Disturbance in a Connected Automated Driving
Environment, 2019 IEEE Intelligent Transportation Systems Conference (ITSC), pp.1794–1799 (2019)
[6] Hoel, C., Wolff, K. and Laine, L.: Automated Speed and Lane Change Decision Making using Deep Reinforcement Learning, CoRR,
Vol.abs/1803.10056 (2018).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
想定する交通状況
• 対向車の存在と追越しの必要性を擁する状況
– 片側1車線
– 低速走行車,追越車,対向車
• DSRC通信,C-V2Xによる広域通信(~1㎞)
– 車車間,路車間通信による周辺車両の情報取得可能
低速走行車
追越車
対向車
位置や速度情報の共有
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
シミュレータ
• シミュレータの種類は2つ
– 交通シミュレータ(例:CARLA[7])
• 大規模な交通シミュレート
• センサー,GPSなどの設定もできるものがある
– 運転シミュレータ(例:METADRIVE[8])
• 実際の運転操作をシミュレート
• ハンドル,ペダル,ディスプレイなどを用いる
• 小規模な交通状況を扱う
• 対向車線を走行しての追越しを扱う
– 交通シミュレータによっては扱えない
→ 本研究では,上記の状況を扱えるHarmo Traffic Simulator[9]
を用いる
[7] CARLA Simulator, https://carla.readthedocs.io/en/latest/. Accessed: 2023-1-5.
[8] Li, Q., Peng, Z., Feng, L., Zhang, Q., Xue, Z. and Zhou, B.: MetaDrive: Composing Diverse Driving Scenarios for Generalizable
Reinforcement Learning, IEEE Transactions on Pattern Analysis and Machine Intelligence, pp.1–14 (2022).
[9] Tomoya, O.: 交差点の交通流におけるシミュレーションを用いた深層強化学習に関する研究 (2022).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
マルチエージェント深層強化学習による追越行動
• 協調的な追越行動
低速走行車や対向車の減速
→ 追越しのためのギャップ生成
→ 追越車の早期追越し(低速走行車への追従時間が短くなる)
→ 車両全体での走行速度向上
8
低速走行車(減速)
追越車
対向車
(減速)
広いギャップ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
マルチエージェント深層強化学習による追越行動
• マルチエージェント深層強化学習による進行方向の加
速度制御
– 追越車,低速走行車,対向車が学習対象
– 追越操舵はモデルベース
• 車両間で位置,速度,方位情報の共有
– 車両の行動にあたる加速度は共有していない
9
低速走行車(減速)
追越車
対向車
(減速)
広いギャップ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
マルチエージェント深層強化学習
• マルチエージェント深層強化学習手法MADDPG[10]が
ベース
– 全Actorの情報を集めて評価できるCriticを学習時のみ使用
[10] Lowe, R., WU, Y., Tamar, A., Harb, J., PieterAbbeel, O. and Mordatch, I.: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environ- ments, Advances in Neural
Information Processing Systems, Vol.30, Curran Associates, Inc. (2017).
[11] Fujimoto, S., van Hoof, H. and Meger, D.: Addressing Function Approxi-mation Error in Actor-Critic Methods, Proceedings of the 35th International Conference on Machine
Learning, Proceedings of Machine Learning Research, Vol.80, PMLR, pp.1587–1596 (2018).
[12] Haarnoja, T., Zhou, A., Abbeel, P. and Levine, S.: Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochas-tic Actor, Proceedings of the
35th International Conference on Machine, Proceedings of Machine Learning Research, Vol.80, PMLR, pp.1861–1870 (2018).
10
o1
𝜋1
Actor(車両) 1
・・・
Critic
a1 oN
Actor N
aN
o1,…,oN a1,…,aN
q1,q2
o:観測
a:行動
𝜋:方策
q:状態行動価値
アルゴリズムの拡張
TD3[11]:qを2つ出力し,minimumを
とることで過大評価を避ける
SAC[12]:方策𝜋のエントロピー最大化
で探索の促進
𝜋𝑁
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
シミュレータ 学習アルゴリズム
状態
行動
状態の計算
方策から行動
(進行方向加速度)の決定
シミュレートして
次状態と報酬の計算
規定ステップ
or
車両の衝突
Yes
エピソードリセットして
車両の配置
状態、行動、報酬、次状態
をバッファへ保存
次状態
報酬
バッファからサンプリング
して学習
学習頻度
ステップ
Yes
No
No
シミュレータと学習のフロー 11
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習設定
• 観測空間(車両が得る情報)
– 自車両の速度,方位
– 他車両との相対位置,相対速度,相対方位
• 行動空間
– 進行方向加速度(-0.3G~0.3G)
• 報酬設計
– 速度報酬( 𝑣𝑡:現在速度,𝑣𝑚𝑎𝑥: 最大速度)
𝑟𝑣 = 𝑣𝑡/𝑣𝑚𝑎𝑥
– 衝突ペナルティ
𝑟𝑐 = −100
– 車間距離ペナルティ( 𝑑𝑠:停止距離, 𝑑𝑓:車間距離)
𝑟𝑓 = 𝑑𝑠 − 𝑑𝑓
– 衝突時間ペナルティ( 𝑡𝑙𝑖𝑚𝑖𝑡:通常制動回避下限,
𝑇𝑇𝐶:Time to Collision)
𝑟𝑜 = 𝑡𝑙𝑖𝑚𝑖𝑡 − 𝑇𝑇𝐶
Actor単体の報酬:R = K𝑣 × 𝑟𝑣 + K𝑐 × 𝑟𝑐 + K𝑓 × 𝑟𝑓 + K𝑜 × 𝑟𝑜
最終的な全体報酬:(𝑅1 + ⋯ + 𝑅𝑁)/N
次ページ以降で
詳細
12
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習設定
• 前方車両との車間距離ペナルティ𝑟𝑓( 𝑑𝑠:停止距離,
𝑑𝑓:車間距離)
𝑑𝑠 > 𝑑𝑓のとき 𝑟𝑓 = 𝑑𝑠 − 𝑑𝑓
– 停止距離𝑑𝑠は以下の式,条件で算出
𝑑𝑠 = 𝑡 ×
𝑣
3.6
+
𝑣2
254×𝜇
• 現在速度 𝑣[km/h]
• 危険を感じてからブレーキを踏むまでの平均的な反応時間
𝑡 = 0.75[sec]
• 乾いた路面での摩擦係数 𝜇 = 0.7
低1
追2
対3
追1
対2
対1
前方 前方
前方 前方
13
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習設定
• 対向車との衝突時間ペナルティ 𝑟𝑜 ( 𝑡𝑙𝑖𝑚𝑖𝑡:通常制動
回避下限,𝑇𝑇𝐶:Time to Collision)
𝑡𝑙𝑖𝑚𝑖𝑡 > 𝑇𝑇𝐶のとき 𝑟𝑜 = 𝑡𝑙𝑖𝑚𝑖𝑡 − 𝑇𝑇𝐶
– 通常制動回避下限
• 運転手の制動によって前方車両との衝突を回避できる限界の時間
𝑡𝑙𝑖𝑚𝑖𝑡 =0.0167 × ∆𝑣 + 1.000( ∆𝑣 は相対速度)
– Time To Collision
• 前方車両との衝突までの時間
𝑇𝑇𝐶 =
𝑑
∆𝑣
(𝑑は対向車との距離)
14
低速走行車
追越車
対向車
距離𝑑,相対速度∆𝑣
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
ルールベースの追越行動
学習ベースとの比較に用いる
1. 低速走行車を追従
– IDM(Intelligent Driver Model)による加速度制御
2. 追越車が意思決定領域に存在かつ 𝑇𝑇𝐶>𝑡(𝑇𝑇𝐶 =
𝑑
∆𝑣
, 𝑡の値は実験で5つ設定)のとき追越し
– Frenet Optimal Trajectoryによる追越経路生成
– Pure Pursuitによる操舵角制御
15
低速走行車
意思決定領域(25m)
対向車
距離𝑑,相対速度∆𝑣
追従 追越し
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
環境設定
• 対向車の存在と追越しの必要性を擁する状況
– 片側1車線
– 低速走行車1台(最大25㎞/h)
– 追越車2台,対向車3台(最大40㎞/h)
• 「追越車と低速走行車」「対向車」それぞれ6か所の
開始地点
– 計400エピソード(学習時もテスト時も)
– エピソードリセット(衝突,300ステップ到達)時に開始地点
から走行開始
対向車
低速走行車
追越車
16
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 安全性,走行効率性の検証
• 検証内容
– 学習後の協調的な走行による安全性と走行効率性
• 検証方法
– ルールベース走行
• 追越しのタイミング(𝑇𝑇𝐶>𝑡)を決定する時間閾値𝑡を5つ設定
– 𝑡 = 9.0, 10.5, 12.0, 13.5, 15.0(安全性低い←---→高い)
– 車間距離,衝突時間に関するペナルティ係数を変更して学習
報酬:R = K𝑣 × 𝑟𝑣 + K𝑐 × 𝑟𝑐 + K𝑓 × 𝑟𝑓 + K𝑜 × 𝑟𝑜
17
K𝑣 K𝑐 K𝑓 K𝑜 報酬スケール 安全性
学習① 1 1 0 0 1 : 100 : 0 : 0 低
学習② 1 1 1 1 1 : 100 : 5 : 1
学習③ 1 1 5 5 1 : 100 : 25 : 5
学習④ 1 1 10 10 1 : 100 : 50 : 10
学習⑤ 1 1 15 15 1 : 100 : 75 : 15
学習⑥ 1 1 20 20 1 : 100 : 100 : 20 高
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
評価指標
• 各指標で比較(全400エピソード)
– 全車両の平均走行速度
– 早期追越しエピソード数
• 対向車が低速走行車とすれ違う前に追越ししたエピソード
– 衝突エピソード数
– 前方車両至近距離エピソード数
• 前方車両との車間距離ペナルティが与えられたエピソード
– 対向車両至近距離エピソード数
• 対向車との衝突時間ペナルティが与えられたエピソード
低速走行車
追越車
対向車
早期追越し
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
学習中の報酬推移
• 3試行の平均をプロット(ペナルティ係数0のみ1試
行)
• 学習中,過去300エピソードでの平均報酬が最大と
なったときのモデルを使用してテスト
学習中の累積割引報酬の推移
縦軸:累積割引報酬
横軸:学習ステップ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験結果
走行 累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67(①) 36.88(①) 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53(③) 36.40(③) 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65(②) 36.39(②) 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
20
400エピソード中
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験結果
走行 累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67(①) 36.88(①) 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53(③) 36.40(③) 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65(②) 36.39(②) 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
21
400エピソード中
時間閾値𝑡が小さいほど早期追越しエピソー
ド数は増えるが,衝突や至近距離エピソード
も増える
早期追越しエピソード数が多いほど平均走行
速度は大きくなっている
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験結果
走行 累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67(①) 36.88(①) 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53(③) 36.40(③) 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65(②) 36.39(②) 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
22
400エピソード中
ペナルティ係数が大きいほど衝突や至近距離
エピソード数が少ない傾向にある
ペナルティ係数が15より大きいと早期追越し
ができず,平均走行速度が小さくなる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験結果
走行 累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67(①) 36.88(①) 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53(③) 36.40(③) 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65(②) 36.39(②) 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
23
400エピソード中
ルールベースと学習ベースの比較
至近距離エピソード数を10に抑えつつ,
平均走行速度の向上
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
対向車両至近距離エピソード詳細
ルール②
学習④
対向車両との衝突時間ペナルティ
のヒストグラム
(係数K𝑜 = 1で合わせた)
1エピソードの中で
ペナルティが与えられた
ステップ数のヒストグラム
計498ステップ
計10ステップ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
走行比較
• ルールベース 𝑡 = 12.0: 35.66km/h
– 追越車が低速走行車の後ろを走行し,自由走行できていない
• 学習後: 37.12km/h
– 低速走行車が減速し,追越車が早期追越しにより自由走行
25
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 まとめ
• 学習後は早期追越しエピソード数が多くなる
– 低速走行車や対向車の減速により,追越車の追越しのための
ギャップがうまれたため
→ 平均走行速度向上
• 安全性に関するペナルティにより,衝突,前方車両や
対向車両との車間距離が近いエピソード数を抑えた
→ マルチエージェント深層強化学習による協調的な走
行の効果を示した
26
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結論
• マルチエージェント深層強化学習を用いた協調的な追
越行動を提案
• Harmo Traffic Simulatorでの追越行動を実装
• 学習による協調的な追越行動の獲得
– 早期追越しによる走行速度向上
– 安全性に関するペナルティで衝突や至近車間距離のエピソー
ド数を抑えた
27

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
 
[DL輪読会]Learning quadrupedal locomotion over challenging terrain
[DL輪読会]Learning quadrupedal locomotion over  challenging terrain[DL輪読会]Learning quadrupedal locomotion over  challenging terrain
[DL輪読会]Learning quadrupedal locomotion over challenging terrain
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 

Similar a マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究

DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 

Similar a マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究 (20)

Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
 
Outracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learningOutracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learning
 
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
 
修士論文
修士論文修士論文
修士論文
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
RAPiD
RAPiDRAPiD
RAPiD
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
RCカーを用いた自動運転車両シミュレーション環境に関する研究
RCカーを用いた自動運転車両シミュレーション環境に関する研究RCカーを用いた自動運転車両シミュレーション環境に関する研究
RCカーを用いた自動運転車両シミュレーション環境に関する研究
 

Más de harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

Más de harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
 

Último

Último (10)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 西佑希 マルチエージェント深層強化学習による 自動運転車両の追越行動の獲得に 関する研究
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 研究背景 • 加速する自動運転車の開発 – 様々な運転タスクがエンドツーエンドで行われることが期待 • 交差点の右左折 • 高速道路の合流 • 追越し • 特に追越し操作はルール化が困難[1] – 追越しされる車両の数 – 関係車両間の相対速度 – 関係車両間の距離 • 自律的に経験を収集できる学習ベースの追越行動獲得 が有効 – 対向車のいない高速道路での追越しを扱う研究[2]が多い • 一般道路等での対向車の存在も扱う必要性 [1] Shilp Dixit, Saber Fallah, Umberto Montanaro, Mehrdad Dianati, Alan Stevens, Francis Mccullough, Alexandros Mouzakitis, Trajectory planning and tracking for autonomous overtaking: State-of-the-art and future prospects, Annual Reviews in Control, Volume 45, 2018, Pages 76-86, ISSN 1367-5788, https://doi.org/10.1016/j.arcontrol.2018.02.001. [2] J. Liao, T. Liu, X. Tang, X. Mu, B. Huang and D. Cao, "Decision-Making Strategy on Highway for Autonomous Vehicles Using Deep Reinforcement Learning," in IEEE Access, vol. 8, pp. 177804-177814, 2020, doi: 10.1109/ACCESS.2020.3022755. 交通状況のバリエーションが多い
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 研究目的 • 対向車が存在する追越場面における,学習ベースによ る追越行動の獲得 – 追越車,低速走行車,対向車をマルチエージェントで学習 • 獲得したい追越行動 – 安全性と走行効率性のトレードオフを考慮 – 協調による安全性,走行効率性の向上 低速走行車 追越車 対向車 安全性 • 車間距離が大きい • 衝突しない 走行効率性 • 低速走行車への追従 時間が短い 追従 追越し 車間距離 協調:減速で 車間距離広く
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 研究の方向性 精緻なシミュレータ (Autoware[3]など) 実車両 ・ ・ ・ 直接的な実利用 選定 走行制御1,2,… セキュリティ1,2,… センサ1,2,… GPS1,2,… マルチエージェントでの追越行動獲得ができるか と協調的な追越行動の効果を検証 [3] THE AUTOWARE FOUNDATION, https://www.autoware.org/, Accessed:2022/02/08
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 追越行動の実装手法は主に3つ – ルールベース(例:MOBIL[4]) • 多様な運転,交通状況に対して効率的なルールの設計が困難 – 最適化ベース(例:MPC[5]) • 状況が複雑になるにつれて計算量が増加 – 学習ベース(例:深層強化学習による追越車単体の加速度・ 舵角制御[6]) • ルールの設計なしで多様な状況に対応できる可能性 • 多様な状況になりうる追越しタスクでは学習ベースが 有効 • シングルエージェントの学習では,協調的な行動獲得 が困難 →マルチエージェント深層強化学習による追越行動獲得 追越行動の実装手法 5 [4] Kesting, A., Treiber, M. and Helbing, D.: General Lane-Changing Model MOBIL for Car-Following Models, Vol.1999(1), p.86–94 (2007). [5] An, G. and Talebpour, A.: Lane-Changing Trajectory Optimization to Minimize Traffic Flow Disturbance in a Connected Automated Driving Environment, 2019 IEEE Intelligent Transportation Systems Conference (ITSC), pp.1794–1799 (2019) [6] Hoel, C., Wolff, K. and Laine, L.: Automated Speed and Lane Change Decision Making using Deep Reinforcement Learning, CoRR, Vol.abs/1803.10056 (2018).
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 想定する交通状況 • 対向車の存在と追越しの必要性を擁する状況 – 片側1車線 – 低速走行車,追越車,対向車 • DSRC通信,C-V2Xによる広域通信(~1㎞) – 車車間,路車間通信による周辺車両の情報取得可能 低速走行車 追越車 対向車 位置や速度情報の共有
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 シミュレータ • シミュレータの種類は2つ – 交通シミュレータ(例:CARLA[7]) • 大規模な交通シミュレート • センサー,GPSなどの設定もできるものがある – 運転シミュレータ(例:METADRIVE[8]) • 実際の運転操作をシミュレート • ハンドル,ペダル,ディスプレイなどを用いる • 小規模な交通状況を扱う • 対向車線を走行しての追越しを扱う – 交通シミュレータによっては扱えない → 本研究では,上記の状況を扱えるHarmo Traffic Simulator[9] を用いる [7] CARLA Simulator, https://carla.readthedocs.io/en/latest/. Accessed: 2023-1-5. [8] Li, Q., Peng, Z., Feng, L., Zhang, Q., Xue, Z. and Zhou, B.: MetaDrive: Composing Diverse Driving Scenarios for Generalizable Reinforcement Learning, IEEE Transactions on Pattern Analysis and Machine Intelligence, pp.1–14 (2022). [9] Tomoya, O.: 交差点の交通流におけるシミュレーションを用いた深層強化学習に関する研究 (2022).
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. マルチエージェント深層強化学習による追越行動 • 協調的な追越行動 低速走行車や対向車の減速 → 追越しのためのギャップ生成 → 追越車の早期追越し(低速走行車への追従時間が短くなる) → 車両全体での走行速度向上 8 低速走行車(減速) 追越車 対向車 (減速) 広いギャップ
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. マルチエージェント深層強化学習による追越行動 • マルチエージェント深層強化学習による進行方向の加 速度制御 – 追越車,低速走行車,対向車が学習対象 – 追越操舵はモデルベース • 車両間で位置,速度,方位情報の共有 – 車両の行動にあたる加速度は共有していない 9 低速走行車(減速) 追越車 対向車 (減速) 広いギャップ
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. マルチエージェント深層強化学習 • マルチエージェント深層強化学習手法MADDPG[10]が ベース – 全Actorの情報を集めて評価できるCriticを学習時のみ使用 [10] Lowe, R., WU, Y., Tamar, A., Harb, J., PieterAbbeel, O. and Mordatch, I.: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environ- ments, Advances in Neural Information Processing Systems, Vol.30, Curran Associates, Inc. (2017). [11] Fujimoto, S., van Hoof, H. and Meger, D.: Addressing Function Approxi-mation Error in Actor-Critic Methods, Proceedings of the 35th International Conference on Machine Learning, Proceedings of Machine Learning Research, Vol.80, PMLR, pp.1587–1596 (2018). [12] Haarnoja, T., Zhou, A., Abbeel, P. and Levine, S.: Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochas-tic Actor, Proceedings of the 35th International Conference on Machine, Proceedings of Machine Learning Research, Vol.80, PMLR, pp.1861–1870 (2018). 10 o1 𝜋1 Actor(車両) 1 ・・・ Critic a1 oN Actor N aN o1,…,oN a1,…,aN q1,q2 o:観測 a:行動 𝜋:方策 q:状態行動価値 アルゴリズムの拡張 TD3[11]:qを2つ出力し,minimumを とることで過大評価を避ける SAC[12]:方策𝜋のエントロピー最大化 で探索の促進 𝜋𝑁
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. シミュレータ 学習アルゴリズム 状態 行動 状態の計算 方策から行動 (進行方向加速度)の決定 シミュレートして 次状態と報酬の計算 規定ステップ or 車両の衝突 Yes エピソードリセットして 車両の配置 状態、行動、報酬、次状態 をバッファへ保存 次状態 報酬 バッファからサンプリング して学習 学習頻度 ステップ Yes No No シミュレータと学習のフロー 11
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習設定 • 観測空間(車両が得る情報) – 自車両の速度,方位 – 他車両との相対位置,相対速度,相対方位 • 行動空間 – 進行方向加速度(-0.3G~0.3G) • 報酬設計 – 速度報酬( 𝑣𝑡:現在速度,𝑣𝑚𝑎𝑥: 最大速度) 𝑟𝑣 = 𝑣𝑡/𝑣𝑚𝑎𝑥 – 衝突ペナルティ 𝑟𝑐 = −100 – 車間距離ペナルティ( 𝑑𝑠:停止距離, 𝑑𝑓:車間距離) 𝑟𝑓 = 𝑑𝑠 − 𝑑𝑓 – 衝突時間ペナルティ( 𝑡𝑙𝑖𝑚𝑖𝑡:通常制動回避下限, 𝑇𝑇𝐶:Time to Collision) 𝑟𝑜 = 𝑡𝑙𝑖𝑚𝑖𝑡 − 𝑇𝑇𝐶 Actor単体の報酬:R = K𝑣 × 𝑟𝑣 + K𝑐 × 𝑟𝑐 + K𝑓 × 𝑟𝑓 + K𝑜 × 𝑟𝑜 最終的な全体報酬:(𝑅1 + ⋯ + 𝑅𝑁)/N 次ページ以降で 詳細 12
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習設定 • 前方車両との車間距離ペナルティ𝑟𝑓( 𝑑𝑠:停止距離, 𝑑𝑓:車間距離) 𝑑𝑠 > 𝑑𝑓のとき 𝑟𝑓 = 𝑑𝑠 − 𝑑𝑓 – 停止距離𝑑𝑠は以下の式,条件で算出 𝑑𝑠 = 𝑡 × 𝑣 3.6 + 𝑣2 254×𝜇 • 現在速度 𝑣[km/h] • 危険を感じてからブレーキを踏むまでの平均的な反応時間 𝑡 = 0.75[sec] • 乾いた路面での摩擦係数 𝜇 = 0.7 低1 追2 対3 追1 対2 対1 前方 前方 前方 前方 13
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習設定 • 対向車との衝突時間ペナルティ 𝑟𝑜 ( 𝑡𝑙𝑖𝑚𝑖𝑡:通常制動 回避下限,𝑇𝑇𝐶:Time to Collision) 𝑡𝑙𝑖𝑚𝑖𝑡 > 𝑇𝑇𝐶のとき 𝑟𝑜 = 𝑡𝑙𝑖𝑚𝑖𝑡 − 𝑇𝑇𝐶 – 通常制動回避下限 • 運転手の制動によって前方車両との衝突を回避できる限界の時間 𝑡𝑙𝑖𝑚𝑖𝑡 =0.0167 × ∆𝑣 + 1.000( ∆𝑣 は相対速度) – Time To Collision • 前方車両との衝突までの時間 𝑇𝑇𝐶 = 𝑑 ∆𝑣 (𝑑は対向車との距離) 14 低速走行車 追越車 対向車 距離𝑑,相対速度∆𝑣
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. ルールベースの追越行動 学習ベースとの比較に用いる 1. 低速走行車を追従 – IDM(Intelligent Driver Model)による加速度制御 2. 追越車が意思決定領域に存在かつ 𝑇𝑇𝐶>𝑡(𝑇𝑇𝐶 = 𝑑 ∆𝑣 , 𝑡の値は実験で5つ設定)のとき追越し – Frenet Optimal Trajectoryによる追越経路生成 – Pure Pursuitによる操舵角制御 15 低速走行車 意思決定領域(25m) 対向車 距離𝑑,相対速度∆𝑣 追従 追越し
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 環境設定 • 対向車の存在と追越しの必要性を擁する状況 – 片側1車線 – 低速走行車1台(最大25㎞/h) – 追越車2台,対向車3台(最大40㎞/h) • 「追越車と低速走行車」「対向車」それぞれ6か所の 開始地点 – 計400エピソード(学習時もテスト時も) – エピソードリセット(衝突,300ステップ到達)時に開始地点 から走行開始 対向車 低速走行車 追越車 16
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 安全性,走行効率性の検証 • 検証内容 – 学習後の協調的な走行による安全性と走行効率性 • 検証方法 – ルールベース走行 • 追越しのタイミング(𝑇𝑇𝐶>𝑡)を決定する時間閾値𝑡を5つ設定 – 𝑡 = 9.0, 10.5, 12.0, 13.5, 15.0(安全性低い←---→高い) – 車間距離,衝突時間に関するペナルティ係数を変更して学習 報酬:R = K𝑣 × 𝑟𝑣 + K𝑐 × 𝑟𝑐 + K𝑓 × 𝑟𝑓 + K𝑜 × 𝑟𝑜 17 K𝑣 K𝑐 K𝑓 K𝑜 報酬スケール 安全性 学習① 1 1 0 0 1 : 100 : 0 : 0 低 学習② 1 1 1 1 1 : 100 : 5 : 1 学習③ 1 1 5 5 1 : 100 : 25 : 5 学習④ 1 1 10 10 1 : 100 : 50 : 10 学習⑤ 1 1 15 15 1 : 100 : 75 : 15 学習⑥ 1 1 20 20 1 : 100 : 100 : 20 高
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 評価指標 • 各指標で比較(全400エピソード) – 全車両の平均走行速度 – 早期追越しエピソード数 • 対向車が低速走行車とすれ違う前に追越ししたエピソード – 衝突エピソード数 – 前方車両至近距離エピソード数 • 前方車両との車間距離ペナルティが与えられたエピソード – 対向車両至近距離エピソード数 • 対向車との衝突時間ペナルティが与えられたエピソード 低速走行車 追越車 対向車 早期追越し
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 学習中の報酬推移 • 3試行の平均をプロット(ペナルティ係数0のみ1試 行) • 学習中,過去300エピソードでの平均報酬が最大と なったときのモデルを使用してテスト 学習中の累積割引報酬の推移 縦軸:累積割引報酬 横軸:学習ステップ
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験結果 走行 累積割引 報酬 全車両 平均走行 速度 早期 追越し エピソード数 衝突 エピソード数 前方車両 至近距離 エピソード数 対向車両 至近距離 エピソード数 ルール①t=9.0 - 36.03 112 54 0 50 ルール②t=10.5 - 35.75 106 0 0 50 ルール③t=12.0 - 35.49 56 0 0 0 ルール④t=13.5 - 35.28 21 0 0 0 ルール⑤t=15.0 - 35.15 1 0 0 0 学習① K𝑓=0, K𝑜=0 87.67(①) 36.88(①) 199 0 98 142 学習② K𝑓=1, K𝑜=1 86.53(③) 36.40(③) 206 0 0 50 学習③ K𝑓=5, K𝑜=5 85.68 36.13 206 0 20 56 学習④ K𝑓=10, K𝑜=10 86.65(②) 36.39(②) 200 0 0 10 学習⑤ K𝑓=15, K𝑜=15 81.81 33.68 0 0 0 0 学習⑥ K𝑓=20, K𝑜=20 81.63 32.90 0 0 0 0 20 400エピソード中
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験結果 走行 累積割引 報酬 全車両 平均走行 速度 早期 追越し エピソード数 衝突 エピソード数 前方車両 至近距離 エピソード数 対向車両 至近距離 エピソード数 ルール①t=9.0 - 36.03 112 54 0 50 ルール②t=10.5 - 35.75 106 0 0 50 ルール③t=12.0 - 35.49 56 0 0 0 ルール④t=13.5 - 35.28 21 0 0 0 ルール⑤t=15.0 - 35.15 1 0 0 0 学習① K𝑓=0, K𝑜=0 87.67(①) 36.88(①) 199 0 98 142 学習② K𝑓=1, K𝑜=1 86.53(③) 36.40(③) 206 0 0 50 学習③ K𝑓=5, K𝑜=5 85.68 36.13 206 0 20 56 学習④ K𝑓=10, K𝑜=10 86.65(②) 36.39(②) 200 0 0 10 学習⑤ K𝑓=15, K𝑜=15 81.81 33.68 0 0 0 0 学習⑥ K𝑓=20, K𝑜=20 81.63 32.90 0 0 0 0 21 400エピソード中 時間閾値𝑡が小さいほど早期追越しエピソー ド数は増えるが,衝突や至近距離エピソード も増える 早期追越しエピソード数が多いほど平均走行 速度は大きくなっている
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験結果 走行 累積割引 報酬 全車両 平均走行 速度 早期 追越し エピソード数 衝突 エピソード数 前方車両 至近距離 エピソード数 対向車両 至近距離 エピソード数 ルール①t=9.0 - 36.03 112 54 0 50 ルール②t=10.5 - 35.75 106 0 0 50 ルール③t=12.0 - 35.49 56 0 0 0 ルール④t=13.5 - 35.28 21 0 0 0 ルール⑤t=15.0 - 35.15 1 0 0 0 学習① K𝑓=0, K𝑜=0 87.67(①) 36.88(①) 199 0 98 142 学習② K𝑓=1, K𝑜=1 86.53(③) 36.40(③) 206 0 0 50 学習③ K𝑓=5, K𝑜=5 85.68 36.13 206 0 20 56 学習④ K𝑓=10, K𝑜=10 86.65(②) 36.39(②) 200 0 0 10 学習⑤ K𝑓=15, K𝑜=15 81.81 33.68 0 0 0 0 学習⑥ K𝑓=20, K𝑜=20 81.63 32.90 0 0 0 0 22 400エピソード中 ペナルティ係数が大きいほど衝突や至近距離 エピソード数が少ない傾向にある ペナルティ係数が15より大きいと早期追越し ができず,平均走行速度が小さくなる
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験結果 走行 累積割引 報酬 全車両 平均走行 速度 早期 追越し エピソード数 衝突 エピソード数 前方車両 至近距離 エピソード数 対向車両 至近距離 エピソード数 ルール①t=9.0 - 36.03 112 54 0 50 ルール②t=10.5 - 35.75 106 0 0 50 ルール③t=12.0 - 35.49 56 0 0 0 ルール④t=13.5 - 35.28 21 0 0 0 ルール⑤t=15.0 - 35.15 1 0 0 0 学習① K𝑓=0, K𝑜=0 87.67(①) 36.88(①) 199 0 98 142 学習② K𝑓=1, K𝑜=1 86.53(③) 36.40(③) 206 0 0 50 学習③ K𝑓=5, K𝑜=5 85.68 36.13 206 0 20 56 学習④ K𝑓=10, K𝑜=10 86.65(②) 36.39(②) 200 0 0 10 学習⑤ K𝑓=15, K𝑜=15 81.81 33.68 0 0 0 0 学習⑥ K𝑓=20, K𝑜=20 81.63 32.90 0 0 0 0 23 400エピソード中 ルールベースと学習ベースの比較 至近距離エピソード数を10に抑えつつ, 平均走行速度の向上
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 対向車両至近距離エピソード詳細 ルール② 学習④ 対向車両との衝突時間ペナルティ のヒストグラム (係数K𝑜 = 1で合わせた) 1エピソードの中で ペナルティが与えられた ステップ数のヒストグラム 計498ステップ 計10ステップ
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 走行比較 • ルールベース 𝑡 = 12.0: 35.66km/h – 追越車が低速走行車の後ろを走行し,自由走行できていない • 学習後: 37.12km/h – 低速走行車が減速し,追越車が早期追越しにより自由走行 25
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 まとめ • 学習後は早期追越しエピソード数が多くなる – 低速走行車や対向車の減速により,追越車の追越しのための ギャップがうまれたため → 平均走行速度向上 • 安全性に関するペナルティにより,衝突,前方車両や 対向車両との車間距離が近いエピソード数を抑えた → マルチエージェント深層強化学習による協調的な走 行の効果を示した 26
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結論 • マルチエージェント深層強化学習を用いた協調的な追 越行動を提案 • Harmo Traffic Simulatorでの追越行動を実装 • 学習による協調的な追越行動の獲得 – 早期追越しによる走行速度向上 – 安全性に関するペナルティで衝突や至近車間距離のエピソー ド数を抑えた 27