深層強化学習による自動運転車両の経路探索に関する研究

H
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
深層強化学習による自動運転車両の
経路探索に関する研究
2022/02/07
北海道大学 工学部
情報エレクトロニクス学科 情報理工学コース
複雑系工学講座 調和系工学研究室
学部4年 清水雅之
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
研究背景
• 近年は情報技術の発展に伴い、リアルタイムな交通
状況を容易に入手できるようになった
– 例) JARTIC
• 現在の交通状況をもとにして最短経路を提案してく
れるサービスも普及してきている
– 例) ATIS
• しかし、実際の交通では現在の交通状況だけでは不
十分で時間変化を扱う必要がある
交通状況提供サービス例(JARTIC) 高速道路情報(ATIS)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
従来研究
• 事前に目的地までの経路を探索するアプローチ
– 蟻コロニー最適化を用いた経路探索に関する研究[1]
• マップ形状に変化のある問題に強い
– リアルタイム交通状況を利用した緊急車両の経路探索に関
する研究[2]
• Google MapsのDistance Matrix APIを利用し,リアルタイム交
通情報に基づいた経路探索
• 逐次的に経路を探索していくアプローチ
– 深層強化学習を用いた経路探索に関する研究[3]
• 目的地まで各交差点で次にどの方向に進むのかを学習
– 交差点ごとに現在の交通状況から算出した走行時間使って
最短時間経路を探索するダイクストラ法
[1] Shahrizul Anuar Abu Nahar, Fazida Hanim Hashim ,Modelling and Analysis of an Efficient Traffic Network Using Ant Colony
Optimization Algorithm Third International Conference on Computational Intelligence, Communication Systems and Networks, IEEE.
pp. 32–36. (2011)
[2] N. Rathore, P. K. Jain and M. Parida, A ROUTING MODEL FOR EMERGENCY VEHICLES USING THE REAL TIME TRAFFIC DATA, 2018
IEEE International Conference on Service Operations and Logistics, and Informatics (SOLI), pp. 175-179. (2018)
[3] Songsang Koha , Bo Zhoua, Hui Fangb,, Po Yangd , Zaili Yanga , Qiang Yangc , Lin Guanb , Zhigang Jie: Real-time Deep
Reinforcement Learning based Vehicle Routing and Navigation, ISSN, 1568-4946. (2020)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
研究目的
研究目的
短い時間で目的地へ到達できる経路探索手法を検討する
扱う状況
• 各車両の現在の位置や速度の情報が入手可能
– 各車両の今後の動きはわからない
• 各交差点で現在の交通状況に関する情報をもとにし
て目的地に早く到達するには次にどの方向に進むか
を学習していく
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
逐次決定型の経路探索アプローチ
右折?
左折?
直進?
交通状況の情報 意思決定
対象車
直進しよう
各交差点で
…
G
S
• 各交差点に進入するたびに現時点での交通状況に基づいて目的地まで
の到達時間を最小化するように次の進行方向を決定
• 交差点ごとの行動決定規則を獲得するために深層強化学習を用いる
• 逐次決定型の経路探索のメリット
目的地が定まっていない(突然変わる)
交通状況が著しく変動
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
本研究のソフトウェアシミュレーション環境
RLlib
強化学習ライブラリ
学習車の行動を決める
FLOW
深層強化学習フレームワーク
強化学習に用いる報酬の計算、車両の制御
SUMO(Simulation of Urban MObility)
交通シミュレータ
車両のシミュレーションを行う
ネットワークの交通流や車両の
現在地の情報を抽出
ネットワークの交通流や車両の
現在地の情報、報酬
学習車の行動を示す値
値を実際の行動に変換
DQN+double DQN[4]+ dueling network[5]+ prioritized
experience replay[6]
[4]Tom Schaul, John Quan, Ioannis Antonoglou, David Silver: Prioritized Experience Replay, arXiv:1511.05952 [cs.LG].(2016)
[5]Hado van Hasselt, Arthur Guez, David Silver :Deep Reinforcement Learning with Double Q-learning, arXiv:1509.06461
[cs.LG]. (2016)
[6]Ziyu Wang, Tom Schaul, Matteo Hassel, Hado van Hasselt, Marc Lanctot, Nando de Freitas :
Dueling Network Architectures for Deep Reinforcement Learning, arXiv:1511.06581 [cs.LG]. (2016)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
学習プロセス
1. マップの生成と車両の初期化を行ってシミュレーションを開始
3. 観測した情報をもとに交差点を次にどの方向に進むべきかを
ニューラルネットワークで推論、次の交差点まで移動、報酬を計算
2. 学習対象車は各交差点に差し掛かったら現在の交通状況に関する情
報を観測
5. 学習車の目的地への到達判定
シミュレーションを終了
4. その時の状態遷移をバッファに保存
True
ミニバッチ分バッファから状態
遷移をサンプリング、
ニューラルネットワークを更新
False
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
強化学習の適用
𝑇𝑠𝑡
: 𝑠𝑡でのトータルの走行時間
𝑠𝑡: tステップ目における状態
𝑠𝑡 𝑠𝑡+1
𝑟𝑡 = - (𝑇𝑠𝑡+1
− 𝑇𝑠𝑡
)
𝑇𝑠𝑡+1
𝑇𝑠𝑡
1step
学習車 学習車以外の車両
報酬
𝑟𝑡 = − (𝑇𝑠𝑡+1
− 𝑇𝑠𝑡
)
観測空間
ネットワークの各エッジ上にいる車両の数
ネットワークの各エッジの推定走行時間
学習車の現在位置
目的地の位置
行動空間
3(右折、左折、直進の3パターン)
各エッジの推定走行時間
𝑡𝑒 =
𝑙𝑒
𝑣𝑒
𝑖𝑓 𝑛𝑒 > 0
𝑙𝑒
𝑚𝑒
𝑖𝑓 𝑛𝑒 = 0
𝑙𝑒: エッジの長さ
𝑣𝑒: エッジ上の車両の平均走行距離
𝑚𝑒: エッジの制限速度
𝑛𝑒: エッジ上に存在する車両の数
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
実験
【実験目的】
深層強化学習を用いることで複数の交通状況においても目的地
まで早く到達できる経路探索が実現可能かを検証すること
– 地図の形状や交通状況、出発地点と目的地点の変動など
の検証項目の中で交通状況を扱う
【実験方法】
• シンプルな地図で意図的な渋滞を発生させる交通状況を使用
• 今回設定した2つの交通状況を混ぜて学習
• 以下の手法と深層強化学習との比較を行う
– 事前に各エッジの距離情報をもとに最短距離経路を選択
するダイクストラ法
– 各交差点で現在の交通状況に応じて逐次決定型のダイク
ストラ法
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
実験設定
エッジ1
このマップを使用する理由
• 渋滞の発生個所と迂回路が明確になっている
• 距離の最短経路と迂回路が大きく2通りに絞ら
れている
エッジ数 エッジの長さ(m) エッジの制限速度
(km/h)
82 min: 62.53
Max: 158.83
36
車種 最大加速度
(m/𝒔𝟐
)
最大減速度
(m/𝒔𝟐
)
最高速度
(m/s)
普通の車 2.0 5.0 20.0
トラック 1.0 5.0 5.0
• 車両数:101台(内学習車1台)
• 非学習車の出発地点と目的地及び、行動は各交通状況で固定
• 車両はエッジ1か2を必ず通る設定
車両設定
エッジ2
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
実験設定
S
G
交通状況1
ポイント1
下を経由したルートを選択することで目的地まで短
い時間で到達できる
学習車を除く車両がポイント1を経由して各目的地ま
で走行する場合に発生する交通状況
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
実験設定
S
G
交通状況2
ポイント2
学習車を除く車両がポイント2を経由して各目的地ま
で走行する場合に発生する交通状況
上を経由したルートを選択することで目的地まで短
い時間で到達できる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
実験設定
モデルの設定[7]
入力層 168
隠れ層1 150
隠れ層2 100
Dueling Network 4
出力層 3
活性化関数 relu
モデルの設定[7]
学習率 0.001
探索率ε 1.0→0.05
ターゲットネットワークの更新頻度 3000
割引率γ 0.99
経験再生のバッファサイズ 10000
ミニバッチサイズ 32
優先度付き経験再生のパラメータ α 0.6
優先度付き経験再生のパラメータ β 0.4→1.0
以下の設定で10000episode学習
• 1episode: 車両が目的地に到達or 1000秒経過
• 1step:交差点から次の交差点
• ニューラルネットワークの構造及びハイパーパラメータ:
下図の通り
[7] Songsang Koha , Bo Zhoua, Hui Fangb,, Po Yangd , Zaili Yanga , Qiang Yangc , Lin Guanb , Zhigang Jie: Real-time Deep
Reinforcement Learning based Vehicle Routing and Navigation, ISSN, 1568-4946. (2020)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
実験 交通状況1,2を混ぜて学習
学習中のエピソード平均走行時間 学習中のエピソード平均走行距離
学習当初はランダムな行動を多く取ることもあり、目的地に到達する
時間がかかってしまう
しかし、学習が進むにつれて徐々に車両の通るルートが改善され目的
地までの走行時間は小さくなっていっている
最終的には、時間のダイクストラ法と同程度の走行時間で収束した
走行距離に関しても学習が進むにつれて短くなっているが、最終的に
は距離と時間のダイクストラ法のどちらよりも大きくなった
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
実験 結果
ルート 走行時間
(s)
走行距離
(m)
ダイクストラ
(距離)
139 875
ダイクストラ
(時間)
139 875
RL 131 886
交通状況1で走行させた場合の
走行距離と走行時間
ルート 走行時間
(s)
走行距離
(m)
ダイクストラ
(距離)
328 875
ダイクストラ
(時間)
182 1100
RL 132 1150
交通状況2で走行させた場合の
走行距離と走行時間
各交通状況において時間のダイクストラ、距離のダイクスト
ラと比較して深層強化学習によって得られたモデルを使用し
た場合の方が目的地まで早く到達できる経路探索が実現でき
ていることが確認できた
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
実験
S
交通状況1
― RLルート ― ダイクストラ(時間、距離)
G
エッジ1
エッジ1では渋滞が発生しており、下の道を通ること
で走行時間も走行距離も上を通る場合よりも短く目
的地まで到達可能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
実験
S
交通状況1
― RLルート ― ダイクストラ(時間、距離)
G
エッジ1
走行距離はダイクストラ法を用いた方が小さいがRL
ルートに比べて交差点を曲がる回数が多く、その度に
少しの減速をしているため走行時間が少し伸びている
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
実験
S
G
交通状況2 ― RLルート ― ダイクストラ(時間) ― ダイクストラ(距離)
エッジ2
エッジ2では渋滞が発生しており、上の道を通って
目的地まで走行することで、走行距離は伸びるが、
走行時間はポイント2を通る場合よりも短くなる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
実験
S
G
交通状況2 ― RLルート ― ダイクストラ(時間) ― ダイクストラ(距離)
ポイント2
ダイクストラ法を用いた場合は渋滞の発生するポイ
ント2を通るルートが選択されるため大幅に走行時間
が伸びてしまう
シミュレーション開始時点では、渋滞が発
生していないため、ダイクストラ(時間)と
ダイクストラ(距離)は同じルート
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
考察
• 逐次的に現在の交通状況を利用したダイクストラ法
と比較して、短い時間で到達できる経路探索が実現
できた
• 探索、行動の評価、経験の蓄積のプロセスの中で学
習を行っていく深層強化学習を用いることにより、
今後の交通状況を加味した逐次的な経路探索が行え
る可能性を示した
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
まとめ
• 時間的に変化する交通状況の中で目的地まで短い時
間で到達できる経路探索の実現に向けた手法の検証
を行った
• 2パターンの交通状況を混ぜて学習させた場合にそれ
ぞれの交通状況においてダイクストラ法と比較して
短い走行時間で目的地まで到達する経路探索が実現
できていることが確認できた
• 今後は複数の交通状況の下で学習を行っていき、更
には学習していない状況にも適用できるかを検証し
ていく
– 出発地点と目的地の変動、更にはマップの形状の変化に対
する検証を行っていく
– 学習した車両が複数台いた場合の移動時間への影響の検証
も行っていく
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
研究業績
発表予定 国内学会 口頭発表(1件)
• ○清水 雅之, 横山 想一郎, 山下 倫央, 川村 秀憲, 自動運転車両
の経路探索に向けた深層強化学習の適用, 社会システムと情報技
術研究ウィーク(WSSIT2022), 2022.
1 de 22

Recomendados

[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling por
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
2.9K vistas25 diapositivas
深層強化学習による自動運転車両の追い越し行動の実現に関する研究 por
深層強化学習による自動運転車両の追い越し行動の実現に関する研究深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究harmonylab
1.1K vistas26 diapositivas
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces por
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
4.8K vistas34 diapositivas
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究 por
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究harmonylab
765 vistas27 diapositivas
SSII2022 [OS3-02] Federated Learningの基礎と応用 por
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
2.4K vistas38 diapositivas
時系列問題に対するCNNの有用性検証 por
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証Masaharu Kinoshita
5K vistas20 diapositivas

Más contenido relacionado

La actualidad más candente

SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​ por
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
3.2K vistas39 diapositivas
ドメイン適応の原理と応用 por
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
5.5K vistas50 diapositivas
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究 por
 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究harmonylab
798 vistas28 diapositivas
[DL輪読会]Deep Learning 第15章 表現学習 por
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
9.7K vistas33 diapositivas
多様な強化学習の概念と課題認識 por
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
58K vistas38 diapositivas
Active Learning 入門 por
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
51.8K vistas60 diapositivas

La actualidad más candente(20)

SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​ por SSII
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII3.2K vistas
ドメイン適応の原理と応用 por Yoshitaka Ushiku
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku5.5K vistas
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究 por harmonylab
 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
harmonylab798 vistas
[DL輪読会]Deep Learning 第15章 表現学習 por Deep Learning JP
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP9.7K vistas
多様な強化学習の概念と課題認識 por 佑 甲野
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野58K vistas
Active Learning 入門 por Shuyo Nakatani
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani51.8K vistas
GAN(と強化学習との関係) por Masahiro Suzuki
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki83K vistas
3次元レジストレーション(PCLデモとコード付き) por Toru Tamaki
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
Toru Tamaki38.5K vistas
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~ por SSII
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII4.4K vistas
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an... por Deep Learning JP
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP4.7K vistas
勾配降下法の 最適化アルゴリズム por nishio
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
nishio48.1K vistas
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun... por Deep Learning JP
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
Deep Learning JP508 vistas
[DL輪読会]GANとエネルギーベースモデル por Deep Learning JP
[DL輪読会]GANとエネルギーベースモデル[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル
Deep Learning JP612 vistas
全力解説!Transformer por Arithmer Inc.
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.9.5K vistas
モデルではなく、データセットを蒸留する por Takahiro Kubo
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
Takahiro Kubo7.8K vistas
4 データ間の距離と類似度 por Seiichi Uchida
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度
Seiichi Uchida3.7K vistas
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究 por harmonylab
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
harmonylab948 vistas
DNNの曖昧性に関する研究動向 por Naoki Matsunaga
DNNの曖昧性に関する研究動向DNNの曖昧性に関する研究動向
DNNの曖昧性に関する研究動向
Naoki Matsunaga383 vistas

Similar a 深層強化学習による自動運転車両の経路探索に関する研究

A Study on Generation of Deformed Route Maps using Octilinear Grid por
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
480 vistas43 diapositivas
修士論文 por
修士論文修士論文
修士論文harmonylab
695 vistas32 diapositivas
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究 por
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
383 vistas27 diapositivas
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono... por
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...harmonylab
488 vistas32 diapositivas
Feature Erasing and Diffusion Network for Occluded Person Re-Identification por
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identificationharmonylab
659 vistas19 diapositivas
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究 por
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究harmonylab
812 vistas28 diapositivas

Similar a 深層強化学習による自動運転車両の経路探索に関する研究(20)

A Study on Generation of Deformed Route Maps using Octilinear Grid por harmonylab
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab480 vistas
修士論文 por harmonylab
修士論文修士論文
修士論文
harmonylab695 vistas
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究 por harmonylab
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
harmonylab383 vistas
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono... por harmonylab
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab488 vistas
Feature Erasing and Diffusion Network for Occluded Person Re-Identification por harmonylab
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab659 vistas
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究 por harmonylab
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
harmonylab812 vistas
MLP-Mixer: An all-MLP Architecture for Vision por harmonylab
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab654 vistas
Outracing champion Gran Turismo drivers with deep reinforcement learning por harmonylab
Outracing champion Gran Turismo drivers with deep reinforcement learningOutracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learning
harmonylab555 vistas
Semi-Supervised Neural Architecture Search por harmonylab
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
harmonylab967 vistas
A Study on Estimation of Household Kerosene Consumption for Optimization of D... por harmonylab
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
harmonylab313 vistas
形態素解析を用いた帝国議会議事速記録の変遷に関する研究 por harmonylab
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab346 vistas
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo... por harmonylab
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
harmonylab906 vistas
深層学習を用いたバス乗客画像の属性推定 に関する研究 por harmonylab
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab504 vistas
A Generalist Agent por harmonylab
A Generalist AgentA Generalist Agent
A Generalist Agent
harmonylab833 vistas
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone por harmonylab
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab84 vistas
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2) por harmonylab
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab2.4K vistas
ArcFace: Additive Angular Margin Loss for Deep Face Recognition por harmonylab
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
harmonylab812 vistas
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text por harmonylab
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
harmonylab389 vistas
Self-supervised Learning of Adversarial Example: Towards Good Generalizations... por harmonylab
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
harmonylab471 vistas

Más de harmonylab

DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation por
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
727 vistas24 diapositivas
Voyager: An Open-Ended Embodied Agent with Large Language Models por
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
508 vistas44 diapositivas
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation por
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
778 vistas36 diapositivas
ReAct: Synergizing Reasoning and Acting in Language Models por
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
776 vistas50 diapositivas
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究 por
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
516 vistas28 diapositivas
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究 por
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
305 vistas25 diapositivas

Más de harmonylab(20)

DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation por harmonylab
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab727 vistas
Voyager: An Open-Ended Embodied Agent with Large Language Models por harmonylab
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab508 vistas
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation por harmonylab
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab778 vistas
ReAct: Synergizing Reasoning and Acting in Language Models por harmonylab
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab776 vistas
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究 por harmonylab
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab516 vistas
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究 por harmonylab
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
harmonylab305 vistas
深層自己回帰モデルを用いた俳句の生成と評価に関する研究 por harmonylab
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab457 vistas
競輪におけるレーティングシステムを用いた予想記事生成に関する研究 por harmonylab
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
harmonylab1K vistas
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究 por harmonylab
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab489 vistas
A Study on the Generation of Clothing Captions Highlighting the Differences b... por harmonylab
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
harmonylab563 vistas
A Study on Clothing Recommendation Information Presentation System Based on C... por harmonylab
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
harmonylab447 vistas
Emotionally Intelligent Fashion Design Using CNN and GAN por harmonylab
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
harmonylab601 vistas
Towards Total Recall in Industrial Anomaly Detection por harmonylab
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
harmonylab1.1K vistas
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D... por harmonylab
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab1.1K vistas
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic por harmonylab
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
harmonylab448 vistas
2022年度調和系工学研究室配属説明会資料 por harmonylab
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料
harmonylab319 vistas
CKL_about_panf2022.pdf por harmonylab
CKL_about_panf2022.pdfCKL_about_panf2022.pdf
CKL_about_panf2022.pdf
harmonylab220 vistas
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le... por harmonylab
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
harmonylab339 vistas
Solving Quantitative Reasoning Problems with Language Models por harmonylab
Solving Quantitative Reasoning Problems with Language ModelsSolving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language Models
harmonylab493 vistas
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ... por harmonylab
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
harmonylab510 vistas

深層強化学習による自動運転車両の経路探索に関する研究

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 深層強化学習による自動運転車両の 経路探索に関する研究 2022/02/07 北海道大学 工学部 情報エレクトロニクス学科 情報理工学コース 複雑系工学講座 調和系工学研究室 学部4年 清水雅之
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 研究背景 • 近年は情報技術の発展に伴い、リアルタイムな交通 状況を容易に入手できるようになった – 例) JARTIC • 現在の交通状況をもとにして最短経路を提案してく れるサービスも普及してきている – 例) ATIS • しかし、実際の交通では現在の交通状況だけでは不 十分で時間変化を扱う必要がある 交通状況提供サービス例(JARTIC) 高速道路情報(ATIS)
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 従来研究 • 事前に目的地までの経路を探索するアプローチ – 蟻コロニー最適化を用いた経路探索に関する研究[1] • マップ形状に変化のある問題に強い – リアルタイム交通状況を利用した緊急車両の経路探索に関 する研究[2] • Google MapsのDistance Matrix APIを利用し,リアルタイム交 通情報に基づいた経路探索 • 逐次的に経路を探索していくアプローチ – 深層強化学習を用いた経路探索に関する研究[3] • 目的地まで各交差点で次にどの方向に進むのかを学習 – 交差点ごとに現在の交通状況から算出した走行時間使って 最短時間経路を探索するダイクストラ法 [1] Shahrizul Anuar Abu Nahar, Fazida Hanim Hashim ,Modelling and Analysis of an Efficient Traffic Network Using Ant Colony Optimization Algorithm Third International Conference on Computational Intelligence, Communication Systems and Networks, IEEE. pp. 32–36. (2011) [2] N. Rathore, P. K. Jain and M. Parida, A ROUTING MODEL FOR EMERGENCY VEHICLES USING THE REAL TIME TRAFFIC DATA, 2018 IEEE International Conference on Service Operations and Logistics, and Informatics (SOLI), pp. 175-179. (2018) [3] Songsang Koha , Bo Zhoua, Hui Fangb,, Po Yangd , Zaili Yanga , Qiang Yangc , Lin Guanb , Zhigang Jie: Real-time Deep Reinforcement Learning based Vehicle Routing and Navigation, ISSN, 1568-4946. (2020)
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 研究目的 研究目的 短い時間で目的地へ到達できる経路探索手法を検討する 扱う状況 • 各車両の現在の位置や速度の情報が入手可能 – 各車両の今後の動きはわからない • 各交差点で現在の交通状況に関する情報をもとにし て目的地に早く到達するには次にどの方向に進むか を学習していく
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 逐次決定型の経路探索アプローチ 右折? 左折? 直進? 交通状況の情報 意思決定 対象車 直進しよう 各交差点で … G S • 各交差点に進入するたびに現時点での交通状況に基づいて目的地まで の到達時間を最小化するように次の進行方向を決定 • 交差点ごとの行動決定規則を獲得するために深層強化学習を用いる • 逐次決定型の経路探索のメリット 目的地が定まっていない(突然変わる) 交通状況が著しく変動
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 本研究のソフトウェアシミュレーション環境 RLlib 強化学習ライブラリ 学習車の行動を決める FLOW 深層強化学習フレームワーク 強化学習に用いる報酬の計算、車両の制御 SUMO(Simulation of Urban MObility) 交通シミュレータ 車両のシミュレーションを行う ネットワークの交通流や車両の 現在地の情報を抽出 ネットワークの交通流や車両の 現在地の情報、報酬 学習車の行動を示す値 値を実際の行動に変換 DQN+double DQN[4]+ dueling network[5]+ prioritized experience replay[6] [4]Tom Schaul, John Quan, Ioannis Antonoglou, David Silver: Prioritized Experience Replay, arXiv:1511.05952 [cs.LG].(2016) [5]Hado van Hasselt, Arthur Guez, David Silver :Deep Reinforcement Learning with Double Q-learning, arXiv:1509.06461 [cs.LG]. (2016) [6]Ziyu Wang, Tom Schaul, Matteo Hassel, Hado van Hasselt, Marc Lanctot, Nando de Freitas : Dueling Network Architectures for Deep Reinforcement Learning, arXiv:1511.06581 [cs.LG]. (2016)
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 学習プロセス 1. マップの生成と車両の初期化を行ってシミュレーションを開始 3. 観測した情報をもとに交差点を次にどの方向に進むべきかを ニューラルネットワークで推論、次の交差点まで移動、報酬を計算 2. 学習対象車は各交差点に差し掛かったら現在の交通状況に関する情 報を観測 5. 学習車の目的地への到達判定 シミュレーションを終了 4. その時の状態遷移をバッファに保存 True ミニバッチ分バッファから状態 遷移をサンプリング、 ニューラルネットワークを更新 False
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 強化学習の適用 𝑇𝑠𝑡 : 𝑠𝑡でのトータルの走行時間 𝑠𝑡: tステップ目における状態 𝑠𝑡 𝑠𝑡+1 𝑟𝑡 = - (𝑇𝑠𝑡+1 − 𝑇𝑠𝑡 ) 𝑇𝑠𝑡+1 𝑇𝑠𝑡 1step 学習車 学習車以外の車両 報酬 𝑟𝑡 = − (𝑇𝑠𝑡+1 − 𝑇𝑠𝑡 ) 観測空間 ネットワークの各エッジ上にいる車両の数 ネットワークの各エッジの推定走行時間 学習車の現在位置 目的地の位置 行動空間 3(右折、左折、直進の3パターン) 各エッジの推定走行時間 𝑡𝑒 = 𝑙𝑒 𝑣𝑒 𝑖𝑓 𝑛𝑒 > 0 𝑙𝑒 𝑚𝑒 𝑖𝑓 𝑛𝑒 = 0 𝑙𝑒: エッジの長さ 𝑣𝑒: エッジ上の車両の平均走行距離 𝑚𝑒: エッジの制限速度 𝑛𝑒: エッジ上に存在する車両の数
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 実験 【実験目的】 深層強化学習を用いることで複数の交通状況においても目的地 まで早く到達できる経路探索が実現可能かを検証すること – 地図の形状や交通状況、出発地点と目的地点の変動など の検証項目の中で交通状況を扱う 【実験方法】 • シンプルな地図で意図的な渋滞を発生させる交通状況を使用 • 今回設定した2つの交通状況を混ぜて学習 • 以下の手法と深層強化学習との比較を行う – 事前に各エッジの距離情報をもとに最短距離経路を選択 するダイクストラ法 – 各交差点で現在の交通状況に応じて逐次決定型のダイク ストラ法
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 実験設定 エッジ1 このマップを使用する理由 • 渋滞の発生個所と迂回路が明確になっている • 距離の最短経路と迂回路が大きく2通りに絞ら れている エッジ数 エッジの長さ(m) エッジの制限速度 (km/h) 82 min: 62.53 Max: 158.83 36 車種 最大加速度 (m/𝒔𝟐 ) 最大減速度 (m/𝒔𝟐 ) 最高速度 (m/s) 普通の車 2.0 5.0 20.0 トラック 1.0 5.0 5.0 • 車両数:101台(内学習車1台) • 非学習車の出発地点と目的地及び、行動は各交通状況で固定 • 車両はエッジ1か2を必ず通る設定 車両設定 エッジ2
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 実験設定 S G 交通状況1 ポイント1 下を経由したルートを選択することで目的地まで短 い時間で到達できる 学習車を除く車両がポイント1を経由して各目的地ま で走行する場合に発生する交通状況
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 実験設定 S G 交通状況2 ポイント2 学習車を除く車両がポイント2を経由して各目的地ま で走行する場合に発生する交通状況 上を経由したルートを選択することで目的地まで短 い時間で到達できる
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 実験設定 モデルの設定[7] 入力層 168 隠れ層1 150 隠れ層2 100 Dueling Network 4 出力層 3 活性化関数 relu モデルの設定[7] 学習率 0.001 探索率ε 1.0→0.05 ターゲットネットワークの更新頻度 3000 割引率γ 0.99 経験再生のバッファサイズ 10000 ミニバッチサイズ 32 優先度付き経験再生のパラメータ α 0.6 優先度付き経験再生のパラメータ β 0.4→1.0 以下の設定で10000episode学習 • 1episode: 車両が目的地に到達or 1000秒経過 • 1step:交差点から次の交差点 • ニューラルネットワークの構造及びハイパーパラメータ: 下図の通り [7] Songsang Koha , Bo Zhoua, Hui Fangb,, Po Yangd , Zaili Yanga , Qiang Yangc , Lin Guanb , Zhigang Jie: Real-time Deep Reinforcement Learning based Vehicle Routing and Navigation, ISSN, 1568-4946. (2020)
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 実験 交通状況1,2を混ぜて学習 学習中のエピソード平均走行時間 学習中のエピソード平均走行距離 学習当初はランダムな行動を多く取ることもあり、目的地に到達する 時間がかかってしまう しかし、学習が進むにつれて徐々に車両の通るルートが改善され目的 地までの走行時間は小さくなっていっている 最終的には、時間のダイクストラ法と同程度の走行時間で収束した 走行距離に関しても学習が進むにつれて短くなっているが、最終的に は距離と時間のダイクストラ法のどちらよりも大きくなった
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 実験 結果 ルート 走行時間 (s) 走行距離 (m) ダイクストラ (距離) 139 875 ダイクストラ (時間) 139 875 RL 131 886 交通状況1で走行させた場合の 走行距離と走行時間 ルート 走行時間 (s) 走行距離 (m) ダイクストラ (距離) 328 875 ダイクストラ (時間) 182 1100 RL 132 1150 交通状況2で走行させた場合の 走行距離と走行時間 各交通状況において時間のダイクストラ、距離のダイクスト ラと比較して深層強化学習によって得られたモデルを使用し た場合の方が目的地まで早く到達できる経路探索が実現でき ていることが確認できた
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 実験 S 交通状況1 ― RLルート ― ダイクストラ(時間、距離) G エッジ1 エッジ1では渋滞が発生しており、下の道を通ること で走行時間も走行距離も上を通る場合よりも短く目 的地まで到達可能
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 実験 S 交通状況1 ― RLルート ― ダイクストラ(時間、距離) G エッジ1 走行距離はダイクストラ法を用いた方が小さいがRL ルートに比べて交差点を曲がる回数が多く、その度に 少しの減速をしているため走行時間が少し伸びている
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 実験 S G 交通状況2 ― RLルート ― ダイクストラ(時間) ― ダイクストラ(距離) エッジ2 エッジ2では渋滞が発生しており、上の道を通って 目的地まで走行することで、走行距離は伸びるが、 走行時間はポイント2を通る場合よりも短くなる
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 実験 S G 交通状況2 ― RLルート ― ダイクストラ(時間) ― ダイクストラ(距離) ポイント2 ダイクストラ法を用いた場合は渋滞の発生するポイ ント2を通るルートが選択されるため大幅に走行時間 が伸びてしまう シミュレーション開始時点では、渋滞が発 生していないため、ダイクストラ(時間)と ダイクストラ(距離)は同じルート
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 考察 • 逐次的に現在の交通状況を利用したダイクストラ法 と比較して、短い時間で到達できる経路探索が実現 できた • 探索、行動の評価、経験の蓄積のプロセスの中で学 習を行っていく深層強化学習を用いることにより、 今後の交通状況を加味した逐次的な経路探索が行え る可能性を示した
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 まとめ • 時間的に変化する交通状況の中で目的地まで短い時 間で到達できる経路探索の実現に向けた手法の検証 を行った • 2パターンの交通状況を混ぜて学習させた場合にそれ ぞれの交通状況においてダイクストラ法と比較して 短い走行時間で目的地まで到達する経路探索が実現 できていることが確認できた • 今後は複数の交通状況の下で学習を行っていき、更 には学習していない状況にも適用できるかを検証し ていく – 出発地点と目的地の変動、更にはマップの形状の変化に対 する検証を行っていく – 学習した車両が複数台いた場合の移動時間への影響の検証 も行っていく
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 研究業績 発表予定 国内学会 口頭発表(1件) • ○清水 雅之, 横山 想一郎, 山下 倫央, 川村 秀憲, 自動運転車両 の経路探索に向けた深層強化学習の適用, 社会システムと情報技 術研究ウィーク(WSSIT2022), 2022.

Notas del editor

  1. マップの規模が大きくなったときにどのくらいまで適用できる?など シンプルマップからこの規模のマップになったときにどれくらい学習に変化 マップをいかに全部を埋め込まなくてもいいようにする必要がある 複雑なものをシンプルなものに落とし込む
  2. 報酬決定