深層強化学習による自動運転車両の追い越し行動の実現に関する研究

H
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
北海道大学 工学部
情報エレクトロニクス学科 情報理工学コース
複雑系工学講座 調和系工学研究室
学部4年 西 佑希
動的パスプランニングによる自動運転車両の
追い越し行動の実現に関する研究
2021/02/03
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 日本の交通における問題
– 大都市では約40%の道路でピーク時に渋滞が発生[1]
– 渋滞による損失が年間約38.1億時間,貨幣価値換算で約12兆
円[2]
– 自動車から排出されるCO2は,渋滞で50%増加[3]
• 渋滞を解消し,車両全体の走行距離を増加させること
により,経済損失や公害問題を軽減することが必要
研究背景 2
[1] 国土交通省道路局, https://www.mlit.go.jp/road/ir/ir-data/data_shu.html(参照:2020-08-29)
[2] 国土交通省, https://www.mlit.go.jp/road/ir/ir-perform/h18/07.pdf(参照:2020-08-29)
[3] 国土交通省, https://www.mlit.go.jp/road/ir/ir-council/highway/4pdf/22.pdf(参照:2020-08-29)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
渋滞の発生する状況
• 交差点の右折
– 信号を制御する方法がある[4]
• 合流
– ファスナー合流という合流方法で,ある程度渋滞を緩和でき
る[5]
• 追い越し
– 渋滞を発生を抑制したり,緩和するための方法が確立してい
ない
研究背景 3
[4] Liang, X., Du, X., Wang, G. and Han, Z.: Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (2018).
[5] Nishi, R., Miki, H., Tomoeda, A. and Nishinari, K.: Achievement of alter-native configurations of vehicles on multiple lanes,Phys. Rev. E, Vol.79, p.066119 (2009).
追い越し場面に着目
1
2
3
5
4
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
研究目的 4
• 右折車を譲って走行距離を増加させるような状況と基
礎的なところは似た問題
• 追い越しできるかどうかには対向車の意思決定が関係
してくる
• 研究目的
– 対向車を学習対象として深層強化学習を用いて,追い越し場
面での走行距離増加のための行動を獲得
– 複雑なシチュエーションがある中で,今回はシンプルに直線
道路で動かない障害物の追い越しを扱う
深層強化学習
障害物
追い越し車
対向車
止まる?
進む?
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 走行距離を増加させる研究は様々ある
– 深層強化学習により信号を制御する手法[6]
– 先頭車両との車間距離を自動調節する手法[7]
– 車をセルオートマトンとして渋滞を解析する研究[8]
• 走行距離を増加させるための追い越し行動に着目した
研究はない
• 追い越し場面に着目し,強化学習を用いて,対向車が
追い越し車を譲る行動することで走行距離を増加させ
る
従来研究 5
[6] Liang, X., Du, X., Wang, G. and Han, Z.: Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (2018).
[7] Van Arem, Bart, Cornelie JG Van Driel, and Ruben Visser. "The impact of cooperative adaptive cruise control on traffic-flow
characteristics.“ IEEE Transactions on intelligent transportation systems 7.4 (2006): 429-436.
[8]柳澤大地,西成活裕:渋滞学のセルオートマトンモデル,応用数理,Vol.22,No.1, pp.2-14 (2012)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
状況的には
– 動かない障害物があるのか,低速走行車がいるのか
– 障害物の位置,低速走行車の位置,速度
– 対向車の台数,位置,速度
– 追い越し車の台数,位置,速度
など考慮すべきことが多いので,ルールベースではなく強化学習で
追い越し場面での行動の獲得を目指す
一般的に学習が早い価値ベースの深層強化学習手法DQNを使用
– Prioritized experience replay[9], Double DQN[10], Dueling
Network[11]などの工夫も入れる
強化学習 6
[9] Schaul, T., Quan, J., Antonoglou, I. and Silver, D.: Prioritized ExperienceReplay,CoRR, Vol.abs/1511.05952 (2016).
[10] van Hasselt, H., Guez, A. and Silver, D.: Deep Reinforcement Learningwith Double Q-Learning,Proceedings of the AAAI Conference on ArtificialIntelligence, Vol.30, No.1 (2016).
[11] Wang, Z., Schaul, T., Hessel, M., Hasselt, H., Lanctot, M. and Freitas, N.:Dueling Network Architectures for Deep Reinforcement Learning,Proceed-ings of The 33rd International
Conference on Machine Learning(Balcan,M.F. and Weinberger, K.Q., eds.), Proceedings of Machine Learning Re-search, Vol.48, New York, New York, USA, PMLR, pp.1995–2003 (2016).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
シミュレーション環境 7
• ソフトウェアシミュレーション
– コストが低くスケーリングにロバストだが,実際の環境から
離れたものになる
– 実時間制約なし
• RCカーシミュレーション
– 比較的,実際の環境に近い形で実験が行える
– 実時間制約あり
• 実車両シミュレーション
– 実際の環境に近いがコストが非常に高い
ソフトウェアシミュレーションで強化学習をして行動獲得
RCカーシミュレーションで評価・検証
本研究
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
シミュレーション環境 8
• ソフトウェアシミュレーションには2つ種類がある
– 決まったレーン上を走行するレーン走行型シミュレータ
– 車両が自由に動ける2次元平面型シミュレータ
→追い越し実装に適しているのは2次元平面型シミュレータ
• 我々の開発した2次元平面型シミュレータ「Harmo
Traffic Simulator」を使用
– RCカーシミュレーション環境を模したシミュレータ
• Harmo Traffic Simulatorを使用するメリット
– 追い越しや強化学習のモデルを導入しやすい
– ステアリング角度を決定でき、決まったレーン上を走行する
だけのシミュレータにはできない追い越しを実装できる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習環境作成のための実装 9
• 追い越し行動の実装
– Harmo Traffic Simulatorには追い越しの実装がない
– 障害物に衝突せず、追い越しできるように実装
• 強化学習の実装
– Harmo Traffic Simulatorを環境,対向車1台をエージェントと
して学習
– 追い越し車と対向車が障害物付近で対向し、追い越し時に車
両同士のインタラクションが必要な状況が生まれる状況の作
成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習環境作成のための実装 10
• 追い越し行動の実装
– Harmo Traffic Simulatorには追い越しの実装がない
– 障害物に衝突せず、追い越しできるように実装
• 強化学習の実装
– Harmo Traffic Simulatorを環境,対向車1台をエージェントと
して学習
– 追い越し車と対向車が障害物付近で対向し、追い越し時に車
両同士のインタラクションが必要な状況が生まれる状況の作
成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 経路生成
– Harmo Traffic Simulatorは目標パスをダイクストラ法で生成
– 障害物回避をしながら,その目標パスに近いところを走行で
きる動的経路生成アルゴリズムFrenet Optimal Trajectoryを使
用
• 経路追従
– アクセル制御:P制御
– ステアリング制御:Pure Pursuit
経路生成と経路追従アルゴリズム 11
障害物回避のための動的経路生成アルゴリズムFrenet Optimal Trajectory[11]
を使用し,生成された経路を追従することで追い越しを実現
[11] Moritz Werling, Julius Ziegler, S¨oren Kammel, and Sebastian Thrun. Optimal Trajectory Generation
for Dynamic Street Scenarios in a Frenet Frame. IEEE, 2010.
複数の経路を生成
障害物に当たらない&
コスト最小選択
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習環境作成のための実装 12
• 追い越し行動の実装
– Harmo Traffic Simulatorには追い越しの実装がない
– 障害物に衝突せず、追い越しできるように実装
• 強化学習の実装
– Harmo Traffic Simulatorを環境,対向車1台をエージェントと
して学習
– 追い越し車と対向車が障害物付近で対向し、追い越し時に車
両同士のインタラクションが必要な状況が生まれる状況の作
成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習環境(Harmo Traffic Simulator) 13
対向車
追い越し車
学習対象
障害物
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習環境(Harmo Traffic Simulator) 14
追い越し発生
ポイント
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 1エピソードは強化学習車が規定の
場所から1周
• エピソード毎に追い越し車,対向
車それぞれが8か所の開始地点から
6台を上限としてランダムな台数,
開始地点で車両を配置
強化学習環境(Harmo Traffic Simulator) 15
強化学習対象車 Harmo Traffic Simulator
行動
状態,報酬
(エージェント) (環境)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 対向車を強化学習対象として,Prioritized Double Dueling Deep
Q-Networkを適用
• 観測は正規化
深層強化学習の設定 16
値 行動空間
0 交通ルールでの走行
1 追い越し車を譲るために停止
観測
追い越し車の台数
対向車の台数
強化学習対象車の速度
先頭追い越し車の速度
強化学習対象車と障害物との距離
強化学習対象車と先頭追い越し車との距離 障害物
追い越し車
学習対象車
目標パス周辺で
追い越し車検知
進む?
止まる?
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• ニューラルネットワークの構造
– 入力層 6次元
– 隠れ層1 256次元
– 隠れ層2 128次元
– 活性化関数 Relu
– 出力層2次元
深層強化学習の設定 17
報酬
全車両の走行距離の平均
t t+1 t+2 ・・・
学習ステップ
最終学習
ステップ
最終学習
ステップ
+100
障害物をよけた後,
学習はしないで走行
最終学習ステップから
100ステップ走行し,
割引報酬和を最終
ステップの報酬とする
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
【実験目的】
– 深層強化学習によって得た行動によって,追い越し場面にお
いて車両全体の走行距離が増加することを検証
【実験方法】
– 交通ルールでの走行と深層強化学習後の走行で,それぞれ全
車両の走行距離を測定し比較
• 3000ステップ分(1ステップ0.1秒,車両速度1m/s)の全車両の走
行距離の平均
– 学習時に報酬が最大となるモデルを使用したいが,今回の設
定では難しいので50000ステップと100000ステップで比較
– 追い越し車と対向車の台数は2-2, 2-4, 2-6, 4-2, 4-4, 4-6, 6-2,
6-4, 6-6で実験
実験 18
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• ほとんどの台数設定で走行距離
増加
• 対向車が少ないとき(2-2, 4-2,
6-2)の走行は,交通ルール走行
と似た走行で走行距離はほぼ変
化しない
実験結果 19
-2.75-2.26
13.05
0
3.55
7.16
0.8
6.15 6.41
-20
-15
-10
-5
0
5
10
15
2-2 2-4 2-6 4-2 4-4 4-6 6-2 6-4 6-6
走行距離の増加率
追い越し車両台数-対向車両台数
50000ステップ
-5.87
-3.82
11.23
-7.08
1.82
-15.8
-8.09
-3.93-3.12
-20
-15
-10
-5
0
5
10
15
2-2 2-4 2-6 4-2 4-4 4-6 6-2 6-4 6-6
走行距離の増加率
追い越し車両台数-対向車両台数
100000ステップ
交通ルールと学習後とで走行距離の増加率
• 意味のない譲りが見られ,交通
ルール走行と比較して走行距離は
低下した
走行距離の増加率=学習後の走行距離 / 交通ルールでの走行距離
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
走行の比較 20
交通ルールでの走行 強化学習後の走行
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
走行の比較 21
交通ルールでの走行 強化学習後の走行
円滑な追い越しにより,走行距離が大きくなった例
交通ルール:235.3m
強化学習後:254.7m
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習後の走行(50000ステップ) 22
• 学習しても交通ルール走行とほぼ
走行距離が変わらなかった例
– 6-2での走行
• 追い越し車を譲る行動は見られる
3000ステップでの全車両の走行距離の平
均
交通ルール:247.7m
強化学習後:250.7m
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習後の走行(100000ステップ) 23
• 学習しても交通ルール走行よりも
走行距離が低下した例
– 6-2での走行
• 追い越し車が通り過ぎたあとに譲
る行動をとり続けている
– 学習がうまくいっていない
3000ステップでの全車両の走行距離
の平均
交通ルール:247.7m
強化学習後:228.5m
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 報酬の割引率により,ステップ数を増やした方が割引
報酬の総和が大きくなって意味のない譲りが見られた
• 100000ステップの方が1エピソードのステップ数を増
やすように(意味のない譲りをするように)学習が進
み,走行距離が小さくなった
• 車両の台数が少ないとき(2-2, 2-4, 4-2)は対向車と
追い越し車が対面する状況が少なく,学習がうまく
いっていなかった可能性がある
考察 24
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 50000ステップ学習した時は,走行距離を増加する譲
り行動を獲得
– 直線道路,動かない障害物がある状況で,スムーズな交通に
より流量増加につながる
• 100000ステップ学習した時は,交通ルール走行と比
較して走行距離が低下した
実験のまとめ 25
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
まとめ 26
深層強化学習によって,障害物の追い越し場面で車
両全体の走行距離を増加するための行動を獲得
障害物ではなく低速走行車の追い越しなどほかのシ
チュエーションも検証
RCカーシミュレータに学習モデルを適用し,検
証・評価
1 de 26

Recomendados

深層強化学習による自動運転車両の経路探索に関する研究 por
深層強化学習による自動運転車両の経路探索に関する研究深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究harmonylab
1.5K vistas22 diapositivas
自動運転車のためのDeep Q-Networkを用いた 譲り合いに関する研究 por
自動運転車のためのDeep Q-Networkを用いた 譲り合いに関する研究自動運転車のためのDeep Q-Networkを用いた 譲り合いに関する研究
自動運転車のためのDeep Q-Networkを用いた 譲り合いに関する研究harmonylab
1.7K vistas27 diapositivas
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究 por
 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究harmonylab
797 vistas28 diapositivas
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo... por
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...harmonylab
903 vistas18 diapositivas
物体検出の歴史(R-CNNからSSD・YOLOまで) por
物体検出の歴史(R-CNNからSSD・YOLOまで)物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)HironoriKanazawa
1.6K vistas53 diapositivas
深層学習と音響信号処理 por
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
6K vistas63 diapositivas

Más contenido relacionado

La actualidad más candente

ArcFace: Additive Angular Margin Loss for Deep Face Recognition por
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognitionharmonylab
809 vistas21 diapositivas
最近のSingle Shot系の物体検出のアーキテクチャまとめ por
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめYusuke Uchida
40.1K vistas25 diapositivas
三次元表現まとめ(深層学習を中心に) por
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)Tomohiro Motoda
1.5K vistas38 diapositivas
タクシー運行最適化を実現する機械学習システムの社会実装 por
タクシー運行最適化を実現する機械学習システムの社会実装タクシー運行最適化を実現する機械学習システムの社会実装
タクシー運行最適化を実現する機械学習システムの社会実装RyuichiKanoh
1.4K vistas44 diapositivas
最適輸送入門 por
最適輸送入門最適輸送入門
最適輸送入門joisino
11.5K vistas88 diapositivas
cvpaper.challenge 研究効率化 Tips por
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper. challenge
21.3K vistas204 diapositivas

La actualidad más candente(20)

ArcFace: Additive Angular Margin Loss for Deep Face Recognition por harmonylab
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
harmonylab809 vistas
最近のSingle Shot系の物体検出のアーキテクチャまとめ por Yusuke Uchida
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
Yusuke Uchida40.1K vistas
三次元表現まとめ(深層学習を中心に) por Tomohiro Motoda
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda1.5K vistas
タクシー運行最適化を実現する機械学習システムの社会実装 por RyuichiKanoh
タクシー運行最適化を実現する機械学習システムの社会実装タクシー運行最適化を実現する機械学習システムの社会実装
タクシー運行最適化を実現する機械学習システムの社会実装
RyuichiKanoh1.4K vistas
最適輸送入門 por joisino
最適輸送入門最適輸送入門
最適輸送入門
joisino11.5K vistas
cvpaper.challenge 研究効率化 Tips por cvpaper. challenge
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge21.3K vistas
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究 por harmonylab
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
harmonylab764 vistas
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて por SSII
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII582 vistas
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation por harmonylab
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab769 vistas
物体検知(Meta Study Group 発表資料) por cvpaper. challenge
物体検知(Meta Study Group 発表資料)物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)
cvpaper. challenge103.3K vistas
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ por Hironobu Fujiyoshi
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
Hironobu Fujiyoshi136.4K vistas
SSII2018TS: 3D物体検出とロボットビジョンへの応用 por SSII
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII43.5K vistas
Teslaにおけるコンピュータビジョン技術の調査 por Kazuyuki Miyazawa
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
Kazuyuki Miyazawa10.8K vistas
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発 por Yoshitaka HARA
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
Yoshitaka HARA36.9K vistas
Curriculum Learning (関東CV勉強会) por Yoshitaka Ushiku
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku63.8K vistas
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation por Deep Learning JP
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Deep Learning JP6.5K vistas
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介 por Ryohei Ueda
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
Ryohei Ueda24.9K vistas
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization por Deep Learning JP
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
Deep Learning JP384 vistas
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究 por harmonylab
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
harmonylab382 vistas

Similar a 深層強化学習による自動運転車両の追い越し行動の実現に関する研究

Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono... por
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...harmonylab
488 vistas32 diapositivas
修士論文 por
修士論文修士論文
修士論文harmonylab
695 vistas32 diapositivas
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone por
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
48 vistas30 diapositivas
MLP-Mixer: An all-MLP Architecture for Vision por
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Visionharmonylab
653 vistas25 diapositivas
A Study on Generation of Deformed Route Maps using Octilinear Grid por
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
477 vistas43 diapositivas
You Only Learn One Representation: Unified Network for Multiple Tasks por
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasksharmonylab
1.3K vistas23 diapositivas

Similar a 深層強化学習による自動運転車両の追い越し行動の実現に関する研究(20)

Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono... por harmonylab
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab488 vistas
修士論文 por harmonylab
修士論文修士論文
修士論文
harmonylab695 vistas
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone por harmonylab
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab48 vistas
MLP-Mixer: An all-MLP Architecture for Vision por harmonylab
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab653 vistas
A Study on Generation of Deformed Route Maps using Octilinear Grid por harmonylab
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab477 vistas
You Only Learn One Representation: Unified Network for Multiple Tasks por harmonylab
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab1.3K vistas
A Generalist Agent por harmonylab
A Generalist AgentA Generalist Agent
A Generalist Agent
harmonylab833 vistas
Semi-Supervised Neural Architecture Search por harmonylab
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
harmonylab967 vistas
Self-supervised Learning of Adversarial Example: Towards Good Generalizations... por harmonylab
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
harmonylab471 vistas
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究 por harmonylab
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
harmonylab812 vistas
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text por harmonylab
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
harmonylab389 vistas
深層学習を用いたバス乗客画像の属性推定 に関する研究 por harmonylab
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab503 vistas
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic por harmonylab
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
harmonylab446 vistas
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2) por harmonylab
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab2.4K vistas
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation por harmonylab
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab707 vistas
Feature Erasing and Diffusion Network for Occluded Person Re-Identification por harmonylab
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab654 vistas
2021 haizoku por harmonylab
2021 haizoku2021 haizoku
2021 haizoku
harmonylab311 vistas
2021 haizoku por harmonylab
2021 haizoku2021 haizoku
2021 haizoku
harmonylab303 vistas
Inspiration through Observation: Demonstrating the Influence of Automatically... por harmonylab
Inspiration through Observation: Demonstrating the Influence of Automatically...Inspiration through Observation: Demonstrating the Influence of Automatically...
Inspiration through Observation: Demonstrating the Influence of Automatically...
harmonylab555 vistas

Más de harmonylab

Voyager: An Open-Ended Embodied Agent with Large Language Models por
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
493 vistas44 diapositivas
ReAct: Synergizing Reasoning and Acting in Language Models por
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
768 vistas50 diapositivas
形態素解析を用いた帝国議会議事速記録の変遷に関する研究 por
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
343 vistas32 diapositivas
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究 por
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
508 vistas28 diapositivas
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究 por
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
304 vistas25 diapositivas
深層自己回帰モデルを用いた俳句の生成と評価に関する研究 por
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
456 vistas35 diapositivas

Más de harmonylab(20)

Voyager: An Open-Ended Embodied Agent with Large Language Models por harmonylab
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab493 vistas
ReAct: Synergizing Reasoning and Acting in Language Models por harmonylab
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab768 vistas
形態素解析を用いた帝国議会議事速記録の変遷に関する研究 por harmonylab
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab343 vistas
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究 por harmonylab
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab508 vistas
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究 por harmonylab
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
harmonylab304 vistas
深層自己回帰モデルを用いた俳句の生成と評価に関する研究 por harmonylab
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab456 vistas
競輪におけるレーティングシステムを用いた予想記事生成に関する研究 por harmonylab
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
harmonylab1K vistas
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究 por harmonylab
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab480 vistas
A Study on Estimation of Household Kerosene Consumption for Optimization of D... por harmonylab
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
harmonylab312 vistas
A Study on the Generation of Clothing Captions Highlighting the Differences b... por harmonylab
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
harmonylab558 vistas
A Study on Clothing Recommendation Information Presentation System Based on C... por harmonylab
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
harmonylab445 vistas
Emotionally Intelligent Fashion Design Using CNN and GAN por harmonylab
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
harmonylab601 vistas
Towards Total Recall in Industrial Anomaly Detection por harmonylab
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
harmonylab1.1K vistas
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D... por harmonylab
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab1.1K vistas
2022年度調和系工学研究室配属説明会資料 por harmonylab
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料
harmonylab315 vistas
CKL_about_panf2022.pdf por harmonylab
CKL_about_panf2022.pdfCKL_about_panf2022.pdf
CKL_about_panf2022.pdf
harmonylab219 vistas
Outracing champion Gran Turismo drivers with deep reinforcement learning por harmonylab
Outracing champion Gran Turismo drivers with deep reinforcement learningOutracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learning
harmonylab551 vistas
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le... por harmonylab
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
harmonylab339 vistas
Solving Quantitative Reasoning Problems with Language Models por harmonylab
Solving Quantitative Reasoning Problems with Language ModelsSolving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language Models
harmonylab493 vistas
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ... por harmonylab
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
harmonylab510 vistas

Último

JJUG CCC.pptx por
JJUG CCC.pptxJJUG CCC.pptx
JJUG CCC.pptxKanta Sasaki
6 vistas14 diapositivas
さくらのひやおろし2023 por
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023法林浩之
83 vistas58 diapositivas
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 por
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化Knowledge & Experience
8 vistas34 diapositivas
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) por
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
185 vistas63 diapositivas
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料) por
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
217 vistas33 diapositivas
概念モデリングワークショップ 設計編 por
概念モデリングワークショップ 設計編概念モデリングワークショップ 設計編
概念モデリングワークショップ 設計編Knowledge & Experience
10 vistas37 diapositivas

Último(8)

さくらのひやおろし2023 por 法林浩之
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023
法林浩之83 vistas
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 por Knowledge & Experience
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) por NTT DATA Technology & Innovation
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料) por NTT DATA Technology & Innovation
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
01Booster Studio ご紹介資料 por ssusere7a2172
01Booster Studio ご紹介資料01Booster Studio ご紹介資料
01Booster Studio ご紹介資料
ssusere7a2172220 vistas

深層強化学習による自動運転車両の追い越し行動の実現に関する研究

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 北海道大学 工学部 情報エレクトロニクス学科 情報理工学コース 複雑系工学講座 調和系工学研究室 学部4年 西 佑希 動的パスプランニングによる自動運転車両の 追い越し行動の実現に関する研究 2021/02/03
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 日本の交通における問題 – 大都市では約40%の道路でピーク時に渋滞が発生[1] – 渋滞による損失が年間約38.1億時間,貨幣価値換算で約12兆 円[2] – 自動車から排出されるCO2は,渋滞で50%増加[3] • 渋滞を解消し,車両全体の走行距離を増加させること により,経済損失や公害問題を軽減することが必要 研究背景 2 [1] 国土交通省道路局, https://www.mlit.go.jp/road/ir/ir-data/data_shu.html(参照:2020-08-29) [2] 国土交通省, https://www.mlit.go.jp/road/ir/ir-perform/h18/07.pdf(参照:2020-08-29) [3] 国土交通省, https://www.mlit.go.jp/road/ir/ir-council/highway/4pdf/22.pdf(参照:2020-08-29)
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 渋滞の発生する状況 • 交差点の右折 – 信号を制御する方法がある[4] • 合流 – ファスナー合流という合流方法で,ある程度渋滞を緩和でき る[5] • 追い越し – 渋滞を発生を抑制したり,緩和するための方法が確立してい ない 研究背景 3 [4] Liang, X., Du, X., Wang, G. and Han, Z.: Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (2018). [5] Nishi, R., Miki, H., Tomoeda, A. and Nishinari, K.: Achievement of alter-native configurations of vehicles on multiple lanes,Phys. Rev. E, Vol.79, p.066119 (2009). 追い越し場面に着目 1 2 3 5 4
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 研究目的 4 • 右折車を譲って走行距離を増加させるような状況と基 礎的なところは似た問題 • 追い越しできるかどうかには対向車の意思決定が関係 してくる • 研究目的 – 対向車を学習対象として深層強化学習を用いて,追い越し場 面での走行距離増加のための行動を獲得 – 複雑なシチュエーションがある中で,今回はシンプルに直線 道路で動かない障害物の追い越しを扱う 深層強化学習 障害物 追い越し車 対向車 止まる? 進む?
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 走行距離を増加させる研究は様々ある – 深層強化学習により信号を制御する手法[6] – 先頭車両との車間距離を自動調節する手法[7] – 車をセルオートマトンとして渋滞を解析する研究[8] • 走行距離を増加させるための追い越し行動に着目した 研究はない • 追い越し場面に着目し,強化学習を用いて,対向車が 追い越し車を譲る行動することで走行距離を増加させ る 従来研究 5 [6] Liang, X., Du, X., Wang, G. and Han, Z.: Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (2018). [7] Van Arem, Bart, Cornelie JG Van Driel, and Ruben Visser. "The impact of cooperative adaptive cruise control on traffic-flow characteristics.“ IEEE Transactions on intelligent transportation systems 7.4 (2006): 429-436. [8]柳澤大地,西成活裕:渋滞学のセルオートマトンモデル,応用数理,Vol.22,No.1, pp.2-14 (2012)
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 状況的には – 動かない障害物があるのか,低速走行車がいるのか – 障害物の位置,低速走行車の位置,速度 – 対向車の台数,位置,速度 – 追い越し車の台数,位置,速度 など考慮すべきことが多いので,ルールベースではなく強化学習で 追い越し場面での行動の獲得を目指す 一般的に学習が早い価値ベースの深層強化学習手法DQNを使用 – Prioritized experience replay[9], Double DQN[10], Dueling Network[11]などの工夫も入れる 強化学習 6 [9] Schaul, T., Quan, J., Antonoglou, I. and Silver, D.: Prioritized ExperienceReplay,CoRR, Vol.abs/1511.05952 (2016). [10] van Hasselt, H., Guez, A. and Silver, D.: Deep Reinforcement Learningwith Double Q-Learning,Proceedings of the AAAI Conference on ArtificialIntelligence, Vol.30, No.1 (2016). [11] Wang, Z., Schaul, T., Hessel, M., Hasselt, H., Lanctot, M. and Freitas, N.:Dueling Network Architectures for Deep Reinforcement Learning,Proceed-ings of The 33rd International Conference on Machine Learning(Balcan,M.F. and Weinberger, K.Q., eds.), Proceedings of Machine Learning Re-search, Vol.48, New York, New York, USA, PMLR, pp.1995–2003 (2016).
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. シミュレーション環境 7 • ソフトウェアシミュレーション – コストが低くスケーリングにロバストだが,実際の環境から 離れたものになる – 実時間制約なし • RCカーシミュレーション – 比較的,実際の環境に近い形で実験が行える – 実時間制約あり • 実車両シミュレーション – 実際の環境に近いがコストが非常に高い ソフトウェアシミュレーションで強化学習をして行動獲得 RCカーシミュレーションで評価・検証 本研究
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. シミュレーション環境 8 • ソフトウェアシミュレーションには2つ種類がある – 決まったレーン上を走行するレーン走行型シミュレータ – 車両が自由に動ける2次元平面型シミュレータ →追い越し実装に適しているのは2次元平面型シミュレータ • 我々の開発した2次元平面型シミュレータ「Harmo Traffic Simulator」を使用 – RCカーシミュレーション環境を模したシミュレータ • Harmo Traffic Simulatorを使用するメリット – 追い越しや強化学習のモデルを導入しやすい – ステアリング角度を決定でき、決まったレーン上を走行する だけのシミュレータにはできない追い越しを実装できる
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習環境作成のための実装 9 • 追い越し行動の実装 – Harmo Traffic Simulatorには追い越しの実装がない – 障害物に衝突せず、追い越しできるように実装 • 強化学習の実装 – Harmo Traffic Simulatorを環境,対向車1台をエージェントと して学習 – 追い越し車と対向車が障害物付近で対向し、追い越し時に車 両同士のインタラクションが必要な状況が生まれる状況の作 成
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習環境作成のための実装 10 • 追い越し行動の実装 – Harmo Traffic Simulatorには追い越しの実装がない – 障害物に衝突せず、追い越しできるように実装 • 強化学習の実装 – Harmo Traffic Simulatorを環境,対向車1台をエージェントと して学習 – 追い越し車と対向車が障害物付近で対向し、追い越し時に車 両同士のインタラクションが必要な状況が生まれる状況の作 成
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 経路生成 – Harmo Traffic Simulatorは目標パスをダイクストラ法で生成 – 障害物回避をしながら,その目標パスに近いところを走行で きる動的経路生成アルゴリズムFrenet Optimal Trajectoryを使 用 • 経路追従 – アクセル制御:P制御 – ステアリング制御:Pure Pursuit 経路生成と経路追従アルゴリズム 11 障害物回避のための動的経路生成アルゴリズムFrenet Optimal Trajectory[11] を使用し,生成された経路を追従することで追い越しを実現 [11] Moritz Werling, Julius Ziegler, S¨oren Kammel, and Sebastian Thrun. Optimal Trajectory Generation for Dynamic Street Scenarios in a Frenet Frame. IEEE, 2010. 複数の経路を生成 障害物に当たらない& コスト最小選択
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習環境作成のための実装 12 • 追い越し行動の実装 – Harmo Traffic Simulatorには追い越しの実装がない – 障害物に衝突せず、追い越しできるように実装 • 強化学習の実装 – Harmo Traffic Simulatorを環境,対向車1台をエージェントと して学習 – 追い越し車と対向車が障害物付近で対向し、追い越し時に車 両同士のインタラクションが必要な状況が生まれる状況の作 成
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習環境(Harmo Traffic Simulator) 13 対向車 追い越し車 学習対象 障害物
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習環境(Harmo Traffic Simulator) 14 追い越し発生 ポイント
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 1エピソードは強化学習車が規定の 場所から1周 • エピソード毎に追い越し車,対向 車それぞれが8か所の開始地点から 6台を上限としてランダムな台数, 開始地点で車両を配置 強化学習環境(Harmo Traffic Simulator) 15 強化学習対象車 Harmo Traffic Simulator 行動 状態,報酬 (エージェント) (環境)
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 対向車を強化学習対象として,Prioritized Double Dueling Deep Q-Networkを適用 • 観測は正規化 深層強化学習の設定 16 値 行動空間 0 交通ルールでの走行 1 追い越し車を譲るために停止 観測 追い越し車の台数 対向車の台数 強化学習対象車の速度 先頭追い越し車の速度 強化学習対象車と障害物との距離 強化学習対象車と先頭追い越し車との距離 障害物 追い越し車 学習対象車 目標パス周辺で 追い越し車検知 進む? 止まる?
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • ニューラルネットワークの構造 – 入力層 6次元 – 隠れ層1 256次元 – 隠れ層2 128次元 – 活性化関数 Relu – 出力層2次元 深層強化学習の設定 17 報酬 全車両の走行距離の平均 t t+1 t+2 ・・・ 学習ステップ 最終学習 ステップ 最終学習 ステップ +100 障害物をよけた後, 学習はしないで走行 最終学習ステップから 100ステップ走行し, 割引報酬和を最終 ステップの報酬とする
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 【実験目的】 – 深層強化学習によって得た行動によって,追い越し場面にお いて車両全体の走行距離が増加することを検証 【実験方法】 – 交通ルールでの走行と深層強化学習後の走行で,それぞれ全 車両の走行距離を測定し比較 • 3000ステップ分(1ステップ0.1秒,車両速度1m/s)の全車両の走 行距離の平均 – 学習時に報酬が最大となるモデルを使用したいが,今回の設 定では難しいので50000ステップと100000ステップで比較 – 追い越し車と対向車の台数は2-2, 2-4, 2-6, 4-2, 4-4, 4-6, 6-2, 6-4, 6-6で実験 実験 18
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • ほとんどの台数設定で走行距離 増加 • 対向車が少ないとき(2-2, 4-2, 6-2)の走行は,交通ルール走行 と似た走行で走行距離はほぼ変 化しない 実験結果 19 -2.75-2.26 13.05 0 3.55 7.16 0.8 6.15 6.41 -20 -15 -10 -5 0 5 10 15 2-2 2-4 2-6 4-2 4-4 4-6 6-2 6-4 6-6 走行距離の増加率 追い越し車両台数-対向車両台数 50000ステップ -5.87 -3.82 11.23 -7.08 1.82 -15.8 -8.09 -3.93-3.12 -20 -15 -10 -5 0 5 10 15 2-2 2-4 2-6 4-2 4-4 4-6 6-2 6-4 6-6 走行距離の増加率 追い越し車両台数-対向車両台数 100000ステップ 交通ルールと学習後とで走行距離の増加率 • 意味のない譲りが見られ,交通 ルール走行と比較して走行距離は 低下した 走行距離の増加率=学習後の走行距離 / 交通ルールでの走行距離
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 走行の比較 20 交通ルールでの走行 強化学習後の走行
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 走行の比較 21 交通ルールでの走行 強化学習後の走行 円滑な追い越しにより,走行距離が大きくなった例 交通ルール:235.3m 強化学習後:254.7m
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習後の走行(50000ステップ) 22 • 学習しても交通ルール走行とほぼ 走行距離が変わらなかった例 – 6-2での走行 • 追い越し車を譲る行動は見られる 3000ステップでの全車両の走行距離の平 均 交通ルール:247.7m 強化学習後:250.7m
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習後の走行(100000ステップ) 23 • 学習しても交通ルール走行よりも 走行距離が低下した例 – 6-2での走行 • 追い越し車が通り過ぎたあとに譲 る行動をとり続けている – 学習がうまくいっていない 3000ステップでの全車両の走行距離 の平均 交通ルール:247.7m 強化学習後:228.5m
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 報酬の割引率により,ステップ数を増やした方が割引 報酬の総和が大きくなって意味のない譲りが見られた • 100000ステップの方が1エピソードのステップ数を増 やすように(意味のない譲りをするように)学習が進 み,走行距離が小さくなった • 車両の台数が少ないとき(2-2, 2-4, 4-2)は対向車と 追い越し車が対面する状況が少なく,学習がうまく いっていなかった可能性がある 考察 24
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 50000ステップ学習した時は,走行距離を増加する譲 り行動を獲得 – 直線道路,動かない障害物がある状況で,スムーズな交通に より流量増加につながる • 100000ステップ学習した時は,交通ルール走行と比 較して走行距離が低下した 実験のまとめ 25
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. まとめ 26 深層強化学習によって,障害物の追い越し場面で車 両全体の走行距離を増加するための行動を獲得 障害物ではなく低速走行車の追い越しなどほかのシ チュエーションも検証 RCカーシミュレータに学習モデルを適用し,検 証・評価