SlideShare a Scribd company logo
Enviar búsqueda
Cargar
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
Denunciar
Compartir
H
harmonylab
Seguir
•
0 recomendaciones
•
1,135 vistas
1
de
26
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
•
0 recomendaciones
•
1,135 vistas
Denunciar
Compartir
Descargar ahora
Descargar para leer sin conexión
Tecnología
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
Leer más
H
harmonylab
Seguir
Recomendados
深層強化学習による自動運転車両の経路探索に関する研究 por
深層強化学習による自動運転車両の経路探索に関する研究
harmonylab
1.5K vistas
•
22 diapositivas
自動運転車のためのDeep Q-Networkを用いた 譲り合いに関する研究 por
自動運転車のためのDeep Q-Networkを用いた 譲り合いに関する研究
harmonylab
1.7K vistas
•
27 diapositivas
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究 por
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
harmonylab
797 vistas
•
28 diapositivas
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo... por
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
harmonylab
903 vistas
•
18 diapositivas
物体検出の歴史(R-CNNからSSD・YOLOまで) por
物体検出の歴史(R-CNNからSSD・YOLOまで)
HironoriKanazawa
1.6K vistas
•
53 diapositivas
深層学習と音響信号処理 por
深層学習と音響信号処理
Yuma Koizumi
6K vistas
•
63 diapositivas
Más contenido relacionado
La actualidad más candente
ArcFace: Additive Angular Margin Loss for Deep Face Recognition por
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
harmonylab
809 vistas
•
21 diapositivas
最近のSingle Shot系の物体検出のアーキテクチャまとめ por
最近のSingle Shot系の物体検出のアーキテクチャまとめ
Yusuke Uchida
40.1K vistas
•
25 diapositivas
三次元表現まとめ(深層学習を中心に) por
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
1.5K vistas
•
38 diapositivas
タクシー運行最適化を実現する機械学習システムの社会実装 por
タクシー運行最適化を実現する機械学習システムの社会実装
RyuichiKanoh
1.4K vistas
•
44 diapositivas
最適輸送入門 por
最適輸送入門
joisino
11.5K vistas
•
88 diapositivas
cvpaper.challenge 研究効率化 Tips por
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
21.3K vistas
•
204 diapositivas
La actualidad más candente
(20)
ArcFace: Additive Angular Margin Loss for Deep Face Recognition por harmonylab
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
harmonylab
•
809 vistas
最近のSingle Shot系の物体検出のアーキテクチャまとめ por Yusuke Uchida
最近のSingle Shot系の物体検出のアーキテクチャまとめ
Yusuke Uchida
•
40.1K vistas
三次元表現まとめ(深層学習を中心に) por Tomohiro Motoda
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
•
1.5K vistas
タクシー運行最適化を実現する機械学習システムの社会実装 por RyuichiKanoh
タクシー運行最適化を実現する機械学習システムの社会実装
RyuichiKanoh
•
1.4K vistas
最適輸送入門 por joisino
最適輸送入門
joisino
•
11.5K vistas
cvpaper.challenge 研究効率化 Tips por cvpaper. challenge
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
•
21.3K vistas
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究 por harmonylab
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
harmonylab
•
764 vistas
Depth Estimation論文紹介 por Keio Robotics Association
Depth Estimation論文紹介
Keio Robotics Association
•
2.9K vistas
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて por SSII
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII
•
582 vistas
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation por harmonylab
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
•
769 vistas
物体検知(Meta Study Group 発表資料) por cvpaper. challenge
物体検知(Meta Study Group 発表資料)
cvpaper. challenge
•
103.3K vistas
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ por Hironobu Fujiyoshi
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
Hironobu Fujiyoshi
•
136.4K vistas
SSII2018TS: 3D物体検出とロボットビジョンへの応用 por SSII
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII
•
43.5K vistas
Teslaにおけるコンピュータビジョン技術の調査 por Kazuyuki Miyazawa
Teslaにおけるコンピュータビジョン技術の調査
Kazuyuki Miyazawa
•
10.8K vistas
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発 por Yoshitaka HARA
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
Yoshitaka HARA
•
36.9K vistas
Curriculum Learning (関東CV勉強会) por Yoshitaka Ushiku
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
•
63.8K vistas
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation por Deep Learning JP
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Deep Learning JP
•
6.5K vistas
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介 por Ryohei Ueda
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
Ryohei Ueda
•
24.9K vistas
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization por Deep Learning JP
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
Deep Learning JP
•
384 vistas
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究 por harmonylab
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
harmonylab
•
382 vistas
Similar a 深層強化学習による自動運転車両の追い越し行動の実現に関する研究
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono... por
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
488 vistas
•
32 diapositivas
修士論文 por
修士論文
harmonylab
695 vistas
•
32 diapositivas
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone por
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
48 vistas
•
30 diapositivas
MLP-Mixer: An all-MLP Architecture for Vision por
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
653 vistas
•
25 diapositivas
A Study on Generation of Deformed Route Maps using Octilinear Grid por
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab
477 vistas
•
43 diapositivas
You Only Learn One Representation: Unified Network for Multiple Tasks por
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
1.3K vistas
•
23 diapositivas
Similar a 深層強化学習による自動運転車両の追い越し行動の実現に関する研究
(20)
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono... por harmonylab
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
•
488 vistas
修士論文 por harmonylab
修士論文
harmonylab
•
695 vistas
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone por harmonylab
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
•
48 vistas
MLP-Mixer: An all-MLP Architecture for Vision por harmonylab
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
•
653 vistas
A Study on Generation of Deformed Route Maps using Octilinear Grid por harmonylab
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab
•
477 vistas
You Only Learn One Representation: Unified Network for Multiple Tasks por harmonylab
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
•
1.3K vistas
A Generalist Agent por harmonylab
A Generalist Agent
harmonylab
•
833 vistas
Semi-Supervised Neural Architecture Search por harmonylab
Semi-Supervised Neural Architecture Search
harmonylab
•
967 vistas
Self-supervised Learning of Adversarial Example:Towards Good Generalizations... por harmonylab
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
harmonylab
•
471 vistas
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究 por harmonylab
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
harmonylab
•
812 vistas
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text por harmonylab
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
harmonylab
•
389 vistas
RAPiD por harmonylab
RAPiD
harmonylab
•
1K vistas
深層学習を用いたバス乗客画像の属性推定 に関する研究 por harmonylab
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab
•
503 vistas
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic por harmonylab
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
harmonylab
•
446 vistas
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2) por harmonylab
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
•
2.4K vistas
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation por harmonylab
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
•
707 vistas
Feature Erasing and Diffusion Network for Occluded Person Re-Identification por harmonylab
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab
•
654 vistas
2021 haizoku por harmonylab
2021 haizoku
harmonylab
•
311 vistas
2021 haizoku por harmonylab
2021 haizoku
harmonylab
•
303 vistas
Inspiration through Observation: Demonstrating the Influence of Automatically... por harmonylab
Inspiration through Observation: Demonstrating the Influence of Automatically...
harmonylab
•
555 vistas
Más de harmonylab
Voyager: An Open-Ended Embodied Agent with Large Language Models por
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
493 vistas
•
44 diapositivas
ReAct: Synergizing Reasoning and Acting in Language Models por
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
768 vistas
•
50 diapositivas
形態素解析を用いた帝国議会議事速記録の変遷に関する研究 por
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
343 vistas
•
32 diapositivas
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究 por
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab
508 vistas
•
28 diapositivas
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究 por
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
harmonylab
304 vistas
•
25 diapositivas
深層自己回帰モデルを用いた俳句の生成と評価に関する研究 por
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab
456 vistas
•
35 diapositivas
Más de harmonylab
(20)
Voyager: An Open-Ended Embodied Agent with Large Language Models por harmonylab
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
•
493 vistas
ReAct: Synergizing Reasoning and Acting in Language Models por harmonylab
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
•
768 vistas
形態素解析を用いた帝国議会議事速記録の変遷に関する研究 por harmonylab
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
•
343 vistas
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究 por harmonylab
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab
•
508 vistas
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究 por harmonylab
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
harmonylab
•
304 vistas
深層自己回帰モデルを用いた俳句の生成と評価に関する研究 por harmonylab
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab
•
456 vistas
競輪におけるレーティングシステムを用いた予想記事生成に関する研究 por harmonylab
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
harmonylab
•
1K vistas
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究 por harmonylab
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab
•
480 vistas
A Study on Estimation of Household Kerosene Consumption for Optimization of D... por harmonylab
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
harmonylab
•
312 vistas
A Study on the Generation of Clothing Captions Highlighting the Differences b... por harmonylab
A Study on the Generation of Clothing Captions Highlighting the Differences b...
harmonylab
•
558 vistas
A Study on Clothing Recommendation Information Presentation System Based on C... por harmonylab
A Study on Clothing Recommendation Information Presentation System Based on C...
harmonylab
•
445 vistas
Emotionally Intelligent Fashion Design Using CNN and GAN por harmonylab
Emotionally Intelligent Fashion Design Using CNN and GAN
harmonylab
•
601 vistas
Towards Total Recall in Industrial Anomaly Detection por harmonylab
Towards Total Recall in Industrial Anomaly Detection
harmonylab
•
1.1K vistas
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D... por harmonylab
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab
•
1.1K vistas
2022年度調和系工学研究室配属説明会資料 por harmonylab
2022年度調和系工学研究室配属説明会資料
harmonylab
•
315 vistas
CKL_about_panf2022.pdf por harmonylab
CKL_about_panf2022.pdf
harmonylab
•
219 vistas
Outracing champion Gran Turismo drivers with deep reinforcement learning por harmonylab
Outracing champion Gran Turismo drivers with deep reinforcement learning
harmonylab
•
551 vistas
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le... por harmonylab
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
harmonylab
•
339 vistas
Solving Quantitative Reasoning Problems with Language Models por harmonylab
Solving Quantitative Reasoning Problems with Language Models
harmonylab
•
493 vistas
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ... por harmonylab
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
harmonylab
•
510 vistas
Último
JJUG CCC.pptx por
JJUG CCC.pptx
Kanta Sasaki
6 vistas
•
14 diapositivas
さくらのひやおろし2023 por
さくらのひやおろし2023
法林浩之
83 vistas
•
58 diapositivas
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 por
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
Knowledge & Experience
8 vistas
•
34 diapositivas
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) por
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
185 vistas
•
63 diapositivas
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料) por
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
217 vistas
•
33 diapositivas
概念モデリングワークショップ 設計編 por
概念モデリングワークショップ 設計編
Knowledge & Experience
10 vistas
•
37 diapositivas
Último
(8)
JJUG CCC.pptx por Kanta Sasaki
JJUG CCC.pptx
Kanta Sasaki
•
6 vistas
さくらのひやおろし2023 por 法林浩之
さくらのひやおろし2023
法林浩之
•
83 vistas
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 por Knowledge & Experience
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
Knowledge & Experience
•
8 vistas
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) por NTT DATA Technology & Innovation
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
•
185 vistas
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料) por NTT DATA Technology & Innovation
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
•
217 vistas
概念モデリングワークショップ 設計編 por Knowledge & Experience
概念モデリングワークショップ 設計編
Knowledge & Experience
•
10 vistas
01Booster Studio ご紹介資料 por ssusere7a2172
01Booster Studio ご紹介資料
ssusere7a2172
•
220 vistas
概念モデリングワークショップ 基礎編 por Knowledge & Experience
概念モデリングワークショップ 基礎編
Knowledge & Experience
•
19 vistas
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
1.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 北海道大学 工学部 情報エレクトロニクス学科 情報理工学コース 複雑系工学講座 調和系工学研究室 学部4年 西 佑希 動的パスプランニングによる自動運転車両の 追い越し行動の実現に関する研究 2021/02/03
2.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 日本の交通における問題 – 大都市では約40%の道路でピーク時に渋滞が発生[1] – 渋滞による損失が年間約38.1億時間,貨幣価値換算で約12兆 円[2] – 自動車から排出されるCO2は,渋滞で50%増加[3] • 渋滞を解消し,車両全体の走行距離を増加させること により,経済損失や公害問題を軽減することが必要 研究背景 2 [1] 国土交通省道路局, https://www.mlit.go.jp/road/ir/ir-data/data_shu.html(参照:2020-08-29) [2] 国土交通省, https://www.mlit.go.jp/road/ir/ir-perform/h18/07.pdf(参照:2020-08-29) [3] 国土交通省, https://www.mlit.go.jp/road/ir/ir-council/highway/4pdf/22.pdf(参照:2020-08-29)
3.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 渋滞の発生する状況 • 交差点の右折 – 信号を制御する方法がある[4] • 合流 – ファスナー合流という合流方法で,ある程度渋滞を緩和でき る[5] • 追い越し – 渋滞を発生を抑制したり,緩和するための方法が確立してい ない 研究背景 3 [4] Liang, X., Du, X., Wang, G. and Han, Z.: Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (2018). [5] Nishi, R., Miki, H., Tomoeda, A. and Nishinari, K.: Achievement of alter-native configurations of vehicles on multiple lanes,Phys. Rev. E, Vol.79, p.066119 (2009). 追い越し場面に着目 1 2 3 5 4
4.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 研究目的 4 • 右折車を譲って走行距離を増加させるような状況と基 礎的なところは似た問題 • 追い越しできるかどうかには対向車の意思決定が関係 してくる • 研究目的 – 対向車を学習対象として深層強化学習を用いて,追い越し場 面での走行距離増加のための行動を獲得 – 複雑なシチュエーションがある中で,今回はシンプルに直線 道路で動かない障害物の追い越しを扱う 深層強化学習 障害物 追い越し車 対向車 止まる? 進む?
5.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 走行距離を増加させる研究は様々ある – 深層強化学習により信号を制御する手法[6] – 先頭車両との車間距離を自動調節する手法[7] – 車をセルオートマトンとして渋滞を解析する研究[8] • 走行距離を増加させるための追い越し行動に着目した 研究はない • 追い越し場面に着目し,強化学習を用いて,対向車が 追い越し車を譲る行動することで走行距離を増加させ る 従来研究 5 [6] Liang, X., Du, X., Wang, G. and Han, Z.: Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (2018). [7] Van Arem, Bart, Cornelie JG Van Driel, and Ruben Visser. "The impact of cooperative adaptive cruise control on traffic-flow characteristics.“ IEEE Transactions on intelligent transportation systems 7.4 (2006): 429-436. [8]柳澤大地,西成活裕:渋滞学のセルオートマトンモデル,応用数理,Vol.22,No.1, pp.2-14 (2012)
6.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 状況的には – 動かない障害物があるのか,低速走行車がいるのか – 障害物の位置,低速走行車の位置,速度 – 対向車の台数,位置,速度 – 追い越し車の台数,位置,速度 など考慮すべきことが多いので,ルールベースではなく強化学習で 追い越し場面での行動の獲得を目指す 一般的に学習が早い価値ベースの深層強化学習手法DQNを使用 – Prioritized experience replay[9], Double DQN[10], Dueling Network[11]などの工夫も入れる 強化学習 6 [9] Schaul, T., Quan, J., Antonoglou, I. and Silver, D.: Prioritized ExperienceReplay,CoRR, Vol.abs/1511.05952 (2016). [10] van Hasselt, H., Guez, A. and Silver, D.: Deep Reinforcement Learningwith Double Q-Learning,Proceedings of the AAAI Conference on ArtificialIntelligence, Vol.30, No.1 (2016). [11] Wang, Z., Schaul, T., Hessel, M., Hasselt, H., Lanctot, M. and Freitas, N.:Dueling Network Architectures for Deep Reinforcement Learning,Proceed-ings of The 33rd International Conference on Machine Learning(Balcan,M.F. and Weinberger, K.Q., eds.), Proceedings of Machine Learning Re-search, Vol.48, New York, New York, USA, PMLR, pp.1995–2003 (2016).
7.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. シミュレーション環境 7 • ソフトウェアシミュレーション – コストが低くスケーリングにロバストだが,実際の環境から 離れたものになる – 実時間制約なし • RCカーシミュレーション – 比較的,実際の環境に近い形で実験が行える – 実時間制約あり • 実車両シミュレーション – 実際の環境に近いがコストが非常に高い ソフトウェアシミュレーションで強化学習をして行動獲得 RCカーシミュレーションで評価・検証 本研究
8.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. シミュレーション環境 8 • ソフトウェアシミュレーションには2つ種類がある – 決まったレーン上を走行するレーン走行型シミュレータ – 車両が自由に動ける2次元平面型シミュレータ →追い越し実装に適しているのは2次元平面型シミュレータ • 我々の開発した2次元平面型シミュレータ「Harmo Traffic Simulator」を使用 – RCカーシミュレーション環境を模したシミュレータ • Harmo Traffic Simulatorを使用するメリット – 追い越しや強化学習のモデルを導入しやすい – ステアリング角度を決定でき、決まったレーン上を走行する だけのシミュレータにはできない追い越しを実装できる
9.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習環境作成のための実装 9 • 追い越し行動の実装 – Harmo Traffic Simulatorには追い越しの実装がない – 障害物に衝突せず、追い越しできるように実装 • 強化学習の実装 – Harmo Traffic Simulatorを環境,対向車1台をエージェントと して学習 – 追い越し車と対向車が障害物付近で対向し、追い越し時に車 両同士のインタラクションが必要な状況が生まれる状況の作 成
10.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習環境作成のための実装 10 • 追い越し行動の実装 – Harmo Traffic Simulatorには追い越しの実装がない – 障害物に衝突せず、追い越しできるように実装 • 強化学習の実装 – Harmo Traffic Simulatorを環境,対向車1台をエージェントと して学習 – 追い越し車と対向車が障害物付近で対向し、追い越し時に車 両同士のインタラクションが必要な状況が生まれる状況の作 成
11.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 経路生成 – Harmo Traffic Simulatorは目標パスをダイクストラ法で生成 – 障害物回避をしながら,その目標パスに近いところを走行で きる動的経路生成アルゴリズムFrenet Optimal Trajectoryを使 用 • 経路追従 – アクセル制御:P制御 – ステアリング制御:Pure Pursuit 経路生成と経路追従アルゴリズム 11 障害物回避のための動的経路生成アルゴリズムFrenet Optimal Trajectory[11] を使用し,生成された経路を追従することで追い越しを実現 [11] Moritz Werling, Julius Ziegler, S¨oren Kammel, and Sebastian Thrun. Optimal Trajectory Generation for Dynamic Street Scenarios in a Frenet Frame. IEEE, 2010. 複数の経路を生成 障害物に当たらない& コスト最小選択
12.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習環境作成のための実装 12 • 追い越し行動の実装 – Harmo Traffic Simulatorには追い越しの実装がない – 障害物に衝突せず、追い越しできるように実装 • 強化学習の実装 – Harmo Traffic Simulatorを環境,対向車1台をエージェントと して学習 – 追い越し車と対向車が障害物付近で対向し、追い越し時に車 両同士のインタラクションが必要な状況が生まれる状況の作 成
13.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習環境(Harmo Traffic Simulator) 13 対向車 追い越し車 学習対象 障害物
14.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習環境(Harmo Traffic Simulator) 14 追い越し発生 ポイント
15.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 1エピソードは強化学習車が規定の 場所から1周 • エピソード毎に追い越し車,対向 車それぞれが8か所の開始地点から 6台を上限としてランダムな台数, 開始地点で車両を配置 強化学習環境(Harmo Traffic Simulator) 15 強化学習対象車 Harmo Traffic Simulator 行動 状態,報酬 (エージェント) (環境)
16.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 対向車を強化学習対象として,Prioritized Double Dueling Deep Q-Networkを適用 • 観測は正規化 深層強化学習の設定 16 値 行動空間 0 交通ルールでの走行 1 追い越し車を譲るために停止 観測 追い越し車の台数 対向車の台数 強化学習対象車の速度 先頭追い越し車の速度 強化学習対象車と障害物との距離 強化学習対象車と先頭追い越し車との距離 障害物 追い越し車 学習対象車 目標パス周辺で 追い越し車検知 進む? 止まる?
17.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • ニューラルネットワークの構造 – 入力層 6次元 – 隠れ層1 256次元 – 隠れ層2 128次元 – 活性化関数 Relu – 出力層2次元 深層強化学習の設定 17 報酬 全車両の走行距離の平均 t t+1 t+2 ・・・ 学習ステップ 最終学習 ステップ 最終学習 ステップ +100 障害物をよけた後, 学習はしないで走行 最終学習ステップから 100ステップ走行し, 割引報酬和を最終 ステップの報酬とする
18.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 【実験目的】 – 深層強化学習によって得た行動によって,追い越し場面にお いて車両全体の走行距離が増加することを検証 【実験方法】 – 交通ルールでの走行と深層強化学習後の走行で,それぞれ全 車両の走行距離を測定し比較 • 3000ステップ分(1ステップ0.1秒,車両速度1m/s)の全車両の走 行距離の平均 – 学習時に報酬が最大となるモデルを使用したいが,今回の設 定では難しいので50000ステップと100000ステップで比較 – 追い越し車と対向車の台数は2-2, 2-4, 2-6, 4-2, 4-4, 4-6, 6-2, 6-4, 6-6で実験 実験 18
19.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • ほとんどの台数設定で走行距離 増加 • 対向車が少ないとき(2-2, 4-2, 6-2)の走行は,交通ルール走行 と似た走行で走行距離はほぼ変 化しない 実験結果 19 -2.75-2.26 13.05 0 3.55 7.16 0.8 6.15 6.41 -20 -15 -10 -5 0 5 10 15 2-2 2-4 2-6 4-2 4-4 4-6 6-2 6-4 6-6 走行距離の増加率 追い越し車両台数-対向車両台数 50000ステップ -5.87 -3.82 11.23 -7.08 1.82 -15.8 -8.09 -3.93-3.12 -20 -15 -10 -5 0 5 10 15 2-2 2-4 2-6 4-2 4-4 4-6 6-2 6-4 6-6 走行距離の増加率 追い越し車両台数-対向車両台数 100000ステップ 交通ルールと学習後とで走行距離の増加率 • 意味のない譲りが見られ,交通 ルール走行と比較して走行距離は 低下した 走行距離の増加率=学習後の走行距離 / 交通ルールでの走行距離
20.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 走行の比較 20 交通ルールでの走行 強化学習後の走行
21.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 走行の比較 21 交通ルールでの走行 強化学習後の走行 円滑な追い越しにより,走行距離が大きくなった例 交通ルール:235.3m 強化学習後:254.7m
22.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習後の走行(50000ステップ) 22 • 学習しても交通ルール走行とほぼ 走行距離が変わらなかった例 – 6-2での走行 • 追い越し車を譲る行動は見られる 3000ステップでの全車両の走行距離の平 均 交通ルール:247.7m 強化学習後:250.7m
23.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習後の走行(100000ステップ) 23 • 学習しても交通ルール走行よりも 走行距離が低下した例 – 6-2での走行 • 追い越し車が通り過ぎたあとに譲 る行動をとり続けている – 学習がうまくいっていない 3000ステップでの全車両の走行距離 の平均 交通ルール:247.7m 強化学習後:228.5m
24.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 報酬の割引率により,ステップ数を増やした方が割引 報酬の総和が大きくなって意味のない譲りが見られた • 100000ステップの方が1エピソードのステップ数を増 やすように(意味のない譲りをするように)学習が進 み,走行距離が小さくなった • 車両の台数が少ないとき(2-2, 2-4, 4-2)は対向車と 追い越し車が対面する状況が少なく,学習がうまく いっていなかった可能性がある 考察 24
25.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 50000ステップ学習した時は,走行距離を増加する譲 り行動を獲得 – 直線道路,動かない障害物がある状況で,スムーズな交通に より流量増加につながる • 100000ステップ学習した時は,交通ルール走行と比 較して走行距離が低下した 実験のまとめ 25
26.
Copyright © 2020
調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. まとめ 26 深層強化学習によって,障害物の追い越し場面で車 両全体の走行距離を増加するための行動を獲得 障害物ではなく低速走行車の追い越しなどほかのシ チュエーションも検証 RCカーシミュレータに学習モデルを適用し,検 証・評価