SlideShare una empresa de Scribd logo
1 de 18
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
ViNG: Learning Open-World Navigation with
Visual Goals
Jumpei Arima
書誌情報
• タイトル:ViNG: Learning Open-World Navigation with Visual Goals
• 著者 : Dhruv Shah, Benjamin Eysenbach, Gregory Kahn, Nicholas Rhinehart, Sergey Levine
– UC Berkeley, Carnegie Mellon University
• arxiv : https://arxiv.org/abs/2012.09812
• project page : https://sites.google.com/view/ving-robot
• 概要
– Open-Worldでoffline dataから学習できるVisual Navigationシステム(VinG)を提案
– BADGR(2020/4にDL輪読会で発表した内容*)と比べてGPS情報なしで
より長距離のナビゲーションが可能になった
2*https://www.slideshare.net/DeepLearningJP2016/dlbadgr-an-autonomous-selfsupervised-learningbased-navigation-system
Introduction
3
• 実世界でのNavigation研究
– 1980年後半頃から研究が盛んになる
– 2000年代にSLAM、Planningの技術が確立してくる
• 現在の自動運転のベース
• LiDARなどの空間構造のセンサ情報から自己位置を推定し、planningを行う
• 幾何学的情報から障害物を判断できる前提がある。
– 高い草は実際は通れる。
– 同じ地面でも芝の上は通ってほしくない。
など、車道以外の実世界での課題は多い
• 2016年頃から、深層学習ベースの手法が多く研究されるようになる。
– RL, ILで simulation上や、屋内環境などの短距離のnavigation性能が上がってきている
– 一方長距離のナビゲーションの学習はほぼできていない。
Related Works
• Planning手法と学習を組み合わせることで、長期的なナビゲーションタスク
に対処する手法がここ数年出てきた。
– 短期的なナビゲーションを学習ベースで対応
– 長期的なナビゲーションはnon-metricなトポロジカルグラフを
planningすることで対応
→マップ作成とEnd2Endでの学習を回避することができた。
– 正確なシミュレータを必要とする
– grip worldなど簡易的な行動空間
– オンラインデータを必要とする学習アルゴリズム
4
問題設定
5
• ビジュアルナビゲーション
– 画像によるゴール指定
– Open-World環境
– 自己教師あり
– シミュレーションなし
– オンラインデータなし
– 空間情報なし
• アプリケーション
– 配達
– 警備
Proposed Method
6
• 2つの画像間の
– Traversability function(T ): ナビゲーションの走破可能性
– Relative pose predictor(P ): 相対位置
をDNNでモデル化し学習する。
• T を用いてトポロジカルマップを生成しPlanningしてwaypointを生成
• WaypointからP を用いてコントロール
Proposed Method
• Traversability fuction(T )の学習
観測間が走破可能かを予測
1. 教師あり学習
• 観測間のステップ数を予測
• データ収集方策に依存するため、過大評価す
る可能性がある
2. TD学習
• 本研究の実験ではあまり効果なし
• 理論的には最短経路距離に収束する
※Key idea (Negative Mining)
• 分布シフトに対応するため
異なる軌跡からとった観測をデータ
セットに追加して学習
7
Traversability fuction(T )
• Mobilenet encoder + FC*3
• ステップ数d(1,2,…,dmax)
– dmax=50
• 交差エントロピーloss
Proposed Method
• Relative pose predictor(P )の学習
観測間の相対位置を予測
– 教師あり学習
• オドメトリ情報から自動でラベル付け
– Traversability functionと違い
negative miningをしない
(D+のデータのみを用いる)
8
Relative pose predictor(P )
• Mobilenet encoder + FC*3
• (Δx, Δy, Δθ ) を予測
• L2 loss
Proposed Method
• Deploying ViNG
1. 観測データから学習したT を使って
トポロジカルグラフを生成
※Key idea (Graph pruning)
データ数に応じて二次関数的にノードが増加す
るのでT を使って疎にする
→走破可能なエッジは追加されない
2. 現在の観測とゴール観測をグラフに追加し
Dijkstra法でPlanning
3. waypointの相対位置をP を使って算出
4. 相対位置に向かってPD制御で移動 9
Experiments
提案手法(ViNG)の性能を示すため以下の3つを検証する
1. ViNGが他のofflineデータから学習する他の
Goal-conditioned Visual Navigation手法に比べて性能がどうか?
2. ViNGが未知環境に対応できるか。
また、どのくらいで適応できるようになるか?
3. ViNGの他のControllerと比べて性能がどうか?
10
Experiments
比較手法
• SPTM:
– Semi-Parametric Topological Memory for Navigation(ICLR2018)
– 密なトポロジカルグラフと観測から行動の出力するController
– 教師あり学習
• off-SoRB:
– Search on the Replay Buffer: Bridging Planning and RL(NeurIPS2019)のoffline RLに拡張バージョン
– RL
• State Estimator
– naïve base line
– 観測から位置を教師あり学習で予測
• Random
11
Experiments
• Dataset
– 約40時間の走行データ
– 実験時はデータ収集時から10ヶ月経っているので
外観が異なる
– simのデータはなし。全て実世界
12
Experiments
13
• ViNGの性能評価(datasetと同じ環境)
• dataset時と季節が違うがViNGは距離が長くても高い成功率
• State Estimateは障害物を考慮しないので障害物があるとぶつかる
• off-SoRBはトポロジカルの精度が低いので長い距離では精度が落ちる
– offlineデータからQ関数を学習するのは困難
– 長い距離では、教師あり学習のSPTMの方が優れている
Experiments
14
• ViNGの未知環境での適応力
– datasetと違う環境4箇所で、1時間のデータ収集しFinetune
• 1時間のデータ収集で適応可能
• Targetデータだけでは精度は下がる
Experiments
15
• Online手法の比較
– online情報を必要とする手法と比較
するためsim(unity)で実験
– ViNGとSoRBは同等の性能が出るが
200時間のonlineデータが必要でかつ
環境ごとに集める必要がある
– PPOは200時間のオンラインデータが
必要だが、30m以降精度が落ちる
(長距離は困難)
Experiments
16
• Application
Conclusion
• 実世界でのgoal-directed visual navigationシステムViNGを提案。
– オフラインデータから自己教師で学習
– 空間情報がなし、シミュレーションなし
– 分布シフトに対応するためのnegativeサンプリングの導入
– トポロジカル上のplanningでGPSなしで長距離navigationを可能になった
– 本手法は、staticなオフラインデータが前提だが
実世界は、大きく観測値の分布が変化する(動的障害物、照明の変化、…)
– 分布シフトによりロバストに対応可能な表現を組み込むことが今後重要になってくる
17
感想
• 問題設定が上手
– Open-Worldで画像上のダイナミクスを学習するのは現状難しいので、より低次元のイベントを予測することで対
応する
• “Model-Based Visual Planning with Self-Supervised Functional Distances”
(https://arxiv.org/abs/2012.15373v1)とか関係してきそう
– 一方オフラインデータから学習するというモチベーションがぶれていない
• End2Endで学習する手法から、Deep以前のロボティクスの技術(planning, filteringなど)との融合により実現
している研究が多くなってきた印象。
– いかに優秀なアルゴリズムを微分可能なモジュールと組み合わせるか
• 学習ベースのnavigation研究ではHabitat Challengeの問題設定で行われることが多い*が、それの
standard手法であるPPOの性能がreal world・長距離でなかなか性能が出ていないのは面白い結果
• 画像のデータから学習でき実際動くのはすごいが、データ収集1hも必要となると従来手法の方がまだ安
定性など見ると良いと思ってしまう
18
*https://docs.google.com/presentation/d/1ptnk1YfCnbvkgWcuhfvwnsmt0k8BwZwD8p40N5LkPMg/edit?usp=sharing

Más contenido relacionado

La actualidad más candente

SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...Deep Learning JP
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Masaya Kaneko
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
ORB-SLAMの手法解説
ORB-SLAMの手法解説ORB-SLAMの手法解説
ORB-SLAMの手法解説Masaya Kaneko
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot LearningDeep Learning JP
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習Naoya Chiba
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement LearningDeep Learning JP
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...Deep Learning JP
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介miyanegi
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma
 
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic SegmentationDeep Learning JP
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII
 

La actualidad más candente (20)

SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
ORB-SLAMの手法解説
ORB-SLAMの手法解説ORB-SLAMの手法解説
ORB-SLAMの手法解説
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
Visual slam
Visual slamVisual slam
Visual slam
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
Depth Estimation論文紹介
Depth Estimation論文紹介Depth Estimation論文紹介
Depth Estimation論文紹介
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 

Más de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Más de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]ViNG: Learning Open-World Navigation with Visual Goals

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ ViNG: Learning Open-World Navigation with Visual Goals Jumpei Arima
  • 2. 書誌情報 • タイトル:ViNG: Learning Open-World Navigation with Visual Goals • 著者 : Dhruv Shah, Benjamin Eysenbach, Gregory Kahn, Nicholas Rhinehart, Sergey Levine – UC Berkeley, Carnegie Mellon University • arxiv : https://arxiv.org/abs/2012.09812 • project page : https://sites.google.com/view/ving-robot • 概要 – Open-Worldでoffline dataから学習できるVisual Navigationシステム(VinG)を提案 – BADGR(2020/4にDL輪読会で発表した内容*)と比べてGPS情報なしで より長距離のナビゲーションが可能になった 2*https://www.slideshare.net/DeepLearningJP2016/dlbadgr-an-autonomous-selfsupervised-learningbased-navigation-system
  • 3. Introduction 3 • 実世界でのNavigation研究 – 1980年後半頃から研究が盛んになる – 2000年代にSLAM、Planningの技術が確立してくる • 現在の自動運転のベース • LiDARなどの空間構造のセンサ情報から自己位置を推定し、planningを行う • 幾何学的情報から障害物を判断できる前提がある。 – 高い草は実際は通れる。 – 同じ地面でも芝の上は通ってほしくない。 など、車道以外の実世界での課題は多い • 2016年頃から、深層学習ベースの手法が多く研究されるようになる。 – RL, ILで simulation上や、屋内環境などの短距離のnavigation性能が上がってきている – 一方長距離のナビゲーションの学習はほぼできていない。
  • 4. Related Works • Planning手法と学習を組み合わせることで、長期的なナビゲーションタスク に対処する手法がここ数年出てきた。 – 短期的なナビゲーションを学習ベースで対応 – 長期的なナビゲーションはnon-metricなトポロジカルグラフを planningすることで対応 →マップ作成とEnd2Endでの学習を回避することができた。 – 正確なシミュレータを必要とする – grip worldなど簡易的な行動空間 – オンラインデータを必要とする学習アルゴリズム 4
  • 5. 問題設定 5 • ビジュアルナビゲーション – 画像によるゴール指定 – Open-World環境 – 自己教師あり – シミュレーションなし – オンラインデータなし – 空間情報なし • アプリケーション – 配達 – 警備
  • 6. Proposed Method 6 • 2つの画像間の – Traversability function(T ): ナビゲーションの走破可能性 – Relative pose predictor(P ): 相対位置 をDNNでモデル化し学習する。 • T を用いてトポロジカルマップを生成しPlanningしてwaypointを生成 • WaypointからP を用いてコントロール
  • 7. Proposed Method • Traversability fuction(T )の学習 観測間が走破可能かを予測 1. 教師あり学習 • 観測間のステップ数を予測 • データ収集方策に依存するため、過大評価す る可能性がある 2. TD学習 • 本研究の実験ではあまり効果なし • 理論的には最短経路距離に収束する ※Key idea (Negative Mining) • 分布シフトに対応するため 異なる軌跡からとった観測をデータ セットに追加して学習 7 Traversability fuction(T ) • Mobilenet encoder + FC*3 • ステップ数d(1,2,…,dmax) – dmax=50 • 交差エントロピーloss
  • 8. Proposed Method • Relative pose predictor(P )の学習 観測間の相対位置を予測 – 教師あり学習 • オドメトリ情報から自動でラベル付け – Traversability functionと違い negative miningをしない (D+のデータのみを用いる) 8 Relative pose predictor(P ) • Mobilenet encoder + FC*3 • (Δx, Δy, Δθ ) を予測 • L2 loss
  • 9. Proposed Method • Deploying ViNG 1. 観測データから学習したT を使って トポロジカルグラフを生成 ※Key idea (Graph pruning) データ数に応じて二次関数的にノードが増加す るのでT を使って疎にする →走破可能なエッジは追加されない 2. 現在の観測とゴール観測をグラフに追加し Dijkstra法でPlanning 3. waypointの相対位置をP を使って算出 4. 相対位置に向かってPD制御で移動 9
  • 10. Experiments 提案手法(ViNG)の性能を示すため以下の3つを検証する 1. ViNGが他のofflineデータから学習する他の Goal-conditioned Visual Navigation手法に比べて性能がどうか? 2. ViNGが未知環境に対応できるか。 また、どのくらいで適応できるようになるか? 3. ViNGの他のControllerと比べて性能がどうか? 10
  • 11. Experiments 比較手法 • SPTM: – Semi-Parametric Topological Memory for Navigation(ICLR2018) – 密なトポロジカルグラフと観測から行動の出力するController – 教師あり学習 • off-SoRB: – Search on the Replay Buffer: Bridging Planning and RL(NeurIPS2019)のoffline RLに拡張バージョン – RL • State Estimator – naïve base line – 観測から位置を教師あり学習で予測 • Random 11
  • 12. Experiments • Dataset – 約40時間の走行データ – 実験時はデータ収集時から10ヶ月経っているので 外観が異なる – simのデータはなし。全て実世界 12
  • 13. Experiments 13 • ViNGの性能評価(datasetと同じ環境) • dataset時と季節が違うがViNGは距離が長くても高い成功率 • State Estimateは障害物を考慮しないので障害物があるとぶつかる • off-SoRBはトポロジカルの精度が低いので長い距離では精度が落ちる – offlineデータからQ関数を学習するのは困難 – 長い距離では、教師あり学習のSPTMの方が優れている
  • 14. Experiments 14 • ViNGの未知環境での適応力 – datasetと違う環境4箇所で、1時間のデータ収集しFinetune • 1時間のデータ収集で適応可能 • Targetデータだけでは精度は下がる
  • 15. Experiments 15 • Online手法の比較 – online情報を必要とする手法と比較 するためsim(unity)で実験 – ViNGとSoRBは同等の性能が出るが 200時間のonlineデータが必要でかつ 環境ごとに集める必要がある – PPOは200時間のオンラインデータが 必要だが、30m以降精度が落ちる (長距離は困難)
  • 17. Conclusion • 実世界でのgoal-directed visual navigationシステムViNGを提案。 – オフラインデータから自己教師で学習 – 空間情報がなし、シミュレーションなし – 分布シフトに対応するためのnegativeサンプリングの導入 – トポロジカル上のplanningでGPSなしで長距離navigationを可能になった – 本手法は、staticなオフラインデータが前提だが 実世界は、大きく観測値の分布が変化する(動的障害物、照明の変化、…) – 分布シフトによりロバストに対応可能な表現を組み込むことが今後重要になってくる 17
  • 18. 感想 • 問題設定が上手 – Open-Worldで画像上のダイナミクスを学習するのは現状難しいので、より低次元のイベントを予測することで対 応する • “Model-Based Visual Planning with Self-Supervised Functional Distances” (https://arxiv.org/abs/2012.15373v1)とか関係してきそう – 一方オフラインデータから学習するというモチベーションがぶれていない • End2Endで学習する手法から、Deep以前のロボティクスの技術(planning, filteringなど)との融合により実現 している研究が多くなってきた印象。 – いかに優秀なアルゴリズムを微分可能なモジュールと組み合わせるか • 学習ベースのnavigation研究ではHabitat Challengeの問題設定で行われることが多い*が、それの standard手法であるPPOの性能がreal world・長距離でなかなか性能が出ていないのは面白い結果 • 画像のデータから学習でき実際動くのはすごいが、データ収集1hも必要となると従来手法の方がまだ安 定性など見ると良いと思ってしまう 18 *https://docs.google.com/presentation/d/1ptnk1YfCnbvkgWcuhfvwnsmt0k8BwZwD8p40N5LkPMg/edit?usp=sharing