Enviar búsqueda
Cargar
Cvpr 2021 manydepth
•
2 recomendaciones
•
1,289 vistas
Kenta Tanaka
Seguir
CVPR2021勉強会での発表資料です。 ミスがあったため、発表時の資料から修正を加えています。
Leer menos
Leer más
Tecnología
Denunciar
Compartir
Denunciar
Compartir
1 de 51
Descargar ahora
Descargar para leer sin conexión
Recomendados
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
Deep Learning JP
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
Deep Learning JP
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
Deep Learning JP
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
【DL輪読会】HexPlaneとK-Planes
【DL輪読会】HexPlaneとK-Planes
Deep Learning JP
Recomendados
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
Deep Learning JP
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
Deep Learning JP
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
Deep Learning JP
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
【DL輪読会】HexPlaneとK-Planes
【DL輪読会】HexPlaneとK-Planes
Deep Learning JP
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Kazuyuki Miyazawa
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
semantic segmentation サーベイ
semantic segmentation サーベイ
yohei okawa
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
Semantic segmentation
Semantic segmentation
Takuya Minagawa
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey
Deep Learning JP
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
Deep Learning JP
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
Deep Learning JP
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
Toru Tamaki
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
災害監視無人機システムと 災害監視無人機システムとFOSS4Gとの関わり ((独)宇宙航空研究開発機構 都甲 様)
災害監視無人機システムと 災害監視無人機システムとFOSS4Gとの関わり ((独)宇宙航空研究開発機構 都甲 様)
OSgeo Japan
グリーにおけるスマホアプリ開発~HTML5編
グリーにおけるスマホアプリ開発~HTML5編
Mitsuhiro Tanda
Más contenido relacionado
La actualidad más candente
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Kazuyuki Miyazawa
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
semantic segmentation サーベイ
semantic segmentation サーベイ
yohei okawa
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
Semantic segmentation
Semantic segmentation
Takuya Minagawa
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey
Deep Learning JP
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
Deep Learning JP
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
Deep Learning JP
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
Toru Tamaki
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
La actualidad más candente
(20)
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
semantic segmentation サーベイ
semantic segmentation サーベイ
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
Semantic segmentation
Semantic segmentation
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
backbone としての timm 入門
backbone としての timm 入門
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
Similar a Cvpr 2021 manydepth
災害監視無人機システムと 災害監視無人機システムとFOSS4Gとの関わり ((独)宇宙航空研究開発機構 都甲 様)
災害監視無人機システムと 災害監視無人機システムとFOSS4Gとの関わり ((独)宇宙航空研究開発機構 都甲 様)
OSgeo Japan
グリーにおけるスマホアプリ開発~HTML5編
グリーにおけるスマホアプリ開発~HTML5編
Mitsuhiro Tanda
Pull request時の画面差分取得の自動化
Pull request時の画面差分取得の自動化
Shunsuke Maeda
初心者向けAndroidゲーム開発ノウハウ
初心者向けAndroidゲーム開発ノウハウ
Kentarou Mukunasi
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
Deep Learning JP
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
Tetsutaro Watanabe
Ruby で高速なプログラムを書く
Ruby で高速なプログラムを書く
mametter
amana tech night vol.2 『実践!Pixate』
amana tech night vol.2 『実践!Pixate』
Ryo Yoshitake
Eccv 2020 dsmnet
Eccv 2020 dsmnet
Kenta Tanaka
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
Morpho, Inc.
FFRK cocos2d xレイヤーの最適化
FFRK cocos2d xレイヤーの最適化
dena_study
HTML5@iPhoneゲーム開発
HTML5@iPhoneゲーム開発
h_kishi
1.29.user,user,user
1.29.user,user,user
Tonny Xu
Google Meet でもバーチャル背景を使いたい (WebRTC Meetup Online)
Google Meet でもバーチャル背景を使いたい (WebRTC Meetup Online)
mganeko
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
UE4における大規模レベル実装ワークフローとブループリント活用事例
UE4における大規模レベル実装ワークフローとブループリント活用事例
エピック・ゲームズ・ジャパン Epic Games Japan
実践Backbone.Marionette 現場の悩みと解決まで
実践Backbone.Marionette 現場の悩みと解決まで
Ryuma Tsukano
Tizen web app について調べたよ
Tizen web app について調べたよ
Naruto TAKAHASHI
[141004] cedec 2014 참관기 & 강연 리뷰 #1
[141004] cedec 2014 참관기 & 강연 리뷰 #1
MinGeun Park
PlayCanvas:2D機能とライブラリ組み込みのいろは - PlayCanvas運営事務局 - GTMF 2018 OSAKA
PlayCanvas:2D機能とライブラリ組み込みのいろは - PlayCanvas運営事務局 - GTMF 2018 OSAKA
Game Tools & Middleware Forum
Similar a Cvpr 2021 manydepth
(20)
災害監視無人機システムと 災害監視無人機システムとFOSS4Gとの関わり ((独)宇宙航空研究開発機構 都甲 様)
災害監視無人機システムと 災害監視無人機システムとFOSS4Gとの関わり ((独)宇宙航空研究開発機構 都甲 様)
グリーにおけるスマホアプリ開発~HTML5編
グリーにおけるスマホアプリ開発~HTML5編
Pull request時の画面差分取得の自動化
Pull request時の画面差分取得の自動化
初心者向けAndroidゲーム開発ノウハウ
初心者向けAndroidゲーム開発ノウハウ
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
Ruby で高速なプログラムを書く
Ruby で高速なプログラムを書く
amana tech night vol.2 『実践!Pixate』
amana tech night vol.2 『実践!Pixate』
Eccv 2020 dsmnet
Eccv 2020 dsmnet
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
FFRK cocos2d xレイヤーの最適化
FFRK cocos2d xレイヤーの最適化
HTML5@iPhoneゲーム開発
HTML5@iPhoneゲーム開発
1.29.user,user,user
1.29.user,user,user
Google Meet でもバーチャル背景を使いたい (WebRTC Meetup Online)
Google Meet でもバーチャル背景を使いたい (WebRTC Meetup Online)
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
UE4における大規模レベル実装ワークフローとブループリント活用事例
UE4における大規模レベル実装ワークフローとブループリント活用事例
実践Backbone.Marionette 現場の悩みと解決まで
実践Backbone.Marionette 現場の悩みと解決まで
Tizen web app について調べたよ
Tizen web app について調べたよ
[141004] cedec 2014 참관기 & 강연 리뷰 #1
[141004] cedec 2014 참관기 & 강연 리뷰 #1
PlayCanvas:2D機能とライブラリ組み込みのいろは - PlayCanvas運営事務局 - GTMF 2018 OSAKA
PlayCanvas:2D機能とライブラリ組み込みのいろは - PlayCanvas運営事務局 - GTMF 2018 OSAKA
Último
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
Último
(8)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
Cvpr 2021 manydepth
1.
単眼深度推定ManyDepthの紹介 2021/7/31 neka-nat
2.
注意 ● ミスがあったため、発表時の資料から修正を加えています。(2021/8/2)
3.
自己紹介 ● 名前:neka-nat ● 画像処理、ロボティクスなどをやってるフリー ランスエンジニア(約半年) https://twitter.com/neka_nat https://github.com/neka-nat
4.
自己紹介 ● 名前:neka-nat ● 画像処理、ロボティクスなどをやってるフリー ランスエンジニア(約半年) ●
前職は超ホワイトなJTC https://twitter.com/neka_nat https://github.com/neka-nat
5.
自己紹介 ● 名前:neka-nat ● 画像処理、ロボティクスなどをやってるフリー ランスエンジニア(約半年) ●
前職は超ホワイトなJTC ● フリーランス意外に楽しい! https://twitter.com/neka_nat https://github.com/neka-nat
6.
本日紹介する論文 ● The Temporal
Opportunist: Self-Supervised Multi-Frame Monocular Depth ● J.Watsonら、Niantic、エディンバラ大学などの共著
7.
本日紹介する論文 ● The Temporal
Opportunist: Self-Supervised Multi-Frame Monocular Depth ● J.Watsonら、Niantic、エディンバラ大学などの共著 ● 概要 ○ 自己教師あり学習の単眼深度推定モデルで SOTA ○ 単眼による推論とマルチフレームによる推論の両方を同じモデルで扱える ようにしたよ!
8.
選んだ理由 ● 単眼深度推定の研究で有名なNianticの最新論文 ● CVPR2021では他の単眼深度推定の論文(WaveletMonoDepth)も出しているが、精度 的にはこの論文のほうが良さそう
9.
選んだ理由 ● 単眼深度推定の研究で有名なNianticの最新論文 ● CVPR2021では他の単眼深度推定の論文(WaveletMonoDepth)も出しているが、精度 的にはこの論文のほうが良さそう ●
Nianticが提供しているAR用SDK「LightShip」にも本手法が組み込まれている ● 単眼深度推定ができればLiDARやステレオに比べてコストダウンが期待できる
10.
デモ画像
11.
本日の内容 ● 単眼の深度推定について ● 複眼の深度推定について ●
本研究の貢献部分と内容 ● 実験結果 ● まとめ
12.
単眼深度推定の問題設定 ● 推論時:単一の画像から深度画像を推定する ● 学習時:教師信号の種類 ○
深度センサから取得した深度画像 ○ ステレオ画像 ○ 単眼のマルチフレーム
13.
単眼深度推定の問題設定 ● 推論時:単一の画像から深度画像を推定する ● 学習時:教師信号の種類 ○
深度センサから取得した深度画像 ○ ステレオ画像 ○ 単眼のマルチフレーム 自己教師あり単眼深度推定 ステレオ マルチフレーム
14.
単眼深度推定の問題設定 ● 推論時:単一の画像から深度画像を推定する ● 学習時:教師信号の種類 ○
深度センサから取得した深度画像 ○ ステレオ画像 ○ 単眼のマルチフレーム ステレオ マルチフレーム ● 一台のカメラでデータが取れる ● 動いているものを考慮する必要があるため難し い教師信号 ● 主な手法 ○ SfMLearner, MonoDepth2, PackNetなど 自己教師あり単眼深度推定
15.
マルチフレームを使った単眼深度の学習(SfMLearner, MonoDepth2, PackNetなど) Target
Image Source Images Time T Time T - 1
16.
マルチフレームを使った単眼深度の学習(SfMLearner, MonoDepth2, PackNetなど) Target
Image Source Images Generated Depth Image 6D Pose Depth Encoder/Decoder Pose CNN
17.
マルチフレームを使った単眼深度の学習(SfMLearner, MonoDepth2, PackNetなど) Target
Image Source Images Generated Depth Image 6D Pose Depth Encoder/Decoder Pose CNN
18.
マルチフレームを使った単眼深度の学習(SfMLearner, MonoDepth2, PackNetなど) Target
Image Source Images Generated Depth Image 6D Pose Depth Encoder/Decoder Pose CNN Target view Image
19.
マルチフレームを使った単眼深度の学習(SfMLearner, MonoDepth2, PackNetなど) Target
Image Source Images Generated Depth Image 6D Pose Depth Encoder/Decoder Pose CNN Target view Image Reconstruction Loss(L1, SSIM,...)
20.
単眼深度モデルの課題 ● スケールが曖昧になる ○ Target画像上の点ptをSource画像に投影した際に同じ点psになる深度dと相対カメ ラ座標Tは無数に存在する d1 d2 pt ps ps T1 T2
21.
単眼深度モデルの課題 ● スケールが曖昧になる ○ Target画像上の点ptをSource画像に投影した際に同じ点psになる深度dと相対カメ ラ座標Tは無数に存在する ●
MonoDepth2などではDepthの平均値で正規化することで極端な値を防いでいた
22.
単眼深度モデルの課題 ● スケールが曖昧になる ○ Target画像上の点ptをSource画像に投影した際に同じ点psになる深度dと相対カメ ラ座標Tは無数に存在する ●
MonoDepth2などではDepthの平均値で正規化することで極端な値を防いでいた 極端な値はでなくなるが、現実のスケールファクターとは異なる
23.
複眼深度推定の問題設定 ● 推論時:複数画像から深度を推定する ● マルチビュー ○
異なる位置に配置された複数カメラの画像 ● マルチフレーム ○ 動画のような連続的な単眼画像
24.
マルチフレームによる深度推定 ● 参考論文 ○ Don’t
Forget The Past: Recurrent Depth Estimation from Monocular Video[V.Patilら, 2020] ● 単眼深度推定+リカレント層が使われている ● 幾何学的な制約を使っていない
25.
マルチビューによる深度推定 ● 参考論文 ○ Learning
Unsupervised Multi-View Stereopsis via Robust Photometric Consistency[T.Khotら, CVPR2019] ● 複数の画像をfeature mapに変換しCost Volumeを求めて深度推定を行う ● 相対的なカメラ位置関係は既知 Encoder/ Decoder
26.
Cost Volumeの計算 ● Target画像に対してDepth平面を仮定してSourceのWarp画像を作成 ●
各Depth平面のTarget画像とWarp画像の差をコストとして保持する Cost Volume Target Camera Source Camera Target Image Source Image Target Image
27.
マルチビューモデルをマルチフレームで使う場合の課題① ● MVSで使われていたモデルをマルチフレームで使うとうまく推定できない ● Cost
Volume Overfitting ○ 移動体に対してオーバーフィットが起きてしまう
28.
マルチビューモデルをマルチフレームで使う場合の課題① ● MVSで使われていたモデルをマルチフレームで使うとうまく推定できない ● Cost
Volume Overfitting ○ 移動体に対してオーバーフィットが起きてしまう
29.
マルチビューモデルをマルチフレームで使う場合の課題① ● MVSで使われていたモデルをマルチフレームで使うとうまく推定できない ● Cost
Volume Overfitting ○ 移動体に対してオーバーフィットが起きてしまう
30.
マルチビューモデルをマルチフレームで使う場合の課題② ● 以下の状況でCost Volumeがうまく求まらない ○
前回フレームが無い/同じフレームが続く状態 ○ カメラの移動が止まっている状態
31.
マルチビューモデルをマルチフレームで使う場合の課題② ● 以下の状況でCost Volumeがうまく求まらない ○
前回フレームが無い/同じフレームが続く状態→Cost Volumeが0 ○ カメラの移動が止まっている状態→Cost Volumeが深度に対して変化しない
32.
本論文の貢献ポイント ● 自己教師あり単眼/マルチフレーム深度推定において以下の問題を克服 ○ 単眼深度推定におけるスケールの曖昧さを解決 ○
単眼深度推定におけるスケールの曖昧さをCost Volumeで扱えるようにした ○ マルチフレーム深度推定での動く物体がある場合の推論精度向上 ○ マルチフレーム深度推定での静止しているカメラの影響の低減
33.
ネットワーク全体像 ● MVSで使われていたモデルにPoseCNNによる姿勢推定を追加した形
34.
ネットワーク全体像 ● MVSで使われていたモデルにPoseCNNによる姿勢推定を追加した形 前フレーム、現フレームから姿勢推定
35.
ネットワーク全体像 ● MVSで使われていたモデルにPoseCNNによる姿勢推定を追加した形 Cost VolumeだけでなくTarget
frameも入力にする 前フレーム、現フレームから姿勢推定
36.
Adaptive Cost Volume ●
スケールの曖昧さを解決するためにAdaptive Cost Volumeを導入 ● 内部パラメタを用いてCost Volumeが計算されるので推定される深度自体は現実スケー ルとほぼ合っている ● 問題はCost Volumeの範囲[dmin, dmax]をどう設定するか? Cost Volume H W D dmin dmax
37.
Adaptive Cost Volume ●
スケールの曖昧さを解決するためにAdaptive Cost Volumeを導入 ● 内部パラメタを用いてCost Volumeが計算されるので推定される深度自体は現実スケー ルとほぼ合っている ● 問題はCost Volumeの範囲[dmin, dmax]をどう設定するか? ○ 学習時にdminとdmaxを深度の予測結果から推定 Cost Volume H W D dmin dmax
38.
Cost Volume Overfittingの対策 ●
動いているものをマスクするために単眼深度推定モデル(Consistency Network)を用意 する ● 単眼深度推定モデルであればそれなりに動いているものを識別できる Training Network Consistency Network
39.
Cost Volume Overfittingの対策 ●
Consistency Networkの推定結果とCost Volumeのベスト値の深度との差が大きい領 域をReconstruction Lossから外し、Consistency Lossに追加
40.
静止しているカメラの影響低減 ● 前回フレームが無い/同じフレームが続く状態 ○ Cost
Volumeが0 ● カメラの移動が止まっている状態 ○ Cost Volumeが深度に対して変化しない
41.
静止しているカメラの影響低減 ● 前回フレームが無い/同じフレームが続く状態 ○ Cost
Volumeが0 ● カメラの移動が止まっている状態 ○ Cost Volumeが深度に対して変化しない ● Cost VolumeとTarget画像の両方を入力にする ● 学習時に一定の確率で以下の状況での学習を行う ○ Cost Volumeを0にする ○ Source画像をTarget画像の色を変えたものに変 更する
42.
その他の工夫:Test Time Refinement ●
Deep系のマルチフレーム深度推定でちょくちょく使われている ○ Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos[V.Casserら, AAAI2019] ● マルチフレーム自己教師あり学習の特徴を活かし、推論時に学習しながら推論する
43.
実験結果:KITTI PackNet- SFM DFTP Many Depth (+TTR) Many Depth Mono Depth2 Input& GT
44.
実験結果:KITTI PackNet- SFM DFTP Many Depth (+TTR) Many Depth Mono Depth2 Input& GT
45.
実験結果:KITTI
46.
実験結果:KITTI
47.
実験結果:KITTI
48.
実験結果:Ablation Study Monodepth2のモーションマスク FlowNetを使ったモーションマスク マスク使わない マスク使わない、静止画対応しない Reconstruction lossにマスク使用 使うフレームを3フレームにした 2フレームMonodepth2 MVSを使った推定手法
49.
まとめ ● 単眼深度推定とマルチフレームの深度推定モデルうまく合わせたモデル ● 参考文献が多く今までの手法を幅広く調べていて、良かったものをいろいろと取り入れてい る ●
デモの点群がすごいきれい、深度センサ代りに使えそう ● 著者実装 ○ https://github.com/nianticlabs/manydepth
50.
参考記事 ● Qiita, takoroyさん ○
https://qiita.com/takoroy/items/191ec46211838daa47e1 ○ https://qiita.com/takoroy/items/c5f650a5141874420a77 ○ https://qiita.com/takoroy/items/96ad3e2ad14ba036df67 ● Qiita, masataka46さん ○ https://qiita.com/masataka46/items/64a85e2929b8565a226d ○ https://qiita.com/masataka46/items/9c034056ca0a5707b77a ● SfM Learner系単眼深度推定手法について ● 【MonoDepth】mono cameraによるdepth estimation基礎理解(Deep Learning編) ● 論文「Unsupervised Monocular Depth Estimation with Left-Right Consistency」を読んでみ ました (2):論文調査編 ● Midas : 奥行きを推定する機械学習モデル ● 単眼深度推定モデルMiDaS の解説と SageMaker へのデプロイ ● できる!マネキンチャレンジデータセット( SfM・MVS編) ● MonoDepth2でKITTI Datasetを単眼Depth推定してみる
51.
おわり
Descargar ahora