5. Unsupervised Learning of Monocular Depth Estimation
Unsupervised CNN:
Geometry to the Rescue
2016 2017 2018 2019
MonoDepth
SfMLearner
SfM-Net
vid2depth
Deep-VO-Feat
GeoNet
LEGO
MonoDepth2
Every Pixel Counts
Depth from
Videos in the Wild
Depth
Depth + Egomotion
Depth + Egomotion + Object Motion
Depth + Egomotion + Object Motion + Camera Intrinsic
struct2depth
(extended)
struct2depth
SfMLearner++
Every Pixel Counts++
SceneNet
6. Unsupervised Learning of Monocular Depth Estimation
Unsupervised CNN:
Geometry to the Rescue
2016 2017 2018 2019
MonoDepth
SfMLearner
SfM-Net
vid2depth
Deep-VO-Feat
GeoNet
LEGO
MonoDepth2
Every Pixel Counts
Depth from
Videos in the Wild
Depth
Depth + Egomotion
Depth + Egomotion + Object Motion
Depth + Egomotion + Object Motion + Camera Intrinsic
struct2depth
(extended)
struct2depth
SfMLearner++
Every Pixel Counts++
SceneNet
7. SfMLearner
7
Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
● 単眼映像を使った教師なし学習によるデプスとエゴモーション推定の先駆け
● 別視点画像を生成する処理を微分可能にし、学習プロセスに組み込み
8. SfMLearner
8
Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
Depth CNN:ターゲット視点画像からデプスマップを生成
9. SfMLearner
9
Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
Pose CNN:ソース視点と隣接視点間の相対的なカメラ運動を推定
10. View Synthesis as Supervision
10
I1
IN
It
Is
View Synthesis Objective学習用映像
画素
ターゲット視点画像
ソース視点画像をターゲット視点にワープした画像
Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
11. View Synthesis as Supervision
11
I1
IN
It
Is
View Synthesis Objective学習用映像
画素
ターゲット視点画像
ソース視点画像をターゲット視点にワープした画像
● ソース視点画像をターゲット視点画像にワープするためには、ソース視
点とターゲット視点との間で画素の対応関係を知る必要がある
● CNNで推定したターゲット視点におけるデプスと視点間のカメラ運動を
利用して対応関係を求める
Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
12. View Synthesis as Supervision
12
ターゲット視点画像上の画素 ptとソース視点画像上の画素 ps の対応関係
ターゲット視点のデプスマップ
ターゲット視点からソース視点へのカメラ運動
カメラ内部行列(既知)
Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
13. View Synthesis as Supervision
13
ターゲット視点画像上の画素 ptとソース視点画像上の画素 ps の対応関係
Differentiable Bilinear Sampling Mechanism*
*Max Jaderberg, et al., “Spatial Transformer Networks,” NIPS2015
Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
15. Network Architecture
15
Single-view Depth Network Pose/Explainability Network
Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
16. Unsupervised Learning of Monocular Depth Estimation
Unsupervised CNN:
Geometry to the Rescue
2016 2017 2018 2019
MonoDepth
SfMLearner
SfM-Net
vid2depth
Deep-VO-Feat
GeoNet
LEGO
MonoDepth2
Every Pixel Counts
Depth from
Videos in the Wild
Depth
Depth + Egomotion
Depth + Egomotion + Object Motion
Depth + Egomotion + Object Motion + Camera Intrinsic
struct2depth
(extended)
struct2depth
SfMLearner++
Every Pixel Counts++
SceneNet
17. struct2depth
17Vincent Casser, et al., “Depth Prediction Without the Sensors:
Leveraging Structure for Unsupervised Learning from Monocular Videos,” AAAI2019
● デプスとエゴモーションに加え、シーン中の物体の動きも推定
● セグメンテーションマスクを入力し、物体ごとに3次元モーションを推定
● 推論時にも学習を行うことで精度を上げるTest Time Refinmentを提案
18. Motion Model
18
I1
I2
I3
I1→2
I2
I3→2
V V V
S1→2
S2
S3→2
映像 物体マスク
映像
(エゴモーション補正済)
背景マスク
(エゴモーション補正済)
Ego-motion
Network
Object Motion
Network
Ego-motion
i-th Object Motion
物体
Vincent Casser, et al., “Depth Prediction Without the Sensors:
Leveraging Structure for Unsupervised Learning from Monocular Videos,” AAAI2019
19. Unsupervised Learning of Monocular Depth Estimation
Unsupervised CNN:
Geometry to the Rescue
2016 2017 2018 2019
MonoDepth
SfMLearner
SfM-Net
vid2depth
Deep-VO-Feat
GeoNet
LEGO
MonoDepth2
Every Pixel Counts
Depth from
Videos in the Wild
Depth
Depth + Egomotion
Depth + Egomotion + Object Motion
Depth + Egomotion + Object Motion + Camera Intrinsic
struct2depth
(extended)
struct2depth
SfMLearner++
Every Pixel Counts++
SceneNet
42. Inference-time Correction Using Known Intrinsics
● 回転角度と焦点距離のそれぞれに微小な誤差が含まれる場合、以下が成
り立つ
rx fy, ry fx ~ constant
● 推定値を f’x , r’y とすると、内部パラメータの真値が fx と与えられていれ
ば次式で推定値を補正できる
ry = r’y f’x / fx
42