7. Method: MobileNetv3 block
1x1 conv
K x K depthwise conv
1 x 1 conv
hard-swish or ReLU
hard-swish or ReLU
squeeze & excitation
1x1 conv K x K depthwise
SE block
https://github.com/rwightman/gen-efficientnet-pytorch/blob/master/geffnet/efficientnet_builder.py
1x1 conv
Mobilenet v3 block
cited from the paper
16. Method:Binary relationship matrix Uの導入
Binary relationship matrix U を用いることで全ての convolution が表現可能
Uの size は(input_channel, output_channel)
DGConvの式:
ex) Uが all-ones matrix なら通常の convolution (a)
Uが identity matrix なら Depthwise convolution (b)
しかしUを直接学習するのは以下の課題がある
• SGD 使って binary matrix を学習するの難しい
• Input_channel, output_channel が大きいと U の parameter の数も膨大になる
• 制約なく学習させると( f)のような unstructured convolution を生み出す
Matrix Uの形状
cited from the paper
cited from the paper
17. Method:Binary relationship matrix Uの構成
• U を K 個の submatrix のクロネッカー積で表現 (4)
• submatrix Uk を single binary variable g で表現することで parameter を削減 (5)
• Input と output の channel 数が1024の場合 K=10 となる
利点は何か
• g のみを学習すればよいので parameter の数を減らすことができる
in / out が1024/1024の場合、Uを直接学習させると1024**2のパラメタが必要だが
g のみの学習であれば log2(1024)=10 個のパラメタですむ
• U が必ず group 構造をとるようになる
cited from the paper
22. 紹介する論文一覧
• Gaussian YOLOv3: An Accurate and Fast Object Detector Using
Localization Uncertainty for Autonomous Driving
• Towards Unconstrained End-to-End Text Spotting
• Single-Shot Instance Segmentation With Affinity Pyramid
• Scale-Aware Trident Networks for Object Detection
• YOLACT: Real-time Instance Segmentation
23. Gaussian YOLOv3:
An Accurate and Fast Object Detector
Using Localization Uncertainty
for Autonomous Driving
Poster
Links
paper code
31. Results
• ICDAR データセットにおいて SOTA スコア達成
• Detection ベンチマークにおいて既存手法と Competitive な精度を出しつつ、End-to-End
認識においては既存手法に大きな差をつけた
• Ablation Study により、特に RoI-Masking の効果が大きいことが判明
cited from the paper
34. Method
• U-Net構造のencoder-decoder Network
• Semantic Segmentation maskと
各位置におけるaffinity情報が
各階層から出力される
• Affinityブランチでは、各グリッドにて r x r
のwindowがchannel方向にflattenされた
情報が出力され、その位置にある instance
と同じinstanceのある位置で1となるように
学習される
cited from the paper
38. Summary
object detection における receptive field の影響を調査し、それぞれ特定のスケールへの
feature map を生成する3つのブランチを持つ TridentNet を提案し精度改善
cited from the paper
39. Method
• multi-scaleへの対処に関して
• image pyramidは推論が遅い
• feature pyramidは異なる段階でのfeatureを同一に扱って
いてconsistencyが取れていない
• 同一の重みで異なる dilation rate をそれぞれ持つ trident block
に、convolutionのブロックを置換することを提案
• trident netを学習するためのscale-aware training scheme
• 各ブランチに valid range [l_i, u_i]を定義し、whの平方根
がそれに収まるもののみ backpropさせる。
cited from the paper
cited from the paper
40. Results
• ベンチマークデータセット名: COCO
• ベンチマーク結果:46.8 mAP、Image Pyramid を追加した場合 48.4 mAP
*は、SNIP、SNIPER で実装されている工夫を合わせたもの
(multi-scale training, soft-NMS, deformable convolutions, large-batch BN,
and the 3× training scheme)
cited from the paper
47. 紹介する論文一覧
• GradNet: Gradient-Guided Network for Visual Object Tracking
• SlowFast Networks for Video Recognition
• TSM: Temporal Shift Module for Efficient Video Understanding
• Video Object Segmentation using Space-Time Memory Networks
55. Method
• Slow pathway: 入力の時間解像度が低いため、畳み込みも主に空間方向の
2D畳み込みを採用
• Fast pathway: 入力の時間解像度が高いだけでなく、ネットワーク全体を通して
時間方向のdownsampling layerがないため時間解像度の高い特徴抽出を行う
channel数や空間方向の情報を削減しているため Slow Pathwayの15~20%のFLOPs
• Lateral connection: Fast pathwayからSlow pathwayへの方向のみに結合を持たせて 2
つのpathwayの情報を混合している
cited from the paper cited from the paper
57. Results
Action Detection: AVA datasetでの実験結果
• 左図:SlowFast Networkが既存手法を超える精度を達成
• 右図:Slow pathwayのみの場合ととSlowFast NetworkとのAVAの各クラスごとの精度比
較。Fast pathwayを使用することで動き情報が大きく影響しそうなクラス
(hand clap, swin等)の精度向上が顕著に見られる
cited from the paper cited from the paper
58. TSM: Temporal Shift Module for Efficient Video
Understanding
Poster
Links
paper code website
61. Results
• Kinetics, UCF101, HMDB51:動き情報に敏感でないデータセット
• Something-Something, Jester:動き情報に敏感なデータセット
• 左図:TSM を 2DCNN baseline(TSN)に加えて、全データセットで精度向上
TSM は動き情報のモデリングを主眼に置いているので、
Something-SomethingやJesterでは精度の向上が顕著に現れている
• 右図:様々なバックボーンで精度を向上させている
cited from the paper
cited from the paper
62. Results
• 左図:Something-Somthing dataset での TSM と既存手法との比較
TSM は 2D baseline の性能を向上させるだけでなく、 SOTA の性能を発揮している
• 右図:TSM と他手法との精度と計算コストのトレードオフの比較
TSM が ECO や I3D ベースの手法と比べて低い計算コストで高い性能を発揮しているこ
とがわかる
cited from the paper
cited from the paper
69. 紹介する論文一覧
• Co-Mining: Deep Face Recognition with Noisy Labels
• Fair Loss: Margin-Aware Reinforcement Learning
for Deep Face Recognition
• Occlusion Robust Face Recognition Based on Mask Learning with
Pairwise Differential Siamese Network
• Detecting Photoshopped Faces by Scripting Photoshop
74. Results(on Real-World Data)
• Baselineやほかの6つのSOTA手法より、良いパフォーマンス
• MsCeleb-Rで学習し、RFWで評価、SOTA達成
• VggFace2-Rで学習し、MegaFace Challengeで評価、SOTA達成
cited from the papercited from the paper
99. 紹介する論文一覧
• 3D-LaneNet: end-to-end 3D multiple lane detection
• Learning Lightweight Lane Detection CNNs
by Self Attention Distillation
• Joint Monocular 3D Vehicle Detection and Tracking
• Learning Object-Specific Distance From a Monocular Image
• Digging Into Self-Supervised Monocular Depth Estimation
• How Do Neural Networks See Depth in Single Images?
112. Method
• 各フレームに対して、物体検出を行う
• 検出するもの:2d bounding boxの座標、このフレームに投影された 3d bounding
boxの中心の座標、物体の向き、三次元の物体のスケール
• フレーム間のトラッキングを行う
• フレーム間の物体の depthの情報を考慮
• occlusionによる一時的な未検出によるトラッキングの途切れも対応
cited from the papercited from the paper
115. Summary
• 単眼カメラの画像から、物体ごとに距離を回帰する CNN を提案
• inverse perspective mapping などの古典的手法では勾配の変化があるような場所では距離の誤差が大
きくなってしまうが、提案手法ではそのような状況下でも正しく距離を推定できる
• KITTI, nuScenes において point cloud と 3D bbox を用いて物体ごとの距離ラベルを生成し、距離推定タ
スクのデータセットを作成した
Cited from the paper
Cited from the paper
116. Method
• 別の物体検出器で検出した box に対して ROI pooling した固定サイズの特徴マップを全結合層に
入力し、距離を回帰する
• 距離の回帰と同時に物体のクラス分類を行うことで、category-aware な距離の学習を行う
(推論時はクラス分類の結果は使用しない)
• 物体の 3D key-point も同時に学習・回帰することで、距離の精度をさらに向上
Cited from the paper
117. Results
既存手法の inverse perspective mapping などと比べて距離の推定誤差が小さく、
特に既存手法が苦手とする勾配のあるシーンなどで精度が大きく向上した
ground truth
inverse
perspective
mapping
proposed
enhanced model
Cited from the paper
Cited from the paper
119. Summary
• 単眼カメラによるdepth推定は、ground truthデータの獲得が難しいため、 self-supervised
learning を用いた手法が近年盛り上がっている (Zhou et al.)
• 本論文の手法Monodepth2では、シンプルなパイプラインで高精度な単眼 depth推定を可
能とした。
• 手法1:遮蔽に対してロバスト化する minimum reprojection loss
• 手法2:アーティファクトを低減する full-resolution multi-scale sampling method
• 手法3:学習の邪魔となる動物体などの画素領域をマスクする auto-masking loss
120. Method
• Depth Networkはエンコーダ(ResNet18)とデコーダー(シンプルな upsampler Network)
からなるU-Net構造となっており、depth mapが出力される
• Pose Networkは2フレームをスタックして Res18に入力するシンプルな構造で、
2フレーム間のカメラの transformationが出力される
• それぞれのNetworkのエンコーダはweight sharingをしない方が精度が高い
• Pose Networkへの入力は、既存手法で採用されてきた 3フレームより、2フレームの方が
精度が高い
cited from the paper
121. Method
手法1:遮蔽に対してロバスト化する minimum reprojection loss
• 推定したdepth map, camera poseの変化を用い、入力画像It’をワープした推定画像It’→tを得る
• 目的関数は入力画像ItとIt’→tのPhotometric Reconstruction Error、SSIMとL1の組み合わせ
• フレームの途中である領域が遮蔽される場合、error が不連続に大きくなるため、複数フレームのmin を取る
ことでロバストにする
cited from the paper
cited from the paper
122. Method
手法3:学習の邪魔となる動物体などの
画素領域をマスクする auto-masking loss
手法2:アーティファクトを低減する full-resolution
multi-scale sampling method
cited from the paper
すべてのスケールのdepth mapを入力画像サイズに戻し、
それぞれ推定画像を生成してマルチスケールでphotometric
lossを計算する。
これにより、生成画像のアーティファクトを低減できる
従来はPose networkの出力にデコーダを追加し、maskを学
習していた
本手法では、入力画像シーケンスにおいて、フレーム間の
photometric lossが小さくなる、つまり静止している領域を指
定してマスクし、loss対象外とする
137. Summary
• 学習中に適応的に Augmentation パラメータの更新を行う新たな
Image Augmentation フレームワークの提案
• 課題: 従来の Image Augmentation はドメインやデータセットの性質に依存し、
学習中は更新されず固定
• 学習時にはデータの Invariance を高め、かつテストに時は Invariance を軽減する
ような Transformer を学習したいというモチベーション
cited from the paper
138. Method
• 学習向けとテスト向けの Transform を同時に学習
• Competitive Task(学習向け):
• 分類器 Loss と Discriminator Score の和を最大化
• 分類器にとって難しく、かつ分布から外れない Transform を学習したい
• Cooperative Task(テスト向け):
• 分類器 Loss を最小化
• 分類器にとって簡単な Transform を学習したい
• Discriminator をかませることで、Transformer が分布から外れた画像を出力することを防
いでいる
cited from the paper
139. Method
• Target Network は、Transform を行った Loss と行わない Loss の和を最小化する
ように学習
• 微細な変化を加える Meta-transform を定義してそれらを K ステップ行い、
各ステップに報酬を割り当てる。サンプリングと Policy Gradient を用いて Backward
(言語生成等でも用いられるテクニック)
cited from the paper
140. Results
• Classification, Pose Estimation, Face Alignment の3タスクで評価
• CIFAR, MPII(pose), LSP(pose), NME(face alignment)
• ベンチマーク結果:CIFAR においては既存の Auto Augment よりも探索時間が
少なく Competitive な精度を達成
• Pose Estimation と Face Alignment においては既存の Adversarial Augmentation
と比較して精度が向上した
• Testing Perturbation に対するロバスト性が高い
cited from the paper
142. Summary
• 一定割合の重みはタスク間で共有しつつ、タスク固有の重みも保持するための
Task Routing Layer (TRL) を導入
• タスク数が20を超える場合のマルチタスクを Many Task Learning (MaTL) と
定義し、 従来の Multi Task Learning (MTL) と区別
• マルチタスク学習におけるタスク数のスケーラビリティを向上させ、最大 312 tasks を同時
に解かせている。複数の MTL ベンチマークで SOTA
cited from the paper
143. Method
• 本論文で扱う MTL は、補助タスクの学習によってメインタスクの精度向上を
期待する Asymmetric MTL は目的としない
• TRL は Conv の出力マップに対するマスクとして働き、一定割合の特徴マップを
無効化する
• Route(マスク)は学習開始時にタスク毎にランダムに設定され、学習中は更新無く保持さ
れる
• タスク毎のサブネットが固定なので、他タスクの学習による悪影響を受けづらい
cited from the paper
144. Method
• Layer の位置は BN の後(Conv → BN → TRL → ReLU)
• 共有率 σ によって全タスクで共有される重みの割合が決まる
• イテレーションごとに学習タスクをランダムに選択し、そのタスクの TRを適用する
• 入力 X を
• Route(マスク)を
• TRL は
cited from the paper
145. Results
• UCSD Birds, Visual Decathlon, その他多数のベンチマークで評価
• Birds 312 tasksで Accuracy 66.5, VDで Score 2919.26 と SOTA
• 共有率 σ は本実験においては 0.4 が最良だった
cited from the paper
cited from the paper
146. Results
• UCSD Birds データセットにおける、タスク数と精度の関係
• タスク数が大幅に増加しても、 TRL を用いた本手法は精度を維持
cited from the paper