ICCV 2019 論文紹介 (26 papers)

ICCV 2019 論文紹介
2019/12/20
AI本部AIシステム部 CV研究開発チーム
岡田英樹, 唐澤拓己, 木村元紀, 冉文昇, 築山将央, 本多浩大, 馬文鵬

Agenda
• Network Architectures
• Detection, Segmentation
• Action & Video
• Face Recognition
• Synthesis, GAN, Low-level
• Automotive関連
• Others

紹介する論文一覧
• Searching for MobileNetv3
• CutMix: Regularization Strategy to Train Strong Classifiers with
Localizable Features
• Differentiable Learning-to-Group Channels via Groupable
Convolutional Neural Network

Searching for MobileNetv3
Oral
Links
paper code(Tensorflow, official) code(PyTorch) video

Summary
• アーキテクチャサーチがモデル開発ツールの一つとして定着
関連ワークショップは満員御礼
• MobileNetv3は、サーチされたモデルを起点にさらなる最適化を
行い、レイテンシを改善する
• EfficientNetとともに、Mobile Inverted Residual + SE*
を中心とした一般的なネットワークシリーズである
権威
* Squeeze and Excitation
cited from the paper

Method: MobileNetv3 block
1x1 conv
K x K depthwise conv
1 x 1 conv
hard-swish or ReLU
hard-swish or ReLU
squeeze & excitation
1x1 conv K x K depthwise
SE block
https://github.com/rwightman/gen-efficientnet-pytorch/blob/master/geffnet/efficientnet_builder.py
1x1 conv
Mobilenet v3 block

Method: Architecture Searchからの最適化
MnasNetでサーチしたモデルを起点にレイテンシを改善していく
activation
高速化
pruning

Method: Nonlinearities
モバイルでのレイテンシを向上するため、非線形関数を簡易化

ResultsEfficientNet とMobileNetv3の比較
EfficientNet
MobileNetv3-Large
MobileNetv3-Small
EfficientNetは起点となる’B0’ からの
スケールアップ手法を導入したもの
MobileNetv3はMNasNetサーチしたLarge,
Smallモデルをベースに、より低レイテンシ化した
もの
積和演算量 (レイテンシではない)
EfficientNetB0
参考：モデルアーキテクチャ観点からの高速化 2019

CutMix: Regularization Strategy to Train Strong
Classifiers with Localizable Features
Oral
Links
paper code video

Summary
２つの画像を片方をパッチとして埋め込むデータオーグメンテーション手法の提案
• Cutout は情報を落としてしまっている
• ２つの画像を、片方をパッチとしてカットし他方の画像に埋め込む Augmentationの提案
• ラベルは面積の割合で決定し学習を行う

Results
ベンチマークデータセット名： ImageNet, Pascal VOC
ベンチマーク結果：+2.3(ImageNet Cls), +1.0(ImageNet Loc), +1.1(Pascal det)
*ただし detection については pre-trainingでの使用。

Differentiable Learning-to-Group Channels via
Groupable Convolutional Neural Networks
Links
paper code
Poster

Summary
これまでは hyperparameter だった Group convolutionの最適なグループ数を
動的に学習する Dynamic Grouping Convolution（DGConv）を提案
DGConv の貢献
• Convolution kernel とグループ数及びどのチャンネル同士をグループにするか等の
grouping strategy を同時に学習可能
• 微分可能なので end2end に学習可能
• 通常の Convolution から置き換え可能
• ResNet や ResNext と同等もしくはそれ以下のパラメタ数で高精度達成

Method：Binary relationship matrix Uの導入
Binary relationship matrix U を用いることで全ての convolution が表現可能
Uの size は（input_channel, output_channel）
DGConvの式：
ex) Uが all-ones matrix なら通常の convolution (a)
Uが identity matrix なら Depthwise convolution (b)
しかしUを直接学習するのは以下の課題がある
• SGD 使って binary matrix を学習するの難しい
• Input_channel, output_channel が大きいと U の parameter の数も膨大になる
• 制約なく学習させると（ f）のような unstructured convolution を生み出す
Matrix Uの形状

Method：Binary relationship matrix Uの構成
• U を K 個の submatrix のクロネッカー積で表現（4）
• submatrix Uk を single binary variable g で表現することで parameter を削減（5）
• Input と output の channel 数が1024の場合 K=10 となる
利点は何か
• g のみを学習すればよいので parameter の数を減らすことができる
in / out が1024/1024の場合、Uを直接学習させると1024**2のパラメタが必要だが
g のみの学習であれば log2(1024)=10 個のパラメタですむ
• U が必ず group 構造をとるようになる

Method：DGConvのResNextへの適用
上記のDGConvをResNetとResNextに転用

Results：Complexity vs Accuracy
制約項bの大きさを変えた時の FLOPsと精度
DGConvがGConvより効率的なGroup Strategyを獲得していることを証明
b=96, FLOPs 0.27xにおいて同等の精度
b=256, FLOPs 0.14xにおいて同等の精度

Results：他手法との比較
Parameter数が同等の既存手法よりも高精度を達成

• Gaussian YOLOv3: An Accurate and Fast Object Detector Using
Localization Uncertainty for Autonomous Driving
• Towards Unconstrained End-to-End Text Spotting
• Single-Shot Instance Segmentation With Affinity Pyramid
• Scale-Aware Trident Networks for Object Detection
• YOLACT: Real-time Instance Segmentation

Gaussian YOLOv3:
An Accurate and Fast Object Detector
Using Localization Uncertainty
for Autonomous Driving
Poster
Links
paper code

Summary
• YOLOv3 において box 座標とともにそれらの uncertainty を同時に学習・予測すること
で、物体検出の精度を大きく向上
• 予測した uncertainty が大きい box については相対的に重みが下がるように損失関数が
設計されており、box アノテーションのノイズや外れ値に対して頑強になる
• KITTI / BDD に対する評価では、 YOLOv3 に比べて mAP を 3.09 / 3.5 ポイント向上
• 計算上のオーバーヘッドとしては、 head の出力チャネルがアンカーの数×4 だけ増えるの
みで、推論の速度は YOLOv3 とほぼ変わらない
Cited from the paper

Method
• box 座標 x, y, w, h それぞれに対して、平均 : 予測した box 座標、分散: 予測した
uncertainty となるようなガウス分布を仮定する
• ガウス分布の確率密度関数において、真の box 座標における値に対し、負の対数をとっ
たものを損失としてネットワークを学習する
• このような損失関数の設計により、外れ値や box ラベルにノイズがあるような
サンプルに対しては、 uncertainty が大きくなるように学習がされる
• 推論時は uncertainty に応じて score をスケーリングし、不確かさの大きい box を
抑制する

Results
• KITTI / BDD に対する評価では、 YOLOv3 に比べて mAP を 3.09 / 3.5 ポイント向上
• false positive を 40%以上削減しつつ、true positive の割合も向上できている
• 全体的に予測した box の位置精度が向上しており、 IoU=0.75 など厳しめの IoU 閾値に
対する mAPが特に改善している傾向
• COCO に対する評価でも、mAP を 3.1 ポイント向上している

Towards Unconstrained End-to-End Text
Spotting
Oral
Links
paper video

Summary
• 画像から任意形状のテキストを検出できる End-to-End OCR ネットワークの提案
• Detector に Mask R-CNN を用い、さらに RoI-Masking という工夫によって E2E で画像
からテキストと領域マスクを同時に生成できるようになった
• 既存の OCR エンジンからの出力を部分ラベルとして活用可能
• ICDAR データセットにおいて、 E2E テキスト検出＆認識で SOTA 達成

Method
• Detector には Mask R-CNN を使用
Mask R-CNN は BBox とその領域内の物体マスクを予測するため、 Straight Case /
Curve Case どちらにも対応可能
• Recognizer の入力として、Stride-8 Feature を Upsample したものと
Stride-4 Feature の要素和を用いる（小さいテキストに対するパフォーマンス向上）
• Detector からの BBox を用いて Feature を切り出し、さらに Mask を掛け合わせる
（RoI-Masking と呼ぶ）ことで、明示的な Attention が得られる

Method
• LSTM は前ステップの予測単語と Hidden State, そして Context Feature が入力
• Context Feature: c_i の作り方は下図参照
RoI-Masking 後の Image Feature と前ステップ Hidden State から Attention 生成
• 損失関数は以下。Fully Labeled な場合は δ=1, 既存 OCR の出力を学習に用いる場合
は δ=0 となる。α, β, γ は本実装では 1 でよい

Results
• ICDAR データセットにおいて SOTA スコア達成
• Detection ベンチマークにおいて既存手法と Competitive な精度を出しつつ、End-to-End
認識においては既存手法に大きな差をつけた
• Ablation Study により、特に RoI-Masking の効果が大きいことが判明

SSAP: Single-Shot Instance Segmentation
With Affinity Pyramid
Links
paper
Poster

Summary
• 各スケールにて、Semantic Segmentation Maskと、各位置における
affinity情報 (同一instanceかどうかのlocal map)を学習する
• Segmentation maskとaffinity情報から、インスタンスセグメンテーショ
ンマスクを生成する
• cascaded graph partition moduleによって、最もstrideの大きいレイヤ
から、インスタンス推定結果を徐々に補正しながらstrideの小さいレイ
ヤに伝播することで効率化を図る

Method
• U-Net構造のencoder-decoder Network
• Semantic Segmentation maskと
各位置におけるaffinity情報が
各階層から出力される
• Affinityブランチでは、各グリッドにて r x r
のwindowがchannel方向にflattenされた
情報が出力され、その位置にある instance
と同じinstanceのある位置で1となるように
学習される

Method
• graph partitionは、affinity情報をもとに、
画素をinstance分割する
• 画素の組み合わせが少ない scale（stride=64）
から、高解像度側へ伝搬していくことにより、
partitioningに必要な計算量を減らす
• semantic segmentation結果と組み合わせること
により、クラス情報 (車・人など)を付与する

Results
Cityscapes test : AP 32.7 (PANet: 31.8)
COCO test-dev : panoptic quality (PQ) : 36.9 (DeeperLab: 34.3)

Scale Aware Trident Networks
for Object Detection
Oral
Links
paper video

Summary
object detection における receptive field の影響を調査し、それぞれ特定のスケールへの
feature map を生成する3つのブランチを持つ TridentNet を提案し精度改善

Method
• multi-scaleへの対処に関して
• image pyramidは推論が遅い
• feature pyramidは異なる段階でのfeatureを同一に扱って
いてconsistencyが取れていない
• 同一の重みで異なる dilation rate をそれぞれ持つ trident block
に、convolutionのブロックを置換することを提案
• trident netを学習するためのscale-aware training scheme
• 各ブランチに valid range [l_i, u_i]を定義し、whの平方根
がそれに収まるもののみ backpropさせる。

Results
• ベンチマークデータセット名： COCO
• ベンチマーク結果：46.8 mAP、Image Pyramid を追加した場合 48.4 mAP
*は、SNIP、SNIPER で実装されている工夫を合わせたもの
（multi-scale training, soft-NMS, deformable convolutions, large-batch BN,
and the 3× training scheme）

YOLACT: Real-time Instance Segmentation
Oral
Links
paper code video

Summary
Real-time なインスタンスセグメンテーション手法の提案
* YOLACT = You Only Look At CoefficienTs
.

Method
Instance segmentation を２つのサブタスクに分ける
(1) prototype masks セットの出力、 (2) インスタンスごとのマスク係数の予測
YOLACTアーキテクチャ図。protonet でいくつかの prototype を出力し、prediction headで
インスタンスマスク係数出力し、掛け合わせる
その後crop&thresholdで適切な位置を取る。論文中では RetinaNet（ResNet-101 + FPN）を使用

Method
NMS は約 5 FPS かかり全体の30 FPS に対してボトルネックであるとし、 Fast NMSも提案
既に削除されたdetectionによって他のdetectionを削除することをよしとすることで、
一度に計算し高速化を行う
1. Cクラス分、scoreの高い n この検出に関して c × n × n のIoU matrix を計算。
2. IoU threshold より高いスコアのものを選択

Results
精度ではなく、スピード重視の手法
他手法と比較すると、精度 /スピードは
トレードオフの関係にある
33 FPSで 29.8 mAP (COCO test-dev)
*複数あるのは画像サイズの違い
また、実際に出力される prototype は異なる意味を
表せているという可視化が下 cited from the paper

• GradNet: Gradient-Guided Network for Visual Object Tracking
• SlowFast Networks for Video Recognition
• TSM: Temporal Shift Module for Efficient Video Understanding
• Video Object Segmentation using Space-Time Memory Networks

GradNet: Gradient-Guided Network
for Visual Object Tracking
Oral
Links
paper code video

Summary
• Siamese networkのようなテンプレートマッチングベースのトラッキング手法の
改良
• 勾配を用いて推論時にテンプレートをアップデートすることで
Siamese networkの課題であるターゲットや背景の時間的変化の弱さを改善

Method
• Search region X から特徴を抽出する branchとtarget patchのテンプレートとgradientを計
算するbranchからなるネットワークである
• Initial embedding module：初期テンプレートβとsearch region側の特徴との
相互相関をとることで Score map Sを得る
• gradient calculation module：Score map Sとground truth Yとのlogistic lossを活用し
initial featureに加える
• Template update module：initial embeddingと同じNetworkでテンプレートを
更新し、search region側の特徴との相互相関をとることで最終 Score mapを得る

Method
従来のTraining手法：同じ動画内でtarget frameとsearch region frameを選択
課題点
• Update branchがgradientを無視してtemplate appearanceを重視するようになる
• 過学習が避けられない
提案手法：target frameに対して複数の動画（同じ動画は含む）から search region frameを選択
し、それぞれのペアで計算された最終スコアマップと ground truthとのロスを最小化するように学
習させる
• 他動画でも良い性能を発揮する templateを
得ようとすることでNetworkがGradientに
注目するよう強制する

Results
各データセットでSOTA及び
それに匹敵する性能を達成
cited from the paper cited from the paper

SlowFast Networks for Video Recognition
Oral
Links
paper code video

Summary
• Facebook AI Research（FAIR）の研究
• 低い時間解像度で空間方向の特徴抽出を行うSlow pathwayと高い時間解像度で時
間方向の特徴抽出を行うFast pathwayからなるネットワークの提案
• 計算コストと精度のトレードオフを大幅に改善
• Action RecognitionのKinetics-400, Action DetectionのAVA datasetでともにSOTA
を達成

Method
• Slow pathway: 入力の時間解像度が低いため、畳み込みも主に空間方向の
2D畳み込みを採用
• Fast pathway: 入力の時間解像度が高いだけでなく、ネットワーク全体を通して
時間方向のdownsampling layerがないため時間解像度の高い特徴抽出を行う
channel数や空間方向の情報を削減しているため Slow Pathwayの15~20%のFLOPs
• Lateral connection: Fast pathwayからSlow pathwayへの方向のみに結合を持たせて 2
つのpathwayの情報を混合している

Results
Action Classification: Kinetics-400での実験結果
• 左図：提案手法では ImageNetでの事前学習を行なっていないが、従来手法よりも高い精
度を達成
• 右図：推論時の計算コストと精度のトレードオフが大幅に向上

Results
Action Detection: AVA datasetでの実験結果
• 左図：SlowFast Networkが既存手法を超える精度を達成
• 右図：Slow pathwayのみの場合ととSlowFast NetworkとのAVAの各クラスごとの精度比
較。Fast pathwayを使用することで動き情報が大きく影響しそうなクラス
（hand clap, swin等）の精度向上が顕著に見られる

TSM: Temporal Shift Module for Efficient Video
Understanding
Poster
Links
paper code website

Summary
• 動画認識の 2DCNNベースの手法
• Temporal Shift Module（TSM）という特徴マップを時間方向にシフトする
モジュールを導入し、2DCNN と同等の計算コストを保ちながら 3DCNN
のような効率的な時間方向の特徴抽出を実現
• オフラインでの動画認識のための bi-directional TSM を提案し、
Something-Something leaderboard で SOTA を実現
• オンラインでのリアルタイム動画認識をエッジデバイスで行うことができる
uni-directional TSM を提案 demo video

Method
• 全体のネットワーク構成：サンプリングした各フレームを 2DConv に通した後のfeature
map を時間方向にシフトして次の conv へ通す構造を繰り返す
• Shift の詳細
• Shift 自体は演算なしで行われるので計算コストはないが、全 channel をシフトさせ
るのは推論の遅延や精度の低下を産むため、 partial shift を採用
• Shift の組み込み方としては左下図の In-place TSM と Residual TSM を比較し、
精度の高かった Residual TSM を採用
• Offline では各フレーム間で bi-directional に Shift を行うが、
Online では future frame がわからないので Uni-directional な Shift を行う
cited from the paper cited from the website

Results
• Kinetics, UCF101, HMDB51：動き情報に敏感でないデータセット
• Something-Something, Jester：動き情報に敏感なデータセット
• 左図：TSM を 2DCNN baseline（TSN）に加えて、全データセットで精度向上
TSM は動き情報のモデリングを主眼に置いているので、
Something-SomethingやJesterでは精度の向上が顕著に現れている
• 右図：様々なバックボーンで精度を向上させている

Results
• 左図：Something-Somthing dataset での TSM と既存手法との比較
TSM は 2D baseline の性能を向上させるだけでなく、 SOTA の性能を発揮している
• 右図：TSM と他手法との精度と計算コストのトレードオフの比較
TSM が ECO や I3D ベースの手法と比べて低い計算コストで高い性能を発揮しているこ
とがわかる

Video Object Segmentation using Space-Time
Memory Networks
Oral
Links
paper code video

Summary
• Memory Network を導入することで、計算コストを低く保ちつつ過去フレームと Target フ
レーム間の類似性を用いて Memory から適応的に特徴を読み出す
Video Object Segmentation 手法の提案
• 途中フレームも全て活用することで、 Appearance Changes, Occlusions, Drifts に
より対処できるようになった

Method
• Memory Encoder（4 channel の ResNet50）
• 初期 Frame w/ GT maskと、過去 Frame w/ Predicted Mask から Key-Value map
を抽出する
• Query Encoder
• Target frame から Key-Value map（query 特徴）を抽出する
• Frame 数制限はなく、Memory 特徴は Frame が進むたびに動的にスタック

Method
• Key map は見た目の変化に頑健な Semantic 特徴
• Value map は背景・前景判定やマスク生成に有用な Local 特徴
• Query の Key map を用いて Memory に格納されている過去 Frame から類似度の
高いものを抽出
• 図参照：Q-key と M-key の dot 積→softmax→それと M-value の dot 積
• 画像データセットから擬似的に動画中の Frame 群のような合成データを生成し、
事前学習に使用

Results
• Youtube VOS, DAVIS 2016/2017 で評価、どちらも SOTA 達成
• 速度と精度のバランスを考慮し、 5 Frame ごとに Memory に追加
Youtube VOS DAVIS 2017

• Co-Mining: Deep Face Recognition with Noisy Labels
• Fair Loss: Margin-Aware Reinforcement Learning
for Deep Face Recognition
• Occlusion Robust Face Recognition Based on Mask Learning with
Pairwise Differential Siamese Network
• Detecting Photoshopped Faces by Scripting Photoshop

Co-Mining: Deep Face Recognition
with Noisy Labels
Oral
Links
paper code video

• 大規模顔認証データセットのノイズに対して、既存手法の問題
• ノイズを効果的かつ正確に検出できない
• 標本選択バイアスによって引き起こされるエラー累積問題を意識していない
• クリーンなサンプルが識別特徴を学習するための重要性を無視している
• ノイズが多いラベルを持つ大規模な顔認証データセットで学習するためのコマイニング手法
を提案
Summary

Method
Co-Miningフレームワーク
• ミニバッチサンプルを、ノイズラベル、高信頼度のクリーンフェイス、
クリーンフェイスの3つを識別

Method
• ノイズラベルの検出
• baseline：Are-Softmax loss
• 損失値を手がかりとして、ノイズラベルの検出を行う
• 高信頼度のクリーンフェイスの交換
• 標本選択バイアスに引き起こされるエラー累積問題を軽減するために高信頼度のク
リーンフェイスを交換
• クリーンフェイスのRe-weighting
• Re-weighting関数：　　　　　　　　　　　　（ μ >= 0）
• クリーンフェイスに重みを付けて、識別特徴を学習

Results（on Real-World Data）
• Baselineやほかの６つのSOTA手法より、良いパフォーマンス
• MsCeleb-Rで学習し、RFWで評価、SOTA達成
• VggFace2-Rで学習し、MegaFace Challengeで評価、SOTA達成
cited from the papercited from the paper

Fair Loss: Margin-Aware Reinforcement
Learning for Deep Face Recognition
Poster
Links
paper

Summary
• 大規模顔認証データセットは各クラスのサンプル数が不均衡問題
• 既存のマージンベース手法がマージン値を固定させているので、不均衡問題を無視（ a, b）
• 多数クラスが比較的小さいマージン、少数クラスが比較的大きなマージンが必要（ c）
• マージンを考慮した強化学習（ Q−Net）ベースの損失関数Fair Lossを提案

Method
• すべてのクラスをサンプル数とクラス内の分散でグルーピングし、手動でマージンを変更した
CNNを学習してサンプルを収集
• 収集されたサンプルを使って、マージン適応策（マルコフ決定過程として）のエージェントを学習
• エージェントからのアクション出力によって、マージンが変化するネットワークを学習

Method
Loss Function
• Based on CosFace:
• Based on ArcFace:
Agent Training

Results
LFW, YTF, MegeFace Challenge 1 (MF1), MegaFace Challenge 2 (MF2)のSOTAとの比較

Occlusion Robust Face Recognition Based on
Mask Learning with Pairwise Differential
Siamese Network
Poster
Links
paper

Summary
• 一般的なディープCNN顔モデルは、遮蔽の汎化性が不十分
• 顔の遮蔽ブロックとその影響を受けた特徴の対応関係を学習できる
Pairwise Differential Siamese Network（PDSN）を提案
• 顔の任意の部分的な遮蔽での CNNモデルのパフォーマンスを改善

Method
• 提案されたPDSNネットワークを使用して、顔の遮蔽ブロックとその影響を受けた
特徴要素間の対応関係をキャプチャする
• 学習したマスクジェネレータからマスクディクショナリを確立する
• テスト段階でディクショナリからの遮蔽部分の feature discarding mask（FDM）を
ランダムで組み合わせ、元の feature と乗算することにより、遮蔽部分の影響を消す

Results
MegaFaceとARデータセットで検証し、 SOTAを達成

Detecting Photoshopped Faces
by Scripting Photoshop
Poster
Links
paper code

Summary
• Face-Aware Liquify (FAL)ツールで大規模な偽顔データセットを作成
• Photoshopでワープされた顔画像の検出及び Undo状態への復元手法を提案

Method
• 顔画像がワープされたか否かを判定するため、 Dilated Residual Network variant
（DRN-C-26）で二値分類器を訓練
• 低解像度および高解像度のモデルを訓練することにより、解像度の影響を調査
• 訓練中、顔画像をランダムに左右反転させたり、 384ピクセルまたは640ピクセルにクロッ
ピングさせたりする
cited from project page

Method
• オリジナル画像からワープ画像への optical flowフィールドを予測し、
それを逆にしてオリジナル画像を復元する
• flow predictionモデルFを訓練し、ピクセルごとのワーピングフィールドを予測し、
各トレーニング例の近似 ground-truthのフローフィールドまでの距離を測定する
• 誤ったフロー値を消すため、前後の一貫性テストに失敗したピクセルを破棄する
cited from project page

Experiment

Results
顔画像がワープされたか否かの識別精度について、提案手法が人工（ 53.5％）より大幅に向上
（99.8％AP）

紹介する論文
SinGAN: Learning a Generative Model from a Single Natural Image

SinGAN: Learning a Generative Model from a
Single Natural Image
Oral
Links
paper code video

Summary
• Single-Image: 一枚の画像から表現を学習する
• Multi-Scale: 多スケールで生成・伝搬
• Unconditional: 推論時は任意サイズのランダムノイズを入力

Method
学習画像生成画像
ランダム
ノイズ
画像
粗いスケール (大きな構造) から学習する
伝播、下のスケールは freeze
x0.75ずつ
スケール

Method
DiscriminatorによるGAN lossと、ゼロ入力をGround Truthに対応させるReconstruction Loss
Fake Real

Results
入力ノイズ画像のサイズに応じた、ランダムな画像の生成学習画像
学習画像テクスチャの生成
イラストの「注入」アニメーションの生成例
(画像をクリックすると tweetに飛びます)

• 3D-LaneNet: end-to-end 3D multiple lane detection
• Learning Lightweight Lane Detection CNNs
by Self Attention Distillation
• Joint Monocular 3D Vehicle Detection and Tracking
• Learning Object-Specific Distance From a Monocular Image
• Digging Into Self-Supervised Monocular Depth Estimation
• How Do Neural Networks See Depth in Single Images?

3D-LaneNet: End-to-end 3D Multiple Lane
Detection
Poster
Links
paper

Summary
• 内部パラメーターと一部の外部パラメーターを固定にして、残りの外部パラメーターと 3d空
間における区画線を検出する手法を提案
• 従来semantic segmentationの手法で区画線を検出するのではなく、
物体検出のanchorと似たような手法を提案
• Front-viewの画像を入力として、 front-viewのfeatureだけではなく、top-viewのfeatureも推
定し、一部の外部パラメーターと 3d空間の区画線を出力

Method
モデルアーキテクチャー

Method
Anchor
• 道路座標系（top-view）とカメラ座標系
（入力画像front-view）があって、モデルの
出力は道路座標における区画線の座標
• 区画線branchが出力したtensorのshape：
N × 1 × 3 · (2 · K + 1)
• N: anchorの数、K:一本の区画線に関して、
k個の点を出力

Results
•

Learning Lightweight Lane Detection CNNs
by Self Attention Distillation
Poster
Links
paper code

Summary
• Attention distillationを用いて区画線を検出する手法
• 通常のdistillationでは精度が高い教師モデルが精度が低い生徒モデルに情報を与える
のでネットワークが二つあるが、提案手法では自分が自分自身に情報を与えるので
一つのネットワークで構成されている
• 出力に近い層が入力に近い層に情報を与える。情報は attentionの形式で与えられる

Method
Attentionマップの作り方
• チャンネル*縦長*横幅の三次元畳み込み feature mapを縦長*横幅の二次元feature map
に変換する
• 各グリードにチャンネル方向で値をマージする、具体的にはこれらの値を二乗し、
足し合わせる

Method
モデルアーキテクチャー
• 最大4本の区画線を検出できる、検出された区画線方が１、されなかった区画線の方が０
が出力される
• 各レイアのFeature MapからAttention Mapが算出されて、隣接のレイアの Attention Map
のL2 ロスが算出される

Joint Monocular 3D Vehicle Detection and
Tracking
Poster
Links
paper code

Summary
• 単眼のカメラだけで、車両の三次元情報を検出＆トラッキングできる手法を提案
• パイプラインは四つのパートに分かれる
• 各フレームに対して、物体検出を行う
• 3dの情報（位置、向き、 depth）を推定
• 3d情報を使って、フレーム間の物体のトラッキングを行う
• LSTMで物体のtrajectoryを予測

Method
• 各フレームに対して、物体検出を行う
• 検出するもの：2d bounding boxの座標、このフレームに投影された 3d bounding
boxの中心の座標、物体の向き、三次元の物体のスケール
• フレーム間のトラッキングを行う
• フレーム間の物体の depthの情報を考慮
• occlusionによる一時的な未検出によるトラッキングの途切れも対応

Learning Object-Specific Distance
From a Monocular Image
Poster
Links
paper

Summary
• 単眼カメラの画像から、物体ごとに距離を回帰する CNN を提案
• inverse perspective mapping などの古典的手法では勾配の変化があるような場所では距離の誤差が大
きくなってしまうが、提案手法ではそのような状況下でも正しく距離を推定できる
• KITTI, nuScenes において point cloud と 3D bbox を用いて物体ごとの距離ラベルを生成し、距離推定タ
スクのデータセットを作成した

Method
• 別の物体検出器で検出した box に対して ROI pooling した固定サイズの特徴マップを全結合層に
入力し、距離を回帰する
• 距離の回帰と同時に物体のクラス分類を行うことで、category-aware な距離の学習を行う
（推論時はクラス分類の結果は使用しない）
• 物体の 3D key-point も同時に学習・回帰することで、距離の精度をさらに向上

Results
既存手法の inverse perspective mapping などと比べて距離の推定誤差が小さく、
特に既存手法が苦手とする勾配のあるシーンなどで精度が大きく向上した
ground truth
inverse
perspective
mapping
proposed
enhanced model

Digging Into Self-Supervised Monocular
Depth Estimation
Poster
Links
paper code

Summary
• 単眼カメラによるdepth推定は、ground truthデータの獲得が難しいため、 self-supervised
learning を用いた手法が近年盛り上がっている (Zhou et al.)
• 本論文の手法Monodepth2では、シンプルなパイプラインで高精度な単眼 depth推定を可
能とした。
• 手法１：遮蔽に対してロバスト化する minimum reprojection loss
• 手法２：アーティファクトを低減する full-resolution multi-scale sampling method
• 手法３：学習の邪魔となる動物体などの画素領域をマスクする auto-masking loss

Method
• Depth Networkはエンコーダ（ResNet18）とデコーダー（シンプルな upsampler Network）
からなるU-Net構造となっており、depth mapが出力される
• Pose Networkは2フレームをスタックして Res18に入力するシンプルな構造で、
2フレーム間のカメラの transformationが出力される
• それぞれのNetworkのエンコーダはweight sharingをしない方が精度が高い
• Pose Networkへの入力は、既存手法で採用されてきた 3フレームより、2フレームの方が
精度が高い

Method
手法１：遮蔽に対してロバスト化する minimum reprojection loss
• 推定したdepth map, camera poseの変化を用い、入力画像It’をワープした推定画像It’→tを得る
• 目的関数は入力画像ItとIt’→tのPhotometric Reconstruction Error、SSIMとL1の組み合わせ
• フレームの途中である領域が遮蔽される場合、error が不連続に大きくなるため、複数フレームのmin を取る
ことでロバストにする

Method
手法３：学習の邪魔となる動物体などの
画素領域をマスクする auto-masking loss
手法２：アーティファクトを低減する full-resolution
multi-scale sampling method
すべてのスケールのdepth mapを入力画像サイズに戻し、
それぞれ推定画像を生成してマルチスケールでphotometric
lossを計算する。
これにより、生成画像のアーティファクトを低減できる
従来はPose networkの出力にデコーダを追加し、maskを学
習していた
本手法では、入力画像シーケンスにおいて、フレーム間の
photometric lossが小さくなる、つまり静止している領域を指
定してマスクし、loss対象外とする

Results
depth教師がある場合
単眼, self-supervised
SfmLearner
ステレオ, self-supervised
いずれの条件においても、既存手法を上回る depth推定精度を示した

How Do Neural Networks See Depth
in Single Images?
Poster
Links
paper

Summary
• 単眼距離推定CNN は、画像中の物体の大きさではなく、物体の縦位置 (y座標) に
着目して距離を推定していることを実験的によって確かめた
• 教師あり/教師なしの両方のモデルを含む 4種類の CNN に対して評価を行った結果、
どのモデルも上のような傾向を示すことが明らかになった

Method
• カメラの幾何を考えると、物体の距離の手がかりとなるのは、画像上での物体の
大きさと、物体の画像上での縦位置 (y座標) と考えられる
• KITTI データセットの画像に、距離に応じて : (1)大きさと縦位置を変化させる
(2)縦位置だけを変化させる (3)大きさだけを変化させるの3パターンで擬似的に
車両を合成し、その車両に対して CNN が推論した距離を評価した

Results
1. 距離に応じて合成車両の大きさと縦位置を変化させた場合
どの CNN も車両までの距離を正しく推定することができた
2. 縦位置だけを変化させた場合も、 1. に比べて誤差は
大きくなるが、概ね正しく距離を推定できた
3. 大きさだけを変化させた場合、どの CNN もほぼ一定の距離
を推定してしまい、正しく距離を推定できなかった
以上の結果から、物体の縦位置が距離の推定には重要で
あることが明らかになった

紹介する論文一覧とサマリ
• Sampling-free Epistemic Uncertainty Estimation
Using Approximated Variance Propagation
• AdaTransform: Adaptive Data Transformation
• Many Task Learning With Task Routing

Sampling-free Epistemic Uncertainty
Estimation Using Approximated Variance
Propagation
Oral
Links
paper code video

Summary
• 未知のデータに対するモデルの信頼性を測ることができる epistemic uncertainty を、
Monte-Carlo Dropout のような sampling を用いずに推定する
• 数十~数百回の forward 計算を必要とする sampling ベースの手法と異なり、
epistemic uncertainty の推定を大幅に高速化した
• classification task および regression task の両方において提案手法を評価し、
提案手法の有効性を示した

Method
• Dropout などの noise レイヤに起因する activation の covariance matrix を求め、
それを一層ずつ伝搬させていくことで、ネットワークの出力に対する不確かさを得る
• 全結合や畳み込みなどの線形な演算であれば、重みパラメータを用いることで
covariance matrix を伝搬させることができる :
• 活性化関数など非線形な演算が含まれる場合、一次近似によって線形化し、
ヤコビアンを用いることで、近似的に covariance matrix を伝搬させる:

Method
• CNN の特徴マップに対する covariance matrix の要素数は (C×H×W)^2 でありメモリ効率が悪い
• 畳み込みでは、近隣の activation のみが非ゼロの共分散を持つ
• さらに、ReLU では負の activation がゼロに切り上げられるので、ReLU を作用させるたびに activation の
不確かさが減り、近隣の actication 間の共分散もほぼゼロとみなせるようになる
• よって、多くのCNNで用いられる畳み込み + ReLU においては、covariance matrix の対角成分
(要素数: C×H×W) だけを考慮すれば十分

Results: Semantic Segmentation
• Bayesian SegNet を CamVid で学習・評価
• MC-dropout (N=50) で求めた uncertainty と提案手法で求めた uncertainty は定性的によく一致
• 分類精度と uncertainty の関係もよく一致している
• sample に比例して推論時間が増える MC-dropout に比べ、提案手法はかなり高速

Results: Depth Regression
• 単眼 depth 推定モデルに対し、最後の conv の直前に dropout を入れ、KITTI で学習・評価
• MC-dropout (N=50) で求めた uncertainty と提案手法で求めた uncertainty は定性的によく一致している
• depth の推定精度と uncertaity の関係もよく一致している
• synthetic data での実験と同じく、 MC-dropout の sample 数を増やしていくと、 uncertainty が提案手法に
よって求めた uncertainty に漸近している
Cited from the paper Cited from the paper

AdaTransform: Adaptive Data Transformation
Oral
Links
paper video

Summary
• 学習中に適応的に Augmentation パラメータの更新を行う新たな
Image Augmentation フレームワークの提案
• 課題：従来の Image Augmentation はドメインやデータセットの性質に依存し、
学習中は更新されず固定
• 学習時にはデータの Invariance を高め、かつテストに時は Invariance を軽減する
ような Transformer を学習したいというモチベーション

Method
• 学習向けとテスト向けの Transform を同時に学習
• Competitive Task（学習向け）：
• 分類器 Loss と Discriminator Score の和を最大化
• 分類器にとって難しく、かつ分布から外れない Transform を学習したい
• Cooperative Task（テスト向け）：
• 分類器 Loss を最小化
• 分類器にとって簡単な Transform を学習したい
• Discriminator をかませることで、Transformer が分布から外れた画像を出力することを防
いでいる

Method
• Target Network は、Transform を行った Loss と行わない Loss の和を最小化する
ように学習
• 微細な変化を加える Meta-transform を定義してそれらを K ステップ行い、
各ステップに報酬を割り当てる。サンプリングと Policy Gradient を用いて Backward
（言語生成等でも用いられるテクニック）

Results
• Classification, Pose Estimation, Face Alignment の3タスクで評価
• CIFAR, MPII(pose), LSP(pose), NME(face alignment)
• ベンチマーク結果：CIFAR においては既存の Auto Augment よりも探索時間が
少なく Competitive な精度を達成
• Pose Estimation と Face Alignment においては既存の Adversarial Augmentation
と比較して精度が向上した
• Testing Perturbation に対するロバスト性が高い

Many Task Learning With Task Routing
Oral
Links
paper code video

Summary
• 一定割合の重みはタスク間で共有しつつ、タスク固有の重みも保持するための
Task Routing Layer (TRL) を導入
• タスク数が20を超える場合のマルチタスクを Many Task Learning (MaTL) と
定義し、従来の Multi Task Learning (MTL) と区別
• マルチタスク学習におけるタスク数のスケーラビリティを向上させ、最大 312 tasks を同時
に解かせている。複数の MTL ベンチマークで SOTA

Method
• 本論文で扱う MTL は、補助タスクの学習によってメインタスクの精度向上を
期待する Asymmetric MTL は目的としない
• TRL は Conv の出力マップに対するマスクとして働き、一定割合の特徴マップを
無効化する
• Route（マスク）は学習開始時にタスク毎にランダムに設定され、学習中は更新無く保持さ
れる
• タスク毎のサブネットが固定なので、他タスクの学習による悪影響を受けづらい

Method
• Layer の位置は BN の後（Conv → BN → TRL → ReLU）
• 共有率 σ によって全タスクで共有される重みの割合が決まる
• イテレーションごとに学習タスクをランダムに選択し、そのタスクの TRを適用する
• 入力 X を　　　　　　　　　
• Route（マスク）を　　　　　　
• TRL は

Results
• UCSD Birds, Visual Decathlon, その他多数のベンチマークで評価
• Birds 312 tasksで Accuracy 66.5, VDで Score 2919.26 と SOTA
• 共有率 σ は本実験においては 0.4 が最良だった

Results
• UCSD Birds データセットにおける、タスク数と精度の関係
• タスク数が大幅に増加しても、 TRL を用いた本手法は精度を維持

ICCV 2019 論文紹介 (26 papers)

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a ICCV 2019 論文紹介 (26 papers)

Similar a ICCV 2019 論文紹介 (26 papers) (20)

Último

Último (8)

ICCV 2019 論文紹介 (26 papers)