ECCV2020 Oral論文完全読破(1/2)

ECCV 2020 Oral論文完全読破 (1/2)
cvpaper.challenge
http://xpaperchallenge.org/cv

cvpaper.challenge?
　日本のCV分野を強くするチャレンジ！
◆ 論文読破・まとめ・発想・議論・実装・論文執筆に至るまで取り組む 
Survey Member: 約500名 
Research Member: 約60名 
（産総研/筑波大/東工大/電大/早大/慶大/東大/岐阜大/中部大） 
年間1,000+本/合計4,000+本の論文まとめ 
全てWeb上にて無料公開 
25+本/年のTOP会議論文採択 
含CVPRx2/ICRAx3/BMVC/ICCVW/CVPRW/ECCVW/ICPRx2  
CVPR 2015/2018 完全読破チャレンジ 
ECCV 2018 網羅的サーベイ 
cvpaper.challengeの研究プロジェクト 
CV分野の今を映し, トレンドを創る挑戦 
人を見ない人物行動認識  
ECCV16WS Award
ViEW16若手奨励賞 
Dynamic Fashion Cultures 
MIRU17学生奨励賞 
# イメージ図
NIDB
Near-Miss Incident DB
交通事故解析/予測 
ICRA18/CVPR18
3D-ResNets-PyTorch
CVPR18/GitHub世界4位 
その他多数のProj.が推進中 
多読/精読により知見獲得 
学生のトップ会議投稿&参加 
網羅的動向把握からテーマ考案 
HP: http://xpaperchallenge.org/
Twitter: @CVpaperChalleng

How to join cvpaper.challenge?
http://xpaperchallenge.org/cv/recruit

概要
● CV分野のトップ会議ECCV 2020の論文まとめ
○ 現在までの会議速報/報告
■ CVPR 2016 速報: https://www.slideshare.net/HirokatsuKataoka/cvpr-2016
■ ECCV 2016 速報: https://www.slideshare.net/HirokatsuKataoka/eccv-2016
■ CVPR 2017 速報: https://www.slideshare.net/cvpaperchallenge/cvpr-2017-78294211
■ ICCV 2017 速報: https://www.slideshare.net/cvpaperchallenge/iccv-2017
■ CVPR 2018 速報: https://www.slideshare.net/cvpaperchallenge/cvpr-2018-102878612
■ CVPR 2019 速報: https://www.slideshare.net/cvpaperchallenge/cvpr-2019
■ CVPR 2020 報告: https://www.slideshare.net/cvpaperchallenge/cvpr-2020-237139930
○ 研究コミュニティcvpaper.challenge内で作成

本資料はOral論文のまとめを記載
● 本資料
○ Oral論文
■ 研究の概要，提案手法・新規性，結果
■ ＋αの情報(github, project page, 読んだ感想など)
● 論文サマリ
○ Spotlight, Poster論文のまとめ
概要

Session 104本のOral論文の内訳(Program参照)
● 3D geometry & reconstruction (4本)
● 3D geometry & reconstruction (10本)
● Geometry, mapping and tracking (12本)
● Image and video synthesis (14本)
● Learning methods (7本)
● Looking at humans (13本)
● Low level vision (13本)
● Recognition & detection (13本)
● Segmentation & scene Interpretation and description, language (12本)
● Video & action understanding (6本)
ECCV 2020 Oral

ECCV2020の動向・気付き
• ECCV 2020 ONLINE 
– 最も大きな違いは現地開催 -> オンライン開催 
• COVID-19による影響 
• ECCV Portalサイトをオープン

https://www.youtube.com/watch?v=NLP5mTuaOFE
– 投稿数5,150本，採択数1,360本（採択率26.0%） 
• エリアチェア(AC) 1,926人，査読者2,830人で捌く 
• AC 一人あたり25本を処理

https://www.youtube.com/watch?v=NLP5mTuaOFE
– Google がNo.1 
– 企業はGoogle, Facebook, Microsoft等 
– Facebookを抑えて中国の3大学が上位にランクイン！ 
– Stanford Univ., MIT, CMUより上位に5つの中国の大学がランクイン！

Oral論文 
まとめスライド 
104本

・三次元点群に曲面をフィッティングするロバストな手法の提案
・PointNetで各点ごとの重みを推定し重み付き最小二乗法でフィッティングする
DeepFit: 3D Surface Fitting via Neural Network Weighted Least Squares
まとめた人：Naoya Chiba

提案手法・新規性
・各点ごとにkNNで点群を切り出し，PointNetで点ごとの特徴量→重みを推定
・各点の座標と推定した重みからn-Jetでフィッティング．法線ベクトルと
　主曲率が得られる
・自明な解に収束しないように正則化を導入

結果
・PCPNetと同じデータセットで学習，RMSE・再構成結果（図）による評価．
・主曲率の推定（図下）についても良好な推定結果が得られている．

結果
・ノイズや（異方性の）密度変化に対して評価，提案法のロバストさがわかる

+αの情報
・著者コード(PyTorch)：https://github.com/sitzikbs/DeepFit
・データセット：http://geometry.cs.ucl.ac.uk/projects/2018/pcpnet/
・点群深層学習関連のテーマで研究を進めており，RA-L，CVPR，ECCVに
　論文を発表している

・服の3Dデータセット，再構成のベースラインの提案
Deep Fashion3D: A Dataset and Benchmark for 3D Garment Reconstruction from Single Images
まとめた人：Hayata Ebisawa

・モデル数，カテゴリ数
，Annotetionsが増えた．
・feature lineが再構成に大きく役
立っている?

結果
・CD, EMDでともにSOTA
・結果の画像もかなりきれい．

・2D-3D対応情報を一切必要としない，PnP問題のSolver提案
・シミュレーション，実データ共に，既存手法を上回る性能と主張
Solving the Blind Perspective-n-Point Problem End-To-End With Robust Differentiable Geometric Optimization
まとめた人：Yoshiyuki Yamariku

・特徴点抽出，2D-3D対応付けは既存の学習ベースの手法をそのまま適用．
・その後ろに，カメラ姿勢最適化を行う，宣言型ネットワークを導入した．
・Blind PnP問題を解く初のend-to-endネットワークの提案．

結果
・Synthetic Dataでの評価結果．
・提案手法と従来手法3種での，カメラ姿勢・再投影誤差の比較．
・データセットは，ModelNet40を使用．
・提案手法が最も誤差が低い．

結果
・Real Dataでの評価結果．
・提案手法と従来手法3種での，カメラ姿勢・再投影誤差の比較．
・データセットは，MegaDepthを使用．
・提案手法が最も誤差が低い．

+αの情報
・著者コード(PyTorch)：[リンク]
・ECCV Oral Youtube：[リンク]
・ECCV2020には3本の論文を通している研究室
・CVPR/IROS等への実績も多い
・Blind PnP問題の研究として，今後も引用されていくと思われる．

・衣服と人物モデルの推定を経由し，衣服のサイズが異なる場合どうなるかを推定
・実計測による衣服のセグメンテーションとSMPL+Gのデータセットを準備し公開
SIZER: A Dataset and Model for Parsing 3D Clothing and Learning Size Sensitive
3D Clothing

・ParserNet: 入力メッシュからSMPLパラメータ推定と衣服のセグメンテーション
　テンプレートメッシュからの変形として推定
・SizerNet: 衣服パーツ・人体メッシュから衣服サイズが異なる場合についての
　衣服メッシュを推定

結果
・ParserNetについて
　ナイーブな実装と比較してメッシュ頂点の座標の誤差が小さい
　服の「しわ」や「たれ」を含めて再構成できることを確認
　セグメンテーションもうまくできている

結果
・ParserNet+SizerNetでの結果
　異なるサイズの服を着た場合の衣服の様子をうまく再現できている

+αの情報
・著者コード(PyTorch)：https://github.com/garvita-tiwari/sizer
・データセット：（プロジェクトページからリンク）
・project page：https://virtualhumans.mpi-inf.mpg.de/sizer/
・人体形状・衣服関連の研究成果を多数トップカンファレンスで
　発表しているグループ．ECCV2020では5本発表
・データセットを作成・公開

・Implicit Field Regressionによる三次元メッシュの生成
・サンプリング手法の見直しによる高速な学習の実現
・明示的な対称性の活用により隠れにロバストなメッシュ推定
Ladybird: Quasi-Monte Carlo Sampling for Deep Implicit Field Based 3D
Reconstruction with Symmetry

・サンプリング手法で性能が変わること，Discrepancy（小さいほどよい）で
　評価でき，よいサンプリング手法を用いると汎化誤差が改善することを示した
・ShapeNetの8割がxy軸対称な形状であることを指摘し，
　対称な点の特徴量を結合して用いる手法を提案（下図）．

結果
サンプリング戦略について，サンプル点のDiscrepancyと再構成誤差で評価
三段階のサンプリングのうち，一段階目と三段階目の部分を変更して比較
　　・一段回目（空間全体からサンプリング）： Grid, Jitter (Grid+Gaussian noise), Sobol
　　・二段階目（メッシュに近い領域に絞る）：距離に応じた確率分布，ここは固定
　　・三段階目（メッシュ付近でのサンプリング）： Random, FPS
Discrepancy（低いほうが良い）再構成誤差（低いほうが良い）

結果
対称性を利用した再構成の評価．対称性を考慮することで性能が向上
　CD，EMD：小さい方が良い，IoU：大きいほうが良い

+αの情報
・著者コード：https://github.com/FuxiCV/Ladybird （リポジトリのみ）
・データセット：ShapeNetCore-v1 https://www.shapenet.org/
・project page：https://sampling.mpi-inf.mpg.de/2020-xu-ladybird.html
・どちらかというとGraphics屋さんでSamplingに詳しい研究チームが
　CVにおけるImplicit Fieldの研究を進めた成果，という印象
・Implicit FieldをNNで近似する研究において，学習時・推論時ともに
　サンプリング戦略や積分の近似が重要な要素となりうるため，
　このような研究例はこの界隈での基礎固めとなりうる

・撮影点(x,y,z)と見る方向(θ,φ)に対応する画像のRGBと密度を予測
・輝度場を写真にRenderingする際の関数を最適化することで提案手法を実現
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
まとめた人：Koki Madono

・MLPで座標から色・密度の出力を行うネットワークを構築
・距離に対応する密度を最小化することでネットワークを最適化

結果
・NeRFと従来手法(LLFF, SRN, NV)を比較
・定性的評価で提案のNeRFが優れている点を示した

結果
・画質の評価指標（PSNR, SSIM, LPIPS)を用いて比較
・提案手法の画質が比較手法に比べて、大きく向上していることが確認可能

結果
・提案手法に用いた各要素を全て含めた際に性能が一番向上することを確認
-> モデル構成に無駄がないことを確認可能

+αの情報
・著者コード(PyTorch)：[https://github.com/bmild/nerf]
・データセット：[https://drive.google.com/drive/folders/128yBriW1IG_3NJ5Rp7APSTZsJqdJdfc1]
・project page：[http://tancik.com/nerf]
・Video : [https://youtu.be/JuH79E8rdKc]

・任意の与えられた状態から，カメラの位置を推定するためのSQPnPのアプローチ
・高速かつグローバルに収束する非多項式である手法の提案
A Consistently Fast and Globally Optimal Solution to the Perspective-n-Point Problem
まとめた人：anonymous

・PnPを[1,2]と同様のコスト関数を持つ非線形2次プログラムとしてキャストする．
・従来の問題を日多項式ソルバーの開発・独自の数学的フレームワークの確立により解
決．
・NOMPからの最小値の地域検索
・FOAMアルゴリズムを用いた高度な行列因数分解を解かず，多項式の直行金jい問題とし
て解いている．

結果
・提案手法と従来手法（各PnPソルバー）を500回実行し，比較・検証を加えた
・各PnPソルバーとの加法性ノイズのレベル・計算コストの比較・検証

Conclusion
・提案手法SQPｎPのアルゴリズムの一貫性の確保．
・PnP問題に対して提案手法でアプローチすることで，低コストの計算量で，解決できる．ま
た，この性能は現在最先端の解決手法と同等であることが，アルゴリズムアーカイブとの相
対的な評価として示される．

+αの情報
・ SQPnP is available at https://github.com/terzakig/sqpnp.
・.[1] Lu, C.P., Hager, G.D., Mjolsness, E.: Fast and globally convergent pose
estimation from video images. IEEE Transactions on Pattern Analysis and Machine
Intelligence 22(6), 610–622 (2000)
・[2]Schweighofer, G., Pinz, A.: Globally optimal O(n) solution to the PnP problem for
general camera models. In: British Machine Vision Conference. pp. 1–10 (2008)

・CGレンダリングにおけるPhong BRDFにヒントを得て、新しいサーフェスモデル「Phong
Surface」の提案
・トラッキングシステムにおいてはモデル表面の滑らかさと方位特性が重要なのでそれらを
持ちつつ最小構成なモデル
The Phong Surface: Efficient 3D Model Fitting using Lifted Optimization
まとめた人：Teppei Kurita

・勾配ベースのオプティマイザは連続的な導関数を持つ法線Fieldが最低条件であり、単純
な三角形メッシュでは不十分
・「可能な限りシンプルではあるが、これ以上はシンプルにならない構成」

結果
・Ground Truthポーズと比較したアライメント性能について既存手法と比較
・平均角度誤差の性能向上を確認

結果
・モデルフィットオプティマイザの収束速度の向上を確認
フィッティング結果の例

+αの情報
・Microsoft Mixed Reality & AI Labs
・著者ページ：https://www.microsoft.com/en-us/research/people/jinshen/publications/

・単眼画像からステレオ画像と視差画像を生成し，生成した画像を学習に用いることで，ス
テレオ深度推定ネットワークの推論性能が向上することを示した．
・ステレオ視差推定データセットのData augmentation手法という位置づけ．
Learning Stereo from Single Images
まとめた人：Shoji Sonoyama
CGのみで学習した場合と提案手法を用いて学習した場合の比較

Contributions
・単眼画像からステレオ学習画像を生成するパイプラインを提案したこと．
・従来のステレオ学習画像生成手法に比べて，シンプルで効果的なステレオ学習画
像が生成できることを示したこと．
・ CG画像を用いた学習よりも，本手法により生成したステレオ学習画像を用いた方が
，未知ドメインへの汎化性能が高いことを示したこと．

提案手法概要
・単眼画像から単眼深度推定ネットワークを介して，学習用のステレオ画像と視差画像を生
成するパイプラインの提案した．
・単眼画像に対応するステレオ画像は，視差画像の視差分単眼画像のピクセルをずらすこ
とで合成する．
提案手法のパイプライン

提案手法のポイント
・単眼深度推定で得られる深度画像は境界が曖昧[*1]
なので，Sobel filterを適用し，深度画
像をRefineする．これによりステレオ視差推定の性能が向上する．
・合成できない領域は他の単眼画像で穴埋めする．
[*1]単眼深度推定の学習Lossに平滑化項が含まれるためだと考えられる(まとめた人の私見)．
Depth refineによる，ステレオ視差推定の性能向上合成できない領域への穴埋め例

結果. 画像生成方法の違いによる性能評価
・画像生成方法の違いによる推定精度を従来手法と提案手法で比較する．
・生成画像で学習し，PSMNetにて評価する．
・評価対象のデータセットはKITTI {2012, 2015}, ETHI3D, Middleburryを使用し，っ評価
指標はend-point-error(EPE)とする．
・提案手法が最も良い性能が得られていることが読み取れる．
学習画像の生成方法の違いによるEPEの違い

+αの情報
・著者コード(coming soon)：https://github.com/nianticlabs/stereo-from-mono/
・著者が所属するNianticはSelf-superviseな深度推定のテーマで毎年CVPR/ICCVに通し
ている．
・特に単眼深度推定のパラダイムの中で重要なMonodepth系はNiantic発．

・Implicit Functionによる三次元形状表現とパラメトリックな3Dモデルを
　組み合わせた，人体の三次元形状の再構成手法
・人体のパーツごとにImplicit Functionで衣服込み（外側）の形状を推定してから
　対応を求めて人体表面（内側）をパラメトリックに記述する
Combining Implicit Function Learning and Parametric Models for 3D Human
Reconstruction

・マルチスケールなLatent Vectorを用いる
　Implicit Functionで，パーツラベルと
　人体内/人体外で衣服内/衣服外のクラスを推定
・SMPL/SMPL+Dのパラメータを最適化することで
　人体モデルをフィッティング

結果
・700のスキャンで学習，Render Peopleでテスト．
・外側の形状の再構成自体は既存手法と同程度の性能．
・直接フィッティング/パラメータを直接推定するよりも高い性能

結果
・3Dスキャンから提案法でパラメトリックな人体形状を推定．
・手の形状推定にも応用できた

+αの情報
・著者コード(PyTorch)：https://github.com/bharat-b7/IPNet/
・project page：http://virtualhumans.mpi-inf.mpg.de/ipnet/
・特に3D人体モデルに関して，次々とトップカンファレンスで発表している
　研究グループ，ECCV2020では5本発表
・Supplementaryが割と丁寧
・新しい手法へのキャッチアップから研究までが早い

・単一のRGB画像から3Dシーンを再構築する手法
・レイトレースに基づくskip-connectionを用いて局所情報を伝達
・空間内のオブジェクトを共通の座標フレーム内に再構築しオクルージョンに対応
CoReNet: Coherent 3D scene reconstruction from a single RGB image
まとめた人：Ryosuke Araki

・単一のRGB画像を入力して，シーン内の物体ごとにメッシュセットを出力
・物体の形状，カメラからの相対的な姿勢，クラスラベルを同時推定
・ray-traced skip conn.（赤矢印）でenc.からdec.に情報を伝播
　→enc.の情報をカメラのピンホールを通過させて
　　dec.に投影させるイメージ
出力：各グリッド内の
原点からのオフセット
3D decoderのグリッド：
分解能がk倍低い

結果
・データ：ShapeNet（合成データ，単一物体）
・ray-traced skip conn.で性能が向上
・high-realism画像でも結果が向上
・SoTAとの比較
・ours h5のモデルが最も高性能
・Pix2VoxよりmIoU 2.8%↑，
　Pix2Vox++よりmIoU 1.9%↑

結果
・データセット：Pix3D（実データ，単一・複数物体）
・model h7でテスト，実データを混ぜてfine tuningを行う
　→高いmIoU（Set1: 33.3%, Set2: 23.6%）が得られた
・複数の物体でも（物体同士がオクルージョンしていても）再構成可能（すごい）

+αの情報
・著者コード：https://github.com/google-research/corenet
　→確認時点（09/13）では404……今後公開される？
・Google Researchの論文！

・ステレオ深度推定をよりロバストに推定する問題設定．
・ドメイン変化に強いDomain-invariant Stereo Matching Network(DSMNet)を提案．
・CGで学習/実画像で推論を行った場合に既存手法よりも性能が高いことを示した．
Domain-invariant Stereo Matching Networks
提案手法(DSMNet)と既存手法(GANet)の比較

・ドメイン変化を正規化するDomain Normalization layer(DN)と，アーチファクトや歪みの
影響を軽減するStructure-preserving Graph-based Filtering(SGF)を提案．
・これらを組み込んだのがDSMNet．
既存の正規化手法と DNの比較 DSMNetのネットワーク構造

結果1. DNとNFLの有効性評価
・Ablation studyにより，提案モジュールの有効性を評価．
・CGで学習し，実データで性能評価を行い，提案モジュールの有効性を示した．
NormalizationとSGF数の違いによる性能の変化
既存手法との性能変化比較

結果2. ドメイン変化に対する性能評価
・CGで学習した既存手法/fine tuningした既存手法/CGで学習した提案手法を比較．
・fine tuning済みの従来手法よりも，CGで学習した提案手法の方が性能が良いことを示し
た．
既存手法との性能比較 (全てCGで学習) 実画像で学習した既存手法と
CGで学習した提案手法の比較

+αの情報
・著者コード(PyTorch)：https://github.com/feihuzhang/DSMNet
・第一著者のZhang氏はKITTIのステレオ深度推定問題で上位を取ったGA-Netの著者で
もある．

・三次元点群のオートエンコーダーの提案
・学習時にメッシュの情報を利用したオートエンコーダーと同時に学習することで
　再構成の性能を向上
Intrinsic Point Cloud Interpolation via Dual Latent Space Navigation

・形状の補間において各エッジの長さをできるだけ保つように変形すると良い
・点群のオートエンコーダーがこのような潜在空間を学習するよう，
　エッジの長さについてのオートエンコーダーにおける潜在空間と相互に
　変換できるように学習する
純粋な線形補間ではアーティファクトが生じる

結果
・DFAUST，SURREAL，SMALで学習・評価．汎化性能をみるためSCAPEでも評価
・各既存手法/最適化ベース（高計算コスト）と比較し，幾何的な歪みが少なく
　再構成も高精度にできた

+αの情報
・著者コード：https://github.com/mrakotosaon/intrinsic_interpolations
・データセット：DFAUST, SURREAL, SMAL
・教師なしでも用いることのできる，よい3D形状の潜在空間表現を学習する手法

・SoftPoolNetと呼ばれるエンコーダー /デコーダーアーキテクチャを導入することで，パッチ変形操作のシミュレーショ
ンを行い，精度の3Dオブジェクトの完成方法を提案
SoftPoolNet: Shape Descriptor for Point Cloud Completion and Classification
まとめた人：宮城直（ Sunao Miyagi）

・SoftPoolNetと呼ばれるエンコーダー /デコーダーアーキテクチャを導入することで，複数の機能をアクティブ化し、必
要な順列を維持しながらより多くの情報を保持するための改善

結果
・提案手法と従来手法を比較
・入力の各ポイントからその最近傍の平均距離出力 ,最小一致距離（MMD）,平均面取りディスパー連続するフレーム
内の同じインスタンスの完了出力間の間隔の評価指標で評価を行った

結果
・NVIDIA Titan Vとパラメーターを使用してモデルをトレーニング
・リージョンの数が増え続けるにつれて、パフォーマンスは徐々に低下することがわかる

+αの情報
・Yida Wang [https://www.researchgate.net/profile/Yida_Wang]
David Joseph Tan[http://campar.in.tum.de/Main/DavidTan]
Nassir Navab[https://scholar.google.de/citations?user=kzoVUPYAAAAJ&hl=ja]
Federico Tombari[https://scholar.google.com/citations?user=TFsE4BIAAAAJ&hl=ja]
Technische Universitat Munchen, Google Inc
・project page：[https://www.merl.com/research/license#KCNet]
・この研究室は毎年のように CVPRに論文を通している
Mining Point Cloud Local Structures by Kernel Correlation and Graph Pooling　CVPR'18.
https://arxiv.org/abs/1712.06760
Adversarial Semantic Scene Completion from a Single Depth Image
2018 International Conference on 3D Vision (3DV)

Geometry, mapping and tracking

・四元数を用いることで回転にロバストな特徴を学習するカプセルモジュール
・分類と回転方向推定を同時に行い有効性を確認
Quaternion Equivariant Capsule Networks or 3D Point Clouds
まとめた人：工藤航

・回転不変の特徴量を得るquaternion equivariant capsuleを提案
・各回転用のcapsuleからのvoteを計算することで回転にロバストに
・位置推定は各点群のcapsuleの出力から算出する

結果
・分類と回転角推定でSoTA
・分類では最小のパラメータ数に

+αの情報
・GitHubリポジトリ : https://github.com/yongheng1991/qec_net
・Oralビデオ : https://www.youtube.com/watch?v=LHh56snwhTA
・CVPR2019にこの著者が出した「3D Point Capsule Networks」の拡張
・↑はCVPR2019のチュートリアルの一つにもなっていて盛り上がっている
・カプセルネットワークの例に漏れず学習データの数が多く必要
・点群＋capsuleの特徴として密度に敏感なことに留意

・6Dの教師ラベル不要な自己教師あり学習による6D物体姿勢推定手法
　(a)：合成画像（RGB）で物体姿勢を学習
　(b)：リアル画像（RGB-D）で(a)の姿勢推定結果をrefinementするように学習
Self6D: Self-Supervised Monocular 6D Object Pose Estimation
まとめた人：Ryosuke Araki

・ネットワークは赤枠，対象物体のRoIから物体の回転，重心，距離，マスクを得る
・回転Rと重心tを微分可能レンダラに入力してRGB-D画像と物体マスクを得る
・誤差を取る
　- NWから得たマスク
　- 観測されたRGB-D画像
・NW・レンダラを含め微分可能
　→End-to-end学習可能

結果
・w/o Real pose label手法と比較して大きな精度向上，w/ Real pose手法に匹敵
LineMODデータセットでの比較結果
HomebrewDBデータセットでの比較結果
LineMOD Occlusionデータセットでの比較結果

結果
・LineMODを用いたAblation studyの結果
・左表：損失の各要素の有無を比較，Lmask
とLgeom
がないと学習が不安定に
　　　　その他の3つが性能に与える影響は少ない
・右図：100サンプルで最適化を200回，損失が継続的に低下
※ADD-Sのaverage recall (%)

+αの情報
・著者コード(PyTorch)：https://github.com/THU-DA-6D-Pose-Group/Self6D-Diff-Renderer
・Oral video（YouTube)：https://www.youtube.com/watch?v=bEtzjb8f430
・物体6D姿勢推定の手法はかなり高い性能が得られるようになっている
　→少ないデータで学習するような研究も増えつつある

・複数枚の画像を入力とし，画像毎のDepthとPoseを推定する問題設定．
・Geometryを考慮したポーズ推定を行うことで少ない入力数と初期化時のノイズに対して
優れたロバスト性を達成した．
DeepSFM: Structure From Motion Via Deep Bundle Adjustment
まとめた人：Shoji Sonoyama, 宮城直（Sunao MIyagi）
従来手法と提案手法の違い

・SfMで考慮されていたGeometry情報を追加したDeepSFMを提案．
・[Depth/Pose] cost volumeそれぞれにGeometryな制約を追加し，DepthとPoseの整合
性を一致させることで性能を向上させた．
提案手法のネットワーク図

結果1 DeMoNデータセットでの評価
・DeMoNデータセットの結果と他のデータセットとの比較
・トラッキング対応を用いた動きと奥行きの評価指標

結果2 ETHデータセットでの評価
・Structure from motion (SfM)手法により、従来のBAと新しいディープラーニング技術の両
方のメリットをもたらすことができる。
提案手法と既存手法との定量比較
提案手法と従来手法の定性比較

+αの情報
・著者コード(PyTorch)：[https://github.com/weixk2015/DeepSFM]
・データセット：[https://github.com/weixk2015/DeepSFM/tree/master/dataset]
・project page：【https://weixk2015.github.io/DeepSFM/】
・この研究室は毎年のようにCVPRに論文を通している
【https://ist.fudan.edu.cn/】
・この論文は今後も引用されそう？
動画
・https://www.youtube.com/watch?v=3SVC1uj1ePY

・画像のデータベースマップのジオメトリを難読化することで，プライバシー保護を行う提案
Privacy Preserving Structure-from-Motion
まとめた人：宮城直（ Sunao MIyagi）

・４つの画像から、８つの特徴を持つ４つのビューを重力で整列させて、画像の組み合わせ
を取得する確率は１００（左）。２つはランダムに整列される。
・ランダムに整列された画像が抽出される確率は、追跡時間が長いほど高くなる（右）。

結果
・Strechaベンチマークでのカメラポーズ精度の評価（Table1)
・大規模なインターネットデータセットの再構築統計と従来の/プライバシーを保護するため
の列との比較再現誤差エラー値（Table2)

結果
・右の写真・元の画像（左）、CLMAP（中央）、SFM（右）
・CLMAPよりプライバシー保護の観点からは優位であることが分かる。

+αの情報
・データセット：[https://research.cs.cornell.edu/1dsfm/]
・project page：[https://inf.ethz.ch/] [https://cvg.ethz.ch/]
CVPR 2018「StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation」
CVPR 2017「 Designing Effective Inter-Pixel Information Flow for Natural Image Matting」

・実世界において3次元物体をVision&Languageを用いて特定するタスク
・このタスクにおいて，詳細なカテゴリ分類(同環境下において複数個の椅子が存在する中か
ら特定の椅子を分類)をするために必要なデータセットとネットワークを提案
ReferIt3D: Neural Listeners for Fine-Grained 3D Object Identification in Real-World Scenes
まとめた人：anonymous

・83,572件の発話から構成されるSpatial Reference in 3D(Sr3D)とAMTのreference
gameから収録した41,503件の対話から構成されるThe Natural Reference in 3D(Nr3D)
を提案
・Visual encoderとLanguage encoderの2つから構成され2つの特徴をDynamic Graph
Convolution Network を用いてfusion

結果
・ReferIt3DNetを適用して成功した事例が左図(上4枚)，失敗した事例が左図(下2枚)
・targetが緑枠，distractorが赤枠，predictionが黄色

+αの情報
・データセット
Nr3D：[リンク]
Sr3D / Sr3D +：[リンク]
・project page：[リンク]
・Stanford Univ.のLeonidas J. Guibas先生の3D系激強研究室[リンク]
・ECCV2020 8本採択，CVPR2020 9本採択

・ステレオマッチングにおいて，対応点間のlocal transformationを用いた最適化ネットワー
クを用いて，精度改善する手法を提案．
・三角測量，Camera Localizationの実験で，精度が向上することを確認．
Multi-View Optimization of Local Feature Geometry
まとめた人：Yoshiyuki Yamariku

・単一視点画像でのRefinementではなく，視点間のlocal transformationを最適化の目的
関数に組み込んだ．
・事前知識として，シーン，カメラの幾何情報は要しない．

結果
・三角測量での精度評価．ハンドクラフト特徴量(SIFT)，学習ベースの方法(D2-Net,
SuperPoint)で，提案手法適用で精度改善を確認した．
・評価データセットは，ETH3D benckmnarkを使用．

結果
・Camera Localizationの精度評価．ETH3D benckmnarkを使用．
・SIFTへの手法適用では変化なし．他の特徴量(SURF/学習ベース4種)では精度改善を確
認した．

+αの情報
・著者コード(C++/Python)：[リンク]
・project page：[リンク]
・Qualitative Examples (YouTube)：[リンク]
・３次元計測技術の研究では有名なMarc Pollefeysの研究室の論文
・CVPR・ECCV・ICCVで多くの論文が採択されている

・カメラ姿勢を推定するため局所特徴量を弱教師学習によって学習する，
　　　　　　CAmera Pose Supervison(CAPS)というアーキテクチャを提案．
Learning Feature Descriptors using Camera Pose Supervision
提案手法の概要 (a)SfMによるカメラ姿勢の推定
(b)カメラ姿勢からのエピポーラ線の計算
(c)推定した対応関係

・局所特徴量の学習に，カメラ姿勢を利用するEpipolar lossとCylcle consistency lossを提
案．
・ピクセル間の対応関係を微分可能にする，Differential matching layerの提案．
・ネットワークを高速に動作させるcoarse-to-fine arichitectureの採用．
・弱教師データとして，SfMによって得られたカメラ姿勢を学習データとして使用．
Epipolar lossとCycle consistency lossの図示
(a)ピクセルレベルでの対応関係
を微分可能にするdifferential
matching layer
(b)高速動作のための
coarse-to-fine architecture

結果1. 位置姿勢の推定精度の比較
・ScanNetとMegaDepthデータセットでカメラの位置姿勢の推定精度を比較．
・提案手法と従来手法を比較し，MegaDepthデータセットにおいて従来手法を上回る精度
を達成．
従来手法と提案手法の特徴点マッチング結果
＠MegaDepthデータセット
従来手法と提案手法の位置姿勢推定精度の比較

結果2. 3D復元性能の比較
・ETH 3Dデータセットを用いて，従来手法と提案手法の3D復元性能を評価．
・従来手法に比べて，同等以上の画像枚数を3D復元に使用できることを示した．
従来手法と提案手法の比較＠ ETH 3Dデータセット

+αの情報
・著者コード：https://github.com/qianqianwang68/caps
・project page：https://qianqianwang68.github.io/CAPS/
・CVPR 2020のbest paper(https://arxiv.org/abs/2005.04551)と同じく，学習・推論にエピポーラ拘束を
用いている．
・今後も3D復元関連でエピポーラ拘束を取り入れた手法が出てきそう．

・ interesting scenesを記憶・識別するためのtranslation-invariant visual memory の提
案．さらに，長期学習、短期学習，オンライン学習の3段階の学習アーキテクチャを設計し
た．
Visual Memorability for Robotic Interestingness via Unsupervised Online Learning
まとめた人：saito.t

・backpropagationなしで学習できる，novel translation invariant 4-D visual memoryを提
案した．
・長期学習、短期学習，オンライン学習の3段階の学習アーキテクチャを設計した．

結果
・area under curve of online precision (AUC-OP) の評価指標で評価を行った

結果
・writing protocol, memory capacity, translational invariance, capability of losing
interestsの定量的な評価

+αの情報
・Sebastian Scherer：[リンク]
・データセット：[リンク]
・主にロボットについての研究を行っている

・過去の軌道とHDマップから軌道予測を行う，動き予測モデルの提案
Learning Lane Graph Representations for Motion Forecasting
まとめた人：saito.t

・地図のトポロジーを抽出する Lane Graph Convolutional Network(LaneGCN)を提案し
た
・LaneGCNとActorNETで出力した情報を融合させて軌道予測を行う

結果
・大規模Argoverseの動き予測ベンチマークで評価を行った
・最先端技術を大幅に凌駕した

+αの情報
・著者HP
Ming Liang[リンク]
Raquel Urtasun[リンク]
・この研究室は2013年から毎年CVPRに論文を通している
・ラスト著者のRaquel Urtasun氏はECCV2020にて12本採択されている

・単眼深度推定のためのデータセットであるMPSDの生成手順の発表
Mapillary Planet-Scale Depth Dataset
まとめた人：Yuta Kambayashi

・MPSDデータセットはこれまでのデータセットの規模・地理的範囲・外観の多様性・撮影機
器の幅広さなどを凌駕
・統一されていないカメラで撮影された画像の深度推定を学習する際に生じる課題への対
処

結果
・MPSDを用いて深度ネットワークの事前学習を行い、ベンチマーク上での微調整を行うこ
とで、KITTIの単画像深度ベンチマークでの新たな成果を達成
・しかしあるベンチマークではパフォーマンスが低下するなど、クロスデータセットのシナリオ
改善が課題となっている。

+αの情報
・データセット：https://www.mapillary.com/dataset/depth
・詳細な結果
http://www.cvlibs.net/datasets/kitti/eval_depth_detail.php?benchmark=depth_prediction&result=
7d982ae197cbca117f0ae95b5561984f54a342e1
・この分野でのデータセットとしては最先端のものなため、これから先議論は増えていくと考
えられる。

・車車間通信(Vehicle-to-Vehicle)を用いて自動運転車の認知と行動の予測精度を改善するような V2VNetを提案
・同じローカルな交通シーンにおける、自動運転車の複数視点を得るためのデータセット V2V-Simを作成
V2VNet: Vehicle-to-Vehicle Communication for Joint Perception and Prediction
まとめた人：Rei Tamaru

・GNNを使った効率の良い情報取得方法であるV2VNetを提案
・V2Vによって複数視点の情報を集めることで、物体の重なりや距離による視認性の低下を改善

結果
・通常、前処済みの出力を共有、LiDAR情報を共有、V2VNetを適用した自動車での検出
精度を比較
・IoUとAP、L2損失、Trajectory Collision Rate(TCR)の評価指標で評価を行った

結果
・V2VNetを使った定量的な評価
・高速度の自動車を認知し、行動を予測することができている（右画像）

+αの情報
・著者コード(PyTorch)：N/A
・データセット：tba
・著者HP：https://zswang666.github.io/
・V2Vが可能な社会を前提とした研究ではあるが、情報を共有できるメリットを活かして道路
上の未来を予測することは、安全にもつながると思う。
・UberATGでLiDARシミュレータを用いてデータセットを作成し実験をしており、将来的には
社会実験が期待される。

● 歩行者の移動経路予測タスク．過去の履歴から局所的目的地(endpoint)の尤度マッ
プ，候補地点を求め，他の歩行者も考慮しながら経路予測．
It is not the Journey but the Destination: Endpoint Conditioned Trajectory Prediction
まとめた人：Ryota Suzuki

● 過去の履歴，到達地点の分布をエンコードした特徴でCVAEにより統合して予測到達
地点をエンコード，Social Poolingで最終的に経路を予測．
● 細かく工夫を入れている様子．

結果
本論文ないしプロジェクトページに動画の結果あり．

+αの情報
● project page：https://karttikeya.github.io/publication/htf/
・この論文は今後も引用されそう？
・など著者に関する情報や論文を読んだ感想なども大歓迎です!!

- 可逆なモデルを利用したImage Rescaling (画像の縮小→拡大)
- 低周波成分と高周波成分を明示的に分離して学習
- 可逆なモデルを用いることで，高周波成分の潜在変数を指定の分布へ近づけるように
定式化でき，高精度な復元を実現
Invertible Image Rescaling
まとめた人：uchida

- RealNVP-likeな可逆なモデルを利用
- 出力は縮小した画像と高周波成分の潜在変数
- 実際の逆変換時は出力した潜在変数は利用できない → 何らかの分布からサンプルしたい
- 再構成誤差，縮小画像への制約に加え，入出力画像の分布を一致させる
- モデルの可逆性から，高周波成分の潜在変数を指定した分布に近づけることと同値
可逆性を利用すると …

結果
- PSNR/SSIMによる定量評価
- 従来法の組み合わせに対し，平均的に 5[dB]
(for x2)以上精度向上
- 1[dB]でも相当すごいという肌感
- 出力画像の比較

+αの情報
- 著者コード(PyTorch)：pkuxmq/Invertible-Image-Rescaling)
- データセット：train: (DIV2K, ), test: (Set5, Set14, BSD100, Urban100)
- その他
- MSRAのインターン中の成果
- 主著(北京大学), 第4著者(トロント大)はインターン生
- 最終著者はTie-Yan Liu
- LightBGMの最終著者
- 所感
- クライアント側の計算能力が考慮されていないため応用先が不明瞭

・graphベースのGANで家のレイアウト(間取り)を生成する手法の提案
・建築家にとって家の間取りを設計するのは時間的コストが大きい
・Conv-MNPを用いて，ダイヤグラムから、部屋のレイアウト生成を行う，DatasetとModel
の提案。
・graphベースのGANで学習をすることで，部屋の関係性なども考慮し，より顧客の需要に
最適なレイアウトが生成できた。
House-GAN: Relational Generative Adversarial Networks for Graph-constrained House LayoutGeneration

・リアリズム(主観評価：一対比較法)，多様性（FID），互換性（GTとのgraph edit distance）
の3つの指標を使って競合となるベースライン(CNN,GCNなど)と比較
・家の間取りの設計支援をGANで初めて導入

結果
・提案手法と競合となるベースラインとの比較
・3つの指標を基に評価した所，House-GANが最も高精度だった．
（精度が良い結果1番目:シアン色，2番目:オレンジ色，3番目マゼンタ色）

+αの情報
・データセット：[リンク]
・LIFULL HOME’S datasetは国立情報学研究所が提供するデータセット
← LIFULL HOME’S datasetの例

● インターネット画像から，時間付きライトフィールドであるPlenoptic functionをDeepに
求め，近傍の新規視点画像を生成する．整った視点が用意されない，インターネット画
像の寄せ集めから，時間による見えの変化も加味したライトフィールドを再構成するた
めの手法を提案．
Crowdsampling the Plenoptic Function
まとめた人：Ryota Suzuki

● ライトフィールドを基礎カラー(B)＋アルファ(α)画像群で表現するmultiplane
image(MPI)表現を導入．さらに潜在特徴Fも含めて学習．
● 他の新規視点生成と比較して，ライトフィールドなので時空間表現が連続的．また，他
のMPIと比較して，時間による見えの変化を反映できる．

+αの情報
● project page：http://crowdsampling.io
視点と時間を遷移させたGIF動画がある．連続的に細かく変化していて見た目のイン
パクトが大きい．

・GANのエンコード部分の操作を行うmodel-rewriting手法の提案
・LPIPS距離を計測などすることで存在しないデータの生成に対する有効性を確認
Rewriting a Deep Generative Model
まとめた人：Koki Yasuda

・画像の一部のImage EditingのためのGANのエンコーダーネットワークを提案した
・変更する範囲の元を K, 先をVとして、K・Vは層の出力(The keys are single-location input features, and the values are patterns of output features.)
・全てのパラメータではなく、１つの層のみの重みを変更するようにした→Image Editingの被害を最小限に
・同じ層で出力される出力の距離そのものを最小化する関数を目的関数として選んだ

結果
・『新しい物体を置く』『不要箇所を消す』『周辺の文脈を変える(Changing contextual rules)』の３つで比較
・３つめは例えば、窓の有無を変更する→机に映る光の反射も変更される、ということ
・指標はタスクにより様々で、変更タスクではLPIPS距離を測っている
・３つめのタスクは定量評価はできていない

結果
・視覚的には、物には違和感はあるが生え方などには違和感がないように見える
(動画: https://www.youtube.com/watch?v=iBpdJ2CopIE&t=10s )
UIの説明実際の操作

+αの情報
・著者コード：https://github.com/davidbau/rewriting
・project page：http://rewriting.csail.mit.edu/
・公式ビデオ: http://rewriting.csail.mit.edu/video/
・Adobeが出している。現状『削除(やモザイク)』のみがソフトウェアに実装されているので、このような編
集機能の研究は社会実装を前提としていそう

MatryODShka: Real-time 6DoF Video View Synthesis using Multi-Sphere Images
・360° ステレオ映像を6DoFレンダリング用のmulti-sphere imageに変換する手法
・学習ベースの手法で"in the wild"のビデオにも適用可能
まとめた人：Yukitaka Tsuchiya

・ODS(omnidirectional stereo)からSSV(sphere sweep volumes)を作成
・V coordsは360°画像の歪みに適用するために導入
・SSVから各MSI(multi-sphere image)のブレンド率を求める
・リアルタイムで6DoFの映像を合成する

[22]E-LPIPS: Robust Perceptual Image Similarity via Random Transformation Ensembles
https://arxiv.org/abs/1906.03973
結果
・E-LPIPS, SSIM, PSNRでベースラインとの数値評価
・E-LPIPS[22] は比較的新しい評価指標で，VGG16の特徴を計算比較する

結果
・提案手法では隠れている部分の合成が改善

+αの情報
・著者コード：[https://github.com/brownvc/matryodshka]
　8/25の時点では "Code release coming soon!"の状態
・project page：[http://visual.cs.brown.edu/projects/matryodshkawebpage/]
　10分のプレゼンビデオ/Supplemental Video(従来手法との比較)の視聴が可能

・dubbed deep hashing targeted attack(DHTA)の提案
・P2Sのコスト関数の最適化の定式化を行う
Targeted Attack for Deep Hashing based Retrieval
まとめた人：Takashi Imoto

・ハミング距離が最小になるアルゴリズムを提案した

結果
・画像と動画の分類で精度を評価する

結果
・targeted mean average precision(t-MAP)を使って精度を評価する
・画像、動画共に従来の手法に比べて精度が上がっていることがわかる

・クラス条件付き生成モデル（BigGAN）で画像を投影する手法の提案
Transforming and Projecting Images into Class-conditional Generative Networks
まとめた人：Nana Shirakashi

・オプティマイザにBasinCMAを採用することで、画像変換の最適化の際の局所的な最小
値を避ける

結果
・様々な最適化手法の比較（右端が今回使用したもの）

結果
・対象データセットにImageNetを使用
・ファインチューニングを行わなかった最終的な結果

+αの情報
・著者コード(PyTorch)：[https://github.com/minyoungg/pix2latent]
・youtube：[https://www.youtube.com/watch?v=pfq9C5yB5WY]

・マルチタスク学習が単一タスクの学習より、Adversarial Attackに対してロバストであること
を証明および実証した
Multitask Learning Strengthens Adversarial Robustness
まとめた人：Aki Nakano

・Adversarial attackに対する脆弱性をマルチタスク学習に拡張
・（特にタスク同士が独立であれば）Adversarial attackに対する脆弱性はM^(-½)に比例す
ることを証明した
・CityscapeとTaskonomoyデータセットを用いた実証実験を行った

結果
（1）Multitask attackに対するロバストネス
・出力の次元数（ランダムサンプリングするピクセル数、同時学習を行うタスクの数）が大き
くなるほど、脆弱性が低くなり、精度向上が見られた
・ Adversarial attackの強さによらず、同様の
　トレンドが観測された

結果
（2）Single task attackに対するロバストネス
・複数タスクだけでなく、単一タスクに絞ったadversarial attackに対してもロバストネスを示
した
↑ Cityscapeデータセットに関するスコア
→Taskonomyデータセットに関するスコア

+αの情報
・著者コード：https://github.com/columbia/MTRobust（9/7現在コード未公開）
・データセット：https://www.cityscapes-dataset.com, http://taskonomy.stanford.edu
・Supplementary Materialとgithubが未公開
・マルチタスクを検証する際に追加する順序は関係ないのか？
・Corollary 1でタスク同士が完全に独立なら、という前提条件が書いてあるが、扱っている
タスクはかなり互いにdependentなはず（https://consistency.epfl.ch/Cross_Task_Consistency_ARXIV2020.pdf)

・決定境界付近のセマンティックなAEsを作り出し、Data Augmentationすることで
　訓練データのout-of distributionをカバーするような訓練が可能となる手法を提案。
・物体検出のクラスconfidenceを改善し、精度の向上を達成した。
Towards Automated Testing and Robustification by Semantic Adversarial Data Generation
まとめた人：Hideki Tsunashima

提案：マスクを条件としたImage-to-Image Translationのようなネットワークで
クラスを騙す方向の訓練を行い、決定境界付近の画像を生成できるようにした
新規性：訓練データ外の真の識別境界付近のデータを生成できる手法を提案し、
Data Augmentationとして有効であることを示した点

結果
・本提案手法で既存の検出器を誤検出させることができるかを確認
・位置 (Pos) と外見 (Appear) を変化させたもので調査

・COCO、VOCにおいては提案手法であるSemantic Adversary (SA) を2つの
　オブジェクトに掛け、何度もSAで訓練したモデルを誤検出させるSAを作成
　してData Augmentationとして用いると精度が向上する (e.g. SA#2 x4)
・BDD100kにおいては外見を変更したSA-Appが最も精度が上がる
　細かい表の見方は論文中の
　Section 4.3を見るのが早い
結果

+αの情報
・著者コード：なし
・project page：なし
・トップカンファでは常連のMax Planck Institute所属
・2019年はCVPRに7本通すなどの強豪研究室
・この研究室において人によってはコードを公開している人もいるが、公開して
　ない人もまちまちといった感じ
　コード公開しない文化の研究室ではないようなので、メールで問い合わせれば
　コードを提供してもらえる可能性がなきにしもあらず？

・衛星画像と3次元点群を入力として高品質な建物の外観を復元する
Synthesis and Completion of Facades from Satellite Imagery
まとめた人：Teppei Kurita

・衛星画像は建物のすべての面を高品質で観測できるわけではなくオクルージョンも多い
ので、一般的な都市部の建物の外観が規則的なグリッド状の構造をしているという事前知
識を利用して補間する
グリッド状の構造

結果
・Google Earthから再構築されたエリアと各建物の詳細

結果
・建物の外観の定性評価結果（左）と定量評価結果（右）
・従来手法(c)と比較して誤差(MAE, MRE)が少なくなっている

+αの情報
・project page：https://www.cs.purdue.edu/cgvlab/urban/

・形も変化させられるCycleGANベースの手法の提案
Cross-Domain Cascaded Deep Translation
まとめた人：kiyo

・VGG-19のLayer1～5のそれぞれの潜在空間で変換を行う
・最下層のLayer5では通常のCycleGANと同様に変換、Layer1～4では1つ下の層での変
換結果にAdaINで同じ層の情報を統合していく

結果
・既存手法と比べると姿勢や構図を維持したまま形を変換できている。
・背景についてはやや元の画像から異なってしまっているようにも見える。

結果
・既存手法とFIDでの定量比較
・Zebra→Giraffe以外は提案手法が優っている
・変換元ドメインの画像（青色）、変換後の画像（水色）、変換先ドメインの画像（赤色）の潜
在空間中の分布をt-SNEで可視化
・提案手法では変換後の画像と変換先ドメインの画像の分布が近い

+αの情報
・著者コードは今後公開予定とのこと
　　・Kaggle Cat and Dog：https://www.kaggle.com/tongpython/cat-and-dog
　　・MSCOCO (Zebra, Elefant, Giraffe,)：https://cocodataset.org

・CycleGANベースの教師なしスケッチ→画像変換手法を提案
・スケッチ → グレースケール画像 → カラー画像のように２ステージに分けて学習させるこ
とで品質向上
・stage2ではAdaINを使うことで、参照画像のスタイルを再現可能
Unsupervised Sketch-to-Photo Synthesis
まとめた人：Shoma Iwai

・スケッチのノイズをうまく修正するため、人工的にノイズを加えたスケッチデータを用意し、
ノイズを除去するように学習させる（下図[1][2]）
・Attentionモジュールを使ってノイズを抑制（下図[3]）

結果
・提案手法と従来手法を比較。より高品質な画像が生成可能
・FID、User studyで既存手法を上回り、LPIPSでも高い評価
・Ablation studyで、ノイズ対策（人工的に加えたノイズで学習、Attentionの使用）の有効性
を示した

結果
・CycleGANベースで学習するため、画像→スケッチの変換も可能
・単純にエッジを計算する方法などよりも、より本物らしいスケッチが生成できる

+αの情報
・project page：http://sketch.icsi.berkeley.edu/
・今後コード、学習済みモデルが公開される予定とのこと

・敵対的なノイズ生成器を用いて生成した敵対的サンプルを学習
・ノイズや破損を含むデータに対してより頑健
A Simple Way to Make Neural Networks Robust Against Diverse Image Corruptions
まとめた人：Keita Goto

・敵対的ノイズ生成器を提案
・ガウスのノイズを、損失を最大化するよう学習した CNN により変形
・生成ノイズを用いて学習（敵対的学習; Adversarial Training）
・敵対的摂動と比べて、敵対的学習後のモデルは通常のノイズに対してより頑健

結果
・破損やノイズを含む ImageNet-C を用いて学習＆評価
・ノイズを含む場合と含まない場合における正解率を比較
・従来の敵対的学習は、一般のノイズに対する頑健性にあまり寄与しない

結果
● 敵対的ノイズ生成器を用いた学習と、ガウスノイズの場合を比較
● 各データに対する、モデルを騙すことができる最小のノイズのLpノルムから、その中央
値を用いて頑健性を検証
● ガウスノイズで学習したモデル (GNT) と比べて、提案手法 (ANT) の頑健性が
高いことを確認

結果
● 他のモデルと ImageNet-C における正解率を検証

+αの情報
● 敵対的摂動の転移性や耐転移性の議論につながると考えられる
● NNで敵対的摂動を生成するための方法とも
● その他
○ 著者コード(PyTorch)：[https://github.com/bethgelab/game-of-noise]
○ ImageNet-C：[https://github.com/hendrycks/robustness]

・悪天候下における視覚タスクを支援する画像生成手法としてForkGANを提案
・Localization、Semantic Segmentation、物体検出における精度向上を確認
ForkGAN: Seeing into the Rainy Night
まとめた人：Naoki Oomori

・ForkGANを提案した
・特徴はFork形状モジュールであり、不対データを用いて画像変換を行う
・Fork形状モジュールは1つのエンコーダ、2つの生成器からなる

結果
・Alderleyデータセットを用いて夜間画像を昼間画像に変換した際の定性的な比較
・評価は変換後の昼間画像と対応する自然な昼間画像とのSIFT point matching

結果
・データセットにBDD100Kを用い、Semantic segmentationの比較
・評価には平均IoU(mIoU)を用いた

結果
・データセットにBDD100Kを用い、物体検出の比較
・評価には平均精度(mAP)を用いた

+αの情報
・Alderley [https://wiki.qut.edu.au/pages/viewpage.action?pageId=181178395]
・BDD100K [https://bdd-data.berkeley.edu/]

・ネットワークの構造と重みを同時に最適化するNeural Architecture Search (NAS) 手法
の提案：MuSNAS
・生成されたネットワークをNSGANetV2と呼ぶ
NSGANetV2: Evolutionary Multi-Objective Surrogate-Assisted Neural Architecture Search
まとめた人：藤中彩乃

・upper level surrogate：オンライン学習によるネットワークの構造最適化
・lower level surrogate：ファインチューニングによる重み最適化
・あらゆる入力サイズ，層数，カーネルサイズに対応

結果
・ベンチマークデータセットと標準的でないデータセットの双方において，提案手法の
accuracyと計算速度が従来手法に勝った

結果
・従来のNAS手法に比べて最適化の汎用性が高く，多種多様なデータセットに対応

+αの情報
・著者ホームページ：[http://zhichaolu.com/]
・著者dblp：[https://dblp.org/pid/144/1417.html]
・GitHub：[https://github.com/mikelzc1990/nsganetv2]
・この研究室は毎年のようにArxivに論文を通している
・進化計算とニューラルネットワークの組合せは強そう

MutualNet: Adaptive ConvNet via Mutual Learning from Network Width and Resolution
■ CNNのWidth (Conv層のfilter数)と入力画像のResolutionを複数set用いる
Mutual Learningを提案
■ 少ないパラメータ数で高精度なImageNetの分類，その他タスクへの応用

■ Mutual Learning
○ Full Network（通常のCNN）
○ Full Networkのwidthを {0.25x, α1x, α2x} したsub network
○ 入力画像をランダムにリサイズ {224, 192, 160, 128}
通常のクラス分類
Softmax CrossEntropy
Full NetworkとのKLD

結果
■ Imagenetで実験
■ 従来手法のUS-Net (Universally Slimmable Network)よりも低FLOPS&高精度

+αの情報
■ Mutua Learningで学習したモデルをDetectionやSegmetationに転用することは有用
[Github] https://github.com/taoyang1122/MutualNet

・Batch NormalizationやWeight Standardizationに代わる、新たな最適化手法Gradiant
Centralizationを提案
・実装が簡単（なんと１行！）で、損失関数の改善を確認
Gradient Centralization: A New Optimization Technique for Deep Neural Networks
まとめた人：Yoshiki Yamamoto

・w_iを各層の重みの第i列ベクトルとする　
・新しい勾配として、次の式で示される勾配を導入
・これは、第１項が従来の勾配を表しており、第２項は勾配を平均化させる役割を持つ
→すなわち、BNは出力の平均を0にする、WSは重みの平均を0にするのと同様にして、勾
配の平均を0にしよう、というアイデア

結果
・GCを用いると、早期に勾配のL2-Normや最大値が小さくなる効果を確認
（ResNet50 trained on CIFAR100）
※勾配が大きすぎると、急激に重みが変化するので、収束しにくくなる

結果
・その結果、GCを使うことによって、Train-LossやTest-Accuracyが上昇した
・(Mini-ImageNet trained on ResNet50.他のデータもあるので論文参照のこと)

+αの情報
・著者コード(PyTorch)：https://github.com/Yonghongwei/Gradient-Centralization
上記ソースコードのReadMeに、各種タスクやネットワークで試してみた例があるので、そち
らも参照のこと

Post-Training Piecewise Linear Quantization for Deep Neural Networks
・効率よくDNNの重みを量子化するために、
　長い尾を持つベル型分布を持つテンソル値を正確に近似するために、
　PieceWise Linear Quantization (PWLQ) スキームを提案
・様々なタスクにおいて優れた性能を発揮することを実験的に示した

・中央は密に量子化する領域、裾野は疎に量子化する領域というように
　ヒストグラムを重複のない2領域に分割する
・各領域に対して一様に量子化を行う

結果
・物体認識、物体検出、セマンティックセグメンテーションにおいて
　従来手法と先行研究を比較
・いずれのタスクにおいても提案手法の性能がよいことを確認した
ImageNetの分類精度
Pascal VOCのセマンティックセグメンテーションのmIoU
Pascal VOCの物体検出のmAP

+αの情報
・Code: https://github.com/jun-fang/PWLQ

S2DNAS: Transforming Static CNN Model for Dynamic Inference via Neural Architecture Search
・静的なCNNを動的なCNNに変換できるNAS(Neural Architecture Search)の提案
・「動的」とは、入力の難易度に応じて計算する規模が変動するネットワーク構造
まとめた人：Masanori YANO

・NASの探索空間を、大きさが異なる、多段階のCNN構造に広げることを提案した
・推論のときは、Top-1の確信度が閾値以上なら終了、未満なら次の段階に継続

結果
・CIFAR-10及びCIFAR-100のデータセットで、提案手法と従来手法を比較
・ResNet-20/56/110、VGG16及びMobileNetV2で、FLOPsを削減し正解率を維持

結果
・動的な構造を提案したMSDNet(ICLR 2018採択)と、提案手法のS2DNASとの比較
・著者は「同等」との主張で、またS2DNASは汎用のCNNを変換可能なNASと主張

+αの情報
・北京大学(Peking University)及びIBM China Research Laboratory
・ImageNetで評価した結果はなく、CIFAR-10/100のみの評価で査読を通過
・動的な構造は、CVPR 2020でもRANet(Resolution Adaptive Networks)が提案
　論文まとめ：http://xpaperchallenge.org/cv/survey/cvpr2020_summaries/995
⇒ 動的なCNNに変換するNASは、もう少し研究されて本論文が引用されるかも

・学習の良し悪しの評価法の提案
・学習のロス関数に対する勾配の調査法であるK-FACをレイヤーごとの学習の評価に利用
できると主張
・この調査方法を用いてResNetにおけるBatchNormalizationは最後のLiner層の手前だけ
に使うだけで良いことを確認。もともとのResNetよりも精度が向上。
Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of DNNs
まとめた人：和田直己

・Sub-FIMの計算をレイヤごとの学習の評価に利用
・ベースとなっているK-FACではレイヤごとに式(4)を計算して、すべての対角をとりFIM
（フィッシャー情報行列）を近似しているが、このレイヤごとの式４の最大固有値が異なるレ
イヤにおける学習の状況と、最大固有値とゼロでない最小固有値の非が学習のしやすさを
表していると主張。

結果
・最終の全結合層で固有値等を計測し、学習の安定化と精度の向上を確認。

+αの情報
・著者コード(PyTorch)：なし
・データセット：CIFAR-10
・その他：証明の付録がめちゃくちゃ長い。

・Adaptive BN(Batch Normalization)による、効率的な枝刈り(Pruning)手法の提案
・ResNet及びMobileNetV1のネットワーク構造で、有効性を確認
EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning
まとめた人：Masanori YANO

・ランダムサンプリングに基づき、枝刈りした部分ネットワークの候補を列挙
・各候補のAdaptive BN統計量を計算した後の正解率で一つ選定して、Fine-Tuning

結果
・CIFAR-10データセットで、ResNet-56(左側)とMobileNetV1(右側)を評価
・既存手法を上回る正解率で、特にResNet-56では、オリジナルより高い正解率

結果
・ImageNetデータセットで、ResNet-50(左側)とMobileNetV1(右側)を評価
・いずれの条件でも、既存手法を上回る正解率

+αの情報
・project page：https://github.com/anonymous47823493/EagleEye
・Dark Matter AI Inc.(中国の企業)及び中山大学(Sun Yat-sen University)

結果
・単一ラベル画像 (Caltech-256 と
ImageNet CLS-LOC) をセグメン
テーションの学習に追加利用
・僅かだが追加データで性能改善
(Testで0.3%)
・クローリングで収集したノイジーなデー
タを追加利用
・更に0.3%のTestの性能改善

・新しいVision-LanguageタスクImage Captioning with Reading Comprehensionとその
タスクのためのデータセットTextCapsを提案．
・SOTAな手法がTextCapsにおいてHuman精度とかなり差があることを示した．
TextCaps: a Dataset for Image Captioning with Reading Comprehension
まとめた人：Yue Qiu

提案データセット・新規性
・従来のImage captioningデータセットと比べ、TextCapsが画像中に含まれる文字の理
解、文字と視覚情報間の理解などが必要．
・他のデータセットと比べ，平均Captionが長い．Zero-shot ORC tokensがテストsetに大量
に含まれる．

実験した手法
・複数の既存手法及びHuman精度をBenchmarkした．
・BUTD (Bottom-up attention手法)；AoANet (Attention on Attention手法)；
　M4C手法 (multi-modalitiesをFuseした手法), 比較的に優勢 (構造は下図)

結果
・複数のCaptioningの評価指標で定量的な評価を行った．
・M4C-Captionerが比較的に各指標において高精度．
・Human精度を超えるモデルはない．

結果
・MSCOCOとMSCOCO+TextCapsでSOTA手法M4Cの学習を行った．(例：下図)
・TextCapsを用いることでモデルのReading能力を向上できる．

+αの情報
・project page：https://textvqa.org/textcaps
・challenge page : https://textvqa.org/textcaps/challenge

・血管, 神経膜, 道路網などの構造の描写に使う 2 値画像を生成するタスク.
・実画像の topology (ループの構造など) を学習させるために, GAN の生成器の loss に
topology GAN loss を導入.
・新たに提案した topology-aware な評価指標などを用いて, 有効性を確認.
TopoGAN: A Topology-Aware Generative Adversarial Network
まとめた人：古川遼

・Topology GAN loss は, 実・生成画像から各々 1 次のパーシステント図を計算し, 得られ
たパーシステント図の集合の間の距離を測ることで計算される.
・Topology GAN loss を用いた学習をすることで, 実画像に近い topology の構造を持った
画像を生成できるようになった.

結果
・5つのデータセットで, 生成画像の定量評価を行った.
・提案した loss を用いた GAN (TopoGAN) は, 既存手法より精度がよかった.
・Unbiased MMD と Betti score は新たに提案された topology-aware な評価指標.

結果
・5つのデータセットで, 生成画像の定性評価を行った.
・TopoGAN から生成された2値マスク画像は, よりはっきりとした境界とより完全なループを
持つ.

結果
・生成したマスクが, 2値セグメンテーションの downstream タスクに有効かを検証.
・実画像・生成画像・実画像+生成画像の 3 パターンでモデルを訓練.
・実画像 + 生成画像 (TopoGAN) で訓練したモデルが一番高い Dice score となった.

+αの情報
・使用されたデータセット
・CREMI
・ISBI12
・Retina
・CMP Facade Database
・Google Map からスクレイピングされたデータ ( Pix2Pix で用いられたもの)

ECCV2020 Oral論文完全読破(1/2)

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a ECCV2020 Oral論文完全読破(1/2)

Similar a ECCV2020 Oral論文完全読破(1/2) (20)