More Related Content
Similar to 【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision (20)
More from Deep Learning JP (20)
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
- 1. DEEP LEARNING JP
[DL Papers]
Unpaired Image Super-Resolution
Using Pseudo-Supervision
Presenter: Yuki Kondo https://yuki-11.github.io/
(Toyota Technological Institute, Intelligent Information Media Lab)
http://deeplearning.jp/
2021. 11. 19
1
Yuki Kondo @ TTI-J
- 2. Yuki Kondo @ TTI-J 2
1.論⽂情報・概要
2.導⼊・先⾏研究
3.提案⼿法
4.実験結果
5.結論・所感
Section
- 5. 論⽂概要
[ タスク ]
• Unpaired Super-Resolution(SR)︓
低解像(LR)画像と⾼解像(HR)画像がアンペアなデータセットを⽤いたSR
⇒ モデル化が困難な多様な劣化要因を持つ現実世界のLR画像に対応したSRを実現
5
Yuki Kondo @ TTI-J
疑似LR
リアルLR
(リアル)HR
Bicubic等の
ダウンスケーリング
ドメイン
ギャップ
Unpaired dataset
Paired dataset
- 6. 論⽂概要
[ 提案⼿法 ]
• GANを⽤いた2つのネットワークから成るUnpaired SR法を提案
• 補正ネットワーク︓Real LR ⇒ Clean LRへ変換
• SRネットワーク︓Clean LR ⇒ HR へ超解像
[ 結果 ]
• 多様なデータセットを⽤いた実験により,従来⼿法よりも
優れた結果を獲得
6
Yuki Kondo @ TTI-J
・・
・⾃然画像を模擬した合成劣化画像データセット 2種
・実世界の顔画像データセット
・実世界の航空写真データセット
- 7. 論⽂概要
[ 補⾜情報 ]
• 提案⼿法がシャープの最新スマホ
「AQUOS R6」に搭載.
⇒ 論⽂投稿から約1年半で実⽤化
(スピード感がすごい)
7
Yuki Kondo @ TTI-J
[1] @shunk031. https://twitter.com/shunk031/status/1422116148691099649?s=20. (最終参照⽇ 2021/11/18)
[2] PRETIMES. “シャープの最新スマホ「AQUOS R6」に画像処理のAIスタートアップNavierのAI技術が搭載”.
https://prtimes.jp/main/html/rd/p/000000004.000060134.html. (最終参照⽇ 2021/11/18)
[1] (@shunk031さんより掲載了承済み)
[2]
- 9. Super Resolution (SR)
• LR画像をHR化する技術
• 不良設定問題 (1つのLRに対し,複数のHRが存在する)
• ⼀般的な(paired) SRの学習法:
• ⾃⼰教師あり学習 (ダウンスケーリングで学習ペア獲得)
9
[1] Set5: Marco Bevilacqua et al. in Low-Complexity Single-Image Super-Resolution based on Nonnegative Neighbor Embedding Yuki Kondo @ TTI-J
LR画像(ILR)
SR画像(ISR)
超解像
[1
]
HR画像(IHR)
ダウン
スケーリング
ダウンスケーリングが現実的ではない
- 10. 現実に則したSRへのアプローチ
• 特殊なハードウェア + 補正プロセス
• 実世界のLR, HRペアを撮影から⽣成可能
• デバイスが特殊で実⽤が難しい(拡張しづらい)
• Blind SR (過去の輪読会で紹介した論⽂︓KOALAnet)
• 劣化がブラインドされたLRから,劣化要因を
推定し,SRを⾏う
• 主にブラーに焦点を当てており,複合的な
劣化を扱った⼿法がほとんどない
• Unpaired SR
• UnpairedなLRとHRを⽤いて,SRを⾏う
• LRドメインが持つ任意の劣化への対応に焦点を当てている
10
Yuki Kondo @ TTI-J
J. Cai + ICCV2019
S. Bell-Kligler + NeurIPS 2019
- 11. 直接法 [Y. Yuan+ CVPR(WS)2018 ]
• HR⽣成器︓ソースLR画像からターゲットHRとだますよう,
アップスケーリングされたHRを⽣成
• HR識別機︓アップスケーリングされたHRとターゲットHRを識別
11
[ 問題 ]
⽣成器に対し,歪み抑制・知覚的品質担保に重要なHR再構成の損失が取れない
Yuki Kondo @ TTI-J
- 16. Real LR Clean LR
• 複数のlossの制約から,
ドメイン間のマッピングを学習
LRドメイン適応 (Loss)
16
Yuki Kondo @ TTI-J
[3] I. J. Goodfellow +. NeurIPS2014.
[4] J. Y. Zhu +. ICCV2017.
[5] H. Fu +. CVPR2019.
𝐺!"↓の loss︓
:
Adversarial loss [3] (𝐷!↓も最適化)
:
Identity mapping loss [4] : ⾊のばらつきを抑制
:
Cycle consistency loss [4] : この論⽂では⽚側サイクルの
みに制約をかけることで,1対多のマッピングを許容.
⇒ 多様な劣化への対応を𝑮𝑿𝒀↓に学習させる.
:
Geometric ensemble loss [5] : ⼊⼒画像へのフリップや
回転に対して,幾何学的整合性を担保させるloss.
𝑇% ,𝑇%
&'
はそれぞれ画像へ与える変換と逆変換.
𝐺"↓!の loss︓
:
Adversarial loss (𝐷(も最適化)
:
Cycle consistency loss
- 17. Real LR Clean LR
• PatchGAN [1, 2]で局所的構造を担保.
• Real LR→Clean LRは⾮常に深いSRネットワークのRCANを利⽤(Upscale省略).
LRドメイン適応 (モデル)
17
Yuki Kondo @ TTI-J
, : PatchGAN [6, 7]
Conv1
LeakeyReLU
Conv5
LeakeyReLU
Batch
norm
・・・
5 conv layers
: RCAN [8]ベース(RCAB: 10個,RG: 5個, Upscale省略)
,
• 5×5ConvのResBlock
• 1×1 Conv
• Batch norm
• LeakyReLU から構成.
RGB画像と歪みを模擬した1chランダム
ノイズの特徴を抽出し,Real LRを⽣成.
[6] C. Isola +. CVPR2017.
[7] C. Li +. ECCV2016.
[8] Y. Zhang +. ECCV2018.
- 19. Paierd SRネットワーク ( Loss ・ モデル )
• ペアで学習させるため,ピクセル単位の任意のlossを利⽤可能
• 既存のPaird SRモデルの転移利⽤可(ネットワークを分離しているため)
19
Yuki Kondo @ TTI-J
: RCAN ベース(RCAB: 20個,RG: 5個)
𝑈"↓"の loss︓
: L1 loss
Perceptual loss, texture loss 等の
ピクセル単位のlossに代替可能
* 𝐷!↑の学習時は敵対的
学習と共同で更新(後述).
- 21. • 𝐷#↑を⽤いた敵対的学習により,
• ドメインギャップのさらなる解消
• SRの⾼周波成分の保証
を実現.
21
Yuki Kondo @ TTI-J
𝐷!↑の loss︓
:
: PatchGAN
Conv1
LeakeyReLU
Conv5
LeakeyReLU
Batch
norm
・・・
5 conv layers
HR識別器による補正 (Loss・モデル)
・拡⼤倍率ごとのConvについて
・x2のとき,conv1のストライドは2
・x2のとき,conv1, 2のストライドは2
Adversarial loss:
・𝐺(!↓, 𝐺!↓(, 𝑈!↓!の3つの⽣成器が更新される
(𝐺!#↓, 𝐺#↓!︓ドメイン適応の保証 , 𝑈#↓#︓⾼周波成分の保証)
- 23. 実験条件
[ データセット ]
23
Yuki Kondo @ TTI-J
データセット 特徴 Train Test 拡⼤倍率
DIV2K realistic-wild set
(Track 4)
DIV2Kにモーションブラーやピ
クセルシフト,ノイズを付与
⇒ ⾃然なLRを模擬
LR画像 3200枚
HR画像 800枚
LR/HR画像
100枚
4
実世界HR/LR顔画像
データセット
複数の顔画像データセットから
HR画像とLR画像をサンプリング
LR画像 5万枚以上
HR画像 182,866枚
LR画像
3,000枚
4*
実世界HR/LR航空写真
データセット
撮影⾼度の異なる2つの航空写真
データセットからHR画像とLR画
像をサンプリング
LR画像 3200枚
HR画像 800枚
LR画像
数枚︖
(定性評価のみ)
2
AIM 2019 Real-World
Super-Resolution Challenge
dataset (Track 2)
Flickr2K, DIV2Kにあらかじめ
定義された⾮公開の劣化を付与,
unpairedなSource LRとTarget
HRを提供.
LR画像 2650枚
HR画像 800枚
(Flickr2Kより⽣成)
LR/HR画像
100枚
(DIV2Kより⽣成)
4
*︓画像サイズが⼩さすぎる(16x16)ため,Bicubicで2倍拡⼤させた画像をLRとして,さらに2倍に提案⼿法で拡⼤.
- 24. DIV2K realistic-wild set ︓既存ブラインドSRとの⽐較
[ 定量評価 ]
・最先端のブラインドSRの組み合わせと検証し,SOTAを達成
・注︓⽐較モデルは本データセットで学習をさせていないため,公平な実験ではない.
24
※
※
Yuki Kondo @ TTI-J
- 25. DIV2K realistic-wild set ︓既存ブラインドSRとの⽐較
[ 定性評価 ]
・定性的にも最も鮮明なSRを出⼒していることを確認
・注︓⽐較モデルは本データセットで学習をさせていないため,
公平な実験ではない.
25
Yuki Kondo @ TTI-J
【提案⼿法のLR
ドメイン変換の結果】
真のリアルLRと偽の
リアルLRの劣化を
うまく除去
- 27. [ Ablation study ]
・提案⼿法の有効性を⽰す
・特に” Ours - trained on 𝐺"↓!”との差から,
Real LR ⇒ clean LRへの変換の有効性は
⾼い.
27
Yuki Kondo @ TTI-J
DIV2K realistic-wild set ︓その他の実験
[ Perception-oriented training ]
・Paired SRネットワークの𝐿%&'を
知覚指向のloss [9]に変更.知覚品質が向上
(⽑の質感がリアルになっている)
[9] X. Wang +. ECCV workshop 2017.
- 28. 実世界HR/LR顔画像データセット︓SOTA⼿法との⽐較
[ 定量評価 ]
・Unpaired SRやPaired SR,face SR,デブラー⼿法と⽐較.
・GT画像がないため,FID(Frechet inception distance)で
真の分布と⽣成分布の距離を評価(⼩さいほど良い).
・提案⼿法はFIDでSOTAを達成.
[ 定性評価 ]
・論⽂では具体的な⾔及なし.
・若⼲提案⼿法の⽅がリアルっぽい︖
・⼈によって,意⾒が分かれそう.
28
Yuki Kondo @ TTI-J
- 31. [ 定量評価 ]
・PSNR, SSIM, そして知覚的品質評価指標
であるLPIPSの全評価指標において,
SOTAを達成.
31
Yuki Kondo @ TTI-J
AIM 2019 Real-World
Super-Resolution Challenge dataset︓定量・定性評価
[ 定性評価 ]
・ZSSRと⽐較し,劣化を除去し,鮮明なSRを
実現.
- 33. 結論・後続研究
[ 結論 ]
・HRとLRのペアが利⽤できないunpairedなSRにおいて,疑似的なclean LRを利⽤する⼿法を提案.
⇒
・多様なデータセットを⽤いた検証で,有効性を確認
・ただし,ケースごとにハイパーパラメータチューニングが必要.
⇒ 今後,ネットワークのハイパーパラメータに対するロバスト性の向上が必要.
33
Yuki Kondo @ TTI-J
・ペアを⽤いることを前提に発展したSR⼿法の活⽤
・ペアがない現実世界のSRの課題
ギャップを解消
[ 後続の研究 ]
† W. Wang et al. “Unsupervised Real-World Super-
Resolution: A Domain Adaptation Perspective”. ICCV2021
疑似LRを⽤いつつ,Source LRとtarget LRを画像空間ではなく,
特徴量空間上でドメイン適応させる⼿法を提案.
†