CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)

Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
CV勉強会@関東
pix2pixHD
2018/07/01
株式会社ディー・エヌ・エー
AIシステム部 AI研究開発グループ
李天琦

自己紹介

自己紹介
 名前：李天琦（りてんき）
 Twitter： @Leetenki
 Facebook： Leetenki
 経歴：
~2016年3月：深層強化学習の研究
2016年4月~ ： DeNA 入社
2016年6月~ ： Japanリージョンゲーム事業本部 (サーバ開発)
2016年10月~： AIシステム部異動 (コンピュータビジョン研究)

学生時代
 得意言語：WebGL
 深層強化学習の研究
 卒論：深層強化学習を用いた自動運転ロボット

好きなこと
 不動産投資
 タワマン巡り

好きなこと
売買価格
建築構造
築年数
専有面積
間取り
立地/駅距離
AI 収益最大化
将来価値予測

Previous Work
 Chainer YOLOv2 (2016)
 https://github.com/leetenki/YOLOv2

Previous Work
 Chainer OpenPose (2017)
 https://github.com/DeNA/Chainer_Realtime_Multi-Person_Pose_Estimation

Recently Work
 高解像度全身アニメ生成
 PS-GAN (入り口で展示中)
 http://dena.com/intl/anime-generation/

CVPR 2018

CVPR2018
 学会の様子

本題

Yes, we GAN！

High-Resolution Image Synthesis and Semantic
Manipulation with Conditional GANs
（pix2pixHD）

pix2pixHD
 Condition指定での高解像度の画像生成
 Goodfellowさんがお勧めのGANに関する10の論文の1つ
 https://twitter.com/goodfellow_ian/status/968246916860452866

概要
 NVIDIA、UC Berkeley (2017) らの研究
 Semantic label mapを使った 2048 × 1024 の高解像度画像生成
 Scene全体だけでなく、個々のObject levelでの狙った生成が可能
 https://tcwang0509.github.io/pix2pixHD/
引用1 [Ting-Chun Wang, et al., 2017]

既存研究

既存研究
 Image-to-Image Translation
 異なる画像ドメイン間のマッピング問題
引用2 [Phillip Isola, et al, et al., 2016]

既存研究
 pix2pix (CVPR 2017)
 Conditional GANを使ったアプローチ
 Input domainの画像そのものをGeneratorのConditionと見なす
 { input domain, target domain/fake } のペアをDiscriminatorで識別

既存研究
 GANベースアプローチのメリット：
 L1 lossだとボヤけやすいがAdversarial lossなら細部の生成が可能
 Discriminatorがloss functionそのものを動的に学習可能
 (最近のSuper resolution、Style transferのタスクでよく言及される)
引用3 [Christian Ledig, et al., 2016]

既存研究
 CRN (Cascaded Refinement Networks), ICCV 2017
 その後のState-Of-The-Art
 pix2pixでは高解像度の生成が安定せず失敗しやすい
 GANではなく、単一のFeedforwardネットワークで安定した学習を実現
引用4 [Qifeng Chen, et al., 2017]
pix2pix CRN

既存研究
 CRN (Cascaded Refinement Networks), ICCV 2017
 異なるスケールのsemantic label mapを段階的に入力
 Perceptual lossを導入
 ( VGG等のPretrained済みのモデルに通した後のfeature間のL1 loss )

既存研究
 CRNの問題
 高解像度は生成できたが拡大した時に細部の生成ができない
 特に同じクラスのobjectが重なる部分でボヤける

pix2pixHD 論文解説

Contribution
① 高解像度での学習を安定させ、細部まで生成可能にする工夫
 Coarse-to-fine Generator
 Multi-scale Discriminators
 Improved adversarial loss
 Object boundary map
② Object levelでの多様な生成を可能にする工夫
 Instance-level feature embedding

pix2pix baseline
 GeneratorとDiscriminatorのminimax game
 Generator ＝ U-Net構造のEncoder-Decoder ( 最大で256×256 )
=

pix2pix baseline
 Encoderの入出力解像度を上げる
 そのままスケールを拡張してもうまくいかない

Coarse-to-fine generator

 改良：Generatorを2つのネットワーク (G1とG2) に分離
 G1 = Global generator network
 G2 = Local enhancer network
 G1は1024 × 512解像度の画像を生成
 G2、G3…とLocal enhancerを追加するごとにWとHが2倍

 3つのモジュールで構成される
 Front-end(down sampling) + Residual blocks + Back-end(up sampling)
Front-end Back-end

 最初にG1 (Global generator network ) のみを単独で訓練
 G1の訓練が終了した後、両側にG2をくっ付ける
 G2のFront-endの出力とG1のBack-endの出力でelement-wise sumをとる
 (G1のpretrainで獲得したglobal informationを維持したままG2を訓練)
Front-end Back-end

 G2の訓練時、最初はG1の重みを固定する
 G2の訓練が安定した後、G1とG2を通してfine-tuneする
( StackGANと似た段階的な学習手法 )

Multi-scale discriminators

 高解像度画像をdiscriminateするのに、巨大なReceptive fieldが必要
 1つのDiscriminatorで実現するにはdeepで大きなconvカーネルが必要
 Overfittingしやすく膨大なメモリが必要 -> 非効率

 これらの問題を回避するため、異なるスケールの3つのDiscriminatorに分離
 D1, D2, D3 = 1倍スケール, ½倍スケール, ¼倍スケール
 globalからdetailまでそれぞれ役割分担
 更に解像度上げる時でも、最高解像度のDisciminatorを1個追加すれば良い

Improved adversarial loss

 通常のDiscriminator lossに加えてFeature Matching lossというのを定義
 Feature Matching loss (FM Loss) :
 perceptual lossの考え方と同じ
 real / fakeをDiscriminatorに入れた時の各層の出力を一致させる
 generatorに自然な生成を強いる

 最終的なadversarial loss：
 λはFM lossの重み (実験では10)
 perceptual lossと組み合わせると更に有効

Object boundary map

Object boundary map
 既存研究(pix2pix、CRN等)ではSemantic label-mapのみを使う
 Semantic label-mapでは同一カテゴリ内のobject間の差異はない
 Instance label-mapのほうはobjectごとに一意のIDがある
引用5 [Zifeng Wu, et al., 2016]
Semantic label-map Instance label-map

Object boundary map
 Semantic label-mapのみを使った生成では境界部分がボヤける
 Instance label-mapも併用したい (タスクが簡単になる)
 しかしInstanceの上限が不定なので直接使うのは難しい

Object boundary map
 Instance label-mapで最も重要な情報は境界線
 Object boundary mapを定義
 1/0で構成された1チャンネルのバイナリーマップ
 周囲4ピクセルのいずれかとインスタンスが異なる場合は1、同じなら0
 GeneratorとDiscriminatorの両方の入力にこれを加える

Object boundary map
 Object boundary mapを併用すれば、境界が綺麗に生成される

Instance-level Feature Embedding

 semantic label-mapからの画像生成自体が、1対多のマッピング問題
 1つのsemantic label-mapから多様な画像を生成できるのが理想
 実用レベルではobject levelで狙った生成を行いたい

 Feature encoder network：
 Encoder-Decoder構造のネットワーク
 元画像から低次元のfeature vectorを抽出
 Encoderの後にInstance-wise average pooling層を追加
 feature mapの、各instanceに対応する領域内でpoolingする
 poolingした結果をそのinstanceに対応する全pixel領域に代入しなおす

 Feature mapをSemantic label-mapと一緒にGeneratorに入力
 各Instance領域内で同じfeatureを共有 = Instance-consistency を保証

Featureデータベース作成

 訓練終了後、学習済みEncoderをデータセットの全画像にかける
 全入力画像の全instanceのfeature vectorを記録しておく
 これを各カテゴリ (車、道路、建物等) ごとにK-meansでクラスタリングする
道路
建物
車
Feature データベース

 各カテゴリごとにK個のクラスタを作る (例えばK=10)
 その各Centroidのfeature vectorをピックアップして使うインターフェイス
 Interactiveにobject levelでの操作を実現
車道路

Interactive UI
 操作デモ
 https://www.youtube.com/watch?v=3AIpPlzM_qs

Result

Result
 既存手法 (pix2pixとCRN) との比較

Implementation
 LSGANをベースに実装
 Feature encoderの出力次元数 = 3
 λ = 10 (FM lossの重み)
 K = 10 (K-meansのクラスタ数)
 Perceptual lossありとなしそれぞれで実験
 Dataset：
 Cityscape dataset
 NYU dataset
 Helen Face dataset
 ADE20K dataset

評価

Quantitative comparison
 Semantic label-map consistencyの度合いを測る
 生成画像に対して、訓練済みPSPNetを使ってSemantic labelを予測
 PSPNet = リアル画像からsemantic segmentationを行うSOTAなモデル
引用7 [Hengshuang Zhao, et al., 2016]

Quantitative comparison
 pix2pix / CRN / pix2pixHDの生成画像をそれぞれPSPNetにかける
 得られたsegmentation label-mapと真のラベルとの類似度の比較
 Cityscapes datasetを使った比較では、他の2手法を圧倒
 教師画像とほぼ同等精度という驚異的な結果

Qualitative comparison
 Amazon Mturkで主観的なアンケート評価
 ① 時間無制限評価：
 pix2pix / CRN / pix2pixHDのうちランダムに2つ選ぶ
 どちらがリアルかを主観評価
 Cityscapeで5000枚評価した結果pix2pixHDが圧勝
 場合によってVGG perceptual lossを使う事で更に評価向上

Qualitative comparison
 ② 時間制限評価：
 real / CRN / pix2pixHDのうちランダムに2つ選ぶ
 0.125秒〜8秒のランダム制限時間内でどちらがリアルかを主観評価
 時間が長いほどrealと見分けやすい
 時間が長いほどpix2pixHDのほうがCRNよりリアル

Thank you

参考文献
 [1] Ting-Chun Wang, et al. High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs, 2017
https://arxiv.org/abs/1711.11585
https://www.youtube.com/watch?v=3AIpPlzM_qs
 [2] Phillip Isola, et al. Image-to-Image Translation with Conditional Adversarial Networks, 2016
 [3] Christian Ledig, et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, 2016
 [4] Qifeng Chen, et al. Photographic Image Synthesis with Cascaded Refinement Networks, 2017
http://www.philkr.net/cs395t/slides/Photographic_Image_Synthesis.pdf
 [5] Zifeng Wu, et al. Bridging Category-level and Instance-level Semantic Image Segmentation, 2016
https://arxiv.org/abs/1605.06885v1
 [6] Marius Cordts, et al. The Cityscapes Dataset for Semantic Urban Scene Understanding, 2016
 [7] Hengshuang Zhao, et al. Pyramid Scene Parsing Network, 2016

CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)

Similar to CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東) (20)

Recently uploaded

Recently uploaded (12)

CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)

Editor's Notes