SlideShare a Scribd company logo
1 of 63
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
CV勉強会@関東
pix2pixHD
2018/07/01
株式会社ディー・エヌ・エー
AIシステム部 AI研究開発グループ
李 天琦
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
自己紹介
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
自己紹介
 名前:李 天琦(り てんき)
 Twitter: @Leetenki
 Facebook: Leetenki
 経歴:
~2016年3月 : 深層強化学習の研究
2016年4月~ : DeNA 入社
2016年6月~ : Japanリージョンゲーム事業本部 (サーバ開発)
2016年10月~: AIシステム部異動 (コンピュータビジョン研究)
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
学生時代
 得意言語:WebGL
 深層強化学習の研究
 卒論:深層強化学習を用いた自動運転ロボット
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
好きなこと
 不動産投資
 タワマン巡り
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
好きなこと
売買価格
建築構造
築年数
専有面積
間取り
立地/駅距離
AI 収益最大化
将来価値予測
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Previous Work
 Chainer YOLOv2 (2016)
 https://github.com/leetenki/YOLOv2
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Previous Work
 Chainer OpenPose (2017)
 https://github.com/DeNA/Chainer_Realtime_Multi-Person_Pose_Estimation
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Recently Work
 高解像度全身アニメ生成
 PS-GAN (入り口で展示中)
 http://dena.com/intl/anime-generation/
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
CVPR 2018
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
CVPR2018
 学会の様子
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
CVPR2018
 学会の様子
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
本題
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Yes, we GAN!
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
High-Resolution Image Synthesis and Semantic
Manipulation with Conditional GANs
(pix2pixHD)
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
pix2pixHD
 Condition指定での高解像度の画像生成
 Goodfellowさんがお勧めのGANに関する10の論文の1つ
 https://twitter.com/goodfellow_ian/status/968246916860452866
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
概要
 NVIDIA、UC Berkeley (2017) らの研究
 Semantic label mapを使った 2048 × 1024 の高解像度画像生成
 Scene全体だけでなく、個々のObject levelでの狙った生成が可能
 https://tcwang0509.github.io/pix2pixHD/
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
既存研究
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
既存研究
 Image-to-Image Translation
 異なる画像ドメイン間のマッピング問題
引用2 [Phillip Isola, et al, et al., 2016]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
既存研究
 pix2pix (CVPR 2017)
 Conditional GANを使ったアプローチ
 Input domainの画像そのものをGeneratorのConditionと見なす
 { input domain, target domain/fake } のペアをDiscriminatorで識別
引用2 [Phillip Isola, et al, et al., 2016]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
既存研究
 GANベースアプローチのメリット:
 L1 lossだとボヤけやすいがAdversarial lossなら細部の生成が可能
 Discriminatorがloss functionそのものを動的に学習可能
 (最近のSuper resolution、Style transferのタスクでよく言及される)
引用3 [Christian Ledig, et al., 2016]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
既存研究
 CRN (Cascaded Refinement Networks), ICCV 2017
 その後のState-Of-The-Art
 pix2pixでは高解像度の生成が安定せず失敗しやすい
 GANではなく、単一のFeedforwardネットワークで安定した学習を実現
引用4 [Qifeng Chen, et al., 2017]
pix2pix CRN
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
既存研究
 CRN (Cascaded Refinement Networks), ICCV 2017
 異なるスケールのsemantic label mapを段階的に入力
 Perceptual lossを導入
 ( VGG等のPretrained済みのモデルに通した後のfeature間のL1 loss )
引用4 [Qifeng Chen, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
既存研究
 CRNの問題
 高解像度は生成できたが拡大した時に細部の生成ができない
 特に同じクラスのobjectが重なる部分でボヤける
引用4 [Qifeng Chen, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
pix2pixHD 論文解説
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Contribution
① 高解像度での学習を安定させ、細部まで生成可能にする工夫
 Coarse-to-fine Generator
 Multi-scale Discriminators
 Improved adversarial loss
 Object boundary map
② Object levelでの多様な生成を可能にする工夫
 Instance-level feature embedding
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
pix2pix baseline
 GeneratorとDiscriminatorのminimax game
 Generator = U-Net構造のEncoder-Decoder ( 最大で256×256 )
引用2 [Phillip Isola, et al, et al., 2016]
=
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
pix2pix baseline
 Encoderの入出力解像度を上げる
 そのままスケールを拡張してもうまくいかない
引用2 [Phillip Isola, et al, et al., 2016]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Coarse-to-fine generator
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Coarse-to-fine generator
 改良:Generatorを2つのネットワーク (G1とG2) に分離
 G1 = Global generator network
 G2 = Local enhancer network
 G1は1024 × 512解像度の画像を生成
 G2、G3…とLocal enhancerを追加するごとにWとHが2倍
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Coarse-to-fine generator
 3つのモジュールで構成される
 Front-end(down sampling) + Residual blocks + Back-end(up sampling)
引用1 [Ting-Chun Wang, et al., 2017]
Front-end Back-end
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Coarse-to-fine generator
 最初にG1 (Global generator network ) のみを単独で訓練
 G1の訓練が終了した後、両側にG2をくっ付ける
 G2のFront-endの出力とG1のBack-endの出力でelement-wise sumをとる
 (G1のpretrainで獲得したglobal informationを維持したままG2を訓練)
引用1 [Ting-Chun Wang, et al., 2017]
Front-end Back-end
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Coarse-to-fine generator
 G2の訓練時、最初はG1の重みを固定する
 G2の訓練が安定した後、G1とG2を通してfine-tuneする
( StackGANと似た段階的な学習手法 )
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Multi-scale discriminators
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Multi-scale discriminators
 高解像度画像をdiscriminateするのに、巨大なReceptive fieldが必要
 1つのDiscriminatorで実現するにはdeepで大きなconvカーネルが必要
 Overfittingしやすく膨大なメモリが必要 -> 非効率
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Multi-scale discriminators
 これらの問題を回避するため、異なるスケールの3つのDiscriminatorに分離
 D1, D2, D3 = 1倍スケール, ½倍スケール, ¼倍スケール
 globalからdetailまでそれぞれ役割分担
 更に解像度上げる時でも、最高解像度のDisciminatorを1個追加すれば良い
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Improved adversarial loss
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Improved adversarial loss
 通常のDiscriminator lossに加えてFeature Matching lossというのを定義
 Feature Matching loss (FM Loss) :
 perceptual lossの考え方と同じ
 real / fakeをDiscriminatorに入れた時の各層の出力を一致させる
 generatorに自然な生成を強いる
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Improved adversarial loss
 最終的なadversarial loss:
 λはFM lossの重み (実験では10)
 perceptual lossと組み合わせると更に有効
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Object boundary map
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Object boundary map
 既存研究(pix2pix、CRN等)ではSemantic label-mapのみを使う
 Semantic label-mapでは同一カテゴリ内のobject間の差異はない
 Instance label-mapのほうはobjectごとに一意のIDがある
引用5 [Zifeng Wu, et al., 2016]
Semantic label-map Instance label-map
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Object boundary map
 Semantic label-mapのみを使った生成では境界部分がボヤける
 Instance label-mapも併用したい (タスクが簡単になる)
 しかしInstanceの上限が不定なので直接使うのは難しい
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Object boundary map
 Instance label-mapで最も重要な情報は境界線
 Object boundary mapを定義
 1/0で構成された1チャンネルのバイナリーマップ
 周囲4ピクセルのいずれかとインスタンスが異なる場合は1、同じなら0
 GeneratorとDiscriminatorの両方の入力にこれを加える
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Object boundary map
 Object boundary mapを併用すれば、境界が綺麗に生成される
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Instance-level Feature Embedding
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Instance-level Feature Embedding
 semantic label-mapからの画像生成自体が、1対多のマッピング問題
 1つのsemantic label-mapから多様な画像を生成できるのが理想
 実用レベルではobject levelで狙った生成を行いたい
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Instance-level Feature Embedding
 Feature encoder network:
 Encoder-Decoder構造のネットワーク
 元画像から低次元のfeature vectorを抽出
 Encoderの後にInstance-wise average pooling層を追加
 feature mapの、各instanceに対応する領域内でpoolingする
 poolingした結果をそのinstanceに対応する全pixel領域に代入しなおす
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Instance-level Feature Embedding
 Feature mapをSemantic label-mapと一緒にGeneratorに入力
 各Instance領域内で同じfeatureを共有 = Instance-consistency を保証
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Featureデータベース作成
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Instance-level Feature Embedding
 訓練終了後、学習済みEncoderをデータセットの全画像にかける
 全入力画像の全instanceのfeature vectorを記録しておく
 これを各カテゴリ (車、道路、建物等) ごとにK-meansでクラスタリングする
引用1 [Ting-Chun Wang, et al., 2017]
道路
建物
車
Feature データベース
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Instance-level Feature Embedding
 各カテゴリごとにK個のクラスタを作る (例えばK=10)
 その各Centroidのfeature vectorをピックアップして使うインターフェイス
 Interactiveにobject levelでの操作を実現
引用1 [Ting-Chun Wang, et al., 2017]
車 道路
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Interactive UI
 操作デモ
 https://www.youtube.com/watch?v=3AIpPlzM_qs
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Interactive UI
 操作デモ
 https://www.youtube.com/watch?v=3AIpPlzM_qs
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Result
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Result
 既存手法 (pix2pixとCRN) との比較
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Implementation
 LSGANをベースに実装
 Feature encoderの出力次元数 = 3
 λ = 10 (FM lossの重み)
 K = 10 (K-meansのクラスタ数)
 Perceptual lossありとなしそれぞれで実験
 Dataset:
 Cityscape dataset
 NYU dataset
 Helen Face dataset
 ADE20K dataset
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
評価
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Quantitative comparison
 Semantic label-map consistencyの度合いを測る
 生成画像に対して、訓練済みPSPNetを使ってSemantic labelを予測
 PSPNet = リアル画像からsemantic segmentationを行うSOTAなモデル
引用7 [Hengshuang Zhao, et al., 2016]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Quantitative comparison
 pix2pix / CRN / pix2pixHDの生成画像をそれぞれPSPNetにかける
 得られたsegmentation label-mapと真のラベルとの類似度の比較
 Cityscapes datasetを使った比較では、他の2手法を圧倒
 教師画像とほぼ同等精度という驚異的な結果
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Qualitative comparison
 Amazon Mturkで主観的なアンケート評価
 ① 時間無制限評価:
 pix2pix / CRN / pix2pixHDのうちランダムに2つ選ぶ
 どちらがリアルかを主観評価
 Cityscapeで5000枚評価した結果pix2pixHDが圧勝
 場合によってVGG perceptual lossを使う事で更に評価向上
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Qualitative comparison
 ② 時間制限評価:
 real / CRN / pix2pixHDのうちランダムに2つ選ぶ
 0.125秒〜8秒のランダム制限時間内でどちらがリアルかを主観評価
 時間が長いほどrealと見分けやすい
 時間が長いほどpix2pixHDのほうがCRNよりリアル
引用1 [Ting-Chun Wang, et al., 2017]
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
Thank you
Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved.
参考文献
 [1] Ting-Chun Wang, et al. High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs, 2017
https://arxiv.org/abs/1711.11585
https://www.youtube.com/watch?v=3AIpPlzM_qs
 [2] Phillip Isola, et al. Image-to-Image Translation with Conditional Adversarial Networks, 2016
https://arxiv.org/abs/1611.07004
 [3] Christian Ledig, et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, 2016
https://arxiv.org/abs/1609.04802
 [4] Qifeng Chen, et al. Photographic Image Synthesis with Cascaded Refinement Networks, 2017
https://arxiv.org/abs/1707.09405
http://www.philkr.net/cs395t/slides/Photographic_Image_Synthesis.pdf
 [5] Zifeng Wu, et al. Bridging Category-level and Instance-level Semantic Image Segmentation, 2016
https://arxiv.org/abs/1605.06885v1
 [6] Marius Cordts, et al. The Cityscapes Dataset for Semantic Urban Scene Understanding, 2016
https://arxiv.org/abs/1604.01685
 [7] Hengshuang Zhao, et al. Pyramid Scene Parsing Network, 2016
https://arxiv.org/abs/1612.01105

More Related Content

What's hot

近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)ARISE analytics
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争Yosuke Shinya
 
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image GeneratorsDeep Learning JP
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose TrackingDeep Learning JP
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Ohnishi Katsunori
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 

What's hot (20)

近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争
 
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 

Similar to CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)

Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Koichi Hamada
 
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換Koichi Hamada
 
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
SPADE :Semantic Image Synthesis with Spatially-Adaptive NormalizationSPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
SPADE :Semantic Image Synthesis with Spatially-Adaptive NormalizationTenki Lee
 
Bridging between Vision and Language
Bridging between Vision and LanguageBridging between Vision and Language
Bridging between Vision and LanguageShion Honda
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNA
 
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニングNGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニングNVIDIA Japan
 
Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANsKentaro Tachibana
 
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learningドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task LearningFumihiko Takahashi
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Yoshitaka Ushiku
 
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜佑 甲野
 
FFRKを支えるWebアプリケーションフレームワークの技術
FFRKを支えるWebアプリケーションフレームワークの技術FFRKを支えるWebアプリケーションフレームワークの技術
FFRKを支えるWebアプリケーションフレームワークの技術dena_study
 
Pull request時の画面差分取得の自動化
Pull request時の画面差分取得の自動化Pull request時の画面差分取得の自動化
Pull request時の画面差分取得の自動化Shunsuke Maeda
 
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)Tenki Lee
 
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...Koichi Hamada
 
チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発Satoshi Takano
 
CoreMLによるiOS深層学習アプリの実装と性能分析
CoreMLによるiOS深層学習アプリの実装と性能分析CoreMLによるiOS深層学習アプリの実装と性能分析
CoreMLによるiOS深層学習アプリの実装と性能分析Ryosuke Tanno
 
ドライブレコーダーの映像で Scene Text Recognitionする
ドライブレコーダーの映像で Scene Text Recognitionするドライブレコーダーの映像で Scene Text Recognitionする
ドライブレコーダーの映像で Scene Text RecognitionするFumihiko Takahashi
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth EstimationKazuyuki Miyazawa
 

Similar to CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東) (20)

Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017
 
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
 
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
SPADE :Semantic Image Synthesis with Spatially-Adaptive NormalizationSPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
 
Bridging between Vision and Language
Bridging between Vision and LanguageBridging between Vision and Language
Bridging between Vision and Language
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechcon
 
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニングNGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
 
Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANs
 
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learningドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
 
FFRKを支えるWebアプリケーションフレームワークの技術
FFRKを支えるWebアプリケーションフレームワークの技術FFRKを支えるWebアプリケーションフレームワークの技術
FFRKを支えるWebアプリケーションフレームワークの技術
 
Pull request時の画面差分取得の自動化
Pull request時の画面差分取得の自動化Pull request時の画面差分取得の自動化
Pull request時の画面差分取得の自動化
 
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
 
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
 
チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発
 
GCPの画像認識APIの紹介
GCPの画像認識APIの紹介 GCPの画像認識APIの紹介
GCPの画像認識APIの紹介
 
CoreMLによるiOS深層学習アプリの実装と性能分析
CoreMLによるiOS深層学習アプリの実装と性能分析CoreMLによるiOS深層学習アプリの実装と性能分析
CoreMLによるiOS深層学習アプリの実装と性能分析
 
ドライブレコーダーの映像で Scene Text Recognitionする
ドライブレコーダーの映像で Scene Text Recognitionするドライブレコーダーの映像で Scene Text Recognitionする
ドライブレコーダーの映像で Scene Text Recognitionする
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 

Recently uploaded

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 

Recently uploaded (12)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)

  • 1. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. CV勉強会@関東 pix2pixHD 2018/07/01 株式会社ディー・エヌ・エー AIシステム部 AI研究開発グループ 李 天琦
  • 2. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 自己紹介
  • 3. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 自己紹介  名前:李 天琦(り てんき)  Twitter: @Leetenki  Facebook: Leetenki  経歴: ~2016年3月 : 深層強化学習の研究 2016年4月~ : DeNA 入社 2016年6月~ : Japanリージョンゲーム事業本部 (サーバ開発) 2016年10月~: AIシステム部異動 (コンピュータビジョン研究)
  • 4. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 学生時代  得意言語:WebGL  深層強化学習の研究  卒論:深層強化学習を用いた自動運転ロボット
  • 5. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 好きなこと  不動産投資  タワマン巡り
  • 6. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 好きなこと 売買価格 建築構造 築年数 専有面積 間取り 立地/駅距離 AI 収益最大化 将来価値予測
  • 7. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Previous Work  Chainer YOLOv2 (2016)  https://github.com/leetenki/YOLOv2
  • 8. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Previous Work  Chainer OpenPose (2017)  https://github.com/DeNA/Chainer_Realtime_Multi-Person_Pose_Estimation
  • 9. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Recently Work  高解像度全身アニメ生成  PS-GAN (入り口で展示中)  http://dena.com/intl/anime-generation/
  • 10. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. CVPR 2018
  • 11. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. CVPR2018  学会の様子
  • 12. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. CVPR2018  学会の様子
  • 13. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 本題
  • 14. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Yes, we GAN!
  • 15. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs (pix2pixHD)
  • 16. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. pix2pixHD  Condition指定での高解像度の画像生成  Goodfellowさんがお勧めのGANに関する10の論文の1つ  https://twitter.com/goodfellow_ian/status/968246916860452866
  • 17. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 概要  NVIDIA、UC Berkeley (2017) らの研究  Semantic label mapを使った 2048 × 1024 の高解像度画像生成  Scene全体だけでなく、個々のObject levelでの狙った生成が可能  https://tcwang0509.github.io/pix2pixHD/ 引用1 [Ting-Chun Wang, et al., 2017]
  • 18. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 既存研究
  • 19. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 既存研究  Image-to-Image Translation  異なる画像ドメイン間のマッピング問題 引用2 [Phillip Isola, et al, et al., 2016]
  • 20. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 既存研究  pix2pix (CVPR 2017)  Conditional GANを使ったアプローチ  Input domainの画像そのものをGeneratorのConditionと見なす  { input domain, target domain/fake } のペアをDiscriminatorで識別 引用2 [Phillip Isola, et al, et al., 2016]
  • 21. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 既存研究  GANベースアプローチのメリット:  L1 lossだとボヤけやすいがAdversarial lossなら細部の生成が可能  Discriminatorがloss functionそのものを動的に学習可能  (最近のSuper resolution、Style transferのタスクでよく言及される) 引用3 [Christian Ledig, et al., 2016]
  • 22. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 既存研究  CRN (Cascaded Refinement Networks), ICCV 2017  その後のState-Of-The-Art  pix2pixでは高解像度の生成が安定せず失敗しやすい  GANではなく、単一のFeedforwardネットワークで安定した学習を実現 引用4 [Qifeng Chen, et al., 2017] pix2pix CRN
  • 23. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 既存研究  CRN (Cascaded Refinement Networks), ICCV 2017  異なるスケールのsemantic label mapを段階的に入力  Perceptual lossを導入  ( VGG等のPretrained済みのモデルに通した後のfeature間のL1 loss ) 引用4 [Qifeng Chen, et al., 2017]
  • 24. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 既存研究  CRNの問題  高解像度は生成できたが拡大した時に細部の生成ができない  特に同じクラスのobjectが重なる部分でボヤける 引用4 [Qifeng Chen, et al., 2017]
  • 25. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. pix2pixHD 論文解説
  • 26. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Contribution ① 高解像度での学習を安定させ、細部まで生成可能にする工夫  Coarse-to-fine Generator  Multi-scale Discriminators  Improved adversarial loss  Object boundary map ② Object levelでの多様な生成を可能にする工夫  Instance-level feature embedding
  • 27. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. pix2pix baseline  GeneratorとDiscriminatorのminimax game  Generator = U-Net構造のEncoder-Decoder ( 最大で256×256 ) 引用2 [Phillip Isola, et al, et al., 2016] =
  • 28. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. pix2pix baseline  Encoderの入出力解像度を上げる  そのままスケールを拡張してもうまくいかない 引用2 [Phillip Isola, et al, et al., 2016]
  • 29. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Coarse-to-fine generator
  • 30. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Coarse-to-fine generator  改良:Generatorを2つのネットワーク (G1とG2) に分離  G1 = Global generator network  G2 = Local enhancer network  G1は1024 × 512解像度の画像を生成  G2、G3…とLocal enhancerを追加するごとにWとHが2倍 引用1 [Ting-Chun Wang, et al., 2017]
  • 31. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Coarse-to-fine generator  3つのモジュールで構成される  Front-end(down sampling) + Residual blocks + Back-end(up sampling) 引用1 [Ting-Chun Wang, et al., 2017] Front-end Back-end
  • 32. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Coarse-to-fine generator  最初にG1 (Global generator network ) のみを単独で訓練  G1の訓練が終了した後、両側にG2をくっ付ける  G2のFront-endの出力とG1のBack-endの出力でelement-wise sumをとる  (G1のpretrainで獲得したglobal informationを維持したままG2を訓練) 引用1 [Ting-Chun Wang, et al., 2017] Front-end Back-end
  • 33. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Coarse-to-fine generator  G2の訓練時、最初はG1の重みを固定する  G2の訓練が安定した後、G1とG2を通してfine-tuneする ( StackGANと似た段階的な学習手法 ) 引用1 [Ting-Chun Wang, et al., 2017]
  • 34. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Multi-scale discriminators
  • 35. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Multi-scale discriminators  高解像度画像をdiscriminateするのに、巨大なReceptive fieldが必要  1つのDiscriminatorで実現するにはdeepで大きなconvカーネルが必要  Overfittingしやすく膨大なメモリが必要 -> 非効率 引用1 [Ting-Chun Wang, et al., 2017]
  • 36. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Multi-scale discriminators  これらの問題を回避するため、異なるスケールの3つのDiscriminatorに分離  D1, D2, D3 = 1倍スケール, ½倍スケール, ¼倍スケール  globalからdetailまでそれぞれ役割分担  更に解像度上げる時でも、最高解像度のDisciminatorを1個追加すれば良い 引用1 [Ting-Chun Wang, et al., 2017]
  • 37. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Improved adversarial loss
  • 38. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Improved adversarial loss  通常のDiscriminator lossに加えてFeature Matching lossというのを定義  Feature Matching loss (FM Loss) :  perceptual lossの考え方と同じ  real / fakeをDiscriminatorに入れた時の各層の出力を一致させる  generatorに自然な生成を強いる 引用1 [Ting-Chun Wang, et al., 2017]
  • 39. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Improved adversarial loss  最終的なadversarial loss:  λはFM lossの重み (実験では10)  perceptual lossと組み合わせると更に有効 引用1 [Ting-Chun Wang, et al., 2017]
  • 40. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Object boundary map
  • 41. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Object boundary map  既存研究(pix2pix、CRN等)ではSemantic label-mapのみを使う  Semantic label-mapでは同一カテゴリ内のobject間の差異はない  Instance label-mapのほうはobjectごとに一意のIDがある 引用5 [Zifeng Wu, et al., 2016] Semantic label-map Instance label-map
  • 42. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Object boundary map  Semantic label-mapのみを使った生成では境界部分がボヤける  Instance label-mapも併用したい (タスクが簡単になる)  しかしInstanceの上限が不定なので直接使うのは難しい 引用1 [Ting-Chun Wang, et al., 2017]
  • 43. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Object boundary map  Instance label-mapで最も重要な情報は境界線  Object boundary mapを定義  1/0で構成された1チャンネルのバイナリーマップ  周囲4ピクセルのいずれかとインスタンスが異なる場合は1、同じなら0  GeneratorとDiscriminatorの両方の入力にこれを加える 引用1 [Ting-Chun Wang, et al., 2017]
  • 44. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Object boundary map  Object boundary mapを併用すれば、境界が綺麗に生成される 引用1 [Ting-Chun Wang, et al., 2017]
  • 45. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Instance-level Feature Embedding
  • 46. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Instance-level Feature Embedding  semantic label-mapからの画像生成自体が、1対多のマッピング問題  1つのsemantic label-mapから多様な画像を生成できるのが理想  実用レベルではobject levelで狙った生成を行いたい 引用1 [Ting-Chun Wang, et al., 2017]
  • 47. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Instance-level Feature Embedding  Feature encoder network:  Encoder-Decoder構造のネットワーク  元画像から低次元のfeature vectorを抽出  Encoderの後にInstance-wise average pooling層を追加  feature mapの、各instanceに対応する領域内でpoolingする  poolingした結果をそのinstanceに対応する全pixel領域に代入しなおす 引用1 [Ting-Chun Wang, et al., 2017]
  • 48. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Instance-level Feature Embedding  Feature mapをSemantic label-mapと一緒にGeneratorに入力  各Instance領域内で同じfeatureを共有 = Instance-consistency を保証 引用1 [Ting-Chun Wang, et al., 2017]
  • 49. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Featureデータベース作成
  • 50. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Instance-level Feature Embedding  訓練終了後、学習済みEncoderをデータセットの全画像にかける  全入力画像の全instanceのfeature vectorを記録しておく  これを各カテゴリ (車、道路、建物等) ごとにK-meansでクラスタリングする 引用1 [Ting-Chun Wang, et al., 2017] 道路 建物 車 Feature データベース
  • 51. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Instance-level Feature Embedding  各カテゴリごとにK個のクラスタを作る (例えばK=10)  その各Centroidのfeature vectorをピックアップして使うインターフェイス  Interactiveにobject levelでの操作を実現 引用1 [Ting-Chun Wang, et al., 2017] 車 道路
  • 52. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Interactive UI  操作デモ  https://www.youtube.com/watch?v=3AIpPlzM_qs 引用1 [Ting-Chun Wang, et al., 2017]
  • 53. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Interactive UI  操作デモ  https://www.youtube.com/watch?v=3AIpPlzM_qs 引用1 [Ting-Chun Wang, et al., 2017]
  • 54. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Result
  • 55. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Result  既存手法 (pix2pixとCRN) との比較 引用1 [Ting-Chun Wang, et al., 2017]
  • 56. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Implementation  LSGANをベースに実装  Feature encoderの出力次元数 = 3  λ = 10 (FM lossの重み)  K = 10 (K-meansのクラスタ数)  Perceptual lossありとなしそれぞれで実験  Dataset:  Cityscape dataset  NYU dataset  Helen Face dataset  ADE20K dataset 引用1 [Ting-Chun Wang, et al., 2017]
  • 57. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 評価
  • 58. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Quantitative comparison  Semantic label-map consistencyの度合いを測る  生成画像に対して、訓練済みPSPNetを使ってSemantic labelを予測  PSPNet = リアル画像からsemantic segmentationを行うSOTAなモデル 引用7 [Hengshuang Zhao, et al., 2016]
  • 59. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Quantitative comparison  pix2pix / CRN / pix2pixHDの生成画像をそれぞれPSPNetにかける  得られたsegmentation label-mapと真のラベルとの類似度の比較  Cityscapes datasetを使った比較では、他の2手法を圧倒  教師画像とほぼ同等精度という驚異的な結果 引用1 [Ting-Chun Wang, et al., 2017]
  • 60. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Qualitative comparison  Amazon Mturkで主観的なアンケート評価  ① 時間無制限評価:  pix2pix / CRN / pix2pixHDのうちランダムに2つ選ぶ  どちらがリアルかを主観評価  Cityscapeで5000枚評価した結果pix2pixHDが圧勝  場合によってVGG perceptual lossを使う事で更に評価向上 引用1 [Ting-Chun Wang, et al., 2017]
  • 61. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Qualitative comparison  ② 時間制限評価:  real / CRN / pix2pixHDのうちランダムに2つ選ぶ  0.125秒〜8秒のランダム制限時間内でどちらがリアルかを主観評価  時間が長いほどrealと見分けやすい  時間が長いほどpix2pixHDのほうがCRNよりリアル 引用1 [Ting-Chun Wang, et al., 2017]
  • 62. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. Thank you
  • 63. Copyright (C) 2016 DeNA Co.,Ltd. All Rights Reserved. 参考文献  [1] Ting-Chun Wang, et al. High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs, 2017 https://arxiv.org/abs/1711.11585 https://www.youtube.com/watch?v=3AIpPlzM_qs  [2] Phillip Isola, et al. Image-to-Image Translation with Conditional Adversarial Networks, 2016 https://arxiv.org/abs/1611.07004  [3] Christian Ledig, et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, 2016 https://arxiv.org/abs/1609.04802  [4] Qifeng Chen, et al. Photographic Image Synthesis with Cascaded Refinement Networks, 2017 https://arxiv.org/abs/1707.09405 http://www.philkr.net/cs395t/slides/Photographic_Image_Synthesis.pdf  [5] Zifeng Wu, et al. Bridging Category-level and Instance-level Semantic Image Segmentation, 2016 https://arxiv.org/abs/1605.06885v1  [6] Marius Cordts, et al. The Cityscapes Dataset for Semantic Urban Scene Understanding, 2016 https://arxiv.org/abs/1604.01685  [7] Hengshuang Zhao, et al. Pyramid Scene Parsing Network, 2016 https://arxiv.org/abs/1612.01105

Editor's Notes

  1. まず、簡単な自己紹介ですが、
  2. 自分の学生時代なんですけれども、WebGLというグラフィック言語が非常に得意で、 卒論の時に、深層強化学習の研究で、自動運転ロボットのシミュレーションをしていたのですが、 こちらのように、研究そのものよりも、いかにこのシミュレータをグラフィカルにかっこよく見せるかというところに全力を費やしてました。
  3. あと僕個人の趣味なんですけど、 不動産が大好きでですね、不動産投資をしたり、タワマンを巡ったりしてます。 休日の過ごし方は、湾岸とかのタワマン巡りしてます。
  4. でちなみに僕AIは専門なので、趣味の不動産にもこんな風にAIを活用してですね、 投資物件のデータを統計的に分析して、不動産価値を算出して収益最大化してます。 投資対象の将来価値を構成する要素が決まっている場合、それらをわざわざ人間の目利きが見て経験に基づいて判断をしなくても、AIを使えば、最適解を一瞬で出してくれます。 不動産でいうと、不動産の価値を構成する要素が、このような、売買価格、家賃相場、面積、築年数などが、その不動産のトータルの資産価値を構成する要素なので、 これをAIにかければ、その不動産の本来の資産価値や、投資した場合の例えば10年後いくら儲かるか、の将来利回りなんかも自動で、 しかも人間以上に精確に計算する事ができます。
  5. 自分はこれまで、 DeNAで主にDetection系の研究をしていて、Chainerの再現実装が多いです。 で、これは2016年に再現実装したChainer版のYOLOv2という、当時Realtimeで動作するSOTAのone shotのobject detectorでした。 こちらはオープンソースで公開してます。
  6. あとはこちら2017年にSOTAだった、OpenPoseという、 複数の人物が写った環境でも、one-shotで、全ての人のpose keypointを検出するOpenPoseのChainer版などを実装をしてました。 こちらもオープンソース公開してます。 みなさんよかったら使ってみてください。
  7. で、今まで検出系の仕事をしてきた訳なんですけれども、 最近はアニメ生成チームというところに新たにJoinしまして、 そこでGANを使ったHigh-Resolutionで、かつPose Structure conditionalなアバターの生成をやってます。 なので、勉強しつつ、GANの論文を最近いろいろ読んでます。
  8. で今回、自分も先週本多さんと一緒にCVPR2018に行ってきた訳ですけれども、 そちらでも高解像度のGAN系の論文をメインに見てきました。
  9. こちらが実際のCVPR2018の学会の様子です。 すごくfeverしてました。
  10. こちらが実際のCVPR2018の学会の様子です。 すごくfeverしてました。
  11. 今回自分が読んだ論文ですが、こちらのHigh-Res〜です 略称でpix2pix2HDと呼ばれています
  12. Yes, we GAN! 先ほど本多さんから紹介がありました通り、今回のCVPRではGAN系の論文がめちゃくちゃ多かったです。 ちなみにこの写真はGANの考案者のGoodfellowさんです。
  13. 今回自分が読んだ論文ですが、こちらのHigh-Res〜です 略称でpix2pix2HDと呼ばれています
  14. こちらはConditionを指定した高解像度の画像生成技術です。 我々のプロジェクトでやってることと非常に近いのと、 あとはGoodfellowさん本人が自ら、GANについての論文が多すぎてどれ読んだら良いかわからない人向けに、お勧めの10の論文として、 そのうちの1つに指定しているものなので、 ぜひ抑えておくべき論文として、読みました。
  15. こちらのpix2pixHDの論文ですが、NVIDIAとUC Berkeleyが2017年、去年末に発表した論文です なにが凄いのかというと、semantic segmentationタスクで使われるこのラベルマップを使った、2048 x 1024の超高解像度な画像生成です。 単にScene全体を生成できるだけでなく、1個1個のobject levelでの個別の生成、編集を可能にするinteractiveなインターフェイスを実現できる。というものです。 こちらが、プロジェクトページですね。
  16. 今回自分が読んだ論文ですが、こちらのHigh-Res〜です 略称でpix2pix2HDと呼ばれています
  17. こちらの論文が解こうとしているタスクがなにかというと、 はい、まず、既存研究として、Image-to-Image Translationの分野がもともとからあります。 これは皆さんご存知だと思いますが、要するに異なる画像のドメイン間のマッピングの問題です。 例えばこのような、昼の画像ドメインと夜の画像ドメインがあったときに、そのドメイン間のマッピングを学習する、というものです。 線画と着色絵だったり、衛星写真と、地図画像だったり、 セグメンテーションマップとリアルphotoだったり といった、ドメイン変換を解く問題です。
  18. で、有名なものとして、去年のCVPR2017で登場したpix2pixがあります。 こちらのの論文ですが、GANを使ったアプローチで、 Conditoinal GANというのは一般的なGANの入力に、なんらかのconditionを明示的に与えるという方法なんですが、 こちらのpixとpixでは、入力ドメインの画像そのものをGeneratorのConditionとみなす モデルも非常にシンプル
  19. で、今のpix2pixでは、GANの仕組みを使って、このimage-to-image のマッピングタスクを解いていますが、 このGANベースのアプローチのメリットとしては、 先程本多さんの説明にもありました通り、通常のL1 Lossを使うと、画像がぼやけやすいんですね。 一方で、GANのAdversarial lossを使うと細部の生成が可能になります。 なぜなら、L1 lossだけだと、loss functionが決まりきってるので、生成画像とリアル画像を平均的に近づけていきますが、 Discriminatorを使ったloss functionだと、l1 lossと違って、
  20. で、pix2pixがその時点でのSOTAでしたが、 その後にState-of-the-artにSOTAの手法として、CRNというのが提案されています。 これは、pix2pix2では、高解像度の画像生成しようとすると、安定せず失敗しやすいという問題がありましたが、 このCRNでは、GANのadversarialな学習ではなく、単一のfeedforwardなネットワークで学習を安定化させています。 この左側がpix2pixで2048 x 1024のhigh resolutionの画像を生成する際の結果ですね。
  21. CRNのアプローチとしては、このように一直線の何の変哲もない、ただのfeedforward型のネットワーク構造です。 工夫としては各解像度のfeaturemapが出力された時点で、その異なる解像度のfeature mapにあったサイズのsemantic label mapを段階的にconcatしていきます。で、最終的な出力に対しては、perceptual lossという、VGGネットワークと通した後のfeature間のL1 lossを取ります。 これによって、high-resolutionでも安定的な学習が可能だが、
  22. こちらが実際の生成結果ですが、 細かく見ていくと、ぼやけているのがわかります。
  23. なので、こちらの論文では、これらの問題を解決して、 高解像度でも、学習を安定させて、細部まで細かく生成する事を可能にするための工夫がmain contributionです。 具体的には、マルチスケールのgeneratorとdiscriminator構造、あとは独自のadversarial lossの設計があります。 あと、object levelで物体を一個一個生成を可能にするための工夫で、 Object boundary mapの設計と、あとはinstance-wise average poolingがあるので、一個一個見ていきましょう。
  24. で、この論文のもとになってる、baselineのpix2pixですが、 Pix2pix自体は、Encoder-Decoder構造のgeneratorになってます。 で、こちらの論文では256 × 256解像度までしか言及しかされていなくて
  25. これをそのまま1024の高解像度に拡張しても、学習がうまくいかなかった。
  26. なので、こちらのpix2pixHDの論文では、このGeneratorの部分でまず大きな改良をしています。
  27. Pix2pixのgeneratorをそのまま使ってもうまく生成できないという事で、 このpix2pixHDでは、Generatorのほうのネットワークを拡張して、このような2つ以上のネットワークに分離しました。 G1をGlobal generator net G2をLocal enhancer net という風にいいますが 要するに、G1で、一番低い解像度の1024 × 512の画像を生成します。 最初にG1のみを訓練して、 その後でG2、G3と、Generatorの両側に拡張で追加していく事で、1段階追加するごとに、 解像度のWとHが2倍になる、という仕組みです。
  28. もう少し詳しくみていきますと、 こちらでは、最初にG1のみを訓練します。 G1は、1024 × 512解像度で学習します。 G1に限らず、全てのGeneratorに言える事ですが、 こんな風に3つのモジュールに分かれていて、 入力したsemantic segment mapをダウンサンプリングするフロントエンドのモジュール 間で、convolution処理をするResidual blocks サイドに、アップサンプリングを行うBack endのモジュールという3つで構成されてます。
  29. で、G1の訓練が終わると、そのG1の両側に、G2をガッチャンコしてくっつけます ここで一番重要なのは、G2のfron-endでダウンサンプリングした出力と、 G1全体の処理結果のG1の最後、Back-endまで通し終えた結果とelement-wise sumを取ってます。 要するに、pixel単位で足し算をするという事ですね。 で、この結果をG2のResidual blocksに入力して、最後G2のback-endモジュールを通って出力結果が生成されるという構造です。 なぜここでelement-wise sumをとっているのかというと、G1の訓練で獲得した、大域的なinformationというのを、無駄にせず、ここで維持したまま、 よりlocalなrefineが可能という事です。
  30. G2の訓練時には最初は、G1の重みを固定して、両側のG2の部分だけを訓練します。 で、一定のイテレーションをまわして、この訓練がある程度安定したあとに、 最終的にG1とG2を両方通して、fine-tuneする。 というやり方です。
  31. ※この論文ではDiscriminatorがマルチスケールになっていて、 Generatorも異なる解像度で訓練してるので、 ここすごく紛らわしいですが、 完全に別ものだと思ってください
  32. 次に、マルチスケールdiscriminatorを説明します。 まずここで、高解像度の画像がrealかfakeかをdiscriminateしなければならない時、細かい細部の識別と、globalな全体的な識別をするのに、 すごく巨大なReceptive fieldが必要になります。 つまり、overfittingしやすくて、メモリも膨大に食います。
  33. これらの問題を回避するために、異なる3つのスケールのDiscriminatorに分離します。 それぞれD1, D2, D3で、そのままのスケール、半分にダウンサンプリングしたスケール、1/4にダウンサンプリングしたスケールでそれぞれdiscriminatorを訓練します。 このdiscriminatorを3つに分ける事で役割分担できて、もっともhigh resのdは、detailのreal / fakeの識別 D3 = 最もちっちゃくダウンサンプルしたdiscriminatorは、よりglobalな画像全体なreal / fakeの識別ができるようになる。 更に、ここでは2048の高解像度ですが、これを更に4096とかもっと解像度を上げた時にでも、このDiscriminatorを1個だけ追加すれば良い という仕組みなっています。 Lossの計算も、こんな風に、3つのDのともにmaximunにするようなminimax gameの式になっています。
  34. この論文では、更に学習を安定化させるために、 通常のGAN Lossに加えて、Feature matching lossというのを定義してます。 このFM lossがなにかというと、考え方はperceptual lossと全く同じで、generatorがより自然な画像を生成するように強いるんですね。 どうやるのかというと、real画像と、生成されたfake画像を各Discriminatorに入力した時に、discriminatorの各層の出力がそれぞれ一致するようにlossをかけるんですね。 こちらがlossの式ですが、 Tが、discriminatorの層の数で、 このノルムの左側が、リアル画像をdiscriminatorに入れた時の各層のfeatureで、ノルムの右側が、fakeをdに入れた時の各層のfeatureで、 単純にそのL1ロスをとってるだけです。
  35. で、こちらが最終的なadversarial lossの完成形になります。 このように、generatorは、マルチスケールのdiscriminatorをすべて騙しつつ、各discriminatorに入力した際の中間表現が一致するように訓練されます で、ここでのλというのは、adversarial loss全体において、FM lossが占めるweightです。実験では10にしてます。 更に、perceptual lossを組み合わせると有効だと論文では書いてました。
  36. 既存研究のpix2pixやCRNのような、semantic label mapのみを使ってます。 Semantic label mapというのはこの真中の画像のように、同じクラスには同じIDがついていて、差異がないですね。 一方でインスタンスマップというのもあって、これは、objectごとに一意のIDが割り振られたもっとリッチな情報です。
  37. このinstance label-mapで最も重要な情報はなにかを考えた時に、それは境界線ですと、 ならば、この境界線のみを反映したlabel情報を作れば良いということで、object boundary mapというものをここで定義しています。 これはなにかというと、右側のような、1/0で構成された単なる1チャンネルのバイナリーマップです 作り方は簡単で、周囲4ピクセルのいずれかとクラスが異なる場合は1で、それ以外は0とします。 使い方も非常に簡単で、これをGとDの両方の入力concatして使うだけです。
  38. ここでは、feature encoder networkというものを提案して、この多様かつobject levelでの操作を可能にします。 これはなにかというと、ただのenc-dec構造のエンコーダを、generatorの入力に追加するだけです。 教師画像をこのencにいれて、出てきた低次元の特徴マップを訓練時に一緒にgに入れるだけですね。
  39. Instance consistency(一貫性)を保てる、という構造です 訓練する時に、Encoderネットワークも一緒に学習される、という仕組みです。
  40. 要するにfeature vectorのデータベースをこの時作り上げます。
  41. 定量的な比較手法として