SlideShare una empresa de Scribd logo
1 de 34
A Style-Based Generator Architecture
for Generative Adversarial Networks
2019/06/29
1
CVPR2019 読み会@DeNA
読む論文
“A Style-Based Generator Architecture for Generative
Adversarial Networks”
• CVPR 2019 Honorable Mention
• 著者はNVIDIAの研究グループ
• 内容
• スタイル変換の手法を取り入れることにより綺麗な画像を生成
• 1024x1024のサイズで実物と見紛うほどの顔画像を生成
2
Which face is real?
[出典] http://www.whichfaceisreal.com/
3
強い研究者には簡単な問題らしい
4
このような2択の問題では,
現在の生成モデルがなんたるかを
知っている人ならば見逃しようのな
い明らかな兆候を見つけられる…
History of GAN
Ian Goodfellow in ICLR 2019.
5
論文概要
• スタイル変換の技術を応用した, 新しいGeneratorの構造を提案
• 潜在表現ベクトルzをAdaINのパラメーターとして導入
• これにより以下が実現
教師なしでの属性の分離
• 例) poseとidentity
教師なしでの確率的なばらつきのモデリング
• 例) そばかす, 髪の毛の流れ方
• 画質等の評価指標で最高性能を達成
• 新しい評価指標・データセットの提案もこの論文の貢献
6
Style based generatorの構造
7
従来のGenerator
潜在表現zをCNN
で徐々にupsample
することにより画
像を生成
Style based generatorの構造
8
Mapping network
潜在表現zをMLPにより
ベクトルwにマッピング
wで貼られる空間Wを
intermediate feature
space (中間的な特徴空
間)としている
Synthesis network
従来のgeneratorと同様
に, CNNで特徴マップを
upsampleしていくこと
により画像を生成
Style based generatorの構造
9
wは行列Aをかけたの
ちに, 各レイヤーの特
徴マップに適用される
スタイル変換の論文で
提案されたAdaINをこ
こで使っている
AdaIN (Adaptive Instance Normalization)
• スタイル変換の論文 (Huang et al. 2017) で提案された正規化手法
※スタイル変換とは, ある画像に他の画像のスタイルを適用するタスク
10
X. Huang et al. “Arbitrary Style Transfer in Real-
time with Adaptive Instance Normalization”, 2017.
AdaIN (Adaptive Instance Normalization)
• スタイル変換の論文で提案された正規化手法
• 変換元の画像の特徴マップの平均・分散をスタイル画像の特徴マップの平均・分散
に合わせる操作
• 実は特徴マップの平均・分散を合わせることがスタイル変換の本質
11
𝑥 : 特徴マップ
𝑦 : スタイル画像の特徴マップ
𝜇, 𝜎 : 平均・分散
特徴マップを正規化
スタイル画像の平均・分散を適用
AdaIN (Adaptive Instance Normalization)
• スタイル変換の論文で提案された正規化手法
• 変換元の画像の特徴マップの平均・分散をスタイル画像の特徴マップの平均・分散
に合わせる操作
• 実は特徴マップの平均・分散を合わせることがスタイル変換の本質
12
𝑥 : 特徴マップ
𝑦 : スタイル画像の特徴マップ
𝜇, 𝜎 : 平均・分散
特徴マップを正規化
スタイル画像の平均・分散を適用
AdaIN (Adaptive Instance Normalization)
• StyleGANでは, 以下の式の𝑦𝑠,𝑖と𝑦 𝑏,𝑖をMapping Networkに
よりzから生成している
• 論文ではこれを「スタイル」と呼んでいる
• ちなみに, Self-modulationというほぼ同じ手法がある
13
T. Cheng et al. “On Self Modulation for Generative Adversarial Networks”, ICLR, 2019.
Style based generatorの構造
14
Synthesis networkの入
力は潜在表現zでなく固
定されたテンソル
(これにより性能が結構
上がる)
Style based generatorの構造
15
ガウス分布からサンプル
したノイズが各特徴マッ
プに足される
ノイズの役割
• ノイズは, 生成画像の確率的な
要素を司る
• 例) 髪の毛の流れ方, 肌のしわ
16
ノイズの役割
• ノイズは, 生成画像の確率的な要素を司る
• 例) 髪の毛の流れ方, 肌のしわ
17
mixing regularization
• AdaINのパラメータ𝑤1, 𝑤2を𝑧1, 𝑧2から生成し, こ
れらをランダムで学習中に入れ替える
• 連続する層のスタイルが相関するのを防ぐ狙い
• これによりFIDスコアが少し上がった
18
例) 異なるzか
ら生成したパラ
メータを導入
提案手法まとめ
• Style based generatorでは以下の手法を提案
• 潜在ベクトルを変換した後AdaINの層に導入
• Synthesis networkの入力を固定テンソルに変更
• 各層にノイズを付与
• Style mixing
19
実験 : 生成画像の質
• CELEBA-HQとFFHQデータセットで画質 (FID score) を評価
• FFHQは新しいデータセット
提案手法によりスコアが向上
20
mixing regularizationの効果
• mixing regularizationにより各層の担当す
る特徴の相関は小さいはず
2つの画像でスタイルを入れ替えることに
より, 各層の担当する特徴を確認
21
異なるzから生
成したパラメー
タを導入
mixing regularizationの効果
• source(上段)のstyleをdestination(左列)と
mix
• 上: coarse style (42 – 82)
• 姿勢, 髪型, 顔の形, メガネの有無など
• 中: middle style (162 – 322)
• 髪型, 目など
• 下: fine style (642 - 10242)
• 髪, 肌の色
それぞれのスタイルは異なる特性を担当
22
Styleをmix
特徴量のdisentanglementについて
• disentanglementとは, 特徴を分解すること
• ここでは, 潜在空間の1つの方向が画像の1つの特徴に対応していることと定義
• すると, 潜在空間が図の左のような形になるべき場合がある
• 例えば「性別」「髭の長さ」という2軸でみると女性で髭の長いサンプルは少ない
• 従来のGANでは潜在空間がガウス分布なので特徴を2軸に分離できない
• StyleGANでは𝑧から写像した𝑤により潜在空間が作られるので実現可能
23
Perceptual path length
• 先行研究(*)によると潜在空間をinterpolateして画像を生成した時, 途中で
不自然に画像が変化してしまう問題がある
• これは潜在空間が「もつれている」ことを示す
• 潜在空間の「曲がり具合」が少ないほど, 画像がスムーズに変化する
Perceptual path lengthという指標により評価
24
* S. Laine. Feature-based metrics for exploring the latent space of generative models. ICLR workshop poster, 2018.
滑らかに変化してほしい
S. Laine. Feature-based metrics for exploring the latent space of generative models. ICLR workshop poster, 2018.
Perceptual path length
• お気持ち
• 潜在表現zを2点の間で線形補間すると, 生成画像の特徴も線形に変化するはず
• ここでは, 生成画像の特徴の変化を知覚損失(*)により測定
• つまり, 潜在空間が「曲がって」いないほど知覚損失の差は小さくなる
25
潜在空間
生成画像から抽出した特徴の空間
Generatorによる写像
𝑧1
𝑧2 𝐹(𝐺 𝑧1 )
𝐹(𝐺 𝑧2)
潜在空間が「曲がって」
いる場合=距離大
潜在空間が「曲がって」
いない場合=距離小
線形補間
* J. Johnson et al. “Perceptual Losses for Real-Time Style Transfer and Super-Resolution”, ICCV, 2017.
Perceptual path length
• perceptual path lengthは小さい程よい
• 提案手法は既存手法に加えてpath lengthが短い
特徴空間が「曲がってない」
26
Linear separability
1. 画像の二値分類できる特徴(例: 性別)を分類する補助ネットワーク
(discriminatorと同様の構造)を学習
2. 20万枚画像を生成
3. 分類器のスコアが高い10万枚について, 潜在表現とラベルのペアを作成
4. 潜在表現とラベルのペアの分類をSVMで学習
5. エントロピーH(Y|X)を計算
• (X: SVMの推定ラベル, Y: 補助ネットワークがつけたラベル)
• 上のスコアを40個のアトリビュートで計算し平均
• このスコアが低いほど潜在表現が分離しやすい→良い
27
The FFHQ datase
• 1024 x 1024の高画質画像を7万枚収集
• CELEBA-HQよりも年齢, 人種, 背景, メガネ, 帽子など外見が多様な画像を集めた
• こちらのURLから使用可能 (http://stylegan.xyz/code)
28
まとめ
• スタイル変換の技術を応用した新しいgeneratorの構造を提案
• 生成画像の質の指標で既存手法を上回った
• 提案手法には以下のような特性が
• 高レベルの特徴を分離して学習
• 確率的なばらつきを学習
• 潜在空間の線型性
• 潜在空間の「曲がり具合」や「どれだけ分離できるか」という性能
を測る指標を提案
29
おまけ : StyleGANを使っている論文
• 例) HoloGAN
• StyleGANの構造にさらに3次元的な変形を行うレイヤーを追加
生成される画像の姿勢を制御できる
30
T. N. Phuoc et al. “HoloGAN: Unsupervised learning of 3D representations from natural images”, arXiv, 2019.
おまけ : StyleGAN in twitter
31
おまけ : StyleGAN in twitter
32
おまけ : StyleGAN in twitter
33
参考文献
1. T. Karras et al. “A Style-Based Generator Architecture for Generative Adversarial
Network”, 2018.
2. T. Karras et al. “Progressive Growing of GANs for Improved Quality, Stability, and
Variation”, ICLR, 2018.
3. X. Huang et al. “Arbitrary Style Transfer in Real-time with Adaptive Instance
Normalization”, 2017.
4. T. Cheng et al. “On Self Modulation for Generative Adversarial Networks”, ICLR,
2019.
5. S. Laine. “Feature-based metrics for exploring the latent space of generative
models”, ICLR workshop poster, 2018.
6. J. Johnson et al. “Perceptual Losses for Real-Time Style Transfer and Super-
Resolution”, ICCV, 2017.
7. T. N. Phuoc et al. “HoloGAN: Unsupervised learning of 3D representations from
natural images”, arXiv, 2019.
34

Más contenido relacionado

La actualidad más candente

[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーnlab_utokyo
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without SupervisionDeep Learning JP
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image TranslationDeep Learning JP
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...Deep Learning JP
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)cvpaper. challenge
 
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーションCycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション奈良先端大 情報科学研究科
 
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...Deep Learning JP
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial NetworksARISE analytics
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative ModelDeep Learning JP
 
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...Deep Learning JP
 

La actualidad más candente (20)

[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
 
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーションCycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
 
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
 
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
 

Similar a StyleGAN解説 CVPR2019読み会@DeNA

20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasyYoichi Shirasawa
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningKohei Nishimura
 
AIがAIを生み出す?
AIがAIを生み出す?AIがAIを生み出す?
AIがAIを生み出す?Daiki Tsuchiya
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural imagesDeep Learning JP
 
Generative adversarial nets
Generative adversarial netsGenerative adversarial nets
Generative adversarial netsKeisuke Hosaka
 
【DL輪読会】Factory: Fast Contact for Robotic Assembly
【DL輪読会】Factory: Fast Contact for Robotic Assembly【DL輪読会】Factory: Fast Contact for Robotic Assembly
【DL輪読会】Factory: Fast Contact for Robotic AssemblyDeep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)Shoki Miyagawa
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目Atsushi Hashimoto
 
VIEW2013 Binarycode-based Object Recognition
VIEW2013 Binarycode-based Object RecognitionVIEW2013 Binarycode-based Object Recognition
VIEW2013 Binarycode-based Object RecognitionHironobu Fujiyoshi
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP
 
20190227 第51回CV勉強会@関東
20190227 第51回CV勉強会@関東 20190227 第51回CV勉強会@関東
20190227 第51回CV勉強会@関東 Kyohei Unno
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
20170823【GWゼミ #2】コンピュータビジョンの基礎
20170823【GWゼミ #2】コンピュータビジョンの基礎20170823【GWゼミ #2】コンピュータビジョンの基礎
20170823【GWゼミ #2】コンピュータビジョンの基礎Mirai Higuchi
 
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...Kento Doi
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakikanejaki
 

Similar a StyleGAN解説 CVPR2019読み会@DeNA (20)

20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
 
AIがAIを生み出す?
AIがAIを生み出す?AIがAIを生み出す?
AIがAIを生み出す?
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
 
Generative adversarial nets
Generative adversarial netsGenerative adversarial nets
Generative adversarial nets
 
【DL輪読会】Factory: Fast Contact for Robotic Assembly
【DL輪読会】Factory: Fast Contact for Robotic Assembly【DL輪読会】Factory: Fast Contact for Robotic Assembly
【DL輪読会】Factory: Fast Contact for Robotic Assembly
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目
 
VIEW2013 Binarycode-based Object Recognition
VIEW2013 Binarycode-based Object RecognitionVIEW2013 Binarycode-based Object Recognition
VIEW2013 Binarycode-based Object Recognition
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
20190227 第51回CV勉強会@関東
20190227 第51回CV勉強会@関東 20190227 第51回CV勉強会@関東
20190227 第51回CV勉強会@関東
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
20170823【GWゼミ #2】コンピュータビジョンの基礎
20170823【GWゼミ #2】コンピュータビジョンの基礎20170823【GWゼミ #2】コンピュータビジョンの基礎
20170823【GWゼミ #2】コンピュータビジョンの基礎
 
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
Agile Overview In Ono
Agile Overview In OnoAgile Overview In Ono
Agile Overview In Ono
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 

Más de Kento Doi

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Kento Doi
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisKento Doi
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesKento Doi
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationKento Doi
 
20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会Kento Doi
 
Semi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance SegmentationSemi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance SegmentationKento Doi
 
カメラキャリブレーション
カメラキャリブレーションカメラキャリブレーション
カメラキャリブレーションKento Doi
 
CVPR2018読み会_20180701
CVPR2018読み会_20180701CVPR2018読み会_20180701
CVPR2018読み会_20180701Kento Doi
 
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他Kento Doi
 

Más de Kento Doi (10)

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
 
20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会
 
Semi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance SegmentationSemi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance Segmentation
 
Style-GAN
Style-GANStyle-GAN
Style-GAN
 
カメラキャリブレーション
カメラキャリブレーションカメラキャリブレーション
カメラキャリブレーション
 
CVPR2018読み会_20180701
CVPR2018読み会_20180701CVPR2018読み会_20180701
CVPR2018読み会_20180701
 
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 

Último

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Último (8)

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

StyleGAN解説 CVPR2019読み会@DeNA

  • 1. A Style-Based Generator Architecture for Generative Adversarial Networks 2019/06/29 1 CVPR2019 読み会@DeNA
  • 2. 読む論文 “A Style-Based Generator Architecture for Generative Adversarial Networks” • CVPR 2019 Honorable Mention • 著者はNVIDIAの研究グループ • 内容 • スタイル変換の手法を取り入れることにより綺麗な画像を生成 • 1024x1024のサイズで実物と見紛うほどの顔画像を生成 2
  • 3. Which face is real? [出典] http://www.whichfaceisreal.com/ 3
  • 5. History of GAN Ian Goodfellow in ICLR 2019. 5
  • 6. 論文概要 • スタイル変換の技術を応用した, 新しいGeneratorの構造を提案 • 潜在表現ベクトルzをAdaINのパラメーターとして導入 • これにより以下が実現 教師なしでの属性の分離 • 例) poseとidentity 教師なしでの確率的なばらつきのモデリング • 例) そばかす, 髪の毛の流れ方 • 画質等の評価指標で最高性能を達成 • 新しい評価指標・データセットの提案もこの論文の貢献 6
  • 8. Style based generatorの構造 8 Mapping network 潜在表現zをMLPにより ベクトルwにマッピング wで貼られる空間Wを intermediate feature space (中間的な特徴空 間)としている Synthesis network 従来のgeneratorと同様 に, CNNで特徴マップを upsampleしていくこと により画像を生成
  • 9. Style based generatorの構造 9 wは行列Aをかけたの ちに, 各レイヤーの特 徴マップに適用される スタイル変換の論文で 提案されたAdaINをこ こで使っている
  • 10. AdaIN (Adaptive Instance Normalization) • スタイル変換の論文 (Huang et al. 2017) で提案された正規化手法 ※スタイル変換とは, ある画像に他の画像のスタイルを適用するタスク 10 X. Huang et al. “Arbitrary Style Transfer in Real- time with Adaptive Instance Normalization”, 2017.
  • 11. AdaIN (Adaptive Instance Normalization) • スタイル変換の論文で提案された正規化手法 • 変換元の画像の特徴マップの平均・分散をスタイル画像の特徴マップの平均・分散 に合わせる操作 • 実は特徴マップの平均・分散を合わせることがスタイル変換の本質 11 𝑥 : 特徴マップ 𝑦 : スタイル画像の特徴マップ 𝜇, 𝜎 : 平均・分散 特徴マップを正規化 スタイル画像の平均・分散を適用
  • 12. AdaIN (Adaptive Instance Normalization) • スタイル変換の論文で提案された正規化手法 • 変換元の画像の特徴マップの平均・分散をスタイル画像の特徴マップの平均・分散 に合わせる操作 • 実は特徴マップの平均・分散を合わせることがスタイル変換の本質 12 𝑥 : 特徴マップ 𝑦 : スタイル画像の特徴マップ 𝜇, 𝜎 : 平均・分散 特徴マップを正規化 スタイル画像の平均・分散を適用
  • 13. AdaIN (Adaptive Instance Normalization) • StyleGANでは, 以下の式の𝑦𝑠,𝑖と𝑦 𝑏,𝑖をMapping Networkに よりzから生成している • 論文ではこれを「スタイル」と呼んでいる • ちなみに, Self-modulationというほぼ同じ手法がある 13 T. Cheng et al. “On Self Modulation for Generative Adversarial Networks”, ICLR, 2019.
  • 14. Style based generatorの構造 14 Synthesis networkの入 力は潜在表現zでなく固 定されたテンソル (これにより性能が結構 上がる)
  • 18. mixing regularization • AdaINのパラメータ𝑤1, 𝑤2を𝑧1, 𝑧2から生成し, こ れらをランダムで学習中に入れ替える • 連続する層のスタイルが相関するのを防ぐ狙い • これによりFIDスコアが少し上がった 18 例) 異なるzか ら生成したパラ メータを導入
  • 19. 提案手法まとめ • Style based generatorでは以下の手法を提案 • 潜在ベクトルを変換した後AdaINの層に導入 • Synthesis networkの入力を固定テンソルに変更 • 各層にノイズを付与 • Style mixing 19
  • 20. 実験 : 生成画像の質 • CELEBA-HQとFFHQデータセットで画質 (FID score) を評価 • FFHQは新しいデータセット 提案手法によりスコアが向上 20
  • 21. mixing regularizationの効果 • mixing regularizationにより各層の担当す る特徴の相関は小さいはず 2つの画像でスタイルを入れ替えることに より, 各層の担当する特徴を確認 21 異なるzから生 成したパラメー タを導入
  • 22. mixing regularizationの効果 • source(上段)のstyleをdestination(左列)と mix • 上: coarse style (42 – 82) • 姿勢, 髪型, 顔の形, メガネの有無など • 中: middle style (162 – 322) • 髪型, 目など • 下: fine style (642 - 10242) • 髪, 肌の色 それぞれのスタイルは異なる特性を担当 22 Styleをmix
  • 23. 特徴量のdisentanglementについて • disentanglementとは, 特徴を分解すること • ここでは, 潜在空間の1つの方向が画像の1つの特徴に対応していることと定義 • すると, 潜在空間が図の左のような形になるべき場合がある • 例えば「性別」「髭の長さ」という2軸でみると女性で髭の長いサンプルは少ない • 従来のGANでは潜在空間がガウス分布なので特徴を2軸に分離できない • StyleGANでは𝑧から写像した𝑤により潜在空間が作られるので実現可能 23
  • 24. Perceptual path length • 先行研究(*)によると潜在空間をinterpolateして画像を生成した時, 途中で 不自然に画像が変化してしまう問題がある • これは潜在空間が「もつれている」ことを示す • 潜在空間の「曲がり具合」が少ないほど, 画像がスムーズに変化する Perceptual path lengthという指標により評価 24 * S. Laine. Feature-based metrics for exploring the latent space of generative models. ICLR workshop poster, 2018. 滑らかに変化してほしい S. Laine. Feature-based metrics for exploring the latent space of generative models. ICLR workshop poster, 2018.
  • 25. Perceptual path length • お気持ち • 潜在表現zを2点の間で線形補間すると, 生成画像の特徴も線形に変化するはず • ここでは, 生成画像の特徴の変化を知覚損失(*)により測定 • つまり, 潜在空間が「曲がって」いないほど知覚損失の差は小さくなる 25 潜在空間 生成画像から抽出した特徴の空間 Generatorによる写像 𝑧1 𝑧2 𝐹(𝐺 𝑧1 ) 𝐹(𝐺 𝑧2) 潜在空間が「曲がって」 いる場合=距離大 潜在空間が「曲がって」 いない場合=距離小 線形補間 * J. Johnson et al. “Perceptual Losses for Real-Time Style Transfer and Super-Resolution”, ICCV, 2017.
  • 26. Perceptual path length • perceptual path lengthは小さい程よい • 提案手法は既存手法に加えてpath lengthが短い 特徴空間が「曲がってない」 26
  • 27. Linear separability 1. 画像の二値分類できる特徴(例: 性別)を分類する補助ネットワーク (discriminatorと同様の構造)を学習 2. 20万枚画像を生成 3. 分類器のスコアが高い10万枚について, 潜在表現とラベルのペアを作成 4. 潜在表現とラベルのペアの分類をSVMで学習 5. エントロピーH(Y|X)を計算 • (X: SVMの推定ラベル, Y: 補助ネットワークがつけたラベル) • 上のスコアを40個のアトリビュートで計算し平均 • このスコアが低いほど潜在表現が分離しやすい→良い 27
  • 28. The FFHQ datase • 1024 x 1024の高画質画像を7万枚収集 • CELEBA-HQよりも年齢, 人種, 背景, メガネ, 帽子など外見が多様な画像を集めた • こちらのURLから使用可能 (http://stylegan.xyz/code) 28
  • 29. まとめ • スタイル変換の技術を応用した新しいgeneratorの構造を提案 • 生成画像の質の指標で既存手法を上回った • 提案手法には以下のような特性が • 高レベルの特徴を分離して学習 • 確率的なばらつきを学習 • 潜在空間の線型性 • 潜在空間の「曲がり具合」や「どれだけ分離できるか」という性能 を測る指標を提案 29
  • 30. おまけ : StyleGANを使っている論文 • 例) HoloGAN • StyleGANの構造にさらに3次元的な変形を行うレイヤーを追加 生成される画像の姿勢を制御できる 30 T. N. Phuoc et al. “HoloGAN: Unsupervised learning of 3D representations from natural images”, arXiv, 2019.
  • 31. おまけ : StyleGAN in twitter 31
  • 32. おまけ : StyleGAN in twitter 32
  • 33. おまけ : StyleGAN in twitter 33
  • 34. 参考文献 1. T. Karras et al. “A Style-Based Generator Architecture for Generative Adversarial Network”, 2018. 2. T. Karras et al. “Progressive Growing of GANs for Improved Quality, Stability, and Variation”, ICLR, 2018. 3. X. Huang et al. “Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization”, 2017. 4. T. Cheng et al. “On Self Modulation for Generative Adversarial Networks”, ICLR, 2019. 5. S. Laine. “Feature-based metrics for exploring the latent space of generative models”, ICLR workshop poster, 2018. 6. J. Johnson et al. “Perceptual Losses for Real-Time Style Transfer and Super- Resolution”, ICCV, 2017. 7. T. N. Phuoc et al. “HoloGAN: Unsupervised learning of 3D representations from natural images”, arXiv, 2019. 34