Enviar búsqueda
Cargar
[DL輪読会]Seeing What a GAN Cannot Generate
•
Descargar como PPTX, PDF
•
1 recomendación
•
1,022 vistas
Deep Learning JP
Seguir
2019/10/11 Deep Learning JP: http://deeplearning.jp/seminar-2/
Leer menos
Leer más
Tecnología
Denunciar
Compartir
Denunciar
Compartir
1 de 14
Descargar ahora
Recomendados
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
Recomendados
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
Deep Learning JP
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
Deep Learning JP
Más contenido relacionado
Más de Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
Deep Learning JP
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
Deep Learning JP
Más de Deep Learning JP
(20)
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
[DL輪読会]Seeing What a GAN Cannot Generate
1.
DEEP LEARNING JP [DL
Papers] Seeing What a GAN Cannot Generate Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1
2.
書誌情報 著者 – David
BauらMITの研究チーム – GAN Dissectionを提案したチーム ICCV2019に採択 コード:2週間前に公開 – https://github.com/davidbau/ganseeing 2
3.
概要 既存のGAN手法のmode collapseに注目。
主に物体レベルのmode collapseを研究対象として、議論を行った – どのような物体が作成されないかを統計的に検討 単独の画像に注目し、GANの生成器をレイヤ毎にnetwork inversionを実施 し、生成器を最適化する – レイヤ毎の特徴量を最適化することで、生成器の性能の上限を向上 – 既存のGAN手法が失敗するケースを分析 3
4.
既往研究 GANの課題:mode collapse/
mode drop – ターゲット分布の一部分は生成されない – 既存のGANの結果を評価する指標はモデル全体を対象とする – 本研究は、物体レベルのmode collapseを評価 Network inversion – x = G(E(x)) – 生成器のinversionとなるencoderにより取得した潜在空間に対し、特定の操作を行う ことで、画像を編集できる – 構造の複雑な生成器に対しては困難 – 本研究は、 Layer-wise network inversion + Layer-wise image optimizeを提案 GANの可視化 – 多くの研究は、分類問題や、GANが学習できる物体の可視化に注目 – 本研究は、 GANが学習できていない物体を対象とする 4
5.
手法 生成画像と実画像のセマンティックセグメンテーション結果を比較し、GAN が生成できない物体を全体的に評価 ⁃ セグメンテーション結果に対し、各クラスの画素数で比較 ⁃
FSD(Fréchet Segementation Distance)でモデルの全体性能を評価(FIDと類似) ⁃ 𝐹𝑆𝐷 = 𝜇 𝑔 − 𝜇 𝑡 2 + 𝑇𝑟 ∑ 𝑔 + ∑ 𝑡 + 2(∑ 𝑔∑ 𝑡)1/2 (1) ⁃ 𝜇 𝑡は学習サンプルの各クラスの平均画素数。∑ 𝑡は各クラスの画素数の共分散 ⁃ 𝜇 𝑔は生成画像の各クラスの平均画素数。∑ 𝑔は各クラスの画素数の共分散 5
6.
手法 問題設定 – x‘
= G(z) = G(E(x)) • Network inversion によるGの最適化:Gはnon-convexのため、全体のinversionが難しい • zの最適化:局所的最小値に落ちやすい – 追跡可能なnetwork inversion • x' = G(z) = Gf(gn(·· · ((g1(z)))) (2) = Gf(r*) where Gfは生成器の深い層。gnは浅い層。 r ∗ = arg min 𝑟 𝑙(Gf 𝑟 , 𝑥) – 完璧なr*を求めれば、漏れのない画像を生成できる r ∗ ≈r0= gn(·· · ((g1(z0)))) – ランダムなzより、ある程度正則化されたz0 が望ましい。実画像xをencodeすることで、正則化したz0を 求められる z0 = E(x) 6
7.
手法 Layer-wise network
inversion – Encoder Eを学習できれば、 z0の推定ができる – pre-trainした独立するレイヤを使うことで、大きいなネットワークの学習がしやすくなる – Layer-wise inversionで、Eを最適化する – x′= Gf(gn(·· · ((g1(z)))) のレイヤ毎(gi)に、inversionとなるeを用いて最適化する • ri = gi(ri-1) ⇒ ri-1 ≈ ei(ri) ⇒ ri ≈ gi(ei(ri)) • eiの最適化 • E* = e1(e2(·· · (en(ef(x)))) 7
8.
手法 Layer-wise image
optimization – 目標は、 なるべく完璧なr ∗ を見つけて、物体が漏れない画像を生成する。 ⇒ Gf(r*) – 各 giにおいて、ある特徴量𝛿𝑖を加えることで、 ri を最適化 – 𝑟 ≡ 𝛿 𝑛 + 𝑔 𝑛 ⋯ 𝛿2 + 𝑔2 𝛿1 + 𝑔1 𝑧0 (3) – r ∗ = arg min 𝑟 ( 𝑙 x, Gf 𝑟 + λ 𝑟𝑒𝑔 ∑𝑖 𝛿𝑖 2) – 𝑙 x, Gf 𝑟 は画像のpixel lossおよび、VGG perceptual lossとする 8
9.
実験1 GANが生成した画像の全体評価 実験対象 –
WGAN-GP, Progressive GAN, StyleGAN データセット – LSUN bedroom images 評価内容 – GANで生成した画像でsemantic segmentationし、その結果を統計的に評価する – 合計336クラス、10,000枚以上の画像で評価 セグメンテーション手法 – Unified Perceptual Parsing network 9
10.
実験1 実画像と比較し、GANは小さく、複雑な物体の生成が苦手 性能として、StyleGAN
> Progressive GAN > WGAN 10 Real images
11.
実験2 異なるデータセットにおいて、生成できない物体は類似する 実験対象:
Progressive GAN データセット:LSUN church/bedroom images 11
12.
実験3 提案手法有効性の検証 baseline –
a): optimize z – b): learn E directly – c): b)+a) abalation study – d): layer-wise network inversion only – e): a)+optimize z – f): a)+optimize r (r=Ef(x)) 提案手法は、中間レイヤの特徴量において、 99%以上相関 Eの目的は、Gが生成できない物体 (dropped modes)を明確にする d),e)はGの下限を示す。f)はGの上限を示す 12
13.
実験4 Layer-wise inversion
across domains – 対象物体が同じで、学習データに含まれていない場合:形状は大体復元できるが、細部は困難 – シーンが異なる場合、基本的には難しい 13
14.
まとめ GANの生成画像をセグメンテーションし、FSDで全体を評価した Layer-wise
network inversionで、Gをレイヤ毎にinversionし、Gの復元上限(dropped mode)を明確にした 今後の課題 – なぜGANは、学習データでの出現頻度が高い物体を生成しないのか? – 学習データを変更せず、どうやってGANを物体の表現を学習できようにするのか? 所感 – 着眼点が面白い – 方法は、割と地味 – 解釈性も入れるべき? 14
Descargar ahora