Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Stabilizing generative adversarial network training a survey

172 visualizaciones

Publicado el

2019/10/17 第4回生成モデル勉強会で登壇した内容

Publicado en: Datos y análisis
  • Inicia sesión para ver los comentarios

  • Sé el primero en recomendar esto

Stabilizing generative adversarial network training a survey

  1. 1. 第4回⽣成モデル勉強会 2019/10/17 中根まさゆき
  2. 2. ⾃⼰紹介 所属 (株)エクサウィザーズ 職業 マシーンラーニングエンジニア (MLE) AKA 魔法使い 特技(プレゼンで真価を発揮) メガンテ・メダパニ・ラリホー 最近の趣味・やりたいこと アーチェリー・筋トレ・ダイビング おとつい出した⾃⼰ベスト 57/60点@18m
  3. 3. 本⽇のテーマ “Stabilizing Generative Adversarial Network Training: A Survey”をレビュー (https://arxiv.org/pdf/1910.00927.pdf)
  4. 4. PAPER OUTLINE Introduction GANs and Their Problems on Training GAN Variants Training Techniques Open Problems Conclusion
  5. 5. イントロ GANって学習がなかなかうまく収束しない (e.g., mode collapse) 学習を安定化させる為に様々な⼿法が提案されている それらの⼿法をまとめた
  6. 6. GANおさらい 時短の為、割愛します https://farm1.static.flickr.com/562/32465319801_cfcf7769ac_b.jpg
  7. 7. GANの学習が安定しない4課題 Convergence: ­ Nash equilibrium (NE)になかなか到達しない。Oscillating/cyclical behaviourになる。Local NEに落ちる ­ 伝統的なGDAはsingle-objective convex問題では⾮常にうまくいっているが、two-player non- cooperative games with non-convex cost functionsではうまくいかない Vanishing Gradients ­ Discriminatorの精度がとてもよいと、勾配が0に限りなく近くなってしまい、Generatorの学習が進 まなくなってしまう ­ ⼀⽅でDiscriminatorの精度がとても悪いと、Generatorの学習が誤った⽅向に導かれてしまう ­ データが低次元多様体でdiscriminatorが容易に偽物と本物を分離できてしまう Mode Collapse ­ 複数の明確に異なった⼊⼒から同⼀の出⼒が出てしまう ­ 理論的に収束したGANがmode collapseに陥ってしまうことも Lack of Evaluation Metric ­ 教師なし学習なので評価がしづらい
  8. 8. PAPER OUTLINE Introduction GANs and Their Problems on Training GAN Variants Training Techniques Open Problems Conclusion
  9. 9. GAN VARIANTS GANの学習を安定化させるためのGAN派⽣を5つの観点からまとめた: Architecture Loss Function Game Theory Multi-Agent Gradient-Based
  10. 10. GAN VARIANT: ARCHITECTURE ネットワーク構造を改築するアプローチ 4ストリーム︓ Convolutional GANs Hierarchical architecture GANs Autoencoder architecture GANs Latent space decomposition architecture GANs
  11. 11. GAN VARIANT: ARCHITECTURE Convolutional GANs Deep Convolutional GANs (DCGANs) Conv層を導⼊ Self-Attention GANs (SAGANs) self-attention構造を導⼊ BigGAN self-attentionをdiscriminatorとdiscriminatorに導⼊ バッチサイズやパラメター数の増加
  12. 12. GAN VARIANT: ARCHITECTURE Hierarchical architecture GANs progressive GAN (PROGAN) 低画素から⾼画素に段階的に上げていく discriminatorが優位になりすぎないようになる Stacked GAN (SGAN) ⼤まかな要素を⽣成・分類するgenerator・discriminatorとそこから細部を⽣成 して分類する2段階構成
  13. 13. GAN VARIANT: ARCHITECTURE Autoencoder architecture GANs discriminatorをautoencoder構造にする greedy optimizationの回避 MAGAN, Boundary Equilibrium GAN (BEGAN)
  14. 14. GAN VARIANT: ARCHITECTURE Latent space decomposition architecture GANs たとえデータが多次元であったとしても、実態は低次元多様体に集約されていること は少なくない 低次元であるためにgeneratorがその分布を学習するに⾄りがたい ⼊⼒の潜在ベクトルを追加情報として与えることで、有⽤な特徴の抽出をアシストす る InfoGAN 本当のサンプルから抽出した潜在変数を⼀般的なGANのノイズベクトルに加える Conditional GAN (CGAN) 教師あり学習として、クラスラベルをdiscriminatorとdesicriminatorに与える
  15. 15. GAN VARIANTS: LOSS FUNCTION Goodfellow et al. がKL divergenceとJS divergenceは理想的な状況でoscillating and cyclical behaviour に貢献することを掲⽰ GANに⽤いられている重要なdivergenceとloss functionsを紹介 f-divergence Integral probability metric auxiliary terms in the loss function
  16. 16. GAN VARIANTS: LOSS FUNCTION f-divergence KL & JSD divergencesはf-divergencで2つの分布の差異を測定する 次元数が膨⼤になるとdivergenceをestimateすることが難しくなる f-GAN 様々なf-divergenceからGANのloss関数を⼀般化する Least Squares GAN (LSGAN) ⼀般的に使⽤されているsigmoid cross-entropy lossからleast-square lossに 置き換えて勾配消失に対策
  17. 17. GAN VARIANTS: LOSS FUNCTION Auxiliary terms in the loss function 既存のloss関数に補助的な項を追加するアプローチ
  18. 18. GAN VARIANTS: LOSS FUNCTION (1/3) Unrolled GAN generatorがdiscriminatorが取りうる反応を複数回先取りして観測し (’unroll’), それを取り⼊れるその結果をもってdiscriminatorを更新する Mode Regularized GAN(MRGAN) ランダムなインプットノイズの代わりに、本当のサンプルから潜在ベ クトルzを⽣成するエンコーダーを使い、modesがzでとらえられてい るようにloss関数の項を追加する
  19. 19. GAN VARIANTS: LOSS FUNCTION (2/3) Integral probability metric (IPM) f-divergenceの制約(data dimension, distribution disjointedness)を解決させたい discriminatorがbinary classificationからregressionになる(actor-critic問題) 2つの分布の最⼤距離を測定 Wasserstein GAN (WGAN) Wasserstein距離を使⽤ 収束が遅い CramerGAN WGANだと勾配にバイアスがかかるということで提案 Wasserteinに似ているがバイアスのかからないエネルギー関数を使⽤
  20. 20. GAN VARIANTS: LOSS FUNCTION (3/3) Relativistic GAN (RGAN) generalizerが⽣成したサンプルが本当である確率と本当のサンプルが本当である確率を対⽐させる discriminatroのgreedy optimizationを解決 Geometric GAN SVMで分離する超次元を求め、generator`にはそこに近づいていくように、discriminatorは離れていくよ うに学習させる matrixの演算が重い Loss sensitive GAN(LS-GAN) 本当のサンプルのossは⽣成されたサンプルのlossよりも⼩さいはずで、このosslossの差異を最⼩化する ように学習させる Fisher GAN データ依存の制約をloss関数に取り⼊れる
  21. 21. GAN VARIANTS: GAME THEORY Generatorとdiscriminatorの競争に焦点を置いたアプローチ( Two-player competitive games ) テーマは純粋なNash equilibriumではなくmixed strategy Nash equilibrium (MNE) を求めること (特定の条件下ではMNEはglobal NEと常に同じとなる)
  22. 22. GAN VARIANTS: GAME THEORY Ge et al. 学習途中モデルを織り交ぜてモデルを学習させる ChekhovGAN regret minimization algorithmを⽤いてMNEを算出 discriminatorが1層のネットワークでなければならない Parallel Nash memory algorithm a finite zero-sum game with a finite number of parametersとして提案 さらにMirror Descentを⽤いてMNEを求める⼿法も提案されている
  23. 23. GAN VARIANTS: MULTI-AGENT いくつかのgeneratorsとdiscriminatorsを組み合わせてmode collapseに対抗する アプローチ Game theoryを織り交ぜたり 処理負荷が⼤きい
  24. 24. GAN VARIANTS: MULTI-AGENT MADGAN (複数のgeneratorsと1つのdiscriminatorを使⽤) discriminatorはどのgeneratorからのインプットかも判断する Generatorはdiscriminatorに⾃分が作ったことがばれないようにしないといけないので、より 多様性も持ったサンプルを⽣成できないといけ ない MADGANの派⽣︓MGAN, Stackelberg GAN (1つのgeneratorと複数のdiscriminator) KL divergence⽤とreverse KL divergence⽤に1つづつdiscriminatorを⽤意してデータのモード間 の分布のバランスをとらせる MIX+GAN (複数のgeneratorsと複数のdiscriminators) 様々なパラメターの組み合わせでgeneratorsとdiscriminatorsを学習させる それぞれのrewardからweighted averageを取ってtotal rewardとする 他の例︓Ghosh et al., SGAN, GoGAN
  25. 25. GAN VARIANTS: GRADIENT-BASED ⼀般的なgradient descent ascent (GDA)を改善するアプローチ (divergingでscilllatingな部分を改善したい) Optimistic Mirror Descent (OMD) おおよそconvergeするようにする(two-player bininear zero-sum gameに限る) ConOpt non-convergenceにペナルティー Competitive Gradient Descent OMDとConOptを合わせてmulti-agentの⼿法とした
  26. 26. GAN VARIANTS: OTHERS その他のアプローチ Evolutionary GAN 様々なadversarial training objectivesに変異させて環境(discriminator)にベ ストなadversarial training objectiveに適合していく AdaGAN ブースティングの⼿法を応⽤ Bayesian GAN Bayesian formulationでstochastic gradient Hamiltonian Monte Caoloを使ってGANを最適化 することで多様なサンプルを⽣成。Mode collapseを回避
  27. 27. PAPER OUTLINE Introduction GANs and Their Problems on Training GAN Variants Training Techniques Open Problems Conclusion
  28. 28. 学習時の対策 (1/2) Feature matching generatorが⽣成するサンプルがdiscriminatorに本物と認識される確率を最⼤化 するだけではなく、本物のデータの分布に類似させる discriminatorの中間層でgeneratorを学習させる Minibatch discrimination discriminatorに1層追加し、その層の出⼒を⾒ることで、単調にdiscriminatorの 識別確率だけではなく、⽣成されるサンプル間の距離や多様性を測定できる ようにする Historical averaging 過去のパラメターの平均をコストに追加することでGANのoscillating and cyclical behaviourを抑制
  29. 29. 学習時の対策 (2/2) One-sided label smoothing discriminatorの識別確率を[0,1]から[0, 0.9]にすることでvanishing gradient problemを緩和させる Virtual Batch Normalization 普通のbatch normalizationで発⽣する、⼊⼒がminibatch内の他のサンプルに依 存しすぎるころから発⽣するmode collapseを緩和させる 固定のreference batchを⽤いて正規化する Spectral Normalization discriminatorのweightsを正規化する Lipschitz Conditionをweight clippingやgradient penaltyより効率的、順応的に達 する
  30. 30. PAPER OUTLINE Introduction GANs and Their Problems on Training GAN Variants Training Techniques Open Problems Conclusion
  31. 31. 今後の研究テーマ Scaling Training Stabilization methods BigGANのように既存の提案されている⼿法を統合するアプローチがもっと必要 Actor-critic Methods for GAN Training Stabilization GANと強化学習の関係性、強化学習の技術を⽤いて学習を安定化させる⽅法が提案さ れ始めている Variational Autoencoder GAN Hybrid ⼀般的にはVAEのほうがぼやけた画像になりがちだが、mode collapseには強いと⾔わ れている VAEGANやα-GANのようにもっとVAEとGANの積集合はもっと検証できる
  32. 32. PAPER OUTLINE Introduction GANs and Their Problems on Training GAN Variants Training Techniques Open Problems Conclusion
  33. 33. まとめ GANの学習を安定化させるために提案されたGANのいろいろなモデル構造や ⼿法をまとめた これらの⼿法の多くはまだ学習を不安定にさせている要因の1つのみを改善 させるために提案されており、論理的な正当化がちゃんとなされていないも のもある

×