Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

MixMatch: A Holistic Approach to Semi- Supervised Learning

224 visualizaciones

Publicado el

半教師あり学習の手法であるMixMatchを提案。これまでの半教師あり学習のアプローチをひとまとめにした。Cifar-10(250label)のエラー率を38%から11%まで改善。

Publicado en: Tecnología
  • Sé el primero en comentar

MixMatch: A Holistic Approach to Semi- Supervised Learning

  1. 1. MixMatch: A Holistic Approach to Semi- Supervised Learning 05/20 神戸瑞樹 Nicholas Carlini Google Research ncarlini@google.com Ian Goodfellow Work done at Google ian-academic@mailfence.com Avital Oliver Google Research avitalo@google.com Nicolas Papernot Google Research papernot@google.com Colin Raffel Google Research craffel@google.com David Berthelot Google Research dberth@google.com https://arxiv.org/pdf/1905.02249.pdf
  2. 2. 概要 • 半教師あり学習の手法であるMixMatchを提案 • これまでの半教師あり学習のアプローチをひとまと めにした • CIFAR-10(250label)のエラー率を38%から11% に 2
  3. 3. 半教師あり学習 • ラベル付きの画像を大量に用意することは困難 • 画像だけなら比較的容易 • 少量のラベル付き画像と大量のラベルなし画像 から学習する • 半教師あり学習のロス • Entropy loss • Consistency loss • Regularization loss 3
  4. 4. Consistency loss • 同じ画像に違うノイズを加えてその差をなくす • VAT • Adversarial exampleで使うノイズを加える • Mean teacher • ノイズは同じだけどモデルの片方の重みを移動指数 を用いたものにする 4
  5. 5. Entropy loss • モデルの出力をラベルなし画像のラベルとする • Pseudo-Label • VAT 5 Regularization loss • 普通の正則化 • L2 loss • Mix up
  6. 6. Mix up 6 • 2つのデータに対して、ラベルとデータの双方 を線形補間してデータを増やす • 半教師あり学習で画像のみ増やすのに使う場合 もある http://wazalabo.com/mixup_1.html より https://arxiv.org/pdf/1903.03825.pdf より
  7. 7. MixMatch • ラベルなしにK通りのaugmentationを行って平 均を取った後sharpenしたものを擬似ラベルに • ラベルと疑似ラベルを混ぜてMixup 7
  8. 8. Sharpen • ラベルの分布のエントロピーを小さくする • 温度T→0でワンホットに近づく 8
  9. 9. Mix up • 一回は必ず近い方になるようにmax() 9
  10. 10. MixMatchアルゴリズム 10
  11. 11. Loss function • L:class数 11
  12. 12. ハイパーパラメータ • ハイパーパラメータが多く存在 • T(sharpenの温度), • K(ラベルなしのaugmentation数) • α(Mixupにおけるベータ分布のパラメータ) • λU (半教師の重み) • それでも、殆どが固定値で良い精度になる • T = 0.5 , K = 2で固定 • α=0.75, λU =100から探索 12
  13. 13. 実験 • Wide Resnet-28を使用 • 2^16のサンプルごとにモデル保存 • 最後の20個のモデルにおける精度の平均をレ ポート • バリデーションで最も低いエラー率のものを使 用するなどでもっと良い精度になるかも 13
  14. 14. Cifar-10への適用 • α=0.75, λU=75 • ラベル数を250から 4000まで変化 • 250labelでエラー率が 11.08%まで改善(次 点でVATの36.03%) • 250labelで他の手法の 4000labelと同程度 14
  15. 15. SVHNへの適用 • α=0.75, λU=250 • ラベル数を250から 4000まで変化 • 250labelでエラー率 3.78% 15
  16. 16. STL-10への適用 • 10class • 96*96のカラー画像 • 各クラス訓練500、テスト800 • 100000のラベルなし画像 • 画像はimagenetから • α=0.75, λU=50 16
  17. 17. Ablation Study • 各要素を足したり消したりしてその影響を調査 • Cifar-10 の250label、4000labelで調査 17
  18. 18. まとめ • 半教師あり学習の手法であるMixMatchを提案 • これまでの半教師あり学習のアプローチをひとまと めにした • CIFAR-10(250label)のエラー率を11%に • 半教師あり学習は画像でばかり評価されている ので、他のドメインでも試したい 18

×