Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

200211 mixmacth

1.117 visualizaciones

Publicado el

NeurIPS 2019読み会@京都における発表資料

Publicado en: Datos y análisis
  • Sé el primero en comentar

200211 mixmacth

  1. 1. NeurIPS2019読み会 in 京都 MixMatch: A Holistic Approach to Semi-Supervised Learning Kyoto February11, 2020 株式会社エクサウィザーズ 藤井亮宏
  2. 2. STRICTLY CONFIDENTIAL | 2 自己紹介 名前 : 藤井亮宏(アキヒロ) ExaWizardsにおける仕事内容 • Machine Learning Engineer • 画像分類 • 物体検知 • 時系列解析 • 異常検知 • ML系のイベント主催 • CVPR, AAAI等の重要国際会議 • GAN等の⽣成モデルに絞った勉強会 @AkiraTOSEI @akihiro_f ML関係のことを週1くらいで投稿 論⽂の⼀⾔紹介とか
  3. 3. STRICTLY CONFIDENTIAL | 3 書誌情報 Title: MixMatch: A Holistic Approach to Semi-Supervised Learning Date of post: 2019/ 05/06(arXiv) Authors & Institutes:
  4. 4. STRICTLY CONFIDENTIAL | 4 半教師あり学習とは? 半教師あり学習とは、少数のラベルありデータと多数のラベルなしデータを 使って学習する手法 教師あり学習 半教師あり学習
  5. 5. STRICTLY CONFIDENTIAL | 5 半教師あり学習の活用場面 半教師あり学習があると、高コストなアノテーションをせずにタスクの難易度 がある程度判断できる 顧客 弊社 1万データアノテーション中… 顧客 良いモデル作って❤ あと1万ラベル付け して❤ 弊社 何の成果も… 得られませんでした… 顧客 弊社 難易度⾼そう… さよか… 良いモデル作って❤ まず予備試験するわ。 ラベル付データ少なく てええよ 半教師あり学習がないとき 半教師あり学習があるとき
  6. 6. STRICTLY CONFIDENTIAL | 6 Summary 3つの有力な手法を組み合わせた半教師あり学習手法MixMatchというを提案、250 ラベルデータ(+ラベルなしデータ)のみで学習できる Unlabeled data labeled data Unlabeled data & pseudo label Labeled data & real label Data Mixup ① ラベルなしデータの予測⼀貫性 (Consistency Regularization) ② 予測分布に温度項を導⼊(Entropy Minimization) ③ MIXUPで正則化(Traditional Regularization) ①Consistency Regularization ②Entropy Minimiza6on ③Tradi6onal Regulariza6on
  7. 7. STRICTLY CONFIDENTIAL | 7 Consistency Regularization データ拡張前後で予測結果が変わらないような制約をかける 単純な例 MixMatchにおける使い⽅ 様々な変換に対して同じ予測を返すように制約をかける 様々な変換をかけた予測結果の平均値を擬似ラベルとし、それとモデルの予測値 の差分を⽬的関数に組み込む 予測が違うとペナルティ 擬似ラベル モデルの予測値 予測が違うとペナルティ
  8. 8. STRICTLY CONFIDENTIAL | 8 Entropy Minimization 温度項Tの導入でラベルなしデータの擬似ラベルの予測対象を“絞る”ことにより、 決定境界をデータがない部分に持ってこれる(ラベル毎の分布が小さくなる) T=1(Sharpenなし) (T<1) T --- 0 --- 1 entropy ⼤ 温度項TでSoftmax分布の形をコント ロールする Softmax Sharpened Softmax 予測分布が“絞られる”とEntropyが⼩さくなる
  9. 9. STRICTLY CONFIDENTIAL | 9 Traditional Regularization MIXUP(データ拡張手法)による正則化 [1.0, 0.0] [0.0, 1.0] [0.4, 0.6] 𝑥!, 𝑦! 𝑥", 𝑦" $𝑥, $𝑦MIXUP 𝐵𝑒𝑡𝑎 0.2,0.2 𝐵𝑒𝑡𝑎 1.0,1.0 𝐵𝑒𝑡𝑎 10.0,10.0
  10. 10. STRICTLY CONFIDENTIAL | 10 全体のアルゴリズム MixMatchで作ったミニバッチを、ラベルデータが含まれやすい方と含まれに くい方を分けて最適化 Shuffle MixMatch ラベルデータが必ず含まれるデータセットX’ ラベルデータが必ずしも含まれないデータ セットU’ ラベルが含まれやすい⽅は 通常のCross Entropy ラベルが含まれにくい⽅は 緩やかに損失をかける
  11. 11. Results
  12. 12. STRICTLY CONFIDENTIAL | 12 Results1 少数のラベルありデータでも、全学習データをラベルありデータとして使った 教師あり学習に匹敵する結果 ※ラベルありデータ以外の学習データは、全てラベルなしデータとして使用 全学習データの0.50% 全学習データの0.34% CIFAR10 SVHN
  13. 13. STRICTLY CONFIDENTIAL | 13 Results2 それぞれの手法の精度への貢献を比較。ラベルなしデータにおけるMixupと温 度項による予測分布Sharpeningの貢献が大きいことがわかる。 データ拡張後に平均をとる:K 分布を鋭利化する温度項:T K=2, T=0.5
  14. 14. STRICTLY CONFIDENTIAL | 14 資料に付加価値を!!! 実際に動かして遊んでみました。 h4ps://github.com/ntozer/mixmatch-tensorflow2.0 使⽤したレポジトリのMixMatch再現実験結果 ⾊々試すには⼗分な精度
  15. 15. STRICTLY CONFIDENTIAL | 15 実験したかったこと ハイパーパラメータってどれくらいロバストなの?? (@250ラベルデータCIFAR10) 論⽂における値 λUの値 75 λUが最⼤値になるま でのステップ数 16000 温度項T 0.5
  16. 16. STRICTLY CONFIDENTIAL | 16 学習の概観1 学習にかなり時間がかかる (CIFAR10なのに。。。) 4days 8hours with V100 ※レポジトリ のCIFAR10 の250ラベルデータ⽤デフォルトで実験
  17. 17. STRICTLY CONFIDENTIAL | 17 学習の概観2 最初はラベルありデータの教師信号から学習を行い、それらへの過適合が始 まった後はラベルなしデータによる正則化が効果を発揮してさらに学習を進め ていると考える。 ラベルありデータのロス ラベルなしデータのロス ⼀度下がったあとに上がり続ける 少数のラベルデータ による過適合で⼀度 ロスが上がった後、 係数が増加するにつ れ最適化が進んだと 考える。 学習が進むにつれて、設定値まで徐々に⼤きくなる
  18. 18. STRICTLY CONFIDENTIAL | 18 実験の結果 『温度項をより下げる』『目的関数におけるラベルなしデータの影響を大きく する』による精度への悪影響はなさそう。 (学習は途中打ち切り) 論⽂における値 実験1 (レポジトリ の デフォルト設定) 実験2 (擬似ラベルをより シャープに) 実験3 (急激にラベルなし データの影響を⼤き くする) 実験4 (乱数による実験設 定) λUの値 75 75 75 112 50 λUが最⼤値になるま でのステップ数 16000 16000 16000 1750 (設定値の11%) 10667 (設定値の66%) 温度項T 0.5 0.5 0.25 0.5 0.5 Validの最 ⼤Acc 88.92%(※1) 85.03% 88.67% 87.91% 87.03% まだ学習途中?? ※1 論⽂では、最後の20評価ステップの平均値をとっている
  19. 19. STRICTLY CONFIDENTIAL | 19 まとめ • 半教師あり学習手法MixMatchでは以下3つを使用 • ラベルなしデータの予測に⼀貫性を持たせるConsistency regularization • 温度項でラベルの予測を“絞る”Entropy Minimization • 正則化⼿法MIXUP • 250ラベルデータだけでも教師あり学習の精度に近い性能を発揮する • 学習時間はかなりかかる(論文結果を再現するならV100で数日以上@CIFAR10) • ハイパーパラメータにある程度のロバスト性があることを確認(実業務でもある 程度使えそう)
  20. 20. STRICTLY CONFIDENTIAL | 21 Reference • David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, Colin Raffel. MixMatch: A Holistic Approach to Semi-Supervised Learning. NeurIPS2019 • https://www.cs.toronto.edu/~kriz/cifar.html

×