Más contenido relacionado La actualidad más candente (20) Similar a 【ECCV 2018】Exploring the Limits of Weakly Supervised Pretraining (8) 【ECCV 2018】Exploring the Limits of Weakly Supervised Pretraining1. Exploring the Limits of Weakly Supervised Pretraining
(ECCV 2018 Poster)
Dhruv Mahajan, Ross Girshick, Vignesh Ramanathan, Kaiming He,
Manohar Paluri, Yixuan Li, Ashwin Bharambe, Laurens van der Maaten
(Facebook)
1
http://hirokatsukataoka.net/project/cc/index_cvpaperchallenge.html
資料作成:⽚岡 裕雄
4. CNNにおける事前学習(Pre-train)
4
• 任意のDBにより事前に学習
– パラメータ(特徴量)w を学習することが事前学習
– 1) Pre-train, 2) Fine-tuningの順で学習(下図参照)するこ
とで特定タスクに対する精度向上が期待
Conv
Conv
Pool
Conv
Conv
Conv
Pool
Conv
Conv
Conv
Pool
Conv
Conv
Pool
Conv
Conv
Pool
Conv
g (i; w )
DB
(Pre-train)
FC
FC
Output1
画像 i を⼊⼒して出⼒を得る
関数 g,wによりparametrize
Pre-trained Model
DB
(Fine-tuning)
Output2
Pre-trained Model
1) Pre-train; 通常は⼤規模データにより学習
2) Fine-tuning; 通常はタスクに応じてパラメータを適応
Merit: ⼤規模DBでPre-trainしてFine-tune
すると精度が出やすい!
10. 実験の構成
10
– Model: ResNeXt-101
– Loss: Cross-entropy Loss
– Labels: Multi-label(1枚に付き平均2カテゴリ)
– Instagram 3.5B DB Training
• Machine: 336GPUs, 42 Machines, 8,064 mini-batch images,
• Time: 22 days, 2 epochs
• Learning rate: 0.1 ~ 0.1/(256x8,064)
– ImageNet Training
• Machine: 128 GPUs, 16 Machines, 3,072 mini-batch images
11. 実験結果(1/5)
11
• 画像枚数/ラベル数 @ImageNet
• ⼀般物体認識に対し画像枚数, カテゴリ数が多い⽅が良い!
ImageNet(1,000カテゴリ テスト)
• ベースライン: 79.6
• 事前学習あり: 84.2(+4.6%)
ImageNet(5,000カテゴリ テスト)
• ベースライン: 53.5
• 事前学習あり: 56.0(+2.5%)
ImageNet(9,000カテゴリ テスト)
• ベースライン: 46.0
• 事前学習あり: 49.0(+3.0%)
# ベースライン:ImageNet train
# 事前学習あり:Instagram pre-train, ImageNet fine-tune
12. 実験結果(2/5)
12
• 画像枚数/ラベル数 @CUB & Places
• 詳細画像分類/シーン認識に対しても
• 画像枚数, カテゴリ数が多い⽅が良い!
CUB2011(200カテゴリ テスト)
• ベースライン: 84.0
• 事前学習あり: 89.2(+5.2%)
Places365(365カテゴリ テスト)
• ベースライン: 56.2
• 事前学習あり: 58.0(+1.8%)
# ベースライン:CUB/Places train
# 事前学習あり:Instagram pre-train, CUB/Places fine-tune
14. 実験結果(4/5)
14
• ラベルノイズが与える影響
ImageNet(1,000カテゴリ テスト)
• ノイズなし: 82.1
• ノイズ50%: 76.1(-6.0%)
ImageNet(5,000カテゴリ テスト)
• ノイズなし: 52.6
• ノイズ50%: 46.1(-6.5%)
ImageNet(9,000カテゴリ テスト)
• ノイズなし: 42.7
• ノイズ50%: 36.6(-6.1%)
ノイズの割合と精度
• ノイズは(当然)少ない⽅が良い
• 50%ノイズあると約6%下がる
(逆を⾔うと半分ノイズでもその程度)
17. 関連研究(2/3)
17
• What makes ImageNet good for transfer learning?
– ImageNetの転移学習に関する効果について検証
– カテゴリ/画像枚数など多少は減らしても転移学習ができることを⽰
した
• 例: 枚数は500/1,000,カテゴリは127/1,000でも検出精度がマイナス数%
[Huh+, NIPS2016WS]
ImageNetはフルで使⽤しなくてもOK?
19. ディスカッション
19
• Pre-trainの画像枚数とカテゴリ数の効果
– More is better!
• 3.5B(35億枚),17,000カテゴリ
• ImageNet において Top-1 85.4%, Top-5 97.6%を記録
– 画像枚数は重要
• 画像枚数: 9.4億 vs. 35億は⼤体において後者が良い
– SNSハッシュタグによる弱教師はカテゴリとして有効
• SNSユーザによるハッシュタグによりいわゆるDBのラベル付は不要
• 画像枚数と同様にカテゴリ数の増加も重要
20. メモ
20
– SNSのハッシュタグを利⽤するという考え⽅は使える!
• すでにあるWebの知⾒を再利⽤
• ブログ/Web記事なども同様に重要か
– 勝つためにここまでやるか!?というところまでやっている
• インスタグラムを買収してBillion-orderのデータを収集,調査
• その他,336GPUs, 42Machinesなどパワーワードが並ぶ
• だから,勝てる
– タスクが多様になるのにPre-trainは画像識別のまま?(これ重要と思います)
• おそらくよくない
• タスクに合わせて適切なLarge-scale DBによる事前学習ができるとよい
• ここら辺は{un-, weak-, self-} supervised学習が代替しようとしている
– CVPR 2018 速報より https://www.slideshare.net/cvpaperchallenge/cvpr-2018-102878612