【ECCV 2018】Exploring the Limits of Weakly Supervised Pretraining

Exploring the Limits of Weakly Supervised Pretraining
(ECCV 2018 Poster)
Dhruv Mahajan, Ross Girshick, Vignesh Ramanathan, Kaiming He,
Manohar Paluri, Yixuan Li, Ashwin Bharambe, Laurens van der Maaten
(Facebook)
1
http://hirokatsukataoka.net/project/cc/index_cvpaperchallenge.html
資料作成：⽚岡裕雄

論⽂の要点
2
– ImageNetを始めとするDBはラベル付けが困難なので
SNSのハッシュタグによる⼤量DBを提案
– 35+億枚のDBを準備して事前学習，ImageNetにて
85.4%（top-1）/97.6%（top-5）を記録
– その他転移学習の調査を実施，弱教師ラベル/⼤量データ
による学習法を確⽴した

Facebookのこの記事が論⽂になっていた
3
• Facebookは35億枚のインスタ画像とハッシュタグで画像
認識AIを強化ーー85%以上の認識率、2万カテゴリを対象
http://thebridge.jp/2018/05/facebook-is-using-instagram-photos-and-hashtags-to-improve-its-computer-vision
https://developers.facebook.com/videos/f8-2018/f8-2018-day-2-keynote/

CNNにおける事前学習（Pre-train）
4
• 任意のDBにより事前に学習
– パラメータ（特徴量）w を学習することが事前学習
– 1) Pre-train, 2) Fine-tuningの順で学習（下図参照）するこ
とで特定タスクに対する精度向上が期待
Conv
Conv
Pool
Conv
Conv
Conv
Pool
Conv
Conv
Conv
Pool
Conv
Conv
Pool
Conv
Conv
Pool
Conv
g (i; w )
DB
(Pre-train)
FC
FC
Output1
画像 i を⼊⼒して出⼒を得る
関数 g，wによりparametrize
Pre-trained Model
DB
(Fine-tuning)
Output2
Pre-trained Model
1) Pre-train; 通常は⼤規模データにより学習
2) Fine-tuning; 通常はタスクに応じてパラメータを適応
Merit: ⼤規模DBでPre-trainしてFine-tune
すると精度が出やすい！

事前学習モデルは⾮常に重要！
5
• ImageNet[Deng+, CVPR09] が代表例
– 実世界の視覚特徴を普遍的に表現（したと⾔われる）
– ImageNetはDNN in CVのアイコン的存在
> デファクトスタンダードとして扱われる
image-net.org/index
ImageNet事前学習モデルはDLフレームワーク等
でもスタンダードで配布される

ImageNetの利点と限界
6
メリット
+ 事前学習に良好
+ 事前学習モデルが簡単に⼊⼿可能
デメリット
ー古い（Nearly ten years old）
ー DBが⼩さい（Modern standards “small”）
ーラベル付けが困難（building new datasets is labor）
CVにおけるこの根本問題をなんとかしたい

研究内容
7
• 画像ラベルが⾃動で⼊⼿可能な仕組みを活⽤，35億の画像
データを収集A)しImageNet等に代わる事前学習DBB)とする
A) Instagramにアップロードされる画像とそのハッシュタグを使⽤
• ハッシュタグを利⽤することで17kカテゴリを追加アノテーションなしに⽣成
• ラベル付けなしでBillion-order（35億枚）のデータ収集に取り組む
B) 作成DBを⽤いて事前学習，ImageNet等のデータにてテスト
• 弱ラベルも転移学習に有効なことを実証
• 画像枚数は多いほど良いかどうかを検証

その他使⽤データセット
8
• ⽐較およびテスト

実験
9
• 本提案で準備したInstagramによるDBを⽤いて，
– 画像枚数とカテゴリ（ここではハッシュタグ）数の関係性を調査
– 事前学習モデルと場⾯ごと（⼀般物体認識，詳細画像識別，シーン認識）の効果
– アーキテクチャとデータ構成の関係性を調査
– ラベルノイズと精度低下の関係性
• に関する調査を⾏なった

実験の構成
10
– Model: ResNeXt-101
– Loss: Cross-entropy Loss
– Labels: Multi-label（1枚に付き平均2カテゴリ）
– Instagram 3.5B DB Training
• Machine: 336GPUs, 42 Machines, 8,064 mini-batch images,
• Time: 22 days, 2 epochs
• Learning rate: 0.1 ~ 0.1/(256x8,064)
– ImageNet Training
• Machine: 128 GPUs, 16 Machines, 3,072 mini-batch images

実験結果（1/5）
11
• 画像枚数/ラベル数 @ImageNet
• ⼀般物体認識に対し画像枚数, カテゴリ数が多い⽅が良い！
ImageNet（1,000カテゴリテスト）
• ベースライン: 79.6
• 事前学習あり: 84.2（+4.6%）
• 事前学習あり: 56.0（+2.5%）
• 事前学習あり: 49.0（+3.0%）
# ベースライン：ImageNet train
# 事前学習あり：Instagram pre-train, ImageNet fine-tune

12
• 画像枚数/ラベル数 @CUB & Places
• 詳細画像分類/シーン認識に対しても
• 画像枚数, カテゴリ数が多い⽅が良い！
CUB2011（200カテゴリテスト）
• 事前学習あり: 89.2（+5.2%）
Places365（365カテゴリテスト）
• 事前学習あり: 58.0（+1.8%）
# ベースライン：CUB/Places train
# 事前学習あり：Instagram pre-train, CUB/Places fine-tune

13
• ResNeXt-101 param./DB param.
パラメータ調査
• 17kカテゴリ/32x16dが良好
• タスクにより良い構成が異なる

14
• ラベルノイズが与える影響
• ノイズなし: 82.1
• ノイズ50%: 76.1（-6.0%）
• ノイズなし: 52.6
• ノイズ50%: 46.1（-6.5%）
• ノイズなし: 42.7
• ノイズ50%: 36.6（-6.1%）
ノイズの割合と精度
• ノイズは（当然）少ない⽅が良い
• 50%ノイズあると約6%下がる
（逆を⾔うと半分ノイズでもその程度）

15
• 物体検出
– 物体検出も同様に事前学習は重要
物体検出@COCO
e.g. COCO detection (box AP)
• 43.7 w/ ImageNet Pre-train
• 45.2 w/ Instagram Pre-train
e.g. COCO segment. (mask AP)
• 38.6 w/ ImageNet Pre-train
• 39.4 w/ Instagram Pre-train

関連研究（1/3）
16
• Places 365
– ImageNet（物体認識）に対してPlaces（シーン認識）
– 画像のより⼤域的な特徴を学習可能
[Zhou+, TPAMI2017]データベースのサイズもImageNetと同等

17
• What makes ImageNet good for transfer learning?
– ImageNetの転移学習に関する効果について検証
– カテゴリ/画像枚数など多少は減らしても転移学習ができることを⽰
した
• 例: 枚数は500/1,000，カテゴリは127/1,000でも検出精度がマイナス数%
[Huh+, NIPS2016WS]
ImageNetはフルで使⽤しなくてもOK?

18
• JFT-300M
– Google / CMUの3億枚画像データセットを使⽤
– サンプル数と精度の関係は，logスケールにて線形
[Sun+, ICCV2017]
億単位のデータを提案（だが⾮公開）

ディスカッション
19
• Pre-trainの画像枚数とカテゴリ数の効果
– More is better!
• 3.5B（35億枚），17,000カテゴリ
• ImageNet において Top-1 85.4%, Top-5 97.6%を記録
– 画像枚数は重要
• 画像枚数: 9.4億 vs. 35億は⼤体において後者が良い
– SNSハッシュタグによる弱教師はカテゴリとして有効
• SNSユーザによるハッシュタグによりいわゆるDBのラベル付は不要
• 画像枚数と同様にカテゴリ数の増加も重要

メモ
20
– SNSのハッシュタグを利⽤するという考え⽅は使える！
• すでにあるWebの知⾒を再利⽤
• ブログ/Web記事なども同様に重要か
– 勝つためにここまでやるか！？というところまでやっている
• インスタグラムを買収してBillion-orderのデータを収集，調査
• その他，336GPUs, 42Machinesなどパワーワードが並ぶ
• だから，勝てる
– タスクが多様になるのにPre-trainは画像識別のまま？（これ重要と思います）
• おそらくよくない
• タスクに合わせて適切なLarge-scale DBによる事前学習ができるとよい
• ここら辺は{un-, weak-, self-} supervised学習が代替しようとしている
– CVPR 2018 速報より https://www.slideshare.net/cvpaperchallenge/cvpr-2018-102878612

メモ2
21
– アーキテクチャよりもデータ
• アーキテクチャ頑張るよりもシンプルモデルで⼤規模データの⽅が効果が⼤きい
• お⾦があるならデータ集める⽅につぎ込んだ⽅が良い！
• この時代，データの重要度はやはり意識したい

【ECCV 2018】Exploring the Limits of Weakly Supervised Pretraining

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a 【ECCV 2018】Exploring the Limits of Weakly Supervised Pretraining

Similar a 【ECCV 2018】Exploring the Limits of Weakly Supervised Pretraining (8)

【ECCV 2018】Exploring the Limits of Weakly Supervised Pretraining