SlideShare una empresa de Scribd logo
1 de 21
Descargar para leer sin conexión
Exploring the Limits of Weakly Supervised Pretraining
(ECCV 2018 Poster)
Dhruv Mahajan, Ross Girshick, Vignesh Ramanathan, Kaiming He,
Manohar Paluri, Yixuan Li, Ashwin Bharambe, Laurens van der Maaten
(Facebook)
1
http://hirokatsukataoka.net/project/cc/index_cvpaperchallenge.html
資料作成:⽚岡 裕雄
論⽂の要点
2
– ImageNetを始めとするDBはラベル付けが困難なので
SNSのハッシュタグによる⼤量DBを提案
– 35+億枚のDBを準備して事前学習,ImageNetにて
85.4%(top-1)/97.6%(top-5)を記録
– その他転移学習の調査を実施,弱教師ラベル/⼤量データ
による学習法を確⽴した
Facebookのこの記事が論⽂になっていた
3
• Facebookは35億枚のインスタ画像とハッシュタグで画像
認識AIを強化ーー85%以上の認識率、2万カテゴリを対象
http://thebridge.jp/2018/05/facebook-is-using-instagram-photos-and-hashtags-to-improve-its-computer-vision
https://developers.facebook.com/videos/f8-2018/f8-2018-day-2-keynote/
CNNにおける事前学習(Pre-train)
4
• 任意のDBにより事前に学習
– パラメータ(特徴量)w を学習することが事前学習
– 1) Pre-train, 2) Fine-tuningの順で学習(下図参照)するこ
とで特定タスクに対する精度向上が期待
Conv
Conv
Pool
Conv
Conv
Conv
Pool
Conv
Conv
Conv
Pool
Conv
Conv
Pool
Conv
Conv
Pool
Conv
g (i; w )
DB
(Pre-train)
FC
FC
Output1
画像 i を⼊⼒して出⼒を得る
関数 g,wによりparametrize
Pre-trained Model
DB
(Fine-tuning)
Output2
Pre-trained Model
1) Pre-train; 通常は⼤規模データにより学習
2) Fine-tuning; 通常はタスクに応じてパラメータを適応
Merit: ⼤規模DBでPre-trainしてFine-tune
すると精度が出やすい!
事前学習モデルは⾮常に重要!
5
• ImageNet[Deng+, CVPR09] が代表例
– 実世界の視覚特徴を普遍的に表現(したと⾔われる)
– ImageNetはDNN in CVのアイコン的存在
> デファクトスタンダードとして扱われる
image-net.org/index
ImageNet事前学習モデルはDLフレームワーク等
でもスタンダードで配布される
ImageNetの利点と限界
6
メリット
+ 事前学習に良好
+ 事前学習モデルが簡単に⼊⼿可能
デメリット
ー 古い(Nearly ten years old)
ー DBが⼩さい(Modern standards “small”)
ー ラベル付けが困難(building new datasets is labor)
CVにおけるこの根本問題をなんとかしたい
研究内容
7
• 画像ラベルが⾃動で⼊⼿可能な仕組みを活⽤,35億の画像
データを収集A)しImageNet等に代わる事前学習DBB)とする
A) Instagramにアップロードされる画像とそのハッシュタグを使⽤
• ハッシュタグを利⽤することで17kカテゴリを追加アノテーションなしに⽣成
• ラベル付けなしでBillion-order(35億枚)のデータ収集に取り組む
B) 作成DBを⽤いて事前学習,ImageNet等のデータにてテスト
• 弱ラベルも転移学習に有効なことを実証
• 画像枚数は多いほど良いかどうかを検証
その他使⽤データセット
8
• ⽐較およびテスト
実験
9
• 本提案で準備したInstagramによるDBを⽤いて,
– 画像枚数とカテゴリ(ここではハッシュタグ)数の関係性を調査
– 事前学習モデルと場⾯ごと(⼀般物体認識,詳細画像識別,シーン認識)の効果
– アーキテクチャとデータ構成の関係性を調査
– ラベルノイズと精度低下の関係性
• に関する調査を⾏なった
実験の構成
10
– Model: ResNeXt-101
– Loss: Cross-entropy Loss
– Labels: Multi-label(1枚に付き平均2カテゴリ)
– Instagram 3.5B DB Training
• Machine: 336GPUs, 42 Machines, 8,064 mini-batch images,
• Time: 22 days, 2 epochs
• Learning rate: 0.1 ~ 0.1/(256x8,064)
– ImageNet Training
• Machine: 128 GPUs, 16 Machines, 3,072 mini-batch images
実験結果(1/5)
11
• 画像枚数/ラベル数 @ImageNet
• ⼀般物体認識に対し画像枚数, カテゴリ数が多い⽅が良い!
ImageNet(1,000カテゴリ テスト)
• ベースライン: 79.6
• 事前学習あり: 84.2(+4.6%)
ImageNet(5,000カテゴリ テスト)
• ベースライン: 53.5
• 事前学習あり: 56.0(+2.5%)
ImageNet(9,000カテゴリ テスト)
• ベースライン: 46.0
• 事前学習あり: 49.0(+3.0%)
# ベースライン:ImageNet train
# 事前学習あり:Instagram pre-train, ImageNet fine-tune
実験結果(2/5)
12
• 画像枚数/ラベル数 @CUB & Places
• 詳細画像分類/シーン認識に対しても
• 画像枚数, カテゴリ数が多い⽅が良い!
CUB2011(200カテゴリ テスト)
• ベースライン: 84.0
• 事前学習あり: 89.2(+5.2%)
Places365(365カテゴリ テスト)
• ベースライン: 56.2
• 事前学習あり: 58.0(+1.8%)
# ベースライン:CUB/Places train
# 事前学習あり:Instagram pre-train, CUB/Places fine-tune
実験結果(3/5)
13
• ResNeXt-101 param./DB param.
パラメータ調査
• 17kカテゴリ/32x16dが良好
• タスクにより良い構成が異なる
実験結果(4/5)
14
• ラベルノイズが与える影響
ImageNet(1,000カテゴリ テスト)
• ノイズなし: 82.1
• ノイズ50%: 76.1(-6.0%)
ImageNet(5,000カテゴリ テスト)
• ノイズなし: 52.6
• ノイズ50%: 46.1(-6.5%)
ImageNet(9,000カテゴリ テスト)
• ノイズなし: 42.7
• ノイズ50%: 36.6(-6.1%)
ノイズの割合と精度
• ノイズは(当然)少ない⽅が良い
• 50%ノイズあると約6%下がる
(逆を⾔うと半分ノイズでもその程度)
実験結果(5/5)
15
• 物体検出
– 物体検出も同様に事前学習は重要
物体検出@COCO
e.g. COCO detection (box AP)
• 43.7 w/ ImageNet Pre-train
• 45.2 w/ Instagram Pre-train
e.g. COCO segment. (mask AP)
• 38.6 w/ ImageNet Pre-train
• 39.4 w/ Instagram Pre-train
関連研究(1/3)
16
• Places 365
– ImageNet(物体認識)に対してPlaces(シーン認識)
– 画像のより⼤域的な特徴を学習可能
[Zhou+, TPAMI2017]データベースのサイズもImageNetと同等
関連研究(2/3)
17
• What makes ImageNet good for transfer learning?
– ImageNetの転移学習に関する効果について検証
– カテゴリ/画像枚数など多少は減らしても転移学習ができることを⽰
した
• 例: 枚数は500/1,000,カテゴリは127/1,000でも検出精度がマイナス数%
[Huh+, NIPS2016WS]
ImageNetはフルで使⽤しなくてもOK?
関連研究(3/3)
18
• JFT-300M
– Google / CMUの3億枚画像データセットを使⽤
– サンプル数と精度の関係は,logスケールにて線形
[Sun+, ICCV2017]
億単位のデータを提案(だが⾮公開)
ディスカッション
19
• Pre-trainの画像枚数とカテゴリ数の効果
– More is better!
• 3.5B(35億枚),17,000カテゴリ
• ImageNet において Top-1 85.4%, Top-5 97.6%を記録
– 画像枚数は重要
• 画像枚数: 9.4億 vs. 35億は⼤体において後者が良い
– SNSハッシュタグによる弱教師はカテゴリとして有効
• SNSユーザによるハッシュタグによりいわゆるDBのラベル付は不要
• 画像枚数と同様にカテゴリ数の増加も重要
メモ
20
– SNSのハッシュタグを利⽤するという考え⽅は使える!
• すでにあるWebの知⾒を再利⽤
• ブログ/Web記事なども同様に重要か
– 勝つためにここまでやるか!?というところまでやっている
• インスタグラムを買収してBillion-orderのデータを収集,調査
• その他,336GPUs, 42Machinesなどパワーワードが並ぶ
• だから,勝てる
– タスクが多様になるのにPre-trainは画像識別のまま?(これ重要と思います)
• おそらくよくない
• タスクに合わせて適切なLarge-scale DBによる事前学習ができるとよい
• ここら辺は{un-, weak-, self-} supervised学習が代替しようとしている
– CVPR 2018 速報より https://www.slideshare.net/cvpaperchallenge/cvpr-2018-102878612
メモ2
21
– アーキテクチャよりもデータ
• アーキテクチャ頑張るよりもシンプルモデルで⼤規模データの⽅が効果が⼤きい
• お⾦があるならデータ集める⽅につぎ込んだ⽅が良い!
• この時代,データの重要度はやはり意識したい

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展
 
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
 
Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
[DL輪読会]Invariance Principle Meets Information Bottleneck for Out-of-Distribut...
[DL輪読会]Invariance Principle Meets Information Bottleneck for Out-of-Distribut...[DL輪読会]Invariance Principle Meets Information Bottleneck for Out-of-Distribut...
[DL輪読会]Invariance Principle Meets Information Bottleneck for Out-of-Distribut...
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
 
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
 

Similar a 【ECCV 2018】Exploring the Limits of Weakly Supervised Pretraining

Similar a 【ECCV 2018】Exploring the Limits of Weakly Supervised Pretraining (8)

[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classification
 
試験にでるSpring
試験にでるSpring試験にでるSpring
試験にでるSpring
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report
 
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
 
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
 

【ECCV 2018】Exploring the Limits of Weakly Supervised Pretraining