2021 09 29_dl_hirata

H
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Learning Transferable Visual Models
From Natural Language Supervision
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
平田航大
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 著者
• Alec Radford, JongWook Kim, Chris Hallacy, Aditya Ramesh, Gabriel
Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin,
Jack Clark, Gretchen Krueger, Ilya Sutskever
– OpenAI
• 発表
– arXiv
• 論文リンク
– https://arxiv.org/pdf/2103.00020
• コード
– https://github.com/openai/CLIP
論文情報 2
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
概要
• 大規模データセットの作成、事前学習を行い、
zero-shot 条件下でも性能を発揮する
分類モデル CLIP を提案
– NLP 分野で成功している大規模事前学習を CV に
も応用した
• 「ラベル」ではなく、「自然言語」と画像を
結びつけることで分類タスクにおける高い拡
張性を実現
GPT, BERT など
airplane
a photo of a airplane
a airplane
…
従来 提案手法
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
発表で扱う範囲
1. Introduction and Motivating Work
2. Approach
3. Experiments
4. Comparison to Human Performance
9. Conclusion
提案モデル、学習法
などに主眼を置くため
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1. 一般的な分類器は「ラベル」から学習される
ため、学習できる概念が狭い
– ベンチマークでの性能と実際のタスクでの
性能の乖離
2. ラベル付きデータを作成するにはコスト
がかかる
背景 – 現状の問題 5
筆者らの改善案
画像を説明する自然言語から直接、表現を
学習する
これにより、
1. に対して、学習できる概念が広がる
2. に対して、Web 上などから収集するデータから学習可能になる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
背景 – モチベーション
• 従来手法
– NLP 分野では Web 上などから大規模データを
収集、事前学習を行ったモデルが成功
• CV 分野にも応用できないだろうか?
– CV 分野では自然言語から学習する分類器の研究
は盛んではない
• 他の教師あり手法に及ぶ結果が出ていなかった
Ex) [1] では ImageNet に対して 11.5% の精度
• 筆者らの考え
– 従来手法ではデータの規模が小さく、モデルの
性能を十分に引き出せていない
[1] Li, A., Jabri, A., Joulin, A., and van der Maaten, L. Learning visual n-grams from web data. In
Proceedings of the IEEE International Conference on Computer Vision, pp. 4183–4192, 2017
大規模な (画像, テキスト) データの作成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• データセット
– WebImageText(WIT)
• インターネット上から収集した4億組の (画像, テキスト)
データ
– 従来研究では20万組程度であった
• GitHub (https://github.com/google-research-
datasets/wit) から入手可能
• モデル
– 画像エンコーダ、テキストエンコーダから成る
• 画像エンコーダ
– ResNet, VisionTransformer
• テキストエンコーダ
– Transformer
手法 7
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 学習部分
モデル概要 8
入力テキスト群
入力画像群
テキストと画像を同じ
空間に埋め込む
真の (画像, テキスト) ペアの類似度が
最大になるように学習
Figure 1 より引用
バッチサイズ :
32, 768
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 推論部分
モデル概要 9
ラベルとなるテキストを生成
入力画像 最も類似度の高いペアを
出力
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1. タスク学習能力の検証
– Zero-shot 転移学習による結果から検証
2. 表現学習の精度検証
– 他のモデルとベンチマークによる比較
実験 10
わからない単語が多く、
読み切れなかった
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 筆者らの調べではCLIP と同様のアプローチを
とっている既存研究は [1] のみ
• 3つのデータセットでの性能を比較
Vision N-Gram[1] との比較 11
性能が向上
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
プロンプトエンジニアリング
• Zero-shot 学習の課題
1. 事前学習と転移先タスクの入力の違い
• 事前学習では画像を説明するフルテキスト、転移先のタスクではラベ
ルが入力される
2. 単語の多義性
Ex) “crane” : 「鶴」?「クレーン」?
• 筆者らの対応
– 入力を工夫(プロンプトエンジニアリング)
Ex) “A photo of a {label}.”
“a satellite photo of a {label}.”
– 80 のプロンプトをアンサンブル
ImageNet において、3.5% の
精度上昇
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 27のデータセット中16で
ResNet よりも高い性能
• 特に動画データ(Kinetics700,
UCF101)で高い性能
– WIT に含まれる動詞が概念の
獲得に寄与したのではないか
• 専門的、複雑、抽象的な
タスクでは低い性能
– 衛星画像(EuroSAT, RESISC45)
– リンパ節腫瘍(PatchCamelyon)
etc …
教師ありベースラインとの比較 13
CLIP と ResNet-50 の学習済みモデルを比較
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 4-shot 付近で zero-shot と一致するという
直観と反する結果に
zero-shot vs few-shot 14
複数データセットにおける zero-shot, few-shot の
精度平均を算出
仮説
• zero-shot では概念を自然言語から直
接学習できる
• (特に one-shot の場合) 複数の概念が
訓練データと結びついてしまう
このギャップを解消する
手法の検討が必要
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• データセットによってばらつきのある結果に
– FER2013 では184、EuroSAT, Flowers102 では0.9
zero-shot のデータ効率 15
zero-shot と同等の精度を出すために必要な
データ数を比較
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• ほとんどのデータセットで fully supervised モデルを
10-25% 下回る性能を示す
• zero-shot と fully supervised
モデル の性能には正の相関が
ある
->
zero-shot の性能上限 16
fully supervised モデルが、zero-shot の性能上限
を定める仮説を検証
※破線が理想的な zero-shot を表す
(y=x)
このギャップを解消する手法の研究が
必要である
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
Scaling-law の検証
• 個々のデータセットではかなりばらつきがみられる
– 分散の違いなどがノイズになっていると推測される
• 平均をとると Scaling-law に
則ていることが確かめられる
[2] で提案された Scaling-law が CLIP にも当ては
まることを確かめる
※ 薄い線が個々のデータセット、
濃い線が平均を表す
Transformer モデルの性能がパラメータ数、
データ数、計算量にべき乗則でスケーリ
ングされる
[2] Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., and Amodei, D.
Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2. 表現学習の精度検証
– 他のモデルとベンチマークによる比較
実験 18
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
表現学習の性能 19
• モデル規模を大きくするにしたがって、CLIP が他の
モデルよりも高い性能を発揮
– 最優秀モデル(CLIP ViT-L/14@336px)
は他のモデルを2.5-5% 以上上回る
結果
• 計算効率の面でも他のモデル
を上回る
線形分類器を head につけ、表現学習の性能を27
データセットで他のモデルと比較
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
ImageNet SOTAモデルとの比較
• 27のデータセット中21で [3]
を上回る結果
• 両者の差は事前学習が
WIT or ImageNet であること
– CLIP が勝るデータセット
(SST2, Country211 etc) は
WIT が包含する概念の広さが
要因と考えられる
– [3]が勝るデータセット
(CIFAR系など) は WIT に画質に
関するデータの水増しが
行われていないことに起因する
Noisy Student EfficientNet-L2 [3] との比較
[3] Xie, Q., Luong, M.-T., Hovy, E., and Le, Q. V. Self-training with noisy student improves imagenet classification. In
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 10687–10698, 2020
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 人間は zero-shot -> one-shot 間の正答の上昇幅が
大きい
– CLIP は one-shot ではむしろ性能悪化していたので、
逆の結果
• CLIP には少数ショットの活用に問題があることが
示唆される
人間との比較 21
CLIP の展望を探るために、Oxford IIT Pets dataset
における人間とCLIP の性能を比較
約20% の
Accuracy 向上
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• WIT と評価用データセットのオーバーラップ
に関する実験
• Natural Distribution Shiftに対するロバスト性
• 現状の CLIP の限界
• 社会的インパクト
今回扱わなかった内容 22
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• Web スケールのデータセットを作成し、
zero-shot でタスクを解くモデル CLIP を提案
• 複数のデータセットに対する実験を通して、
モデルのタスク学習性能、表現学習の性能に
ついて考察
• 現状、少数ショットの活用などに課題があり、
今後の研究対象である
まとめ 23
1 de 23

Más contenido relacionado

La actualidad más candente(20)

2021 haizoku2021 haizoku
2021 haizoku
harmonylab311 vistas
修士論文修士論文
修士論文
harmonylab695 vistas
2021 haizoku2021 haizoku
2021 haizoku
harmonylab303 vistas
Ai勉強会20170127Ai勉強会20170127
Ai勉強会20170127
harmonylab8.3K vistas
RAPiDRAPiD
RAPiD
harmonylab1K vistas

Similar a 2021 09 29_dl_hirata(20)

A Generalist AgentA Generalist Agent
A Generalist Agent
harmonylab832 vistas

Más de harmonylab(17)

CKL_about_panf2022.pdfCKL_about_panf2022.pdf
CKL_about_panf2022.pdf
harmonylab219 vistas

Último(8)

2021 09 29_dl_hirata

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Learning Transferable Visual Models From Natural Language Supervision 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 平田航大
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 著者 • Alec Radford, JongWook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever – OpenAI • 発表 – arXiv • 論文リンク – https://arxiv.org/pdf/2103.00020 • コード – https://github.com/openai/CLIP 論文情報 2
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 概要 • 大規模データセットの作成、事前学習を行い、 zero-shot 条件下でも性能を発揮する 分類モデル CLIP を提案 – NLP 分野で成功している大規模事前学習を CV に も応用した • 「ラベル」ではなく、「自然言語」と画像を 結びつけることで分類タスクにおける高い拡 張性を実現 GPT, BERT など airplane a photo of a airplane a airplane … 従来 提案手法
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 発表で扱う範囲 1. Introduction and Motivating Work 2. Approach 3. Experiments 4. Comparison to Human Performance 9. Conclusion 提案モデル、学習法 などに主眼を置くため
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1. 一般的な分類器は「ラベル」から学習される ため、学習できる概念が狭い – ベンチマークでの性能と実際のタスクでの 性能の乖離 2. ラベル付きデータを作成するにはコスト がかかる 背景 – 現状の問題 5 筆者らの改善案 画像を説明する自然言語から直接、表現を 学習する これにより、 1. に対して、学習できる概念が広がる 2. に対して、Web 上などから収集するデータから学習可能になる
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 背景 – モチベーション • 従来手法 – NLP 分野では Web 上などから大規模データを 収集、事前学習を行ったモデルが成功 • CV 分野にも応用できないだろうか? – CV 分野では自然言語から学習する分類器の研究 は盛んではない • 他の教師あり手法に及ぶ結果が出ていなかった Ex) [1] では ImageNet に対して 11.5% の精度 • 筆者らの考え – 従来手法ではデータの規模が小さく、モデルの 性能を十分に引き出せていない [1] Li, A., Jabri, A., Joulin, A., and van der Maaten, L. Learning visual n-grams from web data. In Proceedings of the IEEE International Conference on Computer Vision, pp. 4183–4192, 2017 大規模な (画像, テキスト) データの作成
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • データセット – WebImageText(WIT) • インターネット上から収集した4億組の (画像, テキスト) データ – 従来研究では20万組程度であった • GitHub (https://github.com/google-research- datasets/wit) から入手可能 • モデル – 画像エンコーダ、テキストエンコーダから成る • 画像エンコーダ – ResNet, VisionTransformer • テキストエンコーダ – Transformer 手法 7
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 学習部分 モデル概要 8 入力テキスト群 入力画像群 テキストと画像を同じ 空間に埋め込む 真の (画像, テキスト) ペアの類似度が 最大になるように学習 Figure 1 より引用 バッチサイズ : 32, 768
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 推論部分 モデル概要 9 ラベルとなるテキストを生成 入力画像 最も類似度の高いペアを 出力
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1. タスク学習能力の検証 – Zero-shot 転移学習による結果から検証 2. 表現学習の精度検証 – 他のモデルとベンチマークによる比較 実験 10 わからない単語が多く、 読み切れなかった
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 筆者らの調べではCLIP と同様のアプローチを とっている既存研究は [1] のみ • 3つのデータセットでの性能を比較 Vision N-Gram[1] との比較 11 性能が向上
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 プロンプトエンジニアリング • Zero-shot 学習の課題 1. 事前学習と転移先タスクの入力の違い • 事前学習では画像を説明するフルテキスト、転移先のタスクではラベ ルが入力される 2. 単語の多義性 Ex) “crane” : 「鶴」?「クレーン」? • 筆者らの対応 – 入力を工夫(プロンプトエンジニアリング) Ex) “A photo of a {label}.” “a satellite photo of a {label}.” – 80 のプロンプトをアンサンブル ImageNet において、3.5% の 精度上昇
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 27のデータセット中16で ResNet よりも高い性能 • 特に動画データ(Kinetics700, UCF101)で高い性能 – WIT に含まれる動詞が概念の 獲得に寄与したのではないか • 専門的、複雑、抽象的な タスクでは低い性能 – 衛星画像(EuroSAT, RESISC45) – リンパ節腫瘍(PatchCamelyon) etc … 教師ありベースラインとの比較 13 CLIP と ResNet-50 の学習済みモデルを比較
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 4-shot 付近で zero-shot と一致するという 直観と反する結果に zero-shot vs few-shot 14 複数データセットにおける zero-shot, few-shot の 精度平均を算出 仮説 • zero-shot では概念を自然言語から直 接学習できる • (特に one-shot の場合) 複数の概念が 訓練データと結びついてしまう このギャップを解消する 手法の検討が必要
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • データセットによってばらつきのある結果に – FER2013 では184、EuroSAT, Flowers102 では0.9 zero-shot のデータ効率 15 zero-shot と同等の精度を出すために必要な データ数を比較
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • ほとんどのデータセットで fully supervised モデルを 10-25% 下回る性能を示す • zero-shot と fully supervised モデル の性能には正の相関が ある -> zero-shot の性能上限 16 fully supervised モデルが、zero-shot の性能上限 を定める仮説を検証 ※破線が理想的な zero-shot を表す (y=x) このギャップを解消する手法の研究が 必要である
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 Scaling-law の検証 • 個々のデータセットではかなりばらつきがみられる – 分散の違いなどがノイズになっていると推測される • 平均をとると Scaling-law に 則ていることが確かめられる [2] で提案された Scaling-law が CLIP にも当ては まることを確かめる ※ 薄い線が個々のデータセット、 濃い線が平均を表す Transformer モデルの性能がパラメータ数、 データ数、計算量にべき乗則でスケーリ ングされる [2] Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., and Amodei, D. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2. 表現学習の精度検証 – 他のモデルとベンチマークによる比較 実験 18
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 表現学習の性能 19 • モデル規模を大きくするにしたがって、CLIP が他の モデルよりも高い性能を発揮 – 最優秀モデル(CLIP ViT-L/14@336px) は他のモデルを2.5-5% 以上上回る 結果 • 計算効率の面でも他のモデル を上回る 線形分類器を head につけ、表現学習の性能を27 データセットで他のモデルと比較
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 ImageNet SOTAモデルとの比較 • 27のデータセット中21で [3] を上回る結果 • 両者の差は事前学習が WIT or ImageNet であること – CLIP が勝るデータセット (SST2, Country211 etc) は WIT が包含する概念の広さが 要因と考えられる – [3]が勝るデータセット (CIFAR系など) は WIT に画質に 関するデータの水増しが 行われていないことに起因する Noisy Student EfficientNet-L2 [3] との比較 [3] Xie, Q., Luong, M.-T., Hovy, E., and Le, Q. V. Self-training with noisy student improves imagenet classification. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 10687–10698, 2020
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 人間は zero-shot -> one-shot 間の正答の上昇幅が 大きい – CLIP は one-shot ではむしろ性能悪化していたので、 逆の結果 • CLIP には少数ショットの活用に問題があることが 示唆される 人間との比較 21 CLIP の展望を探るために、Oxford IIT Pets dataset における人間とCLIP の性能を比較 約20% の Accuracy 向上
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • WIT と評価用データセットのオーバーラップ に関する実験 • Natural Distribution Shiftに対するロバスト性 • 現状の CLIP の限界 • 社会的インパクト 今回扱わなかった内容 22
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • Web スケールのデータセットを作成し、 zero-shot でタスクを解くモデル CLIP を提案 • 複数のデータセットに対する実験を通して、 モデルのタスク学習性能、表現学習の性能に ついて考察 • 現状、少数ショットの活用などに課題があり、 今後の研究対象である まとめ 23