SlideShare una empresa de Scribd logo
1 de 16
http://deeplearning.jp/
Visual Classification via Description from Large Language Models
大規模言語モデルで画像の識別特徴を生成させ画像分類に活用する手法
山本 貴之(ヤフー株式会社・早稲田大学 河原研 D1)
DEEP LEARNING JP
[DL Papers]
1
書誌情報
Visual Classification via Description from Large Language Models
大規模言語モデルで画像の識別特徴を生成させ画像分類に活用する手法
ICLR 2023 (notable top 5%)
https://openreview.net/forum?id=jlAjNL8z5cs
タイトル:
著者:
大規模言語モデル(LLM)に埋め込まれた知識を画像分類に活用する手法。
分類根拠が自然言語で分かる。
概要:
2
選定理由: 個人的にLLMの活用が多様な下流タスクをより良くするという仮説を持っており、
正にそのような事を面白いアイディアかつシンプルに実現している論文で、応用範囲が広そう。
公式実装: https://github.com/sachit-menon/classify_by_description_release
※出典記載の無い図表は本論文からの引用
Sachit Menon, Carl Vondrick
Department of Computer Science
Columbia University
背景
3
▊ 課題 ▊
▍ Hen(雌鶏)を見分ける事は出来るか?
▍ 人間が使うような簡単な言語的手がかりに目を向けていない
▍ モデルが判断した根拠が分からない
▊ 現状 ▊
▍ CLIPは(固定カテゴリでない)分類タスクで高性能
▍ 未だに理不尽な間違えをする事がある(→次ページに具体例)
内容
4
▊ 何をしているか論文か? ▊
▍ 画像分類タスクに大規模言語モデル(GPT-3)を活用し、ImageNetでベースライン比+4~5%の成果
▍ 分類の根拠を説明可能(言語で説明)
分類根拠
“足が2本”など
Dalmatian
体表の模様
で分類した?
※横軸はcos類似度×100
既存手法(分類ミス)
提案手法(正しく分類)
※赤棒グラフは、ミスした分類カテゴリのOursモデル値
新規性
5
▊ 輪読者の考える新規性 ▊
▍ GPT-3で、「分類カテゴリ」を見分けるのに有用な「識別特徴」を生成させるアイディア
▍ 「識別特徴」を使って、分類するロジック
▍ 分類根拠を「自然言語で説明」できる事
分類カテゴリ
識別特徴
自然言語で説明
識別特徴の関与スコア
※横軸はcos類似度×100
手法 全体概要 右下図の赤色部分が相違点 識別特徴との距離で分類
6
▍ 提案手法は、GPT-3が出力した「識別特徴」との距離を使って分類を行う。上図赤色部分が主な特徴
既存手法(CLIP分類) 提案手法
分類画像
tiger
に近い
分類画像
処理
パイプライン
※輪読者解釈
表現
ベクトル空間
画CLIP
カテゴリ名 文CLIP GPT-3 識別特徴
識別特徴
識別特徴
ベクトル
ベクトル
距離
分類画像 画CLIP ベクトル
カテゴリ名
ImageNet
なら1,000
ベクトル
ベクトル
ベクトル
文CLIP
文CLIP
文CLIP
距離
カテゴリ名
識別特徴
手法 GPT-3を活用し[識別特徴]を生成する部分
7
▊ 左図赤色部分の処理 ▊
▍ のプロンプトを用いGPT-3に入力
▍ GPT-3が列挙した複数の回答を識別特徴とする
Q:写真で{スクールバス}を見分けるのに有用な特徴は何ですか?
A:{スクールバス}を見分けるのに有用な特徴がいくつかあります
‐大型の黄色い車
‐ 「スクールバス」と書いてある
‐側面からストップサインが出る
⋮
1
1
2
2
GPT-3 識別特徴
識別特徴
識別特徴
分類画像 画CLIP ベクトル
カテゴリ名
ImageNet
なら1,000
ベクトル
ベクトル
ベクトル
文CLIP
文CLIP
文CLIP
距離
処理パイプライン全体
手法 識別特徴とカテゴリの[相対スケール]を正しく認識する為の処理
8
▊ 左図赤色部分の処理 ▊
▍ 象の短いしっぽと、ねずみの長いしっぽを
正しく処理する為に
▍ 識別特徴は下記のプロンプトテンプレート
に従ってプロンプト化されCLIPに入力される
A:{象 }を見分けるのに有用な特徴がいくつかあります
‐短いしっぽ
GPT-3 識別特徴
識別特徴
識別特徴
分類画像 画CLIP ベクトル
カテゴリ名
ImageNet
なら1,000
ベクトル
ベクトル
ベクトル
文CLIP
文CLIP
文CLIP
距離
A:{ねずみ }を見分けるのに有用な特徴がいくつかあります
‐長いしっぽ
処理パイプライン全体
・elephant which has short tail
・mouse which has long tail
相対スケールの正しい認識
象の短いしっぽ
vs
ねずみの長いしっぽ
プロンプト
テンプレート
文CLIPに
入力される文字列
1
2
1
2
手法 距離算出と分類
9
▊ 左図赤色部分の処理 ▊
▍ =CLIP類似度(=cos類似度)
▍ 分類画像と各識別特徴の類似度の和の正規化
▍ 分類結果は、全Cの内モデルsが最大値のもの
モデル
x
分類画像
識別特徴
ベクトル
各識別特徴
正規化
識別特徴の
数で割る
φ=cos類似度
GPT-3 識別特徴
識別特徴
識別特徴
分類画像 画CLIP ベクトル
カテゴリ名
ImageNet
なら1,000
ベクトル
ベクトル
ベクトル
文CLIP
文CLIP
文CLIP
距離
処理パイプライン全体
ImageNet
なら1,000
最もモデル値が
高いカテゴリを
分類結果とする
モデルアーキテクチャ
10
▊ 学習済GPT-3と学習済CLIPを活用するのみ。 その他、モデルの学習等はしていない
学習済GPT-3
学習済CLIP
APIで利用
text-davinci-002
利用方法や種別など
利用料金は$20以下
VisionTransformer系4種で実験
検証用データセット
11
▊ データセット一覧(8種) 多様なタスクで成果が出るかを確認している ▊
▍ ImageNet dataset (Russakovsky et al., 2015) for everyday object recognition
▍ ImageNetV2 (Kornblith et al., 2019) for distribution shift from ImageNet
▍ CUB for fine-grained classification of birds (Wah et al., 2011)
▍ EuroSAT (Helber et al., 2019) for satellite image recognition
▍ Places365 for scenes
▍ Food101 (Bossard et al., 2014) for food
▍ Oxford Pets (Parkhi et al., 2012) for common animals
▍ Describable Textures Cimpoi et al. (2014) for in-the-wild patterns
結果
12
▊ CLIPベースラインとの対比 ▊
▍ 全てのデータセットでベースラインを上回る結果(Ours)
▍ 日常的な物体認識に限定されず、衛星画像(EuroSAT)で+7%、テクスチャ(Textures)で+2.5%、
細かな鳥類(CUB)で+1~2%の改善
結果 (左が提案手法。右がベースラインのCLIP)
13
アホウドリ
蜂
菜種
旅客機
渓谷
※赤棒グラフは、ミスした分類カテゴリのOursモデル値
※横軸はcos類似度×100
考察
14
▊ 言語モデルのサイズと分類性能の関係 ▊
▍ LLMサイズが小さいとベースラインを超えない(≒LLMの賢さに性能が依存)
Zhang, S., Roller, S., Goyal, N., Artetxe, M., Chen, M., Chen, S., ... & Zettlemoyer, L. (2022). Opt: Open pre-trained transformer language models. arXiv
preprint arXiv:2205.01068.
OPTモデル一覧
OPTモデルサイズとベースラインとの相対性能
まとめ
15
▊ 結論 ▊
▍ Vision&Languageモデルでのゼロショット分類の新しいフレームワークを提案
▍ LLMの視覚カテゴリの言語知識を活用し、識別特徴を生成し、識別特徴と画像を比較する
▍ GPT-3とCLIPを使い、性能向上、根拠説明、新しい知識への適応、バイアスの軽減を実現
▊ 感想 ▊
▍ LLM内の知識を利用し、低計算リソースで下流タスク精度を上げ、説明性も実現、しかも手法がシンプル
▍ LLMが多様な下流タスクをより良くするという仮説を持っているが、それを体現した論文
▍ CLIP部を高性能なマルチモーダルLLMにすれば、さらに精度が上がりそう
Thank you.
16

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 

Similar a 【DL輪読会】Visual Classification via Description from Large Language Models (ICLR2023)

関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
Akisato Kimura
 
Webリソースを利用したDeep Learning ~地図タイルを例として
Webリソースを利用したDeep Learning  ~地図タイルを例としてWebリソースを利用したDeep Learning  ~地図タイルを例として
Webリソースを利用したDeep Learning ~地図タイルを例として
IWASAKI NOBUSUKE
 

Similar a 【DL輪読会】Visual Classification via Description from Large Language Models (ICLR2023) (20)

【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
 
渕田研究室全体ゼミ論文紹介 - 第1回 -.pptx
渕田研究室全体ゼミ論文紹介 - 第1回 -.pptx渕田研究室全体ゼミ論文紹介 - 第1回 -.pptx
渕田研究室全体ゼミ論文紹介 - 第1回 -.pptx
 
【DL輪読会】Masked World Models for Visual Control
【DL輪読会】Masked World Models for Visual Control【DL輪読会】Masked World Models for Visual Control
【DL輪読会】Masked World Models for Visual Control
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Creating and Using Links between Data Objects
Creating and Using Links between Data ObjectsCreating and Using Links between Data Objects
Creating and Using Links between Data Objects
 
第2回c#画像処理講習
第2回c#画像処理講習第2回c#画像処理講習
第2回c#画像処理講習
 
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
 
Masked Autoencoders Are Scalable Vision Learners
Masked Autoencoders Are Scalable Vision LearnersMasked Autoencoders Are Scalable Vision Learners
Masked Autoencoders Are Scalable Vision Learners
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
 
「ドメイン駆動設計」の複雑さに立ち向かう
「ドメイン駆動設計」の複雑さに立ち向かう「ドメイン駆動設計」の複雑さに立ち向かう
「ドメイン駆動設計」の複雑さに立ち向かう
 
Webリソースを利用したDeep Learning ~地図タイルを例として
Webリソースを利用したDeep Learning  ~地図タイルを例としてWebリソースを利用したDeep Learning  ~地図タイルを例として
Webリソースを利用したDeep Learning ~地図タイルを例として
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 
PolyLoss: A POLYNOMIAL EXPANSION PERSPECTIVE OF CLASSIFICATION LOSS FUNCTION...
PolyLoss:  A POLYNOMIAL EXPANSION PERSPECTIVE OF CLASSIFICATION LOSS FUNCTION...PolyLoss:  A POLYNOMIAL EXPANSION PERSPECTIVE OF CLASSIFICATION LOSS FUNCTION...
PolyLoss: A POLYNOMIAL EXPANSION PERSPECTIVE OF CLASSIFICATION LOSS FUNCTION...
 
Unified Vision-Language Pre-Training for Image Captioning and VQA
Unified Vision-Language Pre-Training for Image Captioning and VQAUnified Vision-Language Pre-Training for Image Captioning and VQA
Unified Vision-Language Pre-Training for Image Captioning and VQA
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
 
渕田研究室全体ゼミ論文紹介 - 第1回
渕田研究室全体ゼミ論文紹介 - 第1回 渕田研究室全体ゼミ論文紹介 - 第1回
渕田研究室全体ゼミ論文紹介 - 第1回
 
ジーノ先生の文系的オブジェクト指向(2) - コンストラクタの引数
ジーノ先生の文系的オブジェクト指向(2) - コンストラクタの引数ジーノ先生の文系的オブジェクト指向(2) - コンストラクタの引数
ジーノ先生の文系的オブジェクト指向(2) - コンストラクタの引数
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 

Más de Deep Learning JP

Más de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

【DL輪読会】Visual Classification via Description from Large Language Models (ICLR2023)

  • 1. http://deeplearning.jp/ Visual Classification via Description from Large Language Models 大規模言語モデルで画像の識別特徴を生成させ画像分類に活用する手法 山本 貴之(ヤフー株式会社・早稲田大学 河原研 D1) DEEP LEARNING JP [DL Papers] 1
  • 2. 書誌情報 Visual Classification via Description from Large Language Models 大規模言語モデルで画像の識別特徴を生成させ画像分類に活用する手法 ICLR 2023 (notable top 5%) https://openreview.net/forum?id=jlAjNL8z5cs タイトル: 著者: 大規模言語モデル(LLM)に埋め込まれた知識を画像分類に活用する手法。 分類根拠が自然言語で分かる。 概要: 2 選定理由: 個人的にLLMの活用が多様な下流タスクをより良くするという仮説を持っており、 正にそのような事を面白いアイディアかつシンプルに実現している論文で、応用範囲が広そう。 公式実装: https://github.com/sachit-menon/classify_by_description_release ※出典記載の無い図表は本論文からの引用 Sachit Menon, Carl Vondrick Department of Computer Science Columbia University
  • 3. 背景 3 ▊ 課題 ▊ ▍ Hen(雌鶏)を見分ける事は出来るか? ▍ 人間が使うような簡単な言語的手がかりに目を向けていない ▍ モデルが判断した根拠が分からない ▊ 現状 ▊ ▍ CLIPは(固定カテゴリでない)分類タスクで高性能 ▍ 未だに理不尽な間違えをする事がある(→次ページに具体例)
  • 4. 内容 4 ▊ 何をしているか論文か? ▊ ▍ 画像分類タスクに大規模言語モデル(GPT-3)を活用し、ImageNetでベースライン比+4~5%の成果 ▍ 分類の根拠を説明可能(言語で説明) 分類根拠 “足が2本”など Dalmatian 体表の模様 で分類した? ※横軸はcos類似度×100 既存手法(分類ミス) 提案手法(正しく分類) ※赤棒グラフは、ミスした分類カテゴリのOursモデル値
  • 5. 新規性 5 ▊ 輪読者の考える新規性 ▊ ▍ GPT-3で、「分類カテゴリ」を見分けるのに有用な「識別特徴」を生成させるアイディア ▍ 「識別特徴」を使って、分類するロジック ▍ 分類根拠を「自然言語で説明」できる事 分類カテゴリ 識別特徴 自然言語で説明 識別特徴の関与スコア ※横軸はcos類似度×100
  • 6. 手法 全体概要 右下図の赤色部分が相違点 識別特徴との距離で分類 6 ▍ 提案手法は、GPT-3が出力した「識別特徴」との距離を使って分類を行う。上図赤色部分が主な特徴 既存手法(CLIP分類) 提案手法 分類画像 tiger に近い 分類画像 処理 パイプライン ※輪読者解釈 表現 ベクトル空間 画CLIP カテゴリ名 文CLIP GPT-3 識別特徴 識別特徴 識別特徴 ベクトル ベクトル 距離 分類画像 画CLIP ベクトル カテゴリ名 ImageNet なら1,000 ベクトル ベクトル ベクトル 文CLIP 文CLIP 文CLIP 距離 カテゴリ名 識別特徴
  • 7. 手法 GPT-3を活用し[識別特徴]を生成する部分 7 ▊ 左図赤色部分の処理 ▊ ▍ のプロンプトを用いGPT-3に入力 ▍ GPT-3が列挙した複数の回答を識別特徴とする Q:写真で{スクールバス}を見分けるのに有用な特徴は何ですか? A:{スクールバス}を見分けるのに有用な特徴がいくつかあります ‐大型の黄色い車 ‐ 「スクールバス」と書いてある ‐側面からストップサインが出る ⋮ 1 1 2 2 GPT-3 識別特徴 識別特徴 識別特徴 分類画像 画CLIP ベクトル カテゴリ名 ImageNet なら1,000 ベクトル ベクトル ベクトル 文CLIP 文CLIP 文CLIP 距離 処理パイプライン全体
  • 8. 手法 識別特徴とカテゴリの[相対スケール]を正しく認識する為の処理 8 ▊ 左図赤色部分の処理 ▊ ▍ 象の短いしっぽと、ねずみの長いしっぽを 正しく処理する為に ▍ 識別特徴は下記のプロンプトテンプレート に従ってプロンプト化されCLIPに入力される A:{象 }を見分けるのに有用な特徴がいくつかあります ‐短いしっぽ GPT-3 識別特徴 識別特徴 識別特徴 分類画像 画CLIP ベクトル カテゴリ名 ImageNet なら1,000 ベクトル ベクトル ベクトル 文CLIP 文CLIP 文CLIP 距離 A:{ねずみ }を見分けるのに有用な特徴がいくつかあります ‐長いしっぽ 処理パイプライン全体 ・elephant which has short tail ・mouse which has long tail 相対スケールの正しい認識 象の短いしっぽ vs ねずみの長いしっぽ プロンプト テンプレート 文CLIPに 入力される文字列 1 2 1 2
  • 9. 手法 距離算出と分類 9 ▊ 左図赤色部分の処理 ▊ ▍ =CLIP類似度(=cos類似度) ▍ 分類画像と各識別特徴の類似度の和の正規化 ▍ 分類結果は、全Cの内モデルsが最大値のもの モデル x 分類画像 識別特徴 ベクトル 各識別特徴 正規化 識別特徴の 数で割る φ=cos類似度 GPT-3 識別特徴 識別特徴 識別特徴 分類画像 画CLIP ベクトル カテゴリ名 ImageNet なら1,000 ベクトル ベクトル ベクトル 文CLIP 文CLIP 文CLIP 距離 処理パイプライン全体 ImageNet なら1,000 最もモデル値が 高いカテゴリを 分類結果とする
  • 11. 検証用データセット 11 ▊ データセット一覧(8種) 多様なタスクで成果が出るかを確認している ▊ ▍ ImageNet dataset (Russakovsky et al., 2015) for everyday object recognition ▍ ImageNetV2 (Kornblith et al., 2019) for distribution shift from ImageNet ▍ CUB for fine-grained classification of birds (Wah et al., 2011) ▍ EuroSAT (Helber et al., 2019) for satellite image recognition ▍ Places365 for scenes ▍ Food101 (Bossard et al., 2014) for food ▍ Oxford Pets (Parkhi et al., 2012) for common animals ▍ Describable Textures Cimpoi et al. (2014) for in-the-wild patterns
  • 12. 結果 12 ▊ CLIPベースラインとの対比 ▊ ▍ 全てのデータセットでベースラインを上回る結果(Ours) ▍ 日常的な物体認識に限定されず、衛星画像(EuroSAT)で+7%、テクスチャ(Textures)で+2.5%、 細かな鳥類(CUB)で+1~2%の改善
  • 14. 考察 14 ▊ 言語モデルのサイズと分類性能の関係 ▊ ▍ LLMサイズが小さいとベースラインを超えない(≒LLMの賢さに性能が依存) Zhang, S., Roller, S., Goyal, N., Artetxe, M., Chen, M., Chen, S., ... & Zettlemoyer, L. (2022). Opt: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068. OPTモデル一覧 OPTモデルサイズとベースラインとの相対性能
  • 15. まとめ 15 ▊ 結論 ▊ ▍ Vision&Languageモデルでのゼロショット分類の新しいフレームワークを提案 ▍ LLMの視覚カテゴリの言語知識を活用し、識別特徴を生成し、識別特徴と画像を比較する ▍ GPT-3とCLIPを使い、性能向上、根拠説明、新しい知識への適応、バイアスの軽減を実現 ▊ 感想 ▊ ▍ LLM内の知識を利用し、低計算リソースで下流タスク精度を上げ、説明性も実現、しかも手法がシンプル ▍ LLMが多様な下流タスクをより良くするという仮説を持っているが、それを体現した論文 ▍ CLIP部を高性能なマルチモーダルLLMにすれば、さらに精度が上がりそう