2. 書誌情報
Visual Classification via Description from Large Language Models
大規模言語モデルで画像の識別特徴を生成させ画像分類に活用する手法
ICLR 2023 (notable top 5%)
https://openreview.net/forum?id=jlAjNL8z5cs
タイトル:
著者:
大規模言語モデル(LLM)に埋め込まれた知識を画像分類に活用する手法。
分類根拠が自然言語で分かる。
概要:
2
選定理由: 個人的にLLMの活用が多様な下流タスクをより良くするという仮説を持っており、
正にそのような事を面白いアイディアかつシンプルに実現している論文で、応用範囲が広そう。
公式実装: https://github.com/sachit-menon/classify_by_description_release
※出典記載の無い図表は本論文からの引用
Sachit Menon, Carl Vondrick
Department of Computer Science
Columbia University
11. 検証用データセット
11
▊ データセット一覧(8種) 多様なタスクで成果が出るかを確認している ▊
▍ ImageNet dataset (Russakovsky et al., 2015) for everyday object recognition
▍ ImageNetV2 (Kornblith et al., 2019) for distribution shift from ImageNet
▍ CUB for fine-grained classification of birds (Wah et al., 2011)
▍ EuroSAT (Helber et al., 2019) for satellite image recognition
▍ Places365 for scenes
▍ Food101 (Bossard et al., 2014) for food
▍ Oxford Pets (Parkhi et al., 2012) for common animals
▍ Describable Textures Cimpoi et al. (2014) for in-the-wild patterns