近年、NLP分野で成功している大規模事前学習、転移学習のシステムを CV分野に応用し、zero-shot 条件下でも性能を発揮する分類モデル CLIP を提案しました。 自然言語と画像を結びつけるタスクを設定することで、従来の分類モデルよりもラベルに対する拡張性の高いモデルを学習することに成功しました。 学習に用いたWeb 上から収集した(画像, テキスト)ペアの4億組のデータセットはGitHub上で公開されています。