ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic

H
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
ZeroCap: Zero-Shot Image-to-Text Generation for
Visual-Semantic Arithmetic
Yoad Tewel Yoav Shalev Idan Schwartz Lior Wolf
School of Computer Science, Tel Aviv University
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
論文概要
目的
・CLIPのようなVision-Language Modelはマッチングやゼロショットタスクにお
いて有用であるが、Image-to-Textタスクへの応用ができていないことから、
その手法を提案する
手法
・ CLIPと言語モデル(GPT-2など)を組み合わせた文章生成タスクをZero-shot
で解く
結果
・より人間らしい多様なキャプションの生成された。また、CLIPの潜在空間
から画像同士の差分を文章で出力することで、意味論的演算も可能とした。
このことから、2 つの画像の比較や視覚的類推テストの解決などができそう
発表学会
・CVPR2022
論文URL
https://openaccess.thecvf.com/content/CVPR2022/papers/Tewel_ZeroCa
p_Zero-Shot_Image-to-Text_Generation_for_Visual-
Semantic_Arithmetic_CVPR_2022_paper.pdf
コード
https://github.com/YoadTew/zero-shot-image-to-text
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
ZeroCapsの出力例
ZeroCapsの特徴
• 従来手法と比較して、実世界の知識を示し、より多様なテキストを
生成できる
• 画像の書かれた内容に対処でき、視覚的意味演算を実行できる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
背景
背景
• Image-to-Textタスクにおいて、画像中の様々なオブジェクトを学
習・推論するために教師ラベルを用意することは困難である
• 画像と自然言語を組み合わせたVision-Language Modelが流行る
– しかし、これ単体では文章を生成できず、文章生成のための追加
の学習が必要となる
→ Zero-shotでImage-to-Text可能な手法であるZeroCapを提案
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
関連研究
• CLIP*:Contrastive Language-Image Pre-training
– 画像処理と自然言語処理による事前学習手法
• これにより、初めて見た画像についてもうまく分類できるようになる
– 構造自体はResNetやViTとTransformerなどが用いられる
– 4億の画像とテキストのペア(WebImage Text データセット)で
Contrastive pre-trainingしている(単語数50万)
https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From
_Natural_Language_Supervision.pdf
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
関連研究
• CLIP*:Contrastive Language-Image Pre-training
– 画像をEncodeしたベクトルと、テキストをEncodeしたベクトルの内積が正しい組
み合わせでは1、間違った組み合わせでは0となるように学習を行う
– 推論では、学習されたText Encoderを使用して、ターゲットとなるデータセットの
クラス名をEncodeし、Embeddingされたベクトルを取得、画像をEncodeしたベク
トルと内積を計算、最も高い値を持つラベルを正解とする
https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From
_Natural_Language_Supervision.pdf
プロンプト エンジニアリング:言語モデ
ルへの入力の仕方で精度を引き出す手法
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
関連研究
• ClipCap*: 学習済みのCLIPとGPT-2を組み合わせた画像の
キャプション生成手法
• 画像をCLIPで特徴ベクトルに変換
• Mapping Networkを用いて文の先頭に埋め込み
• GPT2はそれを入力にして続きの文章を出力
CLIPとGPT-2間の変換するためのネットワークを学習する必要あり
*Mokady, Ron, Amir Hertz, and Amit H. Bermano.
"Clipcap: Clip prefix for image captioning." arXiv preprint
arXiv:2111.09734 (2021).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
提案手法
ZeroCap:CLIPと LM (GPT-2 ) を使用して、 Zero-shotで
Image-to-Textタスクを解く自己回帰モデル
ハクトウワシ
入力画像と近い表現を出力するようにLMを調整する
ための損失関数を提案
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
LM Language models
LM Language models:入力された文章から、次の単語を予測するモデル
• TransformerベースのLM(GPT-2)を用いる。Qはデコーダから、KとVは
エンコーダから受け取る
• LM の重みは固定し、出力がCLIPの出力が近くなるようにC𝑖𝑖を調整する
• 𝑪𝑪𝒊𝒊は各𝒊𝒊単語ごとに毎回調整される
𝑥𝑥𝑖𝑖 :生成された𝑖𝑖番目の単語トークン
𝐾𝐾𝑗𝑗
𝑙𝑙
𝑉𝑉
𝑗𝑗
𝑙𝑙
:𝑙𝑙レイヤー、j番目のK,V値
𝐿𝐿:トランスフォーマーレイヤーのインデックス
論文では𝐿𝐿 = 24 レイヤーを持つ GPT-2 を使用
ZeroCap
ハクトウワシ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
LM Language models
CLIP-Guided language modelling
LM の出力を画像と結びつけるため、以下の2つの目標と関数式(2)を設定
1. 指定された画像との整合
CLIPによってトークンと画像の関連性を評価し、それに応じてモデル (C𝑖𝑖) を調整
2. 言語属性を維持する
目標を元の目標出力、つまり変更前の出力と同様になるように正則化
本論文ではλ=0.2
�
𝑥𝑥𝑖𝑖+1: 調整前のC𝑖𝑖を使用して生成されたトークン分布(図のman出力)
第2項はクロスエントロピーロス(LCE)を用いて、調整したC𝑖𝑖の単語間の確率分
布が元のLMのものに近くなるようにする。
ZeroCap
ハクトウワシ
C𝑖𝑖調整後
の出力
C𝑖𝑖調整前
の出力
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
CLIP 損失関数
上位 512 個のトークン候補を計算し、残りのトークンの確率をゼロとする
𝑘𝑘 番目の候補トークンの対応する候補文 s𝑖𝑖
𝑘𝑘
= (𝑥𝑥1, ..., 𝑥𝑥𝑖𝑖−1, 𝑥𝑥𝑖𝑖
𝑘𝑘
) が画像 𝐼𝐼 と照合
𝑘𝑘 番目のトークンの条件付き確率は、下の式(3)で求める
DCLIP : ETEXTとEImageのコサイン類似度
ETEXT・EImage:CLIPで計算される埋め込みされたベクトル
τc (τc = 0.01 ):は、ターゲット分布のシャープネスを制御するハイパーパラメーター
CLIP 損失関数 式(4):LMによって出力された次の
トークン 𝑥𝑥𝑖𝑖+1とターゲット分布𝑝𝑝𝑖𝑖のCE
CLIPの推論概要図
ZeroCap
ハクトウワシ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
推論
推論時に、勾配降下を実行することにより、式 (2) の問題を最適化
→トークンが生成されるごとにC𝑖𝑖を計算し、最適化していく
※ゼロショット方式のため、学習による重みの更新はしない
C𝑖𝑖の更新式(簡略化したもの)を(5)に示す。
学習率α = 0.3
式(2)のこと
ZeroCap
ハクトウワシ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
Beam Search
Beam Search:枝刈りをしながら探索するヒューリスティック
なアルゴリズム 各単語の確率分布の選択はこれを使う ビーム
数:5
バイトレベル(BPE)のトークナイザーは、256 バイトの基本トー
クンを使用して、存在するすべての単語を表す[56]
任意の単語を複数のサブワードに分割することもできます。た
とえば、単語「zebra」は「zeb」および「ra」としてトークン
化できる
→ 最終的には文字にまで分割されるので、頻出しない単語や未
知語もカバーする
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
Visual-Semantic Arithmetic
ビジュアルセマンティック
[22]より、CLIPのマルチモーダル表現が精巧な概念分類を保持しているこ
とが示唆
→CLIP の埋め込みを表現できないか?
例)
・2つの画像 I1、 I2 を用意する
・CLIPのエンコーダーを用いてEImage(I1)、 EImage(I2 )で画像をエンコード
・EImage(I1)+EImage(I2 )のように加算(もしくは減算)する
・Eq(3) 内のEImage(𝐼𝐼)の代わりに得られた結果を使用して、生成された文を
出力
→ 加算された概念のようなものが”𝑝𝑝“で表現されているのでは?
画像だけでなく、言語側でも同じことができる!
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
実験設定
LMの生成に関して
・同じ単語の繰り返しを防ぐため、最後の4つのタイムステップで生成さ
れたトークンの生成確率を1/2にする
・タイムステップ 𝑡𝑡𝑒𝑒から開始して、エンドトークンの確率に係数 𝑓𝑓𝑒𝑒を掛
けることで、生成されるテキストの長さを直接制御するメカニズムも組み
込む
画像キャプションタスク: 𝑓𝑓𝑒𝑒 = 1.04、𝑡𝑡𝑒𝑒 = 3
ビジュアルセマンティック: 𝑓𝑓𝑒𝑒 = 1.06、𝑡𝑡𝑒𝑒 = 1
ビーム数は5,候補トークンは512に設定
実行時間は、単一の Titan X GPU で3 秒で生成
使用データセット:MS-COCO
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
実験結果
人がアノテーションした文章との比較
BLEU [52]、METEOR [5]、CIDEr [66]、SPICE [2] CLIPScoreRef
スコアが大きく低いが、これは他手法がCOCOアノテーションで学習されている
→同じ人間グループが学習・テストを書いてるので優位になっている
ボキャブラリーの多様性は、他手法と比較して大きくリードしており、テスト
データセットのすべてをカバーしている(未知語なし)
教師なしのメトリクスCLIP-Sにおいて高い精度
CLIP-SはCLIPのテキストエンコーダを利用して生成文とのコサイン距離を計算す
る意味的関連性を評価する指標
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
実験結果
• キャプション生成タスク
1枚目 2枚目 3枚目 4枚目
従来
手法
歩道や浴室にあ
るバスルーム
水の上にある
船
通常の食事ト
レイ
バスルーム
提案
手法
屋上にあるバス
ルーム
船にあるテキ
スト
正しく機内食
と説明
肖像画のある
バーのトイレ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
実験結果
1枚目 2枚目 3枚目 4枚目
従来
手法
鳥がとまって
いる
鏡とシンクの
あるバスルー
ム
グループ ベッドルーム
とポスター
提案
手法
アカハヤブサ
と固有名詞
メッシュタイ
ルパターンの
バスルーム
家族 ポスターの内
容に触れる
• キャプション生成タスク
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
考察
• 従来手法のキャプションは一般的に同じパ
ターンだが、提案手法は斬新な文章を生成し
ている
• 従来手法(CLIP-VL と VinVL)はCOCOデータ
セットを使って調整されているので、テスト
時有利に働く点に注意
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
実験結果
• プロンプトを「Image of a」から「Image of text that
say」に変更
• 紙の画像から「ケネディ大統領の死」
• 看板から「スタンフォード大学」
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
実験結果
• 有名人 (トランプなど)、アニメ番組 (シンプソ
ンズなど)、都市 (マンハッタンなど)、映画
(アベンジャーズなど)
実世界の知識を必要とするキャプション例
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
実験結果
ビジュアルセマンティック 減算
• 飛行機の似顔絵から飛行機を差し引いた結果、似顔絵イラスト
といったキャプションが得られる
• また、実物の飛行機と似顔絵イラストを入れると、左の画像と
一致する
• オリの中のシマウマ ー シマウマ=監獄
• 沢山のバスケットボール ー バスケットボール = 束
• 夜景ー景色 = 地球の夜
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
実験結果
ビジュアルセマンティック 減算
• 赤いリンゴから青りんごを引くと赤
• 雪のなかのシロクマ ー 砂漠のシロクマ=雪
• スケボーの大会 ー スケボー = イベント
• スケボー ー スケボーの大会 = 模試化石ビュー??
→ 引かれる側の要素がなくなるので、意味不明な出力になるようです
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
実験結果
ビジュアルセマンティック 加算
• 走っている男性 + 警官の帽子 =警察官が走っている
• 男性 + ハンマー = 裁判官
• 電話 + りんご = iPhoneがリリースされた
• 木 + カナダ国旗 =Toronto maple(トロントの楓)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
25
実験結果
多様な視覚演算の実験(概念の抽出)
オバマ大統領- アメリカ国旗=リーダーシップ
ドイツ + リーダーシップ = メルケル首相
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
26
実験結果
多様な視覚演算の実験(概念の抽出)
マイクロソフトービル・ゲイツ = CEO
マーク・ザッカーバーグ + CEO = Facebook
イタリアーピザ=国ー食べ物への方向性?
フランスパン + 国ー食べ物 = フランス
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
27
実験結果
建物→国、国→資本、食品→国、リーダー→国、CEO→会社
など320の関係を定量的に評価するベンチマーク“VR”を提案
→この項目は、多対1であることから、関係性を視覚的にモ
デル化する能力と、実際の知識を用いる2つの能力を測定す
るために設計
B@1:BLEU-1
R@5:Recall@5 生成された最初の 5 つの単語内の単語の再現率
C-s:意味的関連性を示す CLIP スコア。
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
28
実験結果
自然言語を使った演算
“夜のイメージ”ー“昼のイメージ”=昼夜の方向を取得
“朝食” + 昼夜の方向ベクトル=夜のディナーシーン
“東京のイメージ”ー“日本のイメージ”=首都
“フランス” + 首都 = パリ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
29
まとめ
概要
・CLIPと LM (GPT-2 ) を使用して、 Zero-shotでImage-to-
Textタスクを解く自己回帰モデルであるZeroCapを提案
手法
・CLIPを用いて、言語モデルによって生成されたトークンのキーと
値のペア(𝐶𝐶)を、各推論ステップまでに画像の表現と近くなるよう
に調整する
実験結果
・生成されたキャプションは意味レベルで画像とよく一致し、現実
世界の情報も示していた
・ビジュアルセマンティックを実行可能
・2 つの画像の違いを言葉で説明する方法と、複数の画像の概念を
組み合わせる方法を示します。どちらも新しい高レベルの認識タス
ク
1 de 29

Más contenido relacionado

La actualidad más candente(20)

MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
Kazuyuki Miyazawa1.5K vistas
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
Deep Learning JP22.9K vistas
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性
Satoshi Hara4.3K vistas
MS COCO Dataset IntroductionMS COCO Dataset Introduction
MS COCO Dataset Introduction
Shinagawa Seitaro43.5K vistas
DNNの曖昧性に関する研究動向DNNの曖昧性に関する研究動向
DNNの曖昧性に関する研究動向
Naoki Matsunaga380 vistas
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
Morpho, Inc.9.2K vistas

Similar a ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic

A Generalist AgentA Generalist Agent
A Generalist Agentharmonylab
832 vistas33 diapositivas
RAPiDRAPiD
RAPiDharmonylab
1K vistas31 diapositivas

Similar a ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic(20)

A Generalist AgentA Generalist Agent
A Generalist Agent
harmonylab832 vistas
RAPiDRAPiD
RAPiD
harmonylab1K vistas
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
harmonylab850 vistas

Más de harmonylab(20)

CKL_about_panf2022.pdfCKL_about_panf2022.pdf
CKL_about_panf2022.pdf
harmonylab219 vistas

Último(8)

ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic Yoad Tewel Yoav Shalev Idan Schwartz Lior Wolf School of Computer Science, Tel Aviv University
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 論文概要 目的 ・CLIPのようなVision-Language Modelはマッチングやゼロショットタスクにお いて有用であるが、Image-to-Textタスクへの応用ができていないことから、 その手法を提案する 手法 ・ CLIPと言語モデル(GPT-2など)を組み合わせた文章生成タスクをZero-shot で解く 結果 ・より人間らしい多様なキャプションの生成された。また、CLIPの潜在空間 から画像同士の差分を文章で出力することで、意味論的演算も可能とした。 このことから、2 つの画像の比較や視覚的類推テストの解決などができそう 発表学会 ・CVPR2022 論文URL https://openaccess.thecvf.com/content/CVPR2022/papers/Tewel_ZeroCa p_Zero-Shot_Image-to-Text_Generation_for_Visual- Semantic_Arithmetic_CVPR_2022_paper.pdf コード https://github.com/YoadTew/zero-shot-image-to-text
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 ZeroCapsの出力例 ZeroCapsの特徴 • 従来手法と比較して、実世界の知識を示し、より多様なテキストを 生成できる • 画像の書かれた内容に対処でき、視覚的意味演算を実行できる
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 背景 背景 • Image-to-Textタスクにおいて、画像中の様々なオブジェクトを学 習・推論するために教師ラベルを用意することは困難である • 画像と自然言語を組み合わせたVision-Language Modelが流行る – しかし、これ単体では文章を生成できず、文章生成のための追加 の学習が必要となる → Zero-shotでImage-to-Text可能な手法であるZeroCapを提案
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 関連研究 • CLIP*:Contrastive Language-Image Pre-training – 画像処理と自然言語処理による事前学習手法 • これにより、初めて見た画像についてもうまく分類できるようになる – 構造自体はResNetやViTとTransformerなどが用いられる – 4億の画像とテキストのペア(WebImage Text データセット)で Contrastive pre-trainingしている(単語数50万) https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From _Natural_Language_Supervision.pdf
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 関連研究 • CLIP*:Contrastive Language-Image Pre-training – 画像をEncodeしたベクトルと、テキストをEncodeしたベクトルの内積が正しい組 み合わせでは1、間違った組み合わせでは0となるように学習を行う – 推論では、学習されたText Encoderを使用して、ターゲットとなるデータセットの クラス名をEncodeし、Embeddingされたベクトルを取得、画像をEncodeしたベク トルと内積を計算、最も高い値を持つラベルを正解とする https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From _Natural_Language_Supervision.pdf プロンプト エンジニアリング:言語モデ ルへの入力の仕方で精度を引き出す手法
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 関連研究 • ClipCap*: 学習済みのCLIPとGPT-2を組み合わせた画像の キャプション生成手法 • 画像をCLIPで特徴ベクトルに変換 • Mapping Networkを用いて文の先頭に埋め込み • GPT2はそれを入力にして続きの文章を出力 CLIPとGPT-2間の変換するためのネットワークを学習する必要あり *Mokady, Ron, Amir Hertz, and Amit H. Bermano. "Clipcap: Clip prefix for image captioning." arXiv preprint arXiv:2111.09734 (2021).
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 提案手法 ZeroCap:CLIPと LM (GPT-2 ) を使用して、 Zero-shotで Image-to-Textタスクを解く自己回帰モデル ハクトウワシ 入力画像と近い表現を出力するようにLMを調整する ための損失関数を提案
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 LM Language models LM Language models:入力された文章から、次の単語を予測するモデル • TransformerベースのLM(GPT-2)を用いる。Qはデコーダから、KとVは エンコーダから受け取る • LM の重みは固定し、出力がCLIPの出力が近くなるようにC𝑖𝑖を調整する • 𝑪𝑪𝒊𝒊は各𝒊𝒊単語ごとに毎回調整される 𝑥𝑥𝑖𝑖 :生成された𝑖𝑖番目の単語トークン 𝐾𝐾𝑗𝑗 𝑙𝑙 𝑉𝑉 𝑗𝑗 𝑙𝑙 :𝑙𝑙レイヤー、j番目のK,V値 𝐿𝐿:トランスフォーマーレイヤーのインデックス 論文では𝐿𝐿 = 24 レイヤーを持つ GPT-2 を使用 ZeroCap ハクトウワシ
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 LM Language models CLIP-Guided language modelling LM の出力を画像と結びつけるため、以下の2つの目標と関数式(2)を設定 1. 指定された画像との整合 CLIPによってトークンと画像の関連性を評価し、それに応じてモデル (C𝑖𝑖) を調整 2. 言語属性を維持する 目標を元の目標出力、つまり変更前の出力と同様になるように正則化 本論文ではλ=0.2 � 𝑥𝑥𝑖𝑖+1: 調整前のC𝑖𝑖を使用して生成されたトークン分布(図のman出力) 第2項はクロスエントロピーロス(LCE)を用いて、調整したC𝑖𝑖の単語間の確率分 布が元のLMのものに近くなるようにする。 ZeroCap ハクトウワシ C𝑖𝑖調整後 の出力 C𝑖𝑖調整前 の出力
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 CLIP 損失関数 上位 512 個のトークン候補を計算し、残りのトークンの確率をゼロとする 𝑘𝑘 番目の候補トークンの対応する候補文 s𝑖𝑖 𝑘𝑘 = (𝑥𝑥1, ..., 𝑥𝑥𝑖𝑖−1, 𝑥𝑥𝑖𝑖 𝑘𝑘 ) が画像 𝐼𝐼 と照合 𝑘𝑘 番目のトークンの条件付き確率は、下の式(3)で求める DCLIP : ETEXTとEImageのコサイン類似度 ETEXT・EImage:CLIPで計算される埋め込みされたベクトル τc (τc = 0.01 ):は、ターゲット分布のシャープネスを制御するハイパーパラメーター CLIP 損失関数 式(4):LMによって出力された次の トークン 𝑥𝑥𝑖𝑖+1とターゲット分布𝑝𝑝𝑖𝑖のCE CLIPの推論概要図 ZeroCap ハクトウワシ
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 推論 推論時に、勾配降下を実行することにより、式 (2) の問題を最適化 →トークンが生成されるごとにC𝑖𝑖を計算し、最適化していく ※ゼロショット方式のため、学習による重みの更新はしない C𝑖𝑖の更新式(簡略化したもの)を(5)に示す。 学習率α = 0.3 式(2)のこと ZeroCap ハクトウワシ
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 Beam Search Beam Search:枝刈りをしながら探索するヒューリスティック なアルゴリズム 各単語の確率分布の選択はこれを使う ビーム 数:5 バイトレベル(BPE)のトークナイザーは、256 バイトの基本トー クンを使用して、存在するすべての単語を表す[56] 任意の単語を複数のサブワードに分割することもできます。た とえば、単語「zebra」は「zeb」および「ra」としてトークン 化できる → 最終的には文字にまで分割されるので、頻出しない単語や未 知語もカバーする
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 Visual-Semantic Arithmetic ビジュアルセマンティック [22]より、CLIPのマルチモーダル表現が精巧な概念分類を保持しているこ とが示唆 →CLIP の埋め込みを表現できないか? 例) ・2つの画像 I1、 I2 を用意する ・CLIPのエンコーダーを用いてEImage(I1)、 EImage(I2 )で画像をエンコード ・EImage(I1)+EImage(I2 )のように加算(もしくは減算)する ・Eq(3) 内のEImage(𝐼𝐼)の代わりに得られた結果を使用して、生成された文を 出力 → 加算された概念のようなものが”𝑝𝑝“で表現されているのでは? 画像だけでなく、言語側でも同じことができる!
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 実験設定 LMの生成に関して ・同じ単語の繰り返しを防ぐため、最後の4つのタイムステップで生成さ れたトークンの生成確率を1/2にする ・タイムステップ 𝑡𝑡𝑒𝑒から開始して、エンドトークンの確率に係数 𝑓𝑓𝑒𝑒を掛 けることで、生成されるテキストの長さを直接制御するメカニズムも組み 込む 画像キャプションタスク: 𝑓𝑓𝑒𝑒 = 1.04、𝑡𝑡𝑒𝑒 = 3 ビジュアルセマンティック: 𝑓𝑓𝑒𝑒 = 1.06、𝑡𝑡𝑒𝑒 = 1 ビーム数は5,候補トークンは512に設定 実行時間は、単一の Titan X GPU で3 秒で生成 使用データセット:MS-COCO
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 実験結果 人がアノテーションした文章との比較 BLEU [52]、METEOR [5]、CIDEr [66]、SPICE [2] CLIPScoreRef スコアが大きく低いが、これは他手法がCOCOアノテーションで学習されている →同じ人間グループが学習・テストを書いてるので優位になっている ボキャブラリーの多様性は、他手法と比較して大きくリードしており、テスト データセットのすべてをカバーしている(未知語なし) 教師なしのメトリクスCLIP-Sにおいて高い精度 CLIP-SはCLIPのテキストエンコーダを利用して生成文とのコサイン距離を計算す る意味的関連性を評価する指標
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 実験結果 • キャプション生成タスク 1枚目 2枚目 3枚目 4枚目 従来 手法 歩道や浴室にあ るバスルーム 水の上にある 船 通常の食事ト レイ バスルーム 提案 手法 屋上にあるバス ルーム 船にあるテキ スト 正しく機内食 と説明 肖像画のある バーのトイレ
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 実験結果 1枚目 2枚目 3枚目 4枚目 従来 手法 鳥がとまって いる 鏡とシンクの あるバスルー ム グループ ベッドルーム とポスター 提案 手法 アカハヤブサ と固有名詞 メッシュタイ ルパターンの バスルーム 家族 ポスターの内 容に触れる • キャプション生成タスク
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 考察 • 従来手法のキャプションは一般的に同じパ ターンだが、提案手法は斬新な文章を生成し ている • 従来手法(CLIP-VL と VinVL)はCOCOデータ セットを使って調整されているので、テスト 時有利に働く点に注意
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 実験結果 • プロンプトを「Image of a」から「Image of text that say」に変更 • 紙の画像から「ケネディ大統領の死」 • 看板から「スタンフォード大学」
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 実験結果 • 有名人 (トランプなど)、アニメ番組 (シンプソ ンズなど)、都市 (マンハッタンなど)、映画 (アベンジャーズなど) 実世界の知識を必要とするキャプション例
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 実験結果 ビジュアルセマンティック 減算 • 飛行機の似顔絵から飛行機を差し引いた結果、似顔絵イラスト といったキャプションが得られる • また、実物の飛行機と似顔絵イラストを入れると、左の画像と 一致する • オリの中のシマウマ ー シマウマ=監獄 • 沢山のバスケットボール ー バスケットボール = 束 • 夜景ー景色 = 地球の夜
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 実験結果 ビジュアルセマンティック 減算 • 赤いリンゴから青りんごを引くと赤 • 雪のなかのシロクマ ー 砂漠のシロクマ=雪 • スケボーの大会 ー スケボー = イベント • スケボー ー スケボーの大会 = 模試化石ビュー?? → 引かれる側の要素がなくなるので、意味不明な出力になるようです
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 実験結果 ビジュアルセマンティック 加算 • 走っている男性 + 警官の帽子 =警察官が走っている • 男性 + ハンマー = 裁判官 • 電話 + りんご = iPhoneがリリースされた • 木 + カナダ国旗 =Toronto maple(トロントの楓)
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 25 実験結果 多様な視覚演算の実験(概念の抽出) オバマ大統領- アメリカ国旗=リーダーシップ ドイツ + リーダーシップ = メルケル首相
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 26 実験結果 多様な視覚演算の実験(概念の抽出) マイクロソフトービル・ゲイツ = CEO マーク・ザッカーバーグ + CEO = Facebook イタリアーピザ=国ー食べ物への方向性? フランスパン + 国ー食べ物 = フランス
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 27 実験結果 建物→国、国→資本、食品→国、リーダー→国、CEO→会社 など320の関係を定量的に評価するベンチマーク“VR”を提案 →この項目は、多対1であることから、関係性を視覚的にモ デル化する能力と、実際の知識を用いる2つの能力を測定す るために設計 B@1:BLEU-1 R@5:Recall@5 生成された最初の 5 つの単語内の単語の再現率 C-s:意味的関連性を示す CLIP スコア。
  • 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 28 実験結果 自然言語を使った演算 “夜のイメージ”ー“昼のイメージ”=昼夜の方向を取得 “朝食” + 昼夜の方向ベクトル=夜のディナーシーン “東京のイメージ”ー“日本のイメージ”=首都 “フランス” + 首都 = パリ
  • 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 29 まとめ 概要 ・CLIPと LM (GPT-2 ) を使用して、 Zero-shotでImage-to- Textタスクを解く自己回帰モデルであるZeroCapを提案 手法 ・CLIPを用いて、言語モデルによって生成されたトークンのキーと 値のペア(𝐶𝐶)を、各推論ステップまでに画像の表現と近くなるよう に調整する 実験結果 ・生成されたキャプションは意味レベルで画像とよく一致し、現実 世界の情報も示していた ・ビジュアルセマンティックを実行可能 ・2 つの画像の違いを言葉で説明する方法と、複数の画像の概念を 組み合わせる方法を示します。どちらも新しい高レベルの認識タス ク