【DL輪読会】マルチモーダル基盤モデル

DEEP LEARNING JP
[DL Papers]
マルチモーダルな基盤モデル
Keno Harada, D1, the University of Tokyo
http://deeplearning.jp/

前書き
• Meta, Microsoft, Google, OpenAI, Salesforceの研究からシンプルめな手法(主
観・好みがかなり入ってます)を選んできました
- DeepMindの研究ははちゃんとみれていない
• Flamingo, GATOなど
• 過去にPerceiverについて輪読会で扱いました
- 【DL輪読会】Perceiver io a general architecture for structured inputs &
outputs
- 個人的にはOpenAIのAlec Radfordさんの研究(言語以外にも色々やっている)
が好きです, MAEもシンプルで好き
• 活用する, という点ではAndy Zengさんの研究が推しです
- Socratic Models
• JSAI2023 Tutorial 「基盤モデルの技術と展望」
- LLMを中心にスケール則や文脈内学習などの研究を整理
2

本日扱う内容
• 単一モダリティではどのようにTransformerで大規模に表現学習が行え,
downstreamタスクで活用できるか
- Token化
- 学習の際の工夫
• 複数モダリティ
- どのようにモダリティ同士の関係性を扱うか
• モダリティを横断した表現をどのように得るか
- tokenを埋め込んでattentionかける方法、cross-attentionかける方法、
CLIP的な取得方法
- データセットの問題
- 単一モダリティでの学習結果を活用できるか
• 今後の課題
- 表現学習
• contrastive/generative/JEPA
- データの問題
3

基盤モデルとは
“AI is undergoing a paradigm shift
with the rise of models (e.g., BERT,
DALL-E, GPT-3) trained on broad data
(generally using self-supervision at
scale) that can be adapted to a wide
range of downstream tasks. We call
these models foundation models..”
Downstreamタスクへの適用
• Embeddingの使用
• 重みをfinetuneしタスクに適用
• Promptによるタスク遂行
4
From Intro to Transformers

Transformer以前
5

Transformer以降
6

Text embedding
• 文章のembeddingを自己教師あり
学習(contrastive)によって学習
- [EOS] tokenがEncoderを経て出
てくる表現を使用
7
From Text and Code Embeddings by Contrastive Pre-Training

事前学習後タスクに合わせたfinetuning
8
From BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Promptによるタスク遂行
9
From Language Models are Few-Shot Learners

Encoder/Decoder構造
10

Why transformer?
11
From CS25 I Stanford Seminar - Transformers United 2023: Introduction to Transformers w/ Andrej Karpathy

LLMの発展を他モダリティへ応用、マルチモーダル
化するには？
• どのようにToken化できるか
• どのように自己教師あり学習できるか
• どのように複数モダリティにまたがる表現を獲得できるか
• スケールを見据えて単一モダリティの学習をどのように活かせるか？
12

どのようにtoken化すべきか？
• 自然言語ではword単位やBPEでtoken化できるが他のモダリティでは？
- 画像の場合1pixel単位でtoken化する？
•token長 224 * 224 * 3 = 150528, n_vocab 256
- API経由で使用できるGPT-4の最大token長は8000/30000ほど
13

基本戦略: 適当に小さく切ってTransformerに入力し
てモダリティ間の関係をAttentionで学習
14
From CS25 I Stanford Seminar - Transformers United 2023: Introduction to Transformers w/ Andrej Karpathy

ViT
• 224 * 224 * 3の画像をtoken長16 *
16として扱う(ViT-Large)
- 14 * 14 * 3 ピクセルを線形層に
よって1024次元のベクトルにし、
1 tokenとして扱う
• 16 * 16 + 1(cls token)がTransformer
の入力となる
• 教師あり学習によって学習
15
From An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

BEiT
• 224 * 224 * 3の画像を
token長14 * 14として扱
う
- 16 * 16 * 3 ピクセルを
8192の語彙から選ぶ
(別で学習させた
tokenizerを使用)
• 自己教師あり学習に
よって学習
• 事前学習後にEncoderの
出力を用いて分類タス
クやsegmentationタス
クで学習
16
From BEiT: BERT Pre-Training of Image Transformers

MAE
• 224 * 224 * 3の画像を
token長16 * 16として扱
う
- 14 * 14 * 3 ピクセル
を線形層によって
1024次元のベクトル
にし、1 tokenとして
扱う
• 自己教師あり学習に
よって学習
• Encoderの出力あるい
はspecial tokenを用い
てfinetuning
17
From Masked Autoencoders Are Scalable Vision Learners

Hiera
18
From Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles

Wav2Vec
• 畳み込み層を経て、
16kHZの波形データが
210ms毎にcに埋め込ま
れる
• 自己教師あり学習
(contrastive)によって学
習
• Downstreamタスクには
cの表現を使用
19
From WAV2VEC: UNSUPERVISED PRE-TRAINING FOR SPEECH RECOGNITION

HuBERT
• 畳み込み層を経て、波形データ
がTransformerの入力へ
• 自己教師あり学習(Mask)によっ
て学習
- K-meansを用いて離散化した
ラベルの予測
20
From HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of

AudioMAE
• Spectrogramを入力とし
て畳み込み層を経て、
Transformerの入力へ
• 自己教師あり学習(Mask,
再構成誤差)によって学
習
21
From Masked Autoencoders that Listen

単一モダリティのTransformer化まとめ
• 言語以外の連続空間ででマスク学習を行う際には工夫が必要
- クラスタリング手法やVQ-VAEのEncoderを使用しラベル予測
- MAEのようにマスク部分を再構成誤差によって学習
• 得られる表現が1patchごと、あるいはcls tokenのような入力全体を考慮
した表現でも取得可能
•cls tokenのような入力全体を考慮した表現
- 教師あり学習でも、自己教師あり学習でも表現の獲得は可能
• 教師あり学習の例: BERT, ViT
• 自己教師あり学習の例: Text and Code Embeddings by
Contrastive Pre-Training
22

LayoutLM
• ドキュメント上におけ
るテキストの位置情報
(bbox)をposition
emebddingにして埋め
込む
23
From LayoutLM: Pre-training of Text and Layout for Document Image Understanding

MTM
• 各モダリティ(ここで
はaction, state, return-
to-go)をそれぞれの
Encoderで通した後の
表現ベクトルを
Transformerへ入力
24
From Masked Trajectory Models for Prediction, Representation, and Control

DALL-E
• 256*256*3の画像を32 * 32のtoken
列に置き換える、1tokenは事前学
習済みのdVAEのEncoderを用いて
8192個の中から選ばれる
- EncoderはBEiTでも使用される
• 最大256token長のtextとともに
Transformerで学習
- 画像・キャプションのペアの
データセットが必要
25
From https://jashrathod.github.io/2021-12-13-zero-shot-text-to-image-generation/

VALL-E
26
From Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

Whisper
• Log-Mel Spectrogramから音声
データがencodeされ、cross-
attentionを用いてtext modalityと
接続
• 1つのモデルで音声認識だけでな
く翻訳やVoice activity detectionを
special tokenによって可能にする
• 音声・文字起こしのペアのデータ
セットが必要
27
From Robust Speech Recognition via Large-Scale Weak Supervision

PaLM-E
• 事前学習済みのLLMの
embedding spaceへ各モ
ダリティの表現を
encodeする
- finetuningによって変
換を学習
28
From PaLM-E: An Embodied Multimodal Language Model

VIMA
• 画像・言語のプロンプ
トからマニピュレー
ターのアクション(手
先位置 x, y)を出力
29
From PaLM-E: An Embodied Multimodal Language Model

BLIP-2
• モダリティ間を繋ぐよ
うな表現をCross-
attentionを用いた学習
によって獲得
30
From BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

CLIP
• Image EncoderとText
Encoderの出力をもと
に対照学習
31
From Learning Transferable Visual Models From Natural Language Supervision

IMAGEBIND
• 画像とあるモダリティ
のペアで対照学習を行
うと、ペアでないモダ
リティ間でもペアのモ
ダリティのような操作
が可能に
32
From ImageBind: One Embedding Space To Bind Them All

LeCunのJEPAの話
33
From Yann LeCun, Chief AI Scientist at Meta AI: From Machine Learning to Autonomous Intelligence

LeCunのJEPAの話
34

LeCunのJEPAの話
35

マルチモーダル化まとめ
• 表現学習したいモダリティを追加する方法
- embeddingに足す(LayoutLM)
- それぞれのモダリティの表現を1tokenとしてTransformerに入力
•Self-attention(DALL-E, VALL-E, MTM, PALM-E)
•Cross-attention(Whisper)
- モダリティのペア間で対照学習(CLIP, IMAGEBIND)
• 単一モダリティで大規模に学習した表現をうまく活用する方法
- LLMのembedding spaceへの変換をfinetuningによって獲得
•Pretrained Transformers as Universal Computation Engines
- (追えてないが)LoRAのようなPEFT手法もありそう
36

Video-LLaMA(BLIPの工夫+IMAGEBIND)
37
From Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

まとめ
言語以外のモダリティでTransformerを用いて大規模化するために
• 適当なサイズでpatch化しVQ-VAEあるいはMAEのような工夫でマスク学
習
マルチモーダル化
• ペアデータでself-attention, cross-attention, 対照学習することでタスク
遂行につながるモダリティ間の表現を獲得
- ペアデータの収集困難さはIMAGEBINDのような工夫で軽減できる？
• 単一モダリティでの大規模学習結果を活用する工夫も提唱されつつある
38

【DL輪読会】マルチモーダル基盤モデル

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a 【DL輪読会】マルチモーダル基盤モデル

Similar a 【DL輪読会】マルチモーダル基盤モデル (20)

Más de Deep Learning JP

Más de Deep Learning JP (20)