GPT解説

深層学習が何をやってるか
深層学習
…複雑な関数を、単純な線形変換()を大量に重ねて近似すること
3
Rabbit
Kawauso
Cat
function(DNN)

単純な線形変換()
𝑦 = 𝐴𝑐𝑡𝑖𝑣𝑎𝑡𝑒(𝑥𝑊 + 𝑏)
(以降こいつをLinearって呼びます）
Øこいつの重ね方に工夫が生まれる
Ø𝑊, 𝑏の値をよしなに調整するのが学習
4
𝑥
𝑊
𝑏
Activate
Func
etc.
𝑦
非線形性を生み、
表現力が向上
*

Decoder
Encoder
翻訳の主流︓Encoder-Decoderモデル
5
DNN
単語ベクトル群
I am a man .
文の意味っぽいベクトル
DNN
私は人だ。
文の意味っぽいベクトル
単語ベクトル群

Transformer
並列性の高い計算フローを持つ
Encoder-Decoder型DNN
本来は翻訳家
だが、意味解釈能力が超凄い
これ、何にでも応用できない？
6
Masked Multi-Head
Attention
Multi-Head
Attention
Layer Norm
Feed Forward
Layer Norm
Linear
softmax
Output Embedding
+
+
+
〜
Input Embedding
Multi-Head
Attention
Layer Norm
Feed Forward
Layer Norm
+
+
+
〜
Outputs
Inputs
Output Probabilities
+
Layer Norm
N x
x N

GPTを理解していこう︕
7

⽬次
• GPT誕生の背景
• GPT
• モデル構造
• Pre-train
• Fine-tune
8

⽬次
• GPT
• モデル構造
• Pre-train
• Fine-tune
9

分類AI
GPT誕⽣の背景
Transformer凄い！
NLPは全部Deepで行ける？
LDLは学習コストが大きすぎる
• 大量の解答付き学習データ
• タスク毎に別々のモデルが必要
Ø全部できるやつ作れない？
ペットの話題
仕事の話題
類似判断AI
同じ主張
異なる主張

汎⽤モデルを作るためには︖
L真の意味での汎用モデルは困難
Øタスク毎に入出力の要求が異なるため
• 分類：文章 -> 確率分布
• Q&A: 質問文 -> 回答文
入力文の意味解釈は共通して必要なはず
1. 入力文から意味ベクトルを作るモデルを学習（Pre-train）
2. あとはタスク毎に微調整して！（Fine-tune）
何かしら自然言語AI作りたい人は2だけやればok!

⽬次
• GPT
• モデル構造
• Pre-train
• Fine-tune
12

Generative Pretrained Transformer
“Improving Language Understanding by Generative Pre-
training”(Aloc Radford et al. @OpenAI)
Pre-train & Fine-tune方式の提唱
ØFine-tuneだけで多様なタスクに対応する汎用モデルを実現

⽬次
• GPT
• モデル構造
• Pre-train
• Fine-tune
14

Fine-tune
ひとまずモデル構造
ほぼTransformerのdecode部()
Pre-train
• 前半の大部分のパラメタを学習、固定
Fine-tune
• 最終層を連結、そこだけ追加学習
15
Pre-train
Masked Multi-Head
Attention
Feed Forward
Layer Norm
Linear
Word Embedding
+
+
〜
Inputs
Outputs
+
Layer Norm
x12

再掲）Transformer
並列性の高い計算フローを持つ
Encoder-Decoder型DNN
本来は翻訳家
だが、意味解釈能力が超凄い
これ、何にでも応用できない？
16
Masked Multi-Head
Attention
Multi-Head
Attention
Layer Norm
Feed Forward
Layer Norm
Linear
softmax
Word Embedding
+
+
+
〜
Word Embedding
Multi-Head
Attention
Layer Norm
Feed Forward
Layer Norm
+
+
+
〜
Outputs
Inputs
+
Layer Norm
N x
x N

脇道）なんでdecoder部︖
encoderとdecoderは酷似
Ø本質的には大差無い
masked-MHAかどうかの違い
実はencoder使う派閥も有る
ØそれがBERT
17
Masked Multi-Head
Attention
Multi-Head
Attention
Layer Norm
Feed Forward
Layer Norm
Linear
softmax
Word Embedding
+
+
+
〜
Word Embedding
Multi-Head
Attention
Layer Norm
Feed Forward
Layer Norm
+
+
+
〜
Outputs
Inputs
+
Layer Norm
N x
x N

⽬次
• GPT
• モデル構造
• Pre-train
• Fine-tune
18

Pre-trainで何を学習すべき︖
Pre-trainの目的
• モデル前半に文の意味解釈能力を！
何ができれば意味解釈してると言える？
• 文章要約
• 文章についてのQ&A
ØL学習データの作成が大変
19
Fine-tune
Pre-train
Masked Multi-Head
Attention
Feed Forward
Layer Norm
Linear
Word Embedding
+
+
〜
Inputs
Outputs
+
Layer Norm
x12

次単語予測
不完全な文の次の単語を予測するよう学習
J学習データの用意が簡単
Ø適当な文章を拾って後半をmaskするだけ
Lこれで本当に文章理解できるのか?
Ø結論：めちゃくちゃできた（後で詳しく）
20
Pre-train
Masked Multi-Head
Attention
Feed Forward
Layer Norm
Word Embedding
+
+
〜
Inputs
+
Layer Norm
x12
Linear
softmax
START 私は犬を □ EXTRACT
飼う撫でる食べる
55% 43% 2%

吾輩は猫である。名前はまだない。
学習時の⼊⼒⽂の⼯夫
入力文の節目に特殊なトークンを付与
学習時はこれらの予測値は捨てる
21
Pre-train
Masked Multi-Head
Attention
Feed Forward
Layer Norm
Word Embedding
+
+
〜
Inputs
+
Layer Norm
x12
Linear
softmax
START 私は犬を □ EXTRACT
飼う撫でる食べる
55% 43% 2%
START 吾輩は猫である。 DELIM
名前はまだない。 EXTRACT

⽬次
• GPT
• モデル構造
• Pre-train
• Fine-tune
22

Fine-tune
1. 最後のLinear & softmaxを除去
2. 解きたいタスクの入力文を入れる
（適切な特殊トークンを入れる）
• 分類：START 文 EXTRACT
• 含意：START 文1 DELIM 文2 EXTRACT
• Q&A: START Q DELIM A EXTRACT
3. EXTRACTに対応するベクトルを取得
4. それに新規のLinear層()を接続
5. そのLinear層だけちょっと学習
23
Pre-train
Masked Multi-Head
Attention
Feed Forward
Layer Norm
Word Embedding
+
+
〜
Inputs
+
Layer Norm
x12
START 私は犬を飼う EXTRACT
Linear
etc.
① ② ③ ④ ⑤
① ② ③ ④ ⑤
ペットの話題
仕事の話題
趣味の話題
85%
1%
14%

GPTの性能
様々なタスクで最高性能発揮
• 文章のジャンル分類
• ２文間の論理関係判断
• ２文間の類似性判断
• Q&A

GPTまとめ
多様な自然言語タスクを解ける汎用モデルの需要
Ø文章解釈力を持つ基盤モデルを作り、タスク毎に微調整しよう
Pre-train
• 次単語予測の大量学習でモデルに解釈力を！
Fine-tune
• モデルの最終層だけ取り替え、そこだけ追加学習

GPT解説

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to GPT解説

Similar to GPT解説 (15)

Recently uploaded

Recently uploaded (11)

GPT解説