Publicidad
Publicidad

Más contenido relacionado

Presentaciones para ti(20)

Publicidad

Último(20)

GPT解説

  1. GPT解説
  2. 前回のおさらい
  3. 深層学習が何をやってるか 深層学習 …複雑な関数を、単純な線形変換()を大量に重ねて近似すること 3 Rabbit Kawauso Cat function(DNN)
  4. 単純な線形変換() 𝑦 = 𝐴𝑐𝑡𝑖𝑣𝑎𝑡𝑒(𝑥𝑊 + 𝑏) (以降こいつをLinearって呼びます) Øこいつの重ね方に工夫が生まれる Ø𝑊, 𝑏の値をよしなに調整するのが学習 4 𝑥 𝑊 𝑏 Activate Func etc. 𝑦 非線形性を生み、 表現力が向上 *
  5. Decoder Encoder 翻訳の主流︓Encoder-Decoderモデル 5 DNN 単語ベクトル群 I am a man . 文の意味っぽいベクトル DNN 私 は 人 だ 。 文の意味っぽいベクトル 単語ベクトル群
  6. Transformer 並列性の高い計算フローを持つ Encoder-Decoder型DNN 本来は翻訳家 だが、意味解釈能力が超凄い これ、何にでも応用できない? 6 Masked Multi-Head Attention Multi-Head Attention Layer Norm Feed Forward Layer Norm Linear softmax Output Embedding + + + 〜 Input Embedding Multi-Head Attention Layer Norm Feed Forward Layer Norm + + + 〜 Outputs Inputs Output Probabilities + Layer Norm N x x N
  7. GPTを理解していこう︕ 7
  8. ⽬次 • GPT誕生の背景 • GPT • モデル構造 • Pre-train • Fine-tune 8
  9. ⽬次 • GPT誕生の背景 • GPT • モデル構造 • Pre-train • Fine-tune 9
  10. 分類AI GPT誕⽣の背景 Transformer凄い! NLPは全部Deepで行ける? LDLは学習コストが大きすぎる • 大量の解答付き学習データ • タスク毎に別々のモデルが必要 Ø全部できるやつ作れない? ペットの話題 仕事の話題 類似判断AI 同じ主張 異なる主張
  11. 汎⽤モデルを作るためには︖ L真の意味での汎用モデルは困難 Øタスク毎に入出力の要求が異なるため • 分類:文章 -> 確率分布 • Q&A: 質問文 -> 回答文 入力文の意味解釈は共通して必要なはず 1. 入力文から意味ベクトルを作るモデルを学習(Pre-train) 2. あとはタスク毎に微調整して!(Fine-tune) 何かしら自然言語AI作りたい人は2だけやればok!
  12. ⽬次 • GPT誕生の背景 • GPT • モデル構造 • Pre-train • Fine-tune 12
  13. Generative Pretrained Transformer “Improving Language Understanding by Generative Pre- training”(Aloc Radford et al. @OpenAI) Pre-train & Fine-tune方式の提唱 ØFine-tuneだけで多様なタスクに対応する汎用モデルを実現
  14. ⽬次 • GPT誕生の背景 • GPT • モデル構造 • Pre-train • Fine-tune 14
  15. Fine-tune ひとまずモデル構造 ほぼTransformerのdecode部() Pre-train • 前半の大部分のパラメタを学習、固定 Fine-tune • 最終層を連結、そこだけ追加学習 15 Pre-train Masked Multi-Head Attention Feed Forward Layer Norm Linear Word Embedding + + 〜 Inputs Outputs + Layer Norm x12
  16. 再掲)Transformer 並列性の高い計算フローを持つ Encoder-Decoder型DNN 本来は翻訳家 だが、意味解釈能力が超凄い これ、何にでも応用できない? 16 Masked Multi-Head Attention Multi-Head Attention Layer Norm Feed Forward Layer Norm Linear softmax Word Embedding + + + 〜 Word Embedding Multi-Head Attention Layer Norm Feed Forward Layer Norm + + + 〜 Outputs Inputs Output Probabilities + Layer Norm N x x N
  17. 脇道)なんでdecoder部︖ encoderとdecoderは酷似 Ø本質的には大差無い masked-MHAかどうかの違い 実はencoder使う派閥も有る ØそれがBERT 17 Masked Multi-Head Attention Multi-Head Attention Layer Norm Feed Forward Layer Norm Linear softmax Word Embedding + + + 〜 Word Embedding Multi-Head Attention Layer Norm Feed Forward Layer Norm + + + 〜 Outputs Inputs Output Probabilities + Layer Norm N x x N
  18. ⽬次 • GPT誕生の背景 • GPT • モデル構造 • Pre-train • Fine-tune 18
  19. Pre-trainで何を学習すべき︖ Pre-trainの目的 • モデル前半に文の意味解釈能力を! 何ができれば意味解釈してると言える? • 文章要約 • 文章についてのQ&A ØL学習データの作成が大変 19 Fine-tune Pre-train Masked Multi-Head Attention Feed Forward Layer Norm Linear Word Embedding + + 〜 Inputs Outputs + Layer Norm x12
  20. 次単語予測 不完全な文の次の単語を予測するよう学習 J学習データの用意が簡単 Ø適当な文章を拾って後半をmaskするだけ Lこれで本当に文章理解できるのか? Ø結論:めちゃくちゃできた(後で詳しく) 20 Pre-train Masked Multi-Head Attention Feed Forward Layer Norm Word Embedding + + 〜 Inputs + Layer Norm x12 Linear softmax Output Probabilities START 私は 犬を □ EXTRACT 飼う 撫でる 食べる 55% 43% 2%
  21. 吾輩は猫である。名前はまだない。 学習時の⼊⼒⽂の⼯夫 入力文の節目に特殊なトークンを付与 学習時はこれらの予測値は捨てる 21 Pre-train Masked Multi-Head Attention Feed Forward Layer Norm Word Embedding + + 〜 Inputs + Layer Norm x12 Linear softmax Output Probabilities START 私は 犬を □ EXTRACT 飼う 撫でる 食べる 55% 43% 2% START 吾輩 は 猫 である 。 DELIM 名前 は まだ ない 。 EXTRACT
  22. ⽬次 • GPT誕生の背景 • GPT • モデル構造 • Pre-train • Fine-tune 22
  23. Fine-tune 1. 最後のLinear & softmaxを除去 2. 解きたいタスクの入力文を入れる (適切な特殊トークンを入れる) • 分類:START 文 EXTRACT • 含意:START 文1 DELIM 文2 EXTRACT • Q&A: START Q DELIM A EXTRACT 3. EXTRACTに対応するベクトルを取得 4. それに新規のLinear層()を接続 5. そのLinear層だけちょっと学習 23 Pre-train Masked Multi-Head Attention Feed Forward Layer Norm Word Embedding + + 〜 Inputs + Layer Norm x12 START 私は 犬を 飼う EXTRACT Linear etc. ① ② ③ ④ ⑤ ① ② ③ ④ ⑤ ペットの話題 仕事の話題 趣味の話題 85% 1% 14%
  24. GPTの性能 様々なタスクで最高性能発揮 • 文章のジャンル分類 • 2文間の論理関係判断 • 2文間の類似性判断 • Q&A
  25. GPTまとめ 多様な自然言語タスクを解ける汎用モデルの需要 Ø文章解釈力を持つ基盤モデルを作り、タスク毎に微調整しよう Pre-train • 次単語予測の大量学習でモデルに解釈力を! Fine-tune • モデルの最終層だけ取り替え、そこだけ追加学習
Publicidad