DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing

H
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文紹介
DeBERTaV3: Improving DeBERTa using
ELECTRA-Style Pre-Training with Gradient-
Disentangled Embedding Sharing
北海道大学大学院 情報科学院 情報理工学部門
複合情報工学分野 調和系工学研究室
博士後期課程 3年 吉田 拓海
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1
論文情報
タイトル
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training
with Gradient-Disentangled Embedding Sharing
著者
発表
arxiv https://arxiv.org/abs/2111.09543
実装
https://github.com/microsoft/DeBERTa
https://huggingface.co/microsoft/deberta-v3-large
概要
DeBERTaとELECTRAを組合わせたDeBERTa V3を提案
NLPコンペなどでよく使用されるモデル
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
概要 1/2
DeBERTa V3: DeBERTa + ELECTRA (GDES)
DeBERTa (Disentangled attention)
ELECTRA (GDES: Gradient-Disentangled Embedding Sharing)
𝑷 : relative position embedding vectors (全層で共有)
𝛿(𝑖, 𝑗) : relative distance from token 𝑖 to token 𝑗
𝑘 : maximum relative distance
DeBERTa: 既存手法
ELECTRA: 既存手法
GDES: 提案手法
Generator
𝐸𝐺 𝜃𝐺
the
chef
cooked
the
meal
[MASK]
chef
[MASK]
the
meal
𝑝𝐺(𝑥0)
chef
𝑝𝐺(𝑥2)
the
meal
the
ate
original
original
original
original
replaced
Discriminator
sampling
𝜃𝐷
𝐿𝑀𝐿𝑀 𝜆𝐿𝑅𝑇𝐷
𝐸𝐺 𝐸Δ
backward
backward
1. MLM 2. RTD
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
概要 2/2
DeBERTa V3は高性能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
目次
Intro
Background
DeBERTa
Disentangled attention
Enhanced mask decoder
ELECTRA
Replaced token detection
DeBERTa V3(提案手法)
Gradient-Disentangled Embedding Sharing
Embeddingの共有方法の比較
Experiment
Large Model
Base and Small Models
Multilingual Model
Conclusions
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
目次
Intro
Background
DeBERTa
Disentangled attention
Enhanced mask decoder
ELECTRA
Replaced token detection
DeBERTa V3(提案手法)
Gradient-Disentangled Embedding Sharing
Embeddingの共有方法の比較
Experiment
Large Model
Base and Small Models
Multilingual Model
Conclusions
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
Pre-trained language models (PLM)
近年,PLMの進歩により多くのNLPタスクでSOTA
BERT [Devlin+ 2019]
スケールアップはPLMの性能を向上させる有効な方法
エネルギー効率の良いアプローチの探索が重要
少ないパラメータで高い性能をもつPLMを構築
[Devlin+ 2019] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of
deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of
the North American Chapter of the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, 2019.
図は論文
[Devlin+ 2019]
から引用
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Pre-trained language models の効率向上
RoBERTa[Liu+ 2019]
BERTの再検討(batch sizeを大きく,学習データを増やす,など)
DeBERTa[He+ 2020]
Disentangled attention(contentとposition)
SuperGLUEで初めて人間の性能を上回る(2020年12月19日)
ELECTRA[Clark+ 2020]
Replaced Token Detection (類似したtokenに置換→置換の検出)
本論文ではDeBERTaの事前学習の効率向上
MLM を RTD(ELECTRA) に変更
RTDにおけるGeneratorとDiscriminatorのEmbedding共有手法の提案
[Liu+ 2019] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike
Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Roberta: A robustly optimized bert pretraining approach.
arXiv preprint arXiv:1907.11692, 2019.
[He+ 2020] Pengcheng He, Xiaodong Liu, Jianfeng Gao, and Weizhu Chen. Deberta: Decoding-enhanced
bert with disentangled attention. In International Conference on Learning Representations, 2020.
[Clark+ 2020] Kevin Clark, Minh-Thang Luong, Quoc V. Le, and Christopher D. Manning. ELECTRA: Pre-
training text encoders as discriminators rather than generators. In ICLR, 2020.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
目次
Intro
Background
DeBERTa
Disentangled attention
Enhanced mask decoder
ELECTRA
Replaced token detection
DeBERTa V3(提案手法)
Gradient-Disentangled Embedding Sharing
Embeddingの共有方法の比較
Experiment
Large Model
Base and Small Models
Multilingual Model
Conclusions
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
Background: DeBERTa[He+ 2020] 1/3
Disentangled attention
各入力単語を2つの別々のベクトル(content, position)で表現
BERTの場合は和をとる
Word Embedding = content embedding + position embedding
単語ペアの注目度𝐴𝑖,𝑗はcontentとpositionから次のように計算
content-content
content-position
position-content
position-position
𝑯𝑖 : 位置𝑖のcontentを表すベクトル
𝑷𝑖|𝑗 : 位置𝑖と𝑗の相対的位置を表すベクトル
[He+ 2020] Pengcheng He, Xiaodong Liu, Jianfeng Gao, and Weizhu Chen. Deberta: Decoding-enhanced
bert with disentangled attention. In International Conference on Learning Representations, 2020.
図(式)は
論文[He+ 2020]
から引用
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
Background: DeBERTa[He+ 2020] 2/3
Standard self-attention
Disentangled self-attention
※position-to-position項は追加情報を持たないため無し
𝑷 : relative position embedding vectors (全層で共有)
𝛿(𝑖, 𝑗) : relative distance from token 𝑖 to token 𝑗
𝑘 : maximum relative distance
𝑯 : input hidden vectors
𝑯𝒐 : output hidden vectors
𝑁 : length of the input sequence
𝑑 : dimension of hidden states
図(式)は
論文[He+ 2020]
から引用
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
Background: DeBERTa[He+ 2020] 3/3
Enhanced Mask Decoder (EMD)
絶対的な位置情報は予測に有効
事前学習時に絶対的な位置を使用するためのDecoderを追加
追加位置はSoftmax層の前
実験では𝑛 = 2(1層目で𝐼に絶対的位置, 2層目では𝐼 = 𝐻)
各層で重みを共有
図表は論文[He+ 2020]から引用
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
Background: ELECTRA[Clark+ 2020] 1/2
Replaced token detection (RTD)
Generator (MLM model) がtokenを置換
Discriminatorは置換されたtokenを識別
Generator(MLM)とDiscriminator(RTD)を同時学習
Loss 𝐿 = 𝐿𝑀𝐿𝑀 + 𝜆𝐿𝑅𝑇𝐷 (𝜆 = 50)
[Clark+ 2020] Kevin Clark, Minh-Thang Luong, Quoc V. Le, and Christopher D. Manning. ELECTRA: Pre-
training text encoders as discriminators rather than generators. In ICLR, 2020.
𝐶 : masked tokenのindex集合
𝜃𝐺 : Generatorのパラメータ
𝑋𝐺 : Generatorのinput (masked text)
𝜃𝐷 : Discriminatorのパラメータ
𝑋𝐷 : Discriminatorのinput
𝕝 : indicator function
下流タスクでは
Discriminatorを
finetune
図(式含む)は
論文[Clark+ 2020]
から引用
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
Background: ELECTRA[Clark+ 2020] 2/2
Replaced Token Detection (RTD) は効率の良い学習手法
GeneratorとDiscriminatorのEmbedding共有に問題あり?
ただし,共有しないと性能低下
DeBERTa V3では新しいEmbeddingの共有方法を提案
[Clark+ 2020] Kevin Clark, Minh-Thang Luong, Quoc V. Le, and Christopher D. Manning. ELECTRA: Pre-
training text encoders as discriminators rather than generators. In ICLR, 2020.
図は論文[Clark+
2020]から引用
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
Embeddingについて
単語の分散表現を計算
単語idに変換
単語idをワンホットベクトルに変換
Embedding行列を乗算し,Embedding vectorに変換
This is a pen .
32 2 1 105 300
[0,0,0,…,0] [0,0,1,…,0] [0,1,0,…,0] [0,0,0,…,0] [0,0,0,…,0]
[0.1,…,0.3] [0.5,…,0.9] [0.2,…,0.3] [0.9,…,-0.4] [-0.3,…,0.1]
𝐸𝑥𝑜𝑛𝑒ℎ𝑜𝑡
ワンホットベクトル化
id化
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
目次
Intro
Background
DeBERTa
Disentangled attention
Enhanced mask decoder
ELECTRA
Replaced token detection
DeBERTa V3(提案手法)
Gradient-Disentangled Embedding Sharing
Embeddingの共有方法の比較
Experiment
Large Model
Base and Small Models
Multilingual Model
Conclusions
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
DeBERTa V3
DeBERTa V3
DeBERTa の事前学習手法を変更
Masked Language Modeling から Replaced Token Detection に変更
GeneratorとDiscriminatorのEmbedding共有手法の提案
Gradient-Disentangled Embedding Sharing
Generator
𝐸𝐺 𝜃𝐺
the
chef
cooked
the
meal
[MASK]
chef
[MASK]
the
meal
𝑝𝐺(𝑥0)
chef
𝑝𝐺(𝑥2)
the
meal
the
ate
original
original
original
original
replaced
Discriminator
sampling
𝜃𝐷
𝐿𝑀𝐿𝑀 𝜆𝐿𝑅𝑇𝐷
𝐸𝐺 𝐸Δ
backward
backward
1. MLM 2. RTD
図は論文[Clark+ 2020]中の図を参考に作成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
ELECTRAにおけるEmbedding共有の問題点
ELECTRAではDiscriminatorとGeneratorでEmbeddingsを共有
共有しない場合,下流タスクでの性能が低下
著者らの分析(仮説?)によると
DiscriminatorとGeneratorの学習がEmbeddingを異なる方向に
引っ張るため,学習効率とモデル性能を低下させる
DiscriminatorとGeneratorの学習目的が大きく異なることが原因
Generator(MLM)
意味的に類似したtokenを互いに引き寄せる
Discriminator(RTD)
意味的に類似したtokenを識別,
二値分類の精度が最適化するようにEmbeddingsを引き寄せる
この「綱引き」を回避する手法(GDES)を提案
GDES: Gradient-Disentangled Embedding Sharing
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
以下のようにDiscriminatorのEmbeddingsをパラメータ化
𝑬𝐺を共有
ELECTRAの場合 𝑬𝐷 = 𝑬𝐺
𝑬Δはゼロ行列として初期化
学習1stepの手順(ELECTRAから変更あり)
1. MLM Generatorのforwardパスとbackwardパス
2. RTD Discriminatorのforwardパスとbackwardパス
18
Gradient-Disentangled Embedding Sharing
Generator
𝐸𝐺 𝜃𝐺
the
chef
cooked
the
meal
[MASK]
chef
[MASK]
the
meal
𝑝𝐺(𝑥0)
chef
𝑝𝐺(𝑥2)
the
meal
the
ate
original
original
original
original
replaced
Discriminator
sampling
𝜃𝐷
𝐿𝑀𝐿𝑀 𝜆𝐿𝑅𝑇𝐷
𝐸𝐺 𝐸Δ
backward
backward
𝑬𝐷 : Discriminator の Embeddings
𝑬𝐺 : Generator の Embeddings
𝑠𝑔() : stop gradient operator
1. MLM 2. RTD
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
Embeddingの共有方法の比較 1/2
比較する共有方法
(a)ES: Embedding Sharing (ELECTRAと同様)
(b)NES: No Embedding Sharing
(c)GDES: Gradient-Disentangled Embedding Sharing (提案手法)
比較項目
学習速度
Word embeddingの質
下流タスクの性能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
Embeddingの共有方法の比較 2/2
学習速度
NESとGDESはESより早く収束
「綱引き」の悪影響を受けない
Embeddingの質
𝑬𝐺の類似度は𝑬𝐷よりも大きい
(②NES,③GDES)
仮説と一致
③GDESは一部共有しているため
その差は②NESよりも小さい
下流タスクの性能
③GDES > ①ES > ②NES
共有無し②NESは性能低下
ELECTRAと同様の結果
提案手法であるGDESは有効な手法
図.GeneratorのMLM lossの推移
表.下流タスク(NLU)の性能
表.Embeddingの平均cos類似度*
①ES : Embedding Sharing
②NES: No Embedding Sharing
③GDES: 提案手法
*語彙の10%を抽出, 全ペアのcos類似度を平均
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
目次
Intro
Background
DeBERTa
Disentangled attention
Enhanced mask decoder
ELECTRA
Replaced token detection
DeBERTa V3(提案手法)
Gradient-Disentangled Embedding Sharing
Embeddingの共有方法の比較
Experiment
Large Model
Base and Small Models
Multilingual Model
Conclusions
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
Experiment
下流タスクの性能でモデルを比較
事前学習した後,下流タスクでfinetune
比較するモデル
BERT, RoBERTa, XLNet, DeBERTa など
大きさ別:Large, Base, Small, Xsmall
多言語モデル:XLM-RoBERTa など
下流タスク
GLUE
その他代表的NLUタスク
Question Answering
SQuAD v2.0, RACE, ReCoRD, SWAG
Natural Language Inference
MNLI
Named Entity Recognition (NER)
CoNLL-2003
多言語NLUタスク
XNLI
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
Large Model : GLUE
従来のSOTAモデルと同等・同等以上の性能
低リソースタスク(RTE, CoLA)の性能の伸びが大きい
SST-2, SST-B, MRPCの改善は比較的小さい
タスクの性能が飽和に近い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
Large Model : その他
RACE, SWAGで特に性能向上
自明ではない推論能力と常識的知識を要求するタスク
DeBERTa-V3-largeはより大きなモデルと比較しても優れている
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
25
Base and Small Models
Base, Small モデルでも DeBERTa V3 は高性能
Baseはlargeより大きなマージンでDeBERTa, ELECTRAより高い性能
DeBERTa v3 xsmall について
RoBERTa base, XLNet baseより高性能(パラメータは 1/4)
DeBERTa v3 small と同等の性能(パラメータは 1/2)
深い(layer数が大きい)ことが理由であると推測
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
26
Multilingual Model
DeBERTa V3 を多言語化
XLM-RoBERTa[Conneau+ 2020] と同様の設定で事前学習
並列データを用いた学習は行わない
Finetune
Cross-lingual transfer:英語データのみでfinetune
Translate train all:多言語データ(英語データの翻訳)でfinetune
DeBERTa V3 は多言語設定でも高性能
[Conneau+ 2020] Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume
Wenzek, Francisco Guzmán, Édouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov.
Unsupervised cross-lingual representation learning at scale. In Proceedings of the 58th Annual Meeting of
the Association for Computational Linguistics, pages 8440–8451, 2020.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
27
目次
Intro
Background
DeBERTa
Disentangled attention
Enhanced mask decoder
ELECTRA
Replaced token detection
DeBERTa V3(提案手法)
Gradient-Disentangled Embedding Sharing
Embeddingの共有方法の比較
Experiment
Large Model
Base and Small Models
Multilingual Model
Conclusions
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
28
Conclusions
DeBERTa V3 を提案
DeBERTa と ELECTRA を組合わせて大幅な性能向上を実現
ELECTRAにおけるGeneratorとDiscriminatorのEmbedding共有
の問題点(綱引き)について分析
新しいEmbedding共有の手法を提案(GDES)
代表的なNLUタスク(GLUEなど)で評価
同様の構造をもつモデルより高性能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
29
DeBERTa (SiFT)
Scale Invariant Fine-tuning(SiFT)
Virtual adversarial training [Miyato+ 2018, Jiang+ 2020] の変形
入力に摂動を与え敵対的なサンプルを作成することで
モデルの頑健性を向上させる
NLPタスクの場合はEmbeddingに適用する
大きなモデルでは敵対的学習が不安定
ノルムが単語やモデルによって異なる
大規模なモデルでは分散が大きい
具体的な手法
Embeddingベクトルを確率ベクトルに正規化
正規化されたベクトルに摂動を適用
DeBERTa 1.5Bにのみ適用
メモ
[Miyato+ 2018] Takeru Miyato, Shin-ichi Maeda, Masanori Koyama, and Shin Ishii. Virtual adversarial
training: a regularization method for supervised and semi-supervised learning. IEEE transactions on
pattern analysis and machine intelligence, 41(8):1979–1993, 2018.
[Jiang+ 2020] Haoming Jiang, Pengcheng He, Weizhu Chen, Xiaodong Liu, Jianfeng Gao, and Tuo Zhao.
SMART: Robust and efficient fine-tuning for pre-trained natural language models through principled
regularized optimization. In ACL, July 2020. doi: 10.18653/v1/2020.acl-main.197.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
30
参考:Pretraining
学習データの5%を検証データとして学習推移を監視
事前学習の設定はDeBERTaとほぼ同じ
GeneratorはMLMで学習
15%のトークンを[MASK]に置換
GeneratorのサイズはDiscriminatorの半分の深さ
DiscriminatorはRTDで学習
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
31
参考:finetune
Sequence classification
GLUE, RACE, SWAG
[CLS] token の位置に分類headを追加してfinetune
Sequence tagging
SQuAD v2.0, ReCoRD, NER
全てのtokenに分類headを追加してfinetune
時間
各実行にDGX-2 nodeで1~2時間程度
NVIDIA V100 * 16
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
32
参考:下流タスクのデータセット
実験で
使用した
データ
セット
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
33
参考:Hyperparameters
各DeBERTa V3 で使用したHyper-parameters
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
34
参考:DeBERTa-V2 について
DeBERTa-v2 [microsoft 2022]
DeBERTa を大きくしたver
DeBERTa-v3はDeBERTa-v2をベースにしている
モデルサイズ以外の追加・変更点
Vocabulary
128Kの語彙
Tokenizer: GPT-2 -> sentencepiece
nGiE(nGram Induced Input Encoding)
入力Tokenの局所的な関係を学習するために
Transformerの1層目の後に畳み込み層を追加
Attention LayerにおけるProjection Matrixの共有(content, position)
相対位置の符号化にバケットを適用
logスケールで変換
イメージ:相対距離1と2は区別するが,100と101は区別しない
[microsoft 2022] microsoft. microsoft/DeBERTa: The implementation of DeBERTa. GitHub. Published
January 20, 2022. Accessed October 26, 2022. https://github.com/microsoft/DeBERTa
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
35
参考:Hugging Faceでの設定
DebertaV2Config
{
"_name_or_path": "microsoft/deberta-v3-large",
"attention_probs_dropout_prob": 0.1,
"hidden_act": "gelu",
"hidden_dropout_prob": 0.1,
"hidden_size": 1024,
"initializer_range": 0.02,
"intermediate_size": 4096,
"layer_norm_eps": 1e-7,
"max_position_embeddings": 512,
"max_relative_positions": -1,
"model_type": "deberta-v2",
"norm_rel_ebd": "layer_norm",
"num_attention_heads": 16,
"num_hidden_layers": 24,
"pad_token_id": 0,
"pooler_dropout": 0,
"pooler_hidden_act": "gelu",
"pooler_hidden_size": 1024,
“pos_att_type”: [“p2c”, "c2p"],
"position_biased_input": false,
"position_buckets": 256,
"relative_attention": true,
"share_att_key": true,
"transformers_version": "4.20.1",
"type_vocab_size": 0,
"vocab_size": 128100
}
1 de 36

Recomendados

Active Learning 入門 por
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
51.8K vistas60 diapositivas
自己教師学習(Self-Supervised Learning) por
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
12.8K vistas177 diapositivas
Transformer メタサーベイ por
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
27.4K vistas181 diapositivas
近年のHierarchical Vision Transformer por
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
13.9K vistas46 diapositivas
Transformerを雰囲気で理解する por
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
4.8K vistas37 diapositivas
【DL輪読会】Scaling Laws for Neural Language Models por
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
3.5K vistas27 diapositivas

Más contenido relacionado

La actualidad más candente

数学で解き明かす深層学習の原理 por
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理Taiji Suzuki
3.8K vistas42 diapositivas
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und... por
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
20.7K vistas29 diapositivas
Attentionの基礎からTransformerの入門まで por
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
40.6K vistas38 diapositivas
全力解説!Transformer por
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
9.6K vistas43 diapositivas
深層生成モデルと世界モデル por
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
16.6K vistas57 diapositivas
Transformerを多層にする際の勾配消失問題と解決法について por
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
4.8K vistas16 diapositivas

La actualidad más candente(20)

数学で解き明かす深層学習の原理 por Taiji Suzuki
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
Taiji Suzuki3.8K vistas
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und... por Deep Learning JP
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP20.7K vistas
Attentionの基礎からTransformerの入門まで por AGIRobots
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots40.6K vistas
全力解説!Transformer por Arithmer Inc.
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.9.6K vistas
深層生成モデルと世界モデル por Masahiro Suzuki
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki16.6K vistas
Transformerを多層にする際の勾配消失問題と解決法について por Sho Takase
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase4.8K vistas
【メタサーベイ】数式ドリブン教師あり学習 por cvpaper. challenge
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge5.9K vistas
[DL輪読会]ドメイン転移と不変表現に関するサーベイ por Deep Learning JP
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP6.9K vistas
これからの Vision & Language ~ Acadexit した4つの理由 por Yoshitaka Ushiku
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku6.6K vistas
Bayesian Neural Networks : Survey por tmtm otm
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
tmtm otm5K vistas
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,... por Deep Learning JP
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP2.4K vistas
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces por Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP4.8K vistas
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ... por Deep Learning JP
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP2.6K vistas
Transformer 動向調査 in 画像認識(修正版) por Kazuki Maeno
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno1.7K vistas
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features por Deep Learning JP
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
Deep Learning JP922 vistas
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision por Deep Learning JP
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP46.7K vistas
【メタサーベイ】Vision and Language のトップ研究室/研究者 por cvpaper. challenge
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge1.8K vistas
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? por Deep Learning JP
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP1.1K vistas
モデル高速化百選 por Yusuke Uchida
モデル高速化百選モデル高速化百選
モデル高速化百選
Yusuke Uchida24.8K vistas
Curriculum Learning (関東CV勉強会) por Yoshitaka Ushiku
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku64.1K vistas

Similar a DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing

A Generalist Agent por
A Generalist AgentA Generalist Agent
A Generalist Agentharmonylab
836 vistas33 diapositivas
ReAct: Synergizing Reasoning and Acting in Language Models por
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
786 vistas50 diapositivas
You Only Learn One Representation: Unified Network for Multiple Tasks por
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasksharmonylab
1.3K vistas23 diapositivas
Semi-Supervised Neural Architecture Search por
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Searchharmonylab
972 vistas15 diapositivas
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2) por
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)harmonylab
2.4K vistas47 diapositivas
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone por
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
128 vistas30 diapositivas

Similar a DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing(20)

A Generalist Agent por harmonylab
A Generalist AgentA Generalist Agent
A Generalist Agent
harmonylab836 vistas
ReAct: Synergizing Reasoning and Acting in Language Models por harmonylab
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab786 vistas
You Only Learn One Representation: Unified Network for Multiple Tasks por harmonylab
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab1.3K vistas
Semi-Supervised Neural Architecture Search por harmonylab
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
harmonylab972 vistas
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2) por harmonylab
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab2.4K vistas
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone por harmonylab
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab128 vistas
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation por harmonylab
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab754 vistas
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text por harmonylab
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
harmonylab391 vistas
MLP-Mixer: An all-MLP Architecture for Vision por harmonylab
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab658 vistas
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo... por harmonylab
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
harmonylab916 vistas
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic por harmonylab
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
harmonylab452 vistas
2022年度調和系工学研究室配属説明会資料 por harmonylab
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料
harmonylab320 vistas
Solving Quantitative Reasoning Problems with Language Models por harmonylab
Solving Quantitative Reasoning Problems with Language ModelsSolving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language Models
harmonylab494 vistas
A Study on Generation of Deformed Route Maps using Octilinear Grid por harmonylab
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab483 vistas
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le... por harmonylab
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
harmonylab341 vistas
2021 09 29_dl_hirata por harmonylab
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
harmonylab854 vistas
Self-supervised Learning of Adversarial Example: Towards Good Generalizations... por harmonylab
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
harmonylab472 vistas
深層学習を用いたバス乗客画像の属性推定 に関する研究 por harmonylab
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab507 vistas
Feature Erasing and Diffusion Network for Occluded Person Re-Identification por harmonylab
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab663 vistas

Más de harmonylab

Voyager: An Open-Ended Embodied Agent with Large Language Models por
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
526 vistas44 diapositivas
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation por
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
787 vistas36 diapositivas
形態素解析を用いた帝国議会議事速記録の変遷に関する研究 por
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
349 vistas32 diapositivas
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究 por
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
529 vistas28 diapositivas
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究 por
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
310 vistas25 diapositivas
深層自己回帰モデルを用いた俳句の生成と評価に関する研究 por
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
459 vistas35 diapositivas

Más de harmonylab(18)

Voyager: An Open-Ended Embodied Agent with Large Language Models por harmonylab
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab526 vistas
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation por harmonylab
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab787 vistas
形態素解析を用いた帝国議会議事速記録の変遷に関する研究 por harmonylab
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab349 vistas
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究 por harmonylab
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab529 vistas
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究 por harmonylab
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
harmonylab310 vistas
深層自己回帰モデルを用いた俳句の生成と評価に関する研究 por harmonylab
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab459 vistas
競輪におけるレーティングシステムを用いた予想記事生成に関する研究 por harmonylab
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
harmonylab1.1K vistas
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究 por harmonylab
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab493 vistas
A Study on Estimation of Household Kerosene Consumption for Optimization of D... por harmonylab
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
harmonylab315 vistas
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究 por harmonylab
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
harmonylab385 vistas
A Study on the Generation of Clothing Captions Highlighting the Differences b... por harmonylab
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
harmonylab566 vistas
A Study on Clothing Recommendation Information Presentation System Based on C... por harmonylab
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
harmonylab449 vistas
Emotionally Intelligent Fashion Design Using CNN and GAN por harmonylab
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
harmonylab605 vistas
Towards Total Recall in Industrial Anomaly Detection por harmonylab
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
harmonylab1.2K vistas
CKL_about_panf2022.pdf por harmonylab
CKL_about_panf2022.pdfCKL_about_panf2022.pdf
CKL_about_panf2022.pdf
harmonylab220 vistas
Outracing champion Gran Turismo drivers with deep reinforcement learning por harmonylab
Outracing champion Gran Turismo drivers with deep reinforcement learningOutracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learning
harmonylab557 vistas
ArcFace: Additive Angular Margin Loss for Deep Face Recognition por harmonylab
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
harmonylab814 vistas
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ... por harmonylab
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
harmonylab515 vistas

Último

PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 por
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PC Cluster Consortium
68 vistas12 diapositivas
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可 por
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可Hitachi, Ltd. OSS Solution Center.
13 vistas22 diapositivas
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向 por
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Hitachi, Ltd. OSS Solution Center.
110 vistas26 diapositivas
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 por
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PC Cluster Consortium
29 vistas36 diapositivas
光コラボは契約してはいけない por
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけないTakuya Matsunaga
30 vistas17 diapositivas

Último(7)

PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 por PC Cluster Consortium
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 por PC Cluster Consortium
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
光コラボは契約してはいけない por Takuya Matsunaga
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけない
Takuya Matsunaga30 vistas

DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文紹介 DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient- Disentangled Embedding Sharing 北海道大学大学院 情報科学院 情報理工学部門 複合情報工学分野 調和系工学研究室 博士後期課程 3年 吉田 拓海
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1 論文情報 タイトル DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing 著者 発表 arxiv https://arxiv.org/abs/2111.09543 実装 https://github.com/microsoft/DeBERTa https://huggingface.co/microsoft/deberta-v3-large 概要 DeBERTaとELECTRAを組合わせたDeBERTa V3を提案 NLPコンペなどでよく使用されるモデル
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 概要 1/2 DeBERTa V3: DeBERTa + ELECTRA (GDES) DeBERTa (Disentangled attention) ELECTRA (GDES: Gradient-Disentangled Embedding Sharing) 𝑷 : relative position embedding vectors (全層で共有) 𝛿(𝑖, 𝑗) : relative distance from token 𝑖 to token 𝑗 𝑘 : maximum relative distance DeBERTa: 既存手法 ELECTRA: 既存手法 GDES: 提案手法 Generator 𝐸𝐺 𝜃𝐺 the chef cooked the meal [MASK] chef [MASK] the meal 𝑝𝐺(𝑥0) chef 𝑝𝐺(𝑥2) the meal the ate original original original original replaced Discriminator sampling 𝜃𝐷 𝐿𝑀𝐿𝑀 𝜆𝐿𝑅𝑇𝐷 𝐸𝐺 𝐸Δ backward backward 1. MLM 2. RTD
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 概要 2/2 DeBERTa V3は高性能
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 目次 Intro Background DeBERTa Disentangled attention Enhanced mask decoder ELECTRA Replaced token detection DeBERTa V3(提案手法) Gradient-Disentangled Embedding Sharing Embeddingの共有方法の比較 Experiment Large Model Base and Small Models Multilingual Model Conclusions
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 目次 Intro Background DeBERTa Disentangled attention Enhanced mask decoder ELECTRA Replaced token detection DeBERTa V3(提案手法) Gradient-Disentangled Embedding Sharing Embeddingの共有方法の比較 Experiment Large Model Base and Small Models Multilingual Model Conclusions
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 Pre-trained language models (PLM) 近年,PLMの進歩により多くのNLPタスクでSOTA BERT [Devlin+ 2019] スケールアップはPLMの性能を向上させる有効な方法 エネルギー効率の良いアプローチの探索が重要 少ないパラメータで高い性能をもつPLMを構築 [Devlin+ 2019] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, 2019. 図は論文 [Devlin+ 2019] から引用
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Pre-trained language models の効率向上 RoBERTa[Liu+ 2019] BERTの再検討(batch sizeを大きく,学習データを増やす,など) DeBERTa[He+ 2020] Disentangled attention(contentとposition) SuperGLUEで初めて人間の性能を上回る(2020年12月19日) ELECTRA[Clark+ 2020] Replaced Token Detection (類似したtokenに置換→置換の検出) 本論文ではDeBERTaの事前学習の効率向上 MLM を RTD(ELECTRA) に変更 RTDにおけるGeneratorとDiscriminatorのEmbedding共有手法の提案 [Liu+ 2019] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692, 2019. [He+ 2020] Pengcheng He, Xiaodong Liu, Jianfeng Gao, and Weizhu Chen. Deberta: Decoding-enhanced bert with disentangled attention. In International Conference on Learning Representations, 2020. [Clark+ 2020] Kevin Clark, Minh-Thang Luong, Quoc V. Le, and Christopher D. Manning. ELECTRA: Pre- training text encoders as discriminators rather than generators. In ICLR, 2020.
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 目次 Intro Background DeBERTa Disentangled attention Enhanced mask decoder ELECTRA Replaced token detection DeBERTa V3(提案手法) Gradient-Disentangled Embedding Sharing Embeddingの共有方法の比較 Experiment Large Model Base and Small Models Multilingual Model Conclusions
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 Background: DeBERTa[He+ 2020] 1/3 Disentangled attention 各入力単語を2つの別々のベクトル(content, position)で表現 BERTの場合は和をとる Word Embedding = content embedding + position embedding 単語ペアの注目度𝐴𝑖,𝑗はcontentとpositionから次のように計算 content-content content-position position-content position-position 𝑯𝑖 : 位置𝑖のcontentを表すベクトル 𝑷𝑖|𝑗 : 位置𝑖と𝑗の相対的位置を表すベクトル [He+ 2020] Pengcheng He, Xiaodong Liu, Jianfeng Gao, and Weizhu Chen. Deberta: Decoding-enhanced bert with disentangled attention. In International Conference on Learning Representations, 2020. 図(式)は 論文[He+ 2020] から引用
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 Background: DeBERTa[He+ 2020] 2/3 Standard self-attention Disentangled self-attention ※position-to-position項は追加情報を持たないため無し 𝑷 : relative position embedding vectors (全層で共有) 𝛿(𝑖, 𝑗) : relative distance from token 𝑖 to token 𝑗 𝑘 : maximum relative distance 𝑯 : input hidden vectors 𝑯𝒐 : output hidden vectors 𝑁 : length of the input sequence 𝑑 : dimension of hidden states 図(式)は 論文[He+ 2020] から引用
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 Background: DeBERTa[He+ 2020] 3/3 Enhanced Mask Decoder (EMD) 絶対的な位置情報は予測に有効 事前学習時に絶対的な位置を使用するためのDecoderを追加 追加位置はSoftmax層の前 実験では𝑛 = 2(1層目で𝐼に絶対的位置, 2層目では𝐼 = 𝐻) 各層で重みを共有 図表は論文[He+ 2020]から引用
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 Background: ELECTRA[Clark+ 2020] 1/2 Replaced token detection (RTD) Generator (MLM model) がtokenを置換 Discriminatorは置換されたtokenを識別 Generator(MLM)とDiscriminator(RTD)を同時学習 Loss 𝐿 = 𝐿𝑀𝐿𝑀 + 𝜆𝐿𝑅𝑇𝐷 (𝜆 = 50) [Clark+ 2020] Kevin Clark, Minh-Thang Luong, Quoc V. Le, and Christopher D. Manning. ELECTRA: Pre- training text encoders as discriminators rather than generators. In ICLR, 2020. 𝐶 : masked tokenのindex集合 𝜃𝐺 : Generatorのパラメータ 𝑋𝐺 : Generatorのinput (masked text) 𝜃𝐷 : Discriminatorのパラメータ 𝑋𝐷 : Discriminatorのinput 𝕝 : indicator function 下流タスクでは Discriminatorを finetune 図(式含む)は 論文[Clark+ 2020] から引用
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 Background: ELECTRA[Clark+ 2020] 2/2 Replaced Token Detection (RTD) は効率の良い学習手法 GeneratorとDiscriminatorのEmbedding共有に問題あり? ただし,共有しないと性能低下 DeBERTa V3では新しいEmbeddingの共有方法を提案 [Clark+ 2020] Kevin Clark, Minh-Thang Luong, Quoc V. Le, and Christopher D. Manning. ELECTRA: Pre- training text encoders as discriminators rather than generators. In ICLR, 2020. 図は論文[Clark+ 2020]から引用
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 Embeddingについて 単語の分散表現を計算 単語idに変換 単語idをワンホットベクトルに変換 Embedding行列を乗算し,Embedding vectorに変換 This is a pen . 32 2 1 105 300 [0,0,0,…,0] [0,0,1,…,0] [0,1,0,…,0] [0,0,0,…,0] [0,0,0,…,0] [0.1,…,0.3] [0.5,…,0.9] [0.2,…,0.3] [0.9,…,-0.4] [-0.3,…,0.1] 𝐸𝑥𝑜𝑛𝑒ℎ𝑜𝑡 ワンホットベクトル化 id化
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 目次 Intro Background DeBERTa Disentangled attention Enhanced mask decoder ELECTRA Replaced token detection DeBERTa V3(提案手法) Gradient-Disentangled Embedding Sharing Embeddingの共有方法の比較 Experiment Large Model Base and Small Models Multilingual Model Conclusions
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 DeBERTa V3 DeBERTa V3 DeBERTa の事前学習手法を変更 Masked Language Modeling から Replaced Token Detection に変更 GeneratorとDiscriminatorのEmbedding共有手法の提案 Gradient-Disentangled Embedding Sharing Generator 𝐸𝐺 𝜃𝐺 the chef cooked the meal [MASK] chef [MASK] the meal 𝑝𝐺(𝑥0) chef 𝑝𝐺(𝑥2) the meal the ate original original original original replaced Discriminator sampling 𝜃𝐷 𝐿𝑀𝐿𝑀 𝜆𝐿𝑅𝑇𝐷 𝐸𝐺 𝐸Δ backward backward 1. MLM 2. RTD 図は論文[Clark+ 2020]中の図を参考に作成
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 ELECTRAにおけるEmbedding共有の問題点 ELECTRAではDiscriminatorとGeneratorでEmbeddingsを共有 共有しない場合,下流タスクでの性能が低下 著者らの分析(仮説?)によると DiscriminatorとGeneratorの学習がEmbeddingを異なる方向に 引っ張るため,学習効率とモデル性能を低下させる DiscriminatorとGeneratorの学習目的が大きく異なることが原因 Generator(MLM) 意味的に類似したtokenを互いに引き寄せる Discriminator(RTD) 意味的に類似したtokenを識別, 二値分類の精度が最適化するようにEmbeddingsを引き寄せる この「綱引き」を回避する手法(GDES)を提案 GDES: Gradient-Disentangled Embedding Sharing
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 以下のようにDiscriminatorのEmbeddingsをパラメータ化 𝑬𝐺を共有 ELECTRAの場合 𝑬𝐷 = 𝑬𝐺 𝑬Δはゼロ行列として初期化 学習1stepの手順(ELECTRAから変更あり) 1. MLM Generatorのforwardパスとbackwardパス 2. RTD Discriminatorのforwardパスとbackwardパス 18 Gradient-Disentangled Embedding Sharing Generator 𝐸𝐺 𝜃𝐺 the chef cooked the meal [MASK] chef [MASK] the meal 𝑝𝐺(𝑥0) chef 𝑝𝐺(𝑥2) the meal the ate original original original original replaced Discriminator sampling 𝜃𝐷 𝐿𝑀𝐿𝑀 𝜆𝐿𝑅𝑇𝐷 𝐸𝐺 𝐸Δ backward backward 𝑬𝐷 : Discriminator の Embeddings 𝑬𝐺 : Generator の Embeddings 𝑠𝑔() : stop gradient operator 1. MLM 2. RTD
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 Embeddingの共有方法の比較 1/2 比較する共有方法 (a)ES: Embedding Sharing (ELECTRAと同様) (b)NES: No Embedding Sharing (c)GDES: Gradient-Disentangled Embedding Sharing (提案手法) 比較項目 学習速度 Word embeddingの質 下流タスクの性能
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 Embeddingの共有方法の比較 2/2 学習速度 NESとGDESはESより早く収束 「綱引き」の悪影響を受けない Embeddingの質 𝑬𝐺の類似度は𝑬𝐷よりも大きい (②NES,③GDES) 仮説と一致 ③GDESは一部共有しているため その差は②NESよりも小さい 下流タスクの性能 ③GDES > ①ES > ②NES 共有無し②NESは性能低下 ELECTRAと同様の結果 提案手法であるGDESは有効な手法 図.GeneratorのMLM lossの推移 表.下流タスク(NLU)の性能 表.Embeddingの平均cos類似度* ①ES : Embedding Sharing ②NES: No Embedding Sharing ③GDES: 提案手法 *語彙の10%を抽出, 全ペアのcos類似度を平均
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 目次 Intro Background DeBERTa Disentangled attention Enhanced mask decoder ELECTRA Replaced token detection DeBERTa V3(提案手法) Gradient-Disentangled Embedding Sharing Embeddingの共有方法の比較 Experiment Large Model Base and Small Models Multilingual Model Conclusions
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 Experiment 下流タスクの性能でモデルを比較 事前学習した後,下流タスクでfinetune 比較するモデル BERT, RoBERTa, XLNet, DeBERTa など 大きさ別:Large, Base, Small, Xsmall 多言語モデル:XLM-RoBERTa など 下流タスク GLUE その他代表的NLUタスク Question Answering SQuAD v2.0, RACE, ReCoRD, SWAG Natural Language Inference MNLI Named Entity Recognition (NER) CoNLL-2003 多言語NLUタスク XNLI
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 Large Model : GLUE 従来のSOTAモデルと同等・同等以上の性能 低リソースタスク(RTE, CoLA)の性能の伸びが大きい SST-2, SST-B, MRPCの改善は比較的小さい タスクの性能が飽和に近い
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 Large Model : その他 RACE, SWAGで特に性能向上 自明ではない推論能力と常識的知識を要求するタスク DeBERTa-V3-largeはより大きなモデルと比較しても優れている
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 25 Base and Small Models Base, Small モデルでも DeBERTa V3 は高性能 Baseはlargeより大きなマージンでDeBERTa, ELECTRAより高い性能 DeBERTa v3 xsmall について RoBERTa base, XLNet baseより高性能(パラメータは 1/4) DeBERTa v3 small と同等の性能(パラメータは 1/2) 深い(layer数が大きい)ことが理由であると推測
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 26 Multilingual Model DeBERTa V3 を多言語化 XLM-RoBERTa[Conneau+ 2020] と同様の設定で事前学習 並列データを用いた学習は行わない Finetune Cross-lingual transfer:英語データのみでfinetune Translate train all:多言語データ(英語データの翻訳)でfinetune DeBERTa V3 は多言語設定でも高性能 [Conneau+ 2020] Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Édouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov. Unsupervised cross-lingual representation learning at scale. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8440–8451, 2020.
  • 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 27 目次 Intro Background DeBERTa Disentangled attention Enhanced mask decoder ELECTRA Replaced token detection DeBERTa V3(提案手法) Gradient-Disentangled Embedding Sharing Embeddingの共有方法の比較 Experiment Large Model Base and Small Models Multilingual Model Conclusions
  • 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 28 Conclusions DeBERTa V3 を提案 DeBERTa と ELECTRA を組合わせて大幅な性能向上を実現 ELECTRAにおけるGeneratorとDiscriminatorのEmbedding共有 の問題点(綱引き)について分析 新しいEmbedding共有の手法を提案(GDES) 代表的なNLUタスク(GLUEなど)で評価 同様の構造をもつモデルより高性能
  • 30. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 29 DeBERTa (SiFT) Scale Invariant Fine-tuning(SiFT) Virtual adversarial training [Miyato+ 2018, Jiang+ 2020] の変形 入力に摂動を与え敵対的なサンプルを作成することで モデルの頑健性を向上させる NLPタスクの場合はEmbeddingに適用する 大きなモデルでは敵対的学習が不安定 ノルムが単語やモデルによって異なる 大規模なモデルでは分散が大きい 具体的な手法 Embeddingベクトルを確率ベクトルに正規化 正規化されたベクトルに摂動を適用 DeBERTa 1.5Bにのみ適用 メモ [Miyato+ 2018] Takeru Miyato, Shin-ichi Maeda, Masanori Koyama, and Shin Ishii. Virtual adversarial training: a regularization method for supervised and semi-supervised learning. IEEE transactions on pattern analysis and machine intelligence, 41(8):1979–1993, 2018. [Jiang+ 2020] Haoming Jiang, Pengcheng He, Weizhu Chen, Xiaodong Liu, Jianfeng Gao, and Tuo Zhao. SMART: Robust and efficient fine-tuning for pre-trained natural language models through principled regularized optimization. In ACL, July 2020. doi: 10.18653/v1/2020.acl-main.197.
  • 31. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 30 参考:Pretraining 学習データの5%を検証データとして学習推移を監視 事前学習の設定はDeBERTaとほぼ同じ GeneratorはMLMで学習 15%のトークンを[MASK]に置換 GeneratorのサイズはDiscriminatorの半分の深さ DiscriminatorはRTDで学習
  • 32. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 31 参考:finetune Sequence classification GLUE, RACE, SWAG [CLS] token の位置に分類headを追加してfinetune Sequence tagging SQuAD v2.0, ReCoRD, NER 全てのtokenに分類headを追加してfinetune 時間 各実行にDGX-2 nodeで1~2時間程度 NVIDIA V100 * 16
  • 33. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 32 参考:下流タスクのデータセット 実験で 使用した データ セット
  • 34. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 33 参考:Hyperparameters 各DeBERTa V3 で使用したHyper-parameters
  • 35. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 34 参考:DeBERTa-V2 について DeBERTa-v2 [microsoft 2022] DeBERTa を大きくしたver DeBERTa-v3はDeBERTa-v2をベースにしている モデルサイズ以外の追加・変更点 Vocabulary 128Kの語彙 Tokenizer: GPT-2 -> sentencepiece nGiE(nGram Induced Input Encoding) 入力Tokenの局所的な関係を学習するために Transformerの1層目の後に畳み込み層を追加 Attention LayerにおけるProjection Matrixの共有(content, position) 相対位置の符号化にバケットを適用 logスケールで変換 イメージ:相対距離1と2は区別するが,100と101は区別しない [microsoft 2022] microsoft. microsoft/DeBERTa: The implementation of DeBERTa. GitHub. Published January 20, 2022. Accessed October 26, 2022. https://github.com/microsoft/DeBERTa
  • 36. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 35 参考:Hugging Faceでの設定 DebertaV2Config { "_name_or_path": "microsoft/deberta-v3-large", "attention_probs_dropout_prob": 0.1, "hidden_act": "gelu", "hidden_dropout_prob": 0.1, "hidden_size": 1024, "initializer_range": 0.02, "intermediate_size": 4096, "layer_norm_eps": 1e-7, "max_position_embeddings": 512, "max_relative_positions": -1, "model_type": "deberta-v2", "norm_rel_ebd": "layer_norm", "num_attention_heads": 16, "num_hidden_layers": 24, "pad_token_id": 0, "pooler_dropout": 0, "pooler_hidden_act": "gelu", "pooler_hidden_size": 1024, “pos_att_type”: [“p2c”, "c2p"], "position_biased_input": false, "position_buckets": 256, "relative_attention": true, "share_att_key": true, "transformers_version": "4.20.1", "type_vocab_size": 0, "vocab_size": 128100 }