公開URL:https://arxiv.org/abs/2111.09543 出典:Pengcheng He, Jianfeng Gao, Weizhu Chen : DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing, arXiv: 2111.09543 (2021) 概要:本論文ではDeBERTaの事前学習手法をMasked Language Modeling(MLM)からELECTRAで提案されたReplaced Token Detection(RTD)に変更したDeBERTa V3を紹介する. また,ELECTRAにおけるGeneratorとDiscriminatorのEmbedding共有手法の問題点を分析し,その問題を回避する新しい共有手法であるGradient-Disentangled Embedding Sharingを提案する.代表的な自然言語理解タスクでDeBERTa V3の性能を評価し,同様の構造をもつモデルの中でも高い性能を示すことを示した.