MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

H
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
MAUVE: Measuring the Gap
Between Neural Text and Human
Text using Divergence Frontiers
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
修士1年 花野愛里咲
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 著者
– Krishna Pillutla,Swabha Swayamdipta,Rowan
Zellers,John Thickstun,Sean Welleck,Yejin
Choi,Zaid Harchaoui
• 発表
– NeurIPS(2021)
• 論文URL
– https://arxiv.org/pdf/2102.01454.pdf
• コード
– https://github.com/krishnap25/mauve
論文情報 2
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• オープンエンドテキスト生成のための
評価指標MAUVEの提案
• モデルによるテキストの分布と人間が書いた
テキストの分布の近さをKL divergenceを
用いて定量化
• 既存の評価指標よりも人間による評価との
相関が確認された
概要 3
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 大規模テキスト生成モデルは高品質・一貫性を
持つ人間のようなテキストの生成が可能
• モデルが生成したテキストと人間の言語の近さ
を測定することは依然として未解決
• 人間が書いたテキストの分布とモデルによる
テキスト分布のギャップの測定を目的とする
背景 4
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 人間のテキスト分布とモデルによるテキスト
分布のギャップは2種類のエラーから生じる
– タイプ1エラー:生成モデルが人間が書きそうも
ないテキストを生成する
– タイプ2エラー:生成モデルが人間が書きそうな
テキストを生成できない
• これらをKL divergenceを用いて定式化
提案手法 5
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• モデルによるテキスト分布Qと人間による
テキスト分布Pの混合分布𝑅𝜆をとる
• MAUVEは𝜆を(0, 1)で動かして得られた
ダイバージェンス曲線下の面積
• MAUVEの値が大きいほどQはPに近いことを示す
提案手法 6
𝑅𝜆 = 𝜆𝑃 + 1 − 𝜆 𝑄 𝜆 ∈ (0, 1)
横軸:タイプ1エラー
縦軸:タイプ2エラー
𝑐:スケーリングのための
ハイパーパラメータ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 問題点
– 人間のテキスト分布が未知
– 典型的なモデル分布では次元が高すぎる
• 推定手順
1. 人間のテキストとモデルのテキストをサンプリング
2. 言語モデルを用いて各テキスト列の埋め込みベクトル
を得る(GPT-2を使用)
3. 埋め込まれたサンプルを量子化(k-means法を使用)
• ベクトル量子化:データ集合をk個のクラスタに分割し,
各クラスタをk個の代表ベクトルで近似
4. 各クラスタ内のデータ数をカウントしてヒストグラム
を形成
• 高次元のテキスト分布を低次元の離散分布に
変換
提案手法 7
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
関連研究 8
• 他の評価指標の問題点
– 2つのエラーを考慮していない
– ダイバージェンス曲線上のある1点しか考慮していない
オープンエンドテキスト生成のための自動評価指標
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• タスク
– 与えられたテキストの続きを生成
• ドメイン:ウェブテキスト,ニュース,物語
• モデル
– ウェブテキストデータセットで事前学習したGPT-2
• デコーディングアルゴリズム
– ancestral sampling:言語モデルのステップごとの分布
から直接サンプリング
– greedy decoding:次の単語として最も確率の高い単語
を選択
– nucleus sampling:確率の合計がpを超えるような最小の
個数の候補を動的に決定
実験設定 9
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1. 生成されたテキスト長,デコーディングアル
ゴリズム,モデルサイズの違いによる特性を
どのように定量化するのか
2. 埋め込みモデル,量子化アルゴリズム,
ハイパーパラメータの違いによらずロバスト
であるか
3. 人間の判断と相関があるか
実験 10
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
実験1-1
• 生成されたテキストの長さによる質の違いを
定量化できるか
– 生成するテキストの長さが長いほど質が悪化する[1]
• 比較指標の中でMAUVEだけがテキストの長さが
長いほど質が低下することを捉えている
– モデルサイズによらず一貫した傾向あり
[1] H. Rashkin, A. Celikyilmaz, Y. Choi, and J. Gao. PlotTMachines: Outline-Conditioned Generation with Dynamic
Plot State Tracking. arXiv Preprint, 2020.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
実験1-2
• デコーディングアルゴリズムによる質の違いを
捉えられるか
– Greedy sampling < Ancestral sampling < Nucleus
sampling の順にテキストの質が高い[2][3][4][5]
• MAUVEはデコーディングアルゴリズムの特徴を
捉えることができている
[2] A. Holtzman, J. Buys, M. Forbes, and Y. Choi. The Curious Case of Neural Text Degeneration. In Proc. of ICLR, 2020.
[3] S. Welleck, I. Kulikov, S. Roller, E. Dinan, K. Cho, and J. Weston. Neural Text Generation With Unlikelihood Training. In Proc. of ICLR, 2020.
[4] S. Welleck, I. Kulikov, J. Kim, R. Y. Pang, and K. Cho. Consistency of a Recurrent Language Model With Respect to Incomplete Decoding. In
Proc. of EMNLP, pages 5553–5568, 2020.
[5] A. Fan, M. Lewis, and Y. N. Dauphin. Hierarchical Neural Story Generation. In Proc. of ACL, pages 889–898, 2018.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
実験1-3
• モデルサイズによる質の違いを捉えられるか
– モデルサイズは大きいほどテキストの質が高い[6][7]
• MAUVEはモデルサイズの特徴を捉えることが
できている
[6] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, and I. Sutskever. Language Models are Unsupervised Multitask Learners. OpenAI
blog, 1(8):9, 2019.
[7] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A.
Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S.
Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei. Language Models are Few-Shot Learners. In
Proc. of NeurIPS, 2020.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 異なる埋め込みモデルでも同じ傾向を示すか
– RoBERTa largeとGPT-2 largeを比較
実験2-1 14
• 異なる埋め込みモデルでもMAUVEは以下の既知の
特性を示した
– モデルサイズが大きいほどテキストの質が高い
– Greedy sampling < Ancestral sampling < Nucleus sampling
の順にテキストの質が高い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 異なる量子化アルゴリズムを用いてもロバストで
あるか
– K-means法,Deep Residual Mixture Models(DRMM),
格子量子化を比較
• K=100から5000までの K-means法で計算された
MAUVEはデフォルトのK=500のときとほぼ完全
に相関する(相関係数は0.99または1.00)
• DRMMまたは格子量子化で計算されたMAUVEは
K-means法とほぼ完全な相関を持つ(相関係数は
0.99以上)
実験2-2 15
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• スケーリングパラメータcの値によらず
ロバストであるか
実験2-3 16
𝐶 𝑃, 𝑄 = {(exp −𝑐𝐾𝐿 𝑄 𝑅𝜆 , exp −𝑐𝐾𝐿 𝑃 𝑅𝜆
𝑅𝜆 = 𝜆𝑃 + 1 − 𝜆 𝑄, 𝜆 ∈ (0, 1)}
• cの値はダイバージェンス曲線の相対的な順序
には影響を与えない
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 人間の判断と相関があるか
– 評価者は与えられた文章に続く文章を5段階の
リッカート尺度でペアから1つを選択
• Human-like:どちらの文章が人間が書いた可能性が高いか
• Interesting:どちらの文章がより面白いか
• Sensible:どちらの文章が論理的に正しいか
実験3 17
GPT-2のモデル
サイズ4種類
• small
• medium
• large
• xl
デコーディング
アルゴリズム2種類
• pure sampling
• nucleus sampling
人間が書いた
テキスト(継続文)
× +
• 文章は9種類あるためペアは36組
– 各組に対して90のアノテーションを取得
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 1対1の比較からランキングに変換するために
Bradley-Terryモデルを使用
実験3 19
• Bradley-Terryスコアと各評価指標の相関係数
を算出
Bradley-Terryスコア
(Bradley-Terryスコアは値が大きいほど評価者からの選好が強いことを示す)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 人間の判断と相関があるか
– 「human-like」「interesting」「sensible」の3つ
の指標を評価
• MAUVEは他の評価指標よりも人間の評価との
相関が大幅に高い
実験3 20
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• モデルのテキストと人間のテキストを識別する
分類器の精度との相関
– 分類器の精度が低いほど生成されたテキストは
人間のテキストとの識別が難しい
• 使用する分類モデル
– ニュース生成:Grover mega
– 物語生成:GPT-2
実験3 21
• MAUVEは他の比較指標よりも識別精度との相関
が最も高い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• モデルによるテキストと人間のテキストの
ギャップを測る自動評価指標MAUVEを提案
• MAUVEはテキストの生成長,デコーディング
アルゴリズム,モデルサイズの違いを捉え,
人間の判断と相関することが確認された
• 今後の展望:翻訳や要約などのクローズド
エンドなタスクへの拡張
まとめ 22
1 de 22

Más contenido relacionado

La actualidad más candente(20)

A Generalist AgentA Generalist Agent
A Generalist Agent
harmonylab832 vistas
CVPR 2018 速報CVPR 2018 速報
CVPR 2018 速報
cvpaper. challenge63K vistas
NLP2019 松田寛 - GiNZANLP2019 松田寛 - GiNZA
NLP2019 松田寛 - GiNZA
Megagon Labs6.6K vistas
データドリフトの紹介データドリフトの紹介
データドリフトの紹介
Sho Tanaka904 vistas
幾何と機械学習: A Short Intro幾何と機械学習: A Short Intro
幾何と機械学習: A Short Intro
Ichigaku Takigawa910 vistas
Sigfin Neural Fractional SDE NETSigfin Neural Fractional SDE NET
Sigfin Neural Fractional SDE NET
Kei Nakagawa754 vistas

Similar a MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers(20)

2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
harmonylab850 vistas
2021 haizoku2021 haizoku
2021 haizoku
harmonylab311 vistas
2021 haizoku2021 haizoku
2021 haizoku
harmonylab303 vistas

Más de harmonylab(20)

CKL_about_panf2022.pdfCKL_about_panf2022.pdf
CKL_about_panf2022.pdf
harmonylab219 vistas

MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 修士1年 花野愛里咲
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 著者 – Krishna Pillutla,Swabha Swayamdipta,Rowan Zellers,John Thickstun,Sean Welleck,Yejin Choi,Zaid Harchaoui • 発表 – NeurIPS(2021) • 論文URL – https://arxiv.org/pdf/2102.01454.pdf • コード – https://github.com/krishnap25/mauve 論文情報 2
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • オープンエンドテキスト生成のための 評価指標MAUVEの提案 • モデルによるテキストの分布と人間が書いた テキストの分布の近さをKL divergenceを 用いて定量化 • 既存の評価指標よりも人間による評価との 相関が確認された 概要 3
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 大規模テキスト生成モデルは高品質・一貫性を 持つ人間のようなテキストの生成が可能 • モデルが生成したテキストと人間の言語の近さ を測定することは依然として未解決 • 人間が書いたテキストの分布とモデルによる テキスト分布のギャップの測定を目的とする 背景 4
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 人間のテキスト分布とモデルによるテキスト 分布のギャップは2種類のエラーから生じる – タイプ1エラー:生成モデルが人間が書きそうも ないテキストを生成する – タイプ2エラー:生成モデルが人間が書きそうな テキストを生成できない • これらをKL divergenceを用いて定式化 提案手法 5
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • モデルによるテキスト分布Qと人間による テキスト分布Pの混合分布𝑅𝜆をとる • MAUVEは𝜆を(0, 1)で動かして得られた ダイバージェンス曲線下の面積 • MAUVEの値が大きいほどQはPに近いことを示す 提案手法 6 𝑅𝜆 = 𝜆𝑃 + 1 − 𝜆 𝑄 𝜆 ∈ (0, 1) 横軸:タイプ1エラー 縦軸:タイプ2エラー 𝑐:スケーリングのための ハイパーパラメータ
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 問題点 – 人間のテキスト分布が未知 – 典型的なモデル分布では次元が高すぎる • 推定手順 1. 人間のテキストとモデルのテキストをサンプリング 2. 言語モデルを用いて各テキスト列の埋め込みベクトル を得る(GPT-2を使用) 3. 埋め込まれたサンプルを量子化(k-means法を使用) • ベクトル量子化:データ集合をk個のクラスタに分割し, 各クラスタをk個の代表ベクトルで近似 4. 各クラスタ内のデータ数をカウントしてヒストグラム を形成 • 高次元のテキスト分布を低次元の離散分布に 変換 提案手法 7
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 関連研究 8 • 他の評価指標の問題点 – 2つのエラーを考慮していない – ダイバージェンス曲線上のある1点しか考慮していない オープンエンドテキスト生成のための自動評価指標
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • タスク – 与えられたテキストの続きを生成 • ドメイン:ウェブテキスト,ニュース,物語 • モデル – ウェブテキストデータセットで事前学習したGPT-2 • デコーディングアルゴリズム – ancestral sampling:言語モデルのステップごとの分布 から直接サンプリング – greedy decoding:次の単語として最も確率の高い単語 を選択 – nucleus sampling:確率の合計がpを超えるような最小の 個数の候補を動的に決定 実験設定 9
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1. 生成されたテキスト長,デコーディングアル ゴリズム,モデルサイズの違いによる特性を どのように定量化するのか 2. 埋め込みモデル,量子化アルゴリズム, ハイパーパラメータの違いによらずロバスト であるか 3. 人間の判断と相関があるか 実験 10
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 実験1-1 • 生成されたテキストの長さによる質の違いを 定量化できるか – 生成するテキストの長さが長いほど質が悪化する[1] • 比較指標の中でMAUVEだけがテキストの長さが 長いほど質が低下することを捉えている – モデルサイズによらず一貫した傾向あり [1] H. Rashkin, A. Celikyilmaz, Y. Choi, and J. Gao. PlotTMachines: Outline-Conditioned Generation with Dynamic Plot State Tracking. arXiv Preprint, 2020.
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 実験1-2 • デコーディングアルゴリズムによる質の違いを 捉えられるか – Greedy sampling < Ancestral sampling < Nucleus sampling の順にテキストの質が高い[2][3][4][5] • MAUVEはデコーディングアルゴリズムの特徴を 捉えることができている [2] A. Holtzman, J. Buys, M. Forbes, and Y. Choi. The Curious Case of Neural Text Degeneration. In Proc. of ICLR, 2020. [3] S. Welleck, I. Kulikov, S. Roller, E. Dinan, K. Cho, and J. Weston. Neural Text Generation With Unlikelihood Training. In Proc. of ICLR, 2020. [4] S. Welleck, I. Kulikov, J. Kim, R. Y. Pang, and K. Cho. Consistency of a Recurrent Language Model With Respect to Incomplete Decoding. In Proc. of EMNLP, pages 5553–5568, 2020. [5] A. Fan, M. Lewis, and Y. N. Dauphin. Hierarchical Neural Story Generation. In Proc. of ACL, pages 889–898, 2018.
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 実験1-3 • モデルサイズによる質の違いを捉えられるか – モデルサイズは大きいほどテキストの質が高い[6][7] • MAUVEはモデルサイズの特徴を捉えることが できている [6] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, and I. Sutskever. Language Models are Unsupervised Multitask Learners. OpenAI blog, 1(8):9, 2019. [7] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei. Language Models are Few-Shot Learners. In Proc. of NeurIPS, 2020.
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 異なる埋め込みモデルでも同じ傾向を示すか – RoBERTa largeとGPT-2 largeを比較 実験2-1 14 • 異なる埋め込みモデルでもMAUVEは以下の既知の 特性を示した – モデルサイズが大きいほどテキストの質が高い – Greedy sampling < Ancestral sampling < Nucleus sampling の順にテキストの質が高い
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 異なる量子化アルゴリズムを用いてもロバストで あるか – K-means法,Deep Residual Mixture Models(DRMM), 格子量子化を比較 • K=100から5000までの K-means法で計算された MAUVEはデフォルトのK=500のときとほぼ完全 に相関する(相関係数は0.99または1.00) • DRMMまたは格子量子化で計算されたMAUVEは K-means法とほぼ完全な相関を持つ(相関係数は 0.99以上) 実験2-2 15
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • スケーリングパラメータcの値によらず ロバストであるか 実験2-3 16 𝐶 𝑃, 𝑄 = {(exp −𝑐𝐾𝐿 𝑄 𝑅𝜆 , exp −𝑐𝐾𝐿 𝑃 𝑅𝜆 𝑅𝜆 = 𝜆𝑃 + 1 − 𝜆 𝑄, 𝜆 ∈ (0, 1)} • cの値はダイバージェンス曲線の相対的な順序 には影響を与えない
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 人間の判断と相関があるか – 評価者は与えられた文章に続く文章を5段階の リッカート尺度でペアから1つを選択 • Human-like:どちらの文章が人間が書いた可能性が高いか • Interesting:どちらの文章がより面白いか • Sensible:どちらの文章が論理的に正しいか 実験3 17 GPT-2のモデル サイズ4種類 • small • medium • large • xl デコーディング アルゴリズム2種類 • pure sampling • nucleus sampling 人間が書いた テキスト(継続文) × + • 文章は9種類あるためペアは36組 – 各組に対して90のアノテーションを取得
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 1対1の比較からランキングに変換するために Bradley-Terryモデルを使用 実験3 19 • Bradley-Terryスコアと各評価指標の相関係数 を算出 Bradley-Terryスコア (Bradley-Terryスコアは値が大きいほど評価者からの選好が強いことを示す)
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 人間の判断と相関があるか – 「human-like」「interesting」「sensible」の3つ の指標を評価 • MAUVEは他の評価指標よりも人間の評価との 相関が大幅に高い 実験3 20
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • モデルのテキストと人間のテキストを識別する 分類器の精度との相関 – 分類器の精度が低いほど生成されたテキストは 人間のテキストとの識別が難しい • 使用する分類モデル – ニュース生成:Grover mega – 物語生成:GPT-2 実験3 21 • MAUVEは他の比較指標よりも識別精度との相関 が最も高い
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • モデルによるテキストと人間のテキストの ギャップを測る自動評価指標MAUVEを提案 • MAUVEはテキストの生成長,デコーディング アルゴリズム,モデルサイズの違いを捉え, 人間の判断と相関することが確認された • 今後の展望:翻訳や要約などのクローズド エンドなタスクへの拡張 まとめ 22