大規模言語モデルはオープンエンドテキスト生成において,高品質で一貫性を持つ文章を生成できる能力を示していますが,モデルが生成したテキストと人間が書いたテキストの近さを測るための評価指標は未だに確立されていません。提案された評価指標MAUVEはこれらのテキストをKL divergenceを用いて直接比較します。実験では既存の評価指標よりも人間による評価との相関が確認されました。