深層自己回帰モデルを用いた俳句の生成と評価に関する研究

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
深層自己回帰モデルを用いた
俳句の生成と評価に関する研究
北海道大学大学院情報科学研究院
情報理工学部門複合情報工学分野調和系工学研究室
修士2年平田航大

2
近年の傾向：AIによる芸術作品創作
• 作品の生成
– データ量、
計算機性能の増加
により発展
– 人間の創作支援
などに役立っている
• 作品を選ぶ技術
– 生成の精度を上げる上でも重要だが困難
• 何をもって評価付け？
• 鑑賞者への依存
プロンプトから小説
の続きを生成[2]
テキストから
の画像生成[1]
[1] High-resolution image synthesis with latent diffusion models, R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B.
Ommer, In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022
[2] AIのべりすと, https://ai-novel.com/ (2022年11月19日閲覧)
吾輩は猫である。名前はま
だない。
そんな吾輩は今、とあるお
屋敷に飼われている。
飼い主の名前は、夏目漱石。
「なあ～ご」．．．

3
文芸作品評価の特徴と課題 3
• 知識獲得が重視される文章
Ex）ニュース記事、翻訳文
– 知識獲得に関して、測定可能な部分で文章が評価される
• 事実との適合度、読者理解度により競輪予想記事を評価 [3]
• 読解者の心の動きが重視される文章
Ex）小説や俳句などの文芸作品
– 鑑賞者への依存性が強い
Ex)「分け入っても分け入っても青い山（山頭火）」
をどう鑑賞するかは鑑賞者の年齢、知識などによって異なる
– 心の動きを直接測定することが難しい
[3]吉田拓海, 横山想一郎, 山下倫央, 川村秀憲 : 競輪における予想記事の自動生成システムの開発, 電子情報通信学会論文誌 D, Vol.J105-D, 2022
俳句において現状の技術で測定可能な範囲・部分は？
作文者
事実A
情景A
文章読解者
事実B
情景B
文章を作る目的
1. 事実を伝える
2. 読者の心を動かす • 知識獲得
• 心の動き

4
俳句における作品評価
• 句会で俳人同士が相互評価を行う文化
– 評価が選という形で数値化（「並選」1点、「特選」2点）
Ex）「硝子戸を開けて静かな夏の風」1点/33点
• 意味が通るか、情景が浮かぶか、心が動かされるか
• 離散化され、心の動きの絶対量は失われる
• 普遍的な評価は存在しない
– 流派などよって高く評価される俳句は変わる
Ex）日本伝統俳句協会、現代俳句協会
– 単一句会内でも評価は完全には揃わない
Ex）最高得点が 9点/22点
本研究の作品評価アプローチ
心の動きの間接評価句会の得点数
鑑賞者への依存性単一句会での評価で一部統制
作句
句会の流れ：選句選評

• 有季定型句を生成可能な俳句生成器を構築
– 俳句生成に適したアーキティクチャの検証
– 有効な事前学習データ、俳句データの検証
• 俳句生成器としてのモデル性能評価
– 句会の評価プロセスに基づく有季定型句の質の階層的定義
– 階層化に基づくモデル性能、現状の限界点の分析
– 生成句のアンケート調査
5
研究目的
現状のモデル、単一句会におけるレベル、課題
についての知見を見つける
文芸作品評価の第一歩として

6
本発表で扱う俳句
1. 5・7・5 の17 文字(音) で作る
2. 季節の言葉(季題、季語) を入れる [9]
– 自然や感動が季語を中心にこめられる
[9]公益社団法人日本伝統俳句協会俳句入門講座-1，https://haiku.jp/tsukuru/2430/ (2023年2月4日閲覧)
古池や
蛙飛び込む
水の音
芭蕉
（解釈例）
蛙が古池に飛び込む音が聞こえてくるほど
の静けさに対する感動を詠んだ句
最も一般的な形態である、
「有季定型句」を対象とする

7
有季定型句の質の階層的定義
• 句会で重視される「句会の選」「句節の質」
を階層的に分類
– 俳句はどのレイヤーに属するかで分類される
Ex）「音立てて水羊羹を流しけり」
句会の選：レイヤー2、句節の質：レイヤー1
• 「レイヤーの高い俳句をモデルが高く評価で
きているか？」という定量分析が可能
句節の質
句節同士のつながりがある
句節同士のつながりがない
意味の通らない句節が1つ以上ある
文法的におかしい箇所を1つ以上含む
句会の選
句会で高得点の入る句
句会で数点が入る句
句会で点数の入らない句
句会には出されないレベルの句
レイヤー1
レイヤー2
レイヤー3
レイヤー4

8
作句時に必要な知識
• 俳句のルール
– 17音、季語を含むなど
• 季語の意味理解
– 過去の俳句などから学ぶ
• 俳句の題材となる事柄・感情
– 何を俳句に詠み込むか
• 他者からの批評
– 句会での批評
これらをモデルに学習させるには？

9
比較対象のモデル
• 俳句生成器として以下を性能比較
– LSTM-based or Transformer-based
– Causal 言語モデル or Encoder-Decoder モデル
ベースモデルモデル構造特徴
AWD-LSTM[9] LSTM-based
Causal 言語モデル • 代表的なLSTM-based モデル
• ベンチマークで当時の SOTA
となるパープレキシティ
GPT-2[10]
Transformer
-based
Causal 言語モデル • Transformer のデコーダ部分を
用いた生成モデル
• 生成タスクで一般に高い性能
T5[11]
Encoder-Decoder
モデル
• オリジナルの Transformer と
同じ構造の Seq2Seq モデル
• 柔軟な入力を取れる
[9] Regularizing and optimizing LSTM language models, Merity, Stephen, Keskar, Nitish Shirish, Socher, Richard, ICLR, 2018
[10] Language Models are Unsupervised Multitask Learners, Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. and Sutskever, arXiv, 2018
[11] Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W. and Liu, P.J.: Exploring the Limits of Transfer Learning
with a Unified Text-to-Text Transformer, Journal of Machine Learning Research, Vol.21, No.140, pp.1–67, 2020

10
学習データ
全データ有季定型
句
489,330句 101,428句
サイズ
青空文庫 5.3GB
cc100 15GB
Wikipedia 約3GB
oscar 79GB
俳句データ
• インターネット上から収集した俳句約50万句
• 5分割交差検証
• 最小編集距離が5以下の俳句は検証、テスト
データから除外
• 俳句として意味の通る作品が少なくとも75％
以上であることは確認済み
事前学習データ
• 青空文庫
• 著作権フリーの文学作品
• cc100[12]、Wikipedia、oscar[13]
• インターネット上の記事など
[12] Wenzek, G., Lachaux, M.-A., Conneau, A., Chaudhary, V., Guzm ́
an, F., Joulin, A. and Grave, E.: CCNet: Extracting High Quality
Monolingual Datasets from Web Crawl Data, Proceedings of the Twelfth Language Resources and Evaluation Conference, Marseille, France,
European Language Resources Association, pp.4003–4012, 2020
[13] OSCAR 2019, https://oscar-project.org/post/oscar-2019/（2023年2月4日閲覧）

11
最終的な学習モデル
パラメータ数俳句データ事前学習データ
AWD-LSTM 2,200万
全データ
• 青空文庫
Aozora GPT2 9,000万 • 青空文庫
rinna small 1.1億 • cc100
• Wikipedia
rinna medium 3.3億 • cc100
• Wikipedia
rinna medium
（有季定型）
3.3億
有季定型句のみ
• cc100
• Wikipedia
T5 2.4億 • cc100
• Wikipedia
• oscar

12
モデルの出力とトークン予測
• 語彙数を次元とする確率分布 𝑃 を出力
– Causal 言語モデル (AWD-LSTM, GPT-2)
• トリガーを入力後、先頭の単語から順に予測
– Encoder-Decoder モデル (T5)
• 上五・中七・下五に分けて予測
• エンコーダへの入力は
– 上五予測時：”<kami>”（特殊トークン）
– 中七、下五予測時：予測句節以前の句節
𝑃(𝑤𝑖|𝑤𝑖−1, 𝑤𝑖−2, … , 𝑤0)
𝑤𝑖
予測トークン
𝑤𝑖−1, 𝑤𝑖−2, … , 𝑤0
前時刻までのトークン列（文脈）
Encoder Decoder
入力
特徴
ベクトル
予測トークン 𝑤𝑖

13
実験
1. 有季定型句の条件を満たす文字列割合算出
– 有季定型句を十分な数生成可能か？
– Encoder-Decoder モデルによる学習の効果は？
2. 評価用データセットを用いたモデル性能分析
– 句会で選の取れる句、句節の質の高い俳句をモデ
ルが高く評価できるか？
3. アンケート調査による生成句の定性分析
– モデルが句会で得点を取る俳句を生成しうるか？

14
実験
1. 有季定型句の条件を満たす文字列割合算出

15
有季定型句の条件を満たす文字列割合
• 検証項目
• 手法
– ランダムに10,000の文字列を生成
– 俳句の6条件を満たす割合を算出
• 17音
• 音節
– 上五・中七・下五いづれか複数にまたがる形態素がない
• 季語を1つのみ含む
• 切れ字を1つ以下のみ含む
• 未知語を含まない
• 句頭に不適切な品詞（助詞など）が出現していない

16
結果 - 有季定型句の条件を満たす割合
17音音節季語切れ字未知語句頭全条件
AWD-LSTM 0.16 0.38 0.43 0.99 0.83 0.46 0.04
Aozora GPT2 0.32 0.52 0.60 0.99 0.95 0.57 0.10
rinna small 0.28 0.49 0.62 0.99 0.96 0.57 0.08
rinna
medium
0.25 0.46 0.60 0.99 0.96 0.54 0.07
rinna
medium
（有季定型）
0.19 0.36 0.63 0.99 0.96 0.48 0.03
T5 0.60 0.77 0.80 0.99 0.98 0.79 0.43
訓練データ 0.53 0.72 0.69 0.99 0.95 0.63 0.25
割合が最小のモデル（3％）であっても、現行の計算環境1分間で
20,000(文字列/分) × 3％ = 600句
人間が選句するには十分な句数を提供可能

17
結果 - 有季定型句の条件を満たす割合
17音音節季語切れ字未知語句頭全条件
AWD-LSTM 0.16 0.38 0.43 0.99 0.83 0.46 0.04
Aozora GPT2 0.32 0.52 0.60 0.99 0.95 0.57 0.10
rinna small 0.28 0.49 0.62 0.99 0.96 0.57 0.08
rinna
medium
0.25 0.46 0.60 0.99 0.96 0.54 0.07
rinna
medium
（有季定型）
0.19 0.36 0.63 0.99 0.96 0.48 0.03
T5 0.60 0.77 0.80 0.99 0.98 0.79 0.43
訓練データ 0.53 0.72 0.69 0.99 0.95 0.63 0.25
全条件を満たしている俳句のみで学習した2モデルについて、
• rinna medium は全条件を満たす割合が最小
• T5 は全条件を満たす割合が最大
Encoder-Decoder モデルの学習効果が確認できる

18
実験
2. 評価用データセットを用いたモデル性能分析
– 句会で選の取れる句、句節の質の高い俳句をモデ
ルが高く評価できるか？

19
評価用データセットを用いたモデル分析
• 検証項目
– 句会で選の取れる句、句節の質の高い俳句をモデルが
高く評価できるか？
• 手法
1. 俳句に「句会の選」「句節の質」のレイヤーが
付与されたラベル付きデータセットを作成
2. 高レイヤーの句にモデルが高い評価値を付与出来
ているかを分析
• モデルが俳句に対して計算する尤度を評価値とみなす
仮定
良い俳句生成器は質の高いレイヤーの俳句に高い
評価値をつけることが可能
※尤度
モデルが入力を尤もらしい
と判断している度合い

20
評価用データセットの作成
• ラベル付きの200句のデータセットを作成
– 「句会の選」と「句節の質」についてレイヤーがラベルと
して付与されたもの
– Aozora GPT2、ふくし句会に投句された俳句から作成
• 俳句歴3~20年の俳人6名に対しアンケートを実施
1. 句会の選
1. 50~100句の予選句を選出
2. 予選句から「並選」20句~30句、「特選」5~10句を選出
2. 句節の質
• 文法的に正しい俳句かどうか？：「正しい」「正しくない」
• 意味が通る俳句かどうか？：「通る」「通らない」
• 句節同士のつながりがあるか？：「ある」「ない」

21
レイヤー決定のアルゴリズム、レイヤー分布
• 句会の選
– 「特選」2点、「並選」1点で集計
予選句で取られない -> レイヤー4
予選句で1人以上が取る -> レイヤー3
1点 -> レイヤー2
2点以上 -> レイヤー1
• 句節の質
文法が正しくない -> レイヤー4
意味が通らない -> レイヤー3
句節のつながりがない -> レイヤー2
つながりがある -> レイヤー1
句会の選句節の質
朝焼の大川端を走りけりレイヤー3 レイヤー1
朝まだき百人分の冬至粥レイヤー1 レイヤー1
評価用データセットの例
レイヤー分布
句
数
レイヤー

22
分析方針
1. 階層構造のレイヤーで閾値を設定
– 閾値以上のレイヤーの句を正例、それ以下を負例
2. 正例・負例を、俳句に対して各モデルで計算される尤度で分類
3. 分類問題の性能からモデルの俳句生成器としての性能を分析
仮定
良い俳句生成器は質の高いレイヤーの俳句
に高い評価値をつけることが可能
見分けたい項目正例負例
文法が正しい句文法が正しい
（句節の質3以上）
文法が正しくない
（句節の質4）
意味が通る句意味が通る
（句節の質2以上）
通らない
（句節の質3以下）
予選句で取られる句予選句以上
（句会の選3以上）
予選句以下
（句会の選4）
並選以上で取られる句並選以上
（句会の選2以上）
並選以下
（句会の選3以下）

23
結果 - 評価用データセット分析
• 文法的破綻のある句はモデルは低い尤度をつ
けられている
尤度
句
数
尤度上位100句中負例は2句
Ex)
畦焼の嶺に青空ありに揺れ
• 文法的に正しくない俳句
正例：句節の質レイヤー3以上
負例：句節の質レイヤー4
具体的な句数
AUC: 0.88 AUC: 0.94 AUC: 0.94
AUC: 0.94 AUC: 0.94 AUC: 0.91
正例は
高尤度
負例は
低尤度

24
• 意味の通らない句はモデルはある程度、低い
尤度をつけられている
尤度
句
数
尤度上位100句中負例は11句
Ex)
密談は煙草の花の書くところ
• 意味の通らない俳句
正例：句節の質レイヤー2以上
負例：句節の質レイヤー3以下
AUC: 0.81 AUC: 0.85 AUC: 0.87
AUC: 0.86 AUC: 0.87 AUC: 0.83
具体的な句数

25
• 予選句で選ばれる句には高い尤度をつける
傾向がある
尤度
句
数
尤度上位100句中正例は80句
Ex)
北窓を塞ぎしあとの鏡餅
• 1名に予選句で取られた句
正例：句会の選レイヤー3以上
負例：句会の選レイヤー4
AUC: 0.71 AUC: 0.74 AUC: 0.75
AUC: 0.76 AUC: 0.75 AUC: 0.73
具体的な句数

26
• 並選以上で取られる可能性のある句と
それ以下を捉えることはできない
尤度
句
数
尤度上位100句中負例が60句
Ex)
春風やいきものさがす池のふち
• 句節のつながりはあるが、
選は取られない俳句
正例：句会の選レイヤー2以上
負例：句会の選レイヤー3以下
AUC: 0.50 AUC: 0.53 AUC: 0.55
AUC: 0.54 AUC: 0.55 AUC: 0.53
具体的な句数

27
モデルの現状と限界点
• モデルが高く評価してしまう句
– 俳句として読むことはできるが、情景が想像でき
ない or 当たり前のことを詠んでいる
Ex）尤度-40 以上で句会の選レイヤー4となった句
• rinna medium では 12/15 が句節の質レイヤー1
– 水底の石に竜胆咲きにけり
– 朝焼の中を電車が通りけり
– 白鳥の大き翼をひろげたる
句節のつながりがあり、句会の選が取られない句
をどう高く評価するか現状の課題であるといえる

28
実験
3. アンケート調査による生成句の定性分析
– モデルが句会で得点を取る俳句を生成しうるか？

29
アンケート調査
• 目的
– モデルが句会で得点を取る俳句を生成しうるかを
検証する
• 人間作の俳句との得点比較
• 生成句の句節の質を人間が高く評価するか？
• 手法
– 「霧」を含む句5句＋秋の句25句をサンプリング
• ふくし句会（人間作）：30句
– ふくし句会で1点以上入った句
• モデル作：30句×6モデル
– 100,000 文字列から有季定型句の内尤度上位句
– 「句会の選」「句節の質」について、
評価用データセットと同じ質問事項を集計

30
ソースごとの平均値
予選句割合句会の選文法意味が通る句節のつながり
ふくし句会 0.96 0.55 0.98 0.92 0.90
AWD-LSTM 0.10 0.0083 0.79 0.56 0.66
Aozora GPT2 0.46 0.10 0.90 0.80 0.84
Rinna small 0.66 0.23 0.96 0.82 0.89
Rinna
medium
0.76 0.15 0.92 0.85 0.90
Rinna medium
有季定型句
0.60 0.10 0.95 0.83 0.85
T5 0.80 0.15 0.94 0.84 0.86
Max 2点 Max 1点
最良のソース：太字
モデル間で最良：下線
人間作のふくし句会の俳句がすべての項目で最良

31
ふくし句会 0.96 0.55 0.98 0.92 0.90
AWD-LSTM 0.10 0.0083 0.79 0.56 0.66
Aozora GPT2 0.46 0.10 0.90 0.80 0.84
Rinna small 0.66 0.23 0.96 0.82 0.89
Rinna
medium
0.76 0.15 0.92 0.85 0.90
Rinna medium
有季定型句
0.60 0.10 0.95 0.83 0.85
T5 0.80 0.15 0.94 0.84 0.86
Max 2点 Max 1点
Transformer-based モデルは句節の質に関する項目
はAWD-LSTMよりも人間作の俳句に近い割合

32
ふくし句会 0.96 0.55 0.98 0.92 0.90
AWD-LSTM 0.10 0.0083 0.79 0.56 0.66
Aozora GPT2 0.46 0.10 0.90 0.80 0.84
Rinna small 0.66 0.23 0.96 0.82 0.89
Rinna
medium
0.76 0.15 0.92 0.85 0.90
Rinna medium
有季定型句
0.60 0.10 0.95 0.83 0.85
T5 0.80 0.15 0.94 0.84 0.86
Max 2点 Max 1点
AWD-LSTM は「句会の選」「句節の質」ともに
評価の低い結果

33
モデル作の高得点句についての考察
最高得点は4点 / 8点でrinna small が生成
– 朝顔のてのひらほどにひろがりぬ
• 「朝顔」の表現方法のオリジナリティ（俳人からの評価）
– 稲妻や僧と仏の間より
• 「稲妻」のインパクト、「僧と仏」を詠んだ神秘性
（俳人からの評価）
• 4点以上の人間作は6句のみ
• 実際の句会で4点以上獲得した句と同点
今回の定義・実験設定において、
多くの人の心を動かしうる俳句
を生成できていたといえる
人間作の句との比較

34
結論
• 句会での評価プロセスを基に、俳句生成器の
評価用データセットを作成した
– 心の動きの間接的な評価に句会の得点数を用いた
• 評価用データセットに基づき、現状のモデルの
特徴と課題を示した
– 意味の通る句、予選句で取られうる句を見分ける
– 句節のつながりがあり、選の入らない句を見分けるこ
とが課題
• 単一句会内で高得点を取りうる俳句が、尤度上位
30句に含まれる俳句生成器を構築した
– 俳人の方からも高評価のコメントを頂いた

35
研究業績
• 国際学会口頭発表査読あり（1件）
– ○Kodai Hirata, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura :
Implementation of Autoregressive Language Models for Generation of Seasonal
Fixed-form Haiku in Japanese, KICSS, 2022
• 国内学会口頭発表査読無し（3件）
– ○平田航大, 横山想一郎, 山下倫央, 川村秀憲 : Transformerによる言語モデルを
用いた俳句生成とその評価, 第143回情報基礎とアクセス技術研究発表会, 2021
– ○平田航大, 横山想一郎, 山下倫央, 川村秀憲 : 深層学習による自己回帰モデルを
用いた俳句生成器の評価, 情報処理学会第84回全国大会, 2022
– ○平田航大, 横山想一郎, 山下倫央, 川村秀憲 : 有季定型句の生成に向けた深層自
己回帰モデルの実装と評価, 第22回データ指向構成マイニングとシミュレーショ
ン研究会(SIG-DOCMAS), 2022
• 発表予定国内学会口頭発表（2件）
– ○平田航大, 横山想一郎, 山下倫央, 川村秀憲 : 評価用データセットを用いた有季
定型句の生成における深層学習モデルの性能比較,第210回知能システム研究発表
会, 2023
– ○平田航大, 横山想一郎, 山下倫央, 川村秀憲 : 有季定型句の生成における深層学
習モデル評価用データセットの作成と適用,情報処理学会第85回全国大会, 2023
• 受賞（3件）
– 学生奨励賞, 大会優秀賞（情報処理学会第84回全国大会）
– Outstanding Student Paper（KICSS2022）

深層自己回帰モデルを用いた俳句の生成と評価に関する研究

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 深層自己回帰モデルを用いた俳句の生成と評価に関する研究

Similar to 深層自己回帰モデルを用いた俳句の生成と評価に関する研究 (20)

More from harmonylab

More from harmonylab (18)

深層自己回帰モデルを用いた俳句の生成と評価に関する研究

Editor's Notes