SlideShare a Scribd company logo
1 of 35
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
深層自己回帰モデルを用いた
俳句の生成と評価に関する研究
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
修士2年 平田航大
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
近年の傾向:AIによる芸術作品創作
• 作品の生成
– データ量、
計算機性能の増加
により発展
– 人間の創作支援
などに役立っている
• 作品を選ぶ技術
– 生成の精度を上げる上でも重要だが困難
• 何をもって評価付け?
• 鑑賞者への依存
プロンプトから小説
の続きを生成[2]
テキストから
の画像生成[1]
[1] High-resolution image synthesis with latent diffusion models, R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B.
Ommer, In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022
[2] AIのべりすと, https://ai-novel.com/ (2022年11月19日閲覧)
吾輩は猫である。名前はま
だない。
そんな吾輩は今、とあるお
屋敷に飼われている。
飼い主の名前は、夏目漱石。
「なあ~ご」...
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
文芸作品評価の特徴と課題 3
• 知識獲得が重視される文章
Ex)ニュース記事、翻訳文
– 知識獲得に関して、測定可能な部分で文章が評価される
• 事実との適合度、読者理解度により競輪予想記事を評価 [3]
• 読解者の心の動きが重視される文章
Ex)小説や俳句などの文芸作品
– 鑑賞者への依存性が強い
Ex)「分け入っても分け入っても青い山(山頭火)」
をどう鑑賞するかは鑑賞者の年齢、知識などによって異なる
– 心の動きを直接測定することが難しい
[3]吉田 拓海, 横山 想一郎, 山下 倫央, 川村 秀憲 : 競輪における予想記事の自動生成システムの開発, 電子情報通信学会論文誌 D, Vol.J105-D, 2022
俳句において現状の技術で測定可能な範囲・部分は?
作文者
事実A
情景A
文章 読解者
事実B
情景B
文章を作る目的
1. 事実を伝える
2. 読者の心を動かす • 知識獲得
• 心の動き
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
俳句における作品評価
• 句会で俳人同士が相互評価を行う文化
– 評価が選という形で数値化 (「並選」1点、「特選」2点)
Ex)「硝子戸を開けて静かな夏の風」1点/33点
• 意味が通るか、情景が浮かぶか、心が動かされるか
• 離散化され、心の動きの絶対量は失われる
• 普遍的な評価は存在しない
– 流派などよって高く評価される俳句は変わる
Ex)日本伝統俳句協会、現代俳句協会
– 単一句会内でも評価は完全には揃わない
Ex)最高得点が 9点/22点
本研究の作品評価アプローチ
心の動きの間接評価 句会の得点数
鑑賞者への依存性 単一句会での評価で一部統制
作句
句会の流れ: 選句 選評
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 有季定型句を生成可能な俳句生成器を構築
– 俳句生成に適したアーキティクチャの検証
– 有効な事前学習データ、俳句データの検証
• 俳句生成器としてのモデル性能評価
– 句会の評価プロセスに基づく有季定型句の質の階層的定義
– 階層化に基づくモデル性能、現状の限界点の分析
– 生成句のアンケート調査
5
研究目的
現状のモデル、単一句会におけるレベル、課題
についての知見を見つける
文芸作品評価の第一歩として
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
本発表で扱う俳句
1. 5・7・5 の17 文字(音) で作る
2. 季節の言葉(季題、季語) を入れる [9]
– 自然や感動が季語を中心にこめられる
[9]公益社団法人日本伝統俳句協会俳句入門講座-1,https://haiku.jp/tsukuru/2430/ (2023年2月4日閲覧)
古池や
蛙飛び込む
水の音
芭蕉
(解釈例)
蛙が古池に飛び込む音が聞こえてくるほど
の静けさに対する感動を詠んだ句
最も一般的な形態である、
「有季定型句」を対象とする
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
有季定型句の質の階層的定義
• 句会で重視される「句会の選」「句節の質」
を階層的に分類
– 俳句はどのレイヤーに属するかで分類される
Ex)「音立てて水羊羹を流しけり」
句会の選:レイヤー2、句節の質:レイヤー1
• 「レイヤーの高い俳句をモデルが高く評価で
きているか?」という定量分析が可能
句節の質
句節同士のつながりがある
句節同士のつながりがない
意味の通らない句節が1つ以上ある
文法的におかしい箇所を1つ以上含む
句会の選
句会で高得点の入る句
句会で数点が入る句
句会で点数の入らない句
句会には出されないレベルの句
レイヤー1
レイヤー2
レイヤー3
レイヤー4
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
作句時に必要な知識
• 俳句のルール
– 17音、季語を含むなど
• 季語の意味理解
– 過去の俳句などから学ぶ
• 俳句の題材となる事柄・感情
– 何を俳句に詠み込むか
• 他者からの批評
– 句会での批評
これらをモデルに学習させるには?
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
比較対象のモデル
• 俳句生成器として以下を性能比較
– LSTM-based or Transformer-based
– Causal 言語モデル or Encoder-Decoder モデル
ベースモデル モデル構造 特徴
AWD-LSTM[9] LSTM-based
Causal 言語モデル • 代表的なLSTM-based モデル
• ベンチマークで当時の SOTA
となるパープレキシティ
GPT-2[10]
Transformer
-based
Causal 言語モデル • Transformer のデコーダ部分を
用いた生成モデル
• 生成タスクで一般に高い性能
T5[11]
Encoder-Decoder
モデル
• オリジナルの Transformer と
同じ構造の Seq2Seq モデル
• 柔軟な入力を取れる
[9] Regularizing and optimizing LSTM language models, Merity, Stephen, Keskar, Nitish Shirish, Socher, Richard, ICLR, 2018
[10] Language Models are Unsupervised Multitask Learners, Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. and Sutskever, arXiv, 2018
[11] Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W. and Liu, P.J.: Exploring the Limits of Transfer Learning
with a Unified Text-to-Text Transformer, Journal of Machine Learning Research, Vol.21, No.140, pp.1–67, 2020
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
学習データ
全データ 有季定型
句
489,330句 101,428句
サイズ
青空文庫 5.3GB
cc100 15GB
Wikipedia 約3GB
oscar 79GB
俳句データ
• インターネット上から収集した俳句約50万句
• 5分割交差検証
• 最小編集距離が5以下の俳句は検証、テスト
データから除外
• 俳句として意味の通る作品が少なくとも75%
以上であることは確認済み
事前学習データ
• 青空文庫
• 著作権フリーの文学作品
• cc100[12]、Wikipedia、oscar[13]
• インターネット上の記事など
[12] Wenzek, G., Lachaux, M.-A., Conneau, A., Chaudhary, V., Guzm ́
an, F., Joulin, A. and Grave, E.: CCNet: Extracting High Quality
Monolingual Datasets from Web Crawl Data, Proceedings of the Twelfth Language Resources and Evaluation Conference, Marseille, France,
European Language Resources Association, pp.4003–4012, 2020
[13] OSCAR 2019, https://oscar-project.org/post/oscar-2019/(2023年2月4日閲覧)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
最終的な学習モデル
パラメータ数 俳句データ 事前学習データ
AWD-LSTM 2,200万
全データ
• 青空文庫
Aozora GPT2 9,000万 • 青空文庫
rinna small 1.1億 • cc100
• Wikipedia
rinna medium 3.3億 • cc100
• Wikipedia
rinna medium
(有季定型)
3.3億
有季定型句のみ
• cc100
• Wikipedia
T5 2.4億 • cc100
• Wikipedia
• oscar
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
モデルの出力とトークン予測
• 語彙数を次元とする確率分布 𝑃 を出力
– Causal 言語モデル (AWD-LSTM, GPT-2)
• トリガーを入力後、先頭の単語から順に予測
– Encoder-Decoder モデル (T5)
• 上五・中七・下五に分けて予測
• エンコーダへの入力は
– 上五予測時:”<kami>”(特殊トークン)
– 中七、下五予測時:予測句節以前の句節
𝑃(𝑤𝑖|𝑤𝑖−1, 𝑤𝑖−2, … , 𝑤0)
𝑤𝑖
予測トークン
𝑤𝑖−1, 𝑤𝑖−2, … , 𝑤0
前時刻までのトークン列(文脈)
Encoder Decoder
入力
特徴
ベクトル
予測トークン 𝑤𝑖
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
実験
1. 有季定型句の条件を満たす文字列割合算出
– 有季定型句を十分な数生成可能か?
– Encoder-Decoder モデルによる学習の効果は?
2. 評価用データセットを用いたモデル性能分析
– 句会で選の取れる句、句節の質の高い俳句をモデ
ルが高く評価できるか?
3. アンケート調査による生成句の定性分析
– モデルが句会で得点を取る俳句を生成しうるか?
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
実験
1. 有季定型句の条件を満たす文字列割合算出
– 有季定型句を十分な数生成可能か?
– Encoder-Decoder モデルによる学習の効果は?
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
有季定型句の条件を満たす文字列割合
• 検証項目
– 有季定型句を十分な数生成可能か?
– Encoder-Decoder モデルによる学習の効果は?
• 手法
– ランダムに10,000の文字列を生成
– 俳句の6条件を満たす割合を算出
• 17音
• 音節
– 上五・中七・下五いづれか複数にまたがる形態素がない
• 季語を1つのみ含む
• 切れ字を1つ以下のみ含む
• 未知語を含まない
• 句頭に不適切な品詞(助詞など)が出現していない
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
結果 - 有季定型句の条件を満たす割合
17音 音節 季語 切れ字 未知語 句頭 全条件
AWD-LSTM 0.16 0.38 0.43 0.99 0.83 0.46 0.04
Aozora GPT2 0.32 0.52 0.60 0.99 0.95 0.57 0.10
rinna small 0.28 0.49 0.62 0.99 0.96 0.57 0.08
rinna
medium
0.25 0.46 0.60 0.99 0.96 0.54 0.07
rinna
medium
(有季定型)
0.19 0.36 0.63 0.99 0.96 0.48 0.03
T5 0.60 0.77 0.80 0.99 0.98 0.79 0.43
訓練データ 0.53 0.72 0.69 0.99 0.95 0.63 0.25
割合が最小のモデル(3%)であっても、現行の計算環境1分間で
20,000(文字列/分) × 3% = 600句
人間が選句するには十分な句数を提供可能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
結果 - 有季定型句の条件を満たす割合
17音 音節 季語 切れ字 未知語 句頭 全条件
AWD-LSTM 0.16 0.38 0.43 0.99 0.83 0.46 0.04
Aozora GPT2 0.32 0.52 0.60 0.99 0.95 0.57 0.10
rinna small 0.28 0.49 0.62 0.99 0.96 0.57 0.08
rinna
medium
0.25 0.46 0.60 0.99 0.96 0.54 0.07
rinna
medium
(有季定型)
0.19 0.36 0.63 0.99 0.96 0.48 0.03
T5 0.60 0.77 0.80 0.99 0.98 0.79 0.43
訓練データ 0.53 0.72 0.69 0.99 0.95 0.63 0.25
全条件を満たしている俳句のみで学習した2モデルについて、
• rinna medium は全条件を満たす割合が最小
• T5 は全条件を満たす割合が最大
Encoder-Decoder モデルの学習効果が確認できる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
実験
2. 評価用データセットを用いたモデル性能分析
– 句会で選の取れる句、句節の質の高い俳句をモデ
ルが高く評価できるか?
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
評価用データセットを用いたモデル分析
• 検証項目
– 句会で選の取れる句、句節の質の高い俳句をモデルが
高く評価できるか?
• 手法
1. 俳句に「句会の選」「句節の質」のレイヤーが
付与されたラベル付きデータセットを作成
2. 高レイヤーの句にモデルが高い評価値を付与出来
ているかを分析
• モデルが俳句に対して計算する尤度を評価値とみなす
仮定
良い俳句生成器は質の高いレイヤーの俳句に高い
評価値をつけることが可能
※尤度
モデルが入力を尤もらしい
と判断している度合い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
評価用データセットの作成
• ラベル付きの200句のデータセットを作成
– 「句会の選」と「句節の質」についてレイヤーがラベルと
して付与されたもの
– Aozora GPT2、ふくし句会に投句された俳句から作成
• 俳句歴3~20年の俳人6名に対しアンケートを実施
1. 句会の選
1. 50~100句の予選句を選出
2. 予選句から「並選」20句~30句、「特選」5~10句を選出
2. 句節の質
• 文法的に正しい俳句かどうか?: 「正しい」「正しくない」
• 意味が通る俳句かどうか?: 「通る」「通らない」
• 句節同士のつながりがあるか?: 「ある」「ない」
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
レイヤー決定のアルゴリズム、レイヤー分布
• 句会の選
– 「特選」2点、「並選」1点で集計
予選句で取られない -> レイヤー4
予選句で1人以上が取る -> レイヤー3
1点 -> レイヤー2
2点以上 -> レイヤー1
• 句節の質
文法が正しくない -> レイヤー4
意味が通らない -> レイヤー3
句節のつながりがない -> レイヤー2
つながりがある -> レイヤー1
句会の選 句節の質
朝焼の大川端を走りけり レイヤー3 レイヤー1
朝まだき百人分の冬至粥 レイヤー1 レイヤー1
評価用データセットの例
レイヤー分布
句
数
レイヤー
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
分析方針
1. 階層構造のレイヤーで閾値を設定
– 閾値以上のレイヤーの句を正例、それ以下を負例
2. 正例・負例を、俳句に対して各モデルで計算される尤度で分類
3. 分類問題の性能からモデルの俳句生成器としての性能を分析
仮定
良い俳句生成器は質の高いレイヤーの俳句
に高い評価値をつけることが可能
見分けたい項目 正例 負例
文法が正しい句 文法が正しい
(句節の質3以上)
文法が正しくない
(句節の質4)
意味が通る句 意味が通る
(句節の質2以上)
通らない
(句節の質3以下)
予選句で取られる句 予選句以上
(句会の選3以上)
予選句以下
(句会の選4)
並選以上で取られる句 並選以上
(句会の選2以上)
並選以下
(句会の選3以下)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
結果 - 評価用データセット分析
• 文法的破綻のある句はモデルは低い尤度をつ
けられている
尤度
句
数
尤度上位100句中負例は2句
Ex)
畦焼の嶺に青空ありに揺れ
• 文法的に正しくない俳句
正例:句節の質レイヤー3以上
負例:句節の質レイヤー4
具体的な句数
AUC: 0.88 AUC: 0.94 AUC: 0.94
AUC: 0.94 AUC: 0.94 AUC: 0.91
正例は
高尤度
負例は
低尤度
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
結果 - 評価用データセット分析
• 意味の通らない句はモデルはある程度、低い
尤度をつけられている
尤度
句
数
尤度上位100句中負例は11句
Ex)
密談は煙草の花の書くところ
• 意味の通らない俳句
正例:句節の質レイヤー2以上
負例:句節の質レイヤー3以下
AUC: 0.81 AUC: 0.85 AUC: 0.87
AUC: 0.86 AUC: 0.87 AUC: 0.83
具体的な句数
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
25
結果 - 評価用データセット分析
• 予選句で選ばれる句には高い尤度をつける
傾向がある
尤度
句
数
尤度上位100句中正例は80句
Ex)
北窓を塞ぎしあとの鏡餅
• 1名に予選句で取られた句
正例:句会の選レイヤー3以上
負例:句会の選レイヤー4
AUC: 0.71 AUC: 0.74 AUC: 0.75
AUC: 0.76 AUC: 0.75 AUC: 0.73
具体的な句数
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
26
結果 - 評価用データセット分析
• 並選以上で取られる可能性のある句と
それ以下を捉えることはできない
尤度
句
数
尤度上位100句中負例が60句
Ex)
春風やいきものさがす池のふち
• 句節のつながりはあるが、
選は取られない俳句
正例:句会の選レイヤー2以上
負例:句会の選レイヤー3以下
AUC: 0.50 AUC: 0.53 AUC: 0.55
AUC: 0.54 AUC: 0.55 AUC: 0.53
具体的な句数
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
27
モデルの現状と限界点
• モデルが高く評価してしまう句
– 俳句として読むことはできるが、情景が想像でき
ない or 当たり前のことを詠んでいる
Ex)尤度-40 以上で句会の選レイヤー4となった句
• rinna medium では 12/15 が句節の質レイヤー1
– 水底の石に竜胆咲きにけり
– 朝焼の中を電車が通りけり
– 白鳥の大き翼をひろげたる
句節のつながりがあり、句会の選が取られない句
をどう高く評価するか現状の課題であるといえる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
28
実験
3. アンケート調査による生成句の定性分析
– モデルが句会で得点を取る俳句を生成しうるか?
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
29
アンケート調査
• 目的
– モデルが句会で得点を取る俳句を生成しうるかを
検証する
• 人間作の俳句との得点比較
• 生成句の句節の質を人間が高く評価するか?
• 手法
– 「霧」を含む句5句+秋の句25句をサンプリング
• ふくし句会(人間作):30句
– ふくし句会で1点以上入った句
• モデル作:30句×6モデル
– 100,000 文字列から有季定型句の内尤度上位句
– 「句会の選」「句節の質」について、
評価用データセットと同じ質問事項を集計
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
30
ソースごとの平均値
予選句割合 句会の選 文法 意味が通る 句節のつながり
ふくし句会 0.96 0.55 0.98 0.92 0.90
AWD-LSTM 0.10 0.0083 0.79 0.56 0.66
Aozora GPT2 0.46 0.10 0.90 0.80 0.84
Rinna small 0.66 0.23 0.96 0.82 0.89
Rinna
medium
0.76 0.15 0.92 0.85 0.90
Rinna medium
有季定型句
0.60 0.10 0.95 0.83 0.85
T5 0.80 0.15 0.94 0.84 0.86
Max 2点 Max 1点
最良のソース:太字
モデル間で最良:下線
人間作のふくし句会の俳句がすべての項目で最良
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
31
ソースごとの平均値
予選句割合 句会の選 文法 意味が通る 句節のつながり
ふくし句会 0.96 0.55 0.98 0.92 0.90
AWD-LSTM 0.10 0.0083 0.79 0.56 0.66
Aozora GPT2 0.46 0.10 0.90 0.80 0.84
Rinna small 0.66 0.23 0.96 0.82 0.89
Rinna
medium
0.76 0.15 0.92 0.85 0.90
Rinna medium
有季定型句
0.60 0.10 0.95 0.83 0.85
T5 0.80 0.15 0.94 0.84 0.86
Max 2点 Max 1点
最良のソース:太字
モデル間で最良:下線
Transformer-based モデルは句節の質に関する項目
はAWD-LSTMよりも人間作の俳句に近い割合
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
32
ソースごとの平均値
予選句割合 句会の選 文法 意味が通る 句節のつながり
ふくし句会 0.96 0.55 0.98 0.92 0.90
AWD-LSTM 0.10 0.0083 0.79 0.56 0.66
Aozora GPT2 0.46 0.10 0.90 0.80 0.84
Rinna small 0.66 0.23 0.96 0.82 0.89
Rinna
medium
0.76 0.15 0.92 0.85 0.90
Rinna medium
有季定型句
0.60 0.10 0.95 0.83 0.85
T5 0.80 0.15 0.94 0.84 0.86
Max 2点 Max 1点
最良のソース:太字
モデル間で最良:下線
AWD-LSTM は「句会の選」「句節の質」ともに
評価の低い結果
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
33
モデル作の高得点句についての考察
最高得点は4点 / 8点 でrinna small が生成
– 朝顔のてのひらほどにひろがりぬ
• 「朝顔」の表現方法のオリジナリティ(俳人からの評価)
– 稲妻や僧と仏の間より
• 「稲妻」のインパクト、「僧と仏」を詠んだ神秘性
(俳人からの評価)
• 4点以上の人間作は6句のみ
• 実際の句会で4点以上獲得した句と同点
今回の定義・実験設定において、
多くの人の心を動かしうる俳句
を生成できていたといえる
人間作の句との比較
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
34
結論
• 句会での評価プロセスを基に、俳句生成器の
評価用データセットを作成した
– 心の動きの間接的な評価に句会の得点数を用いた
• 評価用データセットに基づき、現状のモデルの
特徴と課題を示した
– 意味の通る句、予選句で取られうる句を見分ける
– 句節のつながりがあり、選の入らない句を見分けるこ
とが課題
• 単一句会内で高得点を取りうる俳句が、尤度上位
30句に含まれる俳句生成器を構築した
– 俳人の方からも高評価のコメントを頂いた
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
35
研究業績
• 国際学会 口頭発表 査読あり(1件)
– ○Kodai Hirata, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura :
Implementation of Autoregressive Language Models for Generation of Seasonal
Fixed-form Haiku in Japanese, KICSS, 2022
• 国内学会 口頭発表 査読無し(3件)
– ○平田 航大, 横山 想一郎, 山下 倫央, 川村 秀憲 : Transformerによる言語モデルを
用いた俳句生成とその評価, 第143回情報基礎とアクセス技術研究発表会, 2021
– ○平田 航大, 横山 想一郎, 山下 倫央, 川村 秀憲 : 深層学習による自己回帰モデルを
用いた俳句生成器の評価, 情報処理学会第84回全国大会, 2022
– ○平田 航大, 横山 想一郎, 山下 倫央, 川村 秀憲 : 有季定型句の生成に向けた深層自
己回帰モデルの実装と評価, 第22回データ指向構成マイニングとシミュレーショ
ン研究会(SIG-DOCMAS), 2022
• 発表予定 国内学会 口頭発表(2件)
– ○平田 航大, 横山 想一郎, 山下 倫央, 川村 秀憲 : 評価用データセットを用いた有季
定型句の生成における深層学習モデルの性能比較,第210回知能システム研究発表
会, 2023
– ○平田 航大, 横山 想一郎, 山下 倫央, 川村 秀憲 : 有季定型句の生成における深層学
習モデル評価用データセットの作成と適用,情報処理学会第85回全国大会, 2023
• 受賞(3件)
– 学生奨励賞, 大会優秀賞(情報処理学会第84回全国大会)
– Outstanding Student Paper(KICSS2022)

More Related Content

What's hot

What's hot (20)

2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料
 
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
 
大学生及び大学院生の研究時間とメンタルヘルス
大学生及び大学院生の研究時間とメンタルヘルス大学生及び大学院生の研究時間とメンタルヘルス
大学生及び大学院生の研究時間とメンタルヘルス
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
 
Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...
 
学振特別研究員になるために~知っておくべき10のTips~[平成29年度申請版]
学振特別研究員になるために~知っておくべき10のTips~[平成29年度申請版]学振特別研究員になるために~知っておくべき10のTips~[平成29年度申請版]
学振特別研究員になるために~知っておくべき10のTips~[平成29年度申請版]
 
企業研究者の研究のすゝめ方
企業研究者の研究のすゝめ方企業研究者の研究のすゝめ方
企業研究者の研究のすゝめ方
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 
第2回Matlantis User Conference_20230421_畠山歓先生
第2回Matlantis User Conference_20230421_畠山歓先生第2回Matlantis User Conference_20230421_畠山歓先生
第2回Matlantis User Conference_20230421_畠山歓先生
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
学振特別研究員になるために~2024年度申請版
 学振特別研究員になるために~2024年度申請版 学振特別研究員になるために~2024年度申請版
学振特別研究員になるために~2024年度申請版
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
 
それでも私が研究を続ける理由
それでも私が研究を続ける理由それでも私が研究を続ける理由
それでも私が研究を続ける理由
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
日本一やさしい マテリアルズ・インフォマティクスへの導き_柴田_nanotech2023
日本一やさしい マテリアルズ・インフォマティクスへの導き_柴田_nanotech2023日本一やさしい マテリアルズ・インフォマティクスへの導き_柴田_nanotech2023
日本一やさしい マテリアルズ・インフォマティクスへの導き_柴田_nanotech2023
 

Similar to 深層自己回帰モデルを用いた俳句の生成と評価に関する研究

DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

Similar to 深層自己回帰モデルを用いた俳句の生成と評価に関する研究 (20)

Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 
2021 09 29_dl_hirata
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
RAPiD
RAPiDRAPiD
RAPiD
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
2021 haizoku
2021 haizoku2021 haizoku
2021 haizoku
 
2021 haizoku
2021 haizoku2021 haizoku
2021 haizoku
 
Inspiration through Observation: Demonstrating the Influence of Automatically...
Inspiration through Observation: Demonstrating the Influence of Automatically...Inspiration through Observation: Demonstrating the Influence of Automatically...
Inspiration through Observation: Demonstrating the Influence of Automatically...
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 

More from harmonylab (18)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
 
CKL_about_panf2022.pdf
CKL_about_panf2022.pdfCKL_about_panf2022.pdf
CKL_about_panf2022.pdf
 

深層自己回帰モデルを用いた俳句の生成と評価に関する研究

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 深層自己回帰モデルを用いた 俳句の生成と評価に関する研究 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 修士2年 平田航大
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 近年の傾向:AIによる芸術作品創作 • 作品の生成 – データ量、 計算機性能の増加 により発展 – 人間の創作支援 などに役立っている • 作品を選ぶ技術 – 生成の精度を上げる上でも重要だが困難 • 何をもって評価付け? • 鑑賞者への依存 プロンプトから小説 の続きを生成[2] テキストから の画像生成[1] [1] High-resolution image synthesis with latent diffusion models, R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022 [2] AIのべりすと, https://ai-novel.com/ (2022年11月19日閲覧) 吾輩は猫である。名前はま だない。 そんな吾輩は今、とあるお 屋敷に飼われている。 飼い主の名前は、夏目漱石。 「なあ~ご」...
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 文芸作品評価の特徴と課題 3 • 知識獲得が重視される文章 Ex)ニュース記事、翻訳文 – 知識獲得に関して、測定可能な部分で文章が評価される • 事実との適合度、読者理解度により競輪予想記事を評価 [3] • 読解者の心の動きが重視される文章 Ex)小説や俳句などの文芸作品 – 鑑賞者への依存性が強い Ex)「分け入っても分け入っても青い山(山頭火)」 をどう鑑賞するかは鑑賞者の年齢、知識などによって異なる – 心の動きを直接測定することが難しい [3]吉田 拓海, 横山 想一郎, 山下 倫央, 川村 秀憲 : 競輪における予想記事の自動生成システムの開発, 電子情報通信学会論文誌 D, Vol.J105-D, 2022 俳句において現状の技術で測定可能な範囲・部分は? 作文者 事実A 情景A 文章 読解者 事実B 情景B 文章を作る目的 1. 事実を伝える 2. 読者の心を動かす • 知識獲得 • 心の動き
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 俳句における作品評価 • 句会で俳人同士が相互評価を行う文化 – 評価が選という形で数値化 (「並選」1点、「特選」2点) Ex)「硝子戸を開けて静かな夏の風」1点/33点 • 意味が通るか、情景が浮かぶか、心が動かされるか • 離散化され、心の動きの絶対量は失われる • 普遍的な評価は存在しない – 流派などよって高く評価される俳句は変わる Ex)日本伝統俳句協会、現代俳句協会 – 単一句会内でも評価は完全には揃わない Ex)最高得点が 9点/22点 本研究の作品評価アプローチ 心の動きの間接評価 句会の得点数 鑑賞者への依存性 単一句会での評価で一部統制 作句 句会の流れ: 選句 選評
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 有季定型句を生成可能な俳句生成器を構築 – 俳句生成に適したアーキティクチャの検証 – 有効な事前学習データ、俳句データの検証 • 俳句生成器としてのモデル性能評価 – 句会の評価プロセスに基づく有季定型句の質の階層的定義 – 階層化に基づくモデル性能、現状の限界点の分析 – 生成句のアンケート調査 5 研究目的 現状のモデル、単一句会におけるレベル、課題 についての知見を見つける 文芸作品評価の第一歩として
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 本発表で扱う俳句 1. 5・7・5 の17 文字(音) で作る 2. 季節の言葉(季題、季語) を入れる [9] – 自然や感動が季語を中心にこめられる [9]公益社団法人日本伝統俳句協会俳句入門講座-1,https://haiku.jp/tsukuru/2430/ (2023年2月4日閲覧) 古池や 蛙飛び込む 水の音 芭蕉 (解釈例) 蛙が古池に飛び込む音が聞こえてくるほど の静けさに対する感動を詠んだ句 最も一般的な形態である、 「有季定型句」を対象とする
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 有季定型句の質の階層的定義 • 句会で重視される「句会の選」「句節の質」 を階層的に分類 – 俳句はどのレイヤーに属するかで分類される Ex)「音立てて水羊羹を流しけり」 句会の選:レイヤー2、句節の質:レイヤー1 • 「レイヤーの高い俳句をモデルが高く評価で きているか?」という定量分析が可能 句節の質 句節同士のつながりがある 句節同士のつながりがない 意味の通らない句節が1つ以上ある 文法的におかしい箇所を1つ以上含む 句会の選 句会で高得点の入る句 句会で数点が入る句 句会で点数の入らない句 句会には出されないレベルの句 レイヤー1 レイヤー2 レイヤー3 レイヤー4
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 作句時に必要な知識 • 俳句のルール – 17音、季語を含むなど • 季語の意味理解 – 過去の俳句などから学ぶ • 俳句の題材となる事柄・感情 – 何を俳句に詠み込むか • 他者からの批評 – 句会での批評 これらをモデルに学習させるには?
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 比較対象のモデル • 俳句生成器として以下を性能比較 – LSTM-based or Transformer-based – Causal 言語モデル or Encoder-Decoder モデル ベースモデル モデル構造 特徴 AWD-LSTM[9] LSTM-based Causal 言語モデル • 代表的なLSTM-based モデル • ベンチマークで当時の SOTA となるパープレキシティ GPT-2[10] Transformer -based Causal 言語モデル • Transformer のデコーダ部分を 用いた生成モデル • 生成タスクで一般に高い性能 T5[11] Encoder-Decoder モデル • オリジナルの Transformer と 同じ構造の Seq2Seq モデル • 柔軟な入力を取れる [9] Regularizing and optimizing LSTM language models, Merity, Stephen, Keskar, Nitish Shirish, Socher, Richard, ICLR, 2018 [10] Language Models are Unsupervised Multitask Learners, Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. and Sutskever, arXiv, 2018 [11] Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W. and Liu, P.J.: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Journal of Machine Learning Research, Vol.21, No.140, pp.1–67, 2020
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 学習データ 全データ 有季定型 句 489,330句 101,428句 サイズ 青空文庫 5.3GB cc100 15GB Wikipedia 約3GB oscar 79GB 俳句データ • インターネット上から収集した俳句約50万句 • 5分割交差検証 • 最小編集距離が5以下の俳句は検証、テスト データから除外 • 俳句として意味の通る作品が少なくとも75% 以上であることは確認済み 事前学習データ • 青空文庫 • 著作権フリーの文学作品 • cc100[12]、Wikipedia、oscar[13] • インターネット上の記事など [12] Wenzek, G., Lachaux, M.-A., Conneau, A., Chaudhary, V., Guzm ́ an, F., Joulin, A. and Grave, E.: CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data, Proceedings of the Twelfth Language Resources and Evaluation Conference, Marseille, France, European Language Resources Association, pp.4003–4012, 2020 [13] OSCAR 2019, https://oscar-project.org/post/oscar-2019/(2023年2月4日閲覧)
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 最終的な学習モデル パラメータ数 俳句データ 事前学習データ AWD-LSTM 2,200万 全データ • 青空文庫 Aozora GPT2 9,000万 • 青空文庫 rinna small 1.1億 • cc100 • Wikipedia rinna medium 3.3億 • cc100 • Wikipedia rinna medium (有季定型) 3.3億 有季定型句のみ • cc100 • Wikipedia T5 2.4億 • cc100 • Wikipedia • oscar
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 モデルの出力とトークン予測 • 語彙数を次元とする確率分布 𝑃 を出力 – Causal 言語モデル (AWD-LSTM, GPT-2) • トリガーを入力後、先頭の単語から順に予測 – Encoder-Decoder モデル (T5) • 上五・中七・下五に分けて予測 • エンコーダへの入力は – 上五予測時:”<kami>”(特殊トークン) – 中七、下五予測時:予測句節以前の句節 𝑃(𝑤𝑖|𝑤𝑖−1, 𝑤𝑖−2, … , 𝑤0) 𝑤𝑖 予測トークン 𝑤𝑖−1, 𝑤𝑖−2, … , 𝑤0 前時刻までのトークン列(文脈) Encoder Decoder 入力 特徴 ベクトル 予測トークン 𝑤𝑖
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 実験 1. 有季定型句の条件を満たす文字列割合算出 – 有季定型句を十分な数生成可能か? – Encoder-Decoder モデルによる学習の効果は? 2. 評価用データセットを用いたモデル性能分析 – 句会で選の取れる句、句節の質の高い俳句をモデ ルが高く評価できるか? 3. アンケート調査による生成句の定性分析 – モデルが句会で得点を取る俳句を生成しうるか?
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 実験 1. 有季定型句の条件を満たす文字列割合算出 – 有季定型句を十分な数生成可能か? – Encoder-Decoder モデルによる学習の効果は?
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 有季定型句の条件を満たす文字列割合 • 検証項目 – 有季定型句を十分な数生成可能か? – Encoder-Decoder モデルによる学習の効果は? • 手法 – ランダムに10,000の文字列を生成 – 俳句の6条件を満たす割合を算出 • 17音 • 音節 – 上五・中七・下五いづれか複数にまたがる形態素がない • 季語を1つのみ含む • 切れ字を1つ以下のみ含む • 未知語を含まない • 句頭に不適切な品詞(助詞など)が出現していない
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 結果 - 有季定型句の条件を満たす割合 17音 音節 季語 切れ字 未知語 句頭 全条件 AWD-LSTM 0.16 0.38 0.43 0.99 0.83 0.46 0.04 Aozora GPT2 0.32 0.52 0.60 0.99 0.95 0.57 0.10 rinna small 0.28 0.49 0.62 0.99 0.96 0.57 0.08 rinna medium 0.25 0.46 0.60 0.99 0.96 0.54 0.07 rinna medium (有季定型) 0.19 0.36 0.63 0.99 0.96 0.48 0.03 T5 0.60 0.77 0.80 0.99 0.98 0.79 0.43 訓練データ 0.53 0.72 0.69 0.99 0.95 0.63 0.25 割合が最小のモデル(3%)であっても、現行の計算環境1分間で 20,000(文字列/分) × 3% = 600句 人間が選句するには十分な句数を提供可能
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 結果 - 有季定型句の条件を満たす割合 17音 音節 季語 切れ字 未知語 句頭 全条件 AWD-LSTM 0.16 0.38 0.43 0.99 0.83 0.46 0.04 Aozora GPT2 0.32 0.52 0.60 0.99 0.95 0.57 0.10 rinna small 0.28 0.49 0.62 0.99 0.96 0.57 0.08 rinna medium 0.25 0.46 0.60 0.99 0.96 0.54 0.07 rinna medium (有季定型) 0.19 0.36 0.63 0.99 0.96 0.48 0.03 T5 0.60 0.77 0.80 0.99 0.98 0.79 0.43 訓練データ 0.53 0.72 0.69 0.99 0.95 0.63 0.25 全条件を満たしている俳句のみで学習した2モデルについて、 • rinna medium は全条件を満たす割合が最小 • T5 は全条件を満たす割合が最大 Encoder-Decoder モデルの学習効果が確認できる
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 実験 2. 評価用データセットを用いたモデル性能分析 – 句会で選の取れる句、句節の質の高い俳句をモデ ルが高く評価できるか?
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 評価用データセットを用いたモデル分析 • 検証項目 – 句会で選の取れる句、句節の質の高い俳句をモデルが 高く評価できるか? • 手法 1. 俳句に「句会の選」「句節の質」のレイヤーが 付与されたラベル付きデータセットを作成 2. 高レイヤーの句にモデルが高い評価値を付与出来 ているかを分析 • モデルが俳句に対して計算する尤度を評価値とみなす 仮定 良い俳句生成器は質の高いレイヤーの俳句に高い 評価値をつけることが可能 ※尤度 モデルが入力を尤もらしい と判断している度合い
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 評価用データセットの作成 • ラベル付きの200句のデータセットを作成 – 「句会の選」と「句節の質」についてレイヤーがラベルと して付与されたもの – Aozora GPT2、ふくし句会に投句された俳句から作成 • 俳句歴3~20年の俳人6名に対しアンケートを実施 1. 句会の選 1. 50~100句の予選句を選出 2. 予選句から「並選」20句~30句、「特選」5~10句を選出 2. 句節の質 • 文法的に正しい俳句かどうか?: 「正しい」「正しくない」 • 意味が通る俳句かどうか?: 「通る」「通らない」 • 句節同士のつながりがあるか?: 「ある」「ない」
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 レイヤー決定のアルゴリズム、レイヤー分布 • 句会の選 – 「特選」2点、「並選」1点で集計 予選句で取られない -> レイヤー4 予選句で1人以上が取る -> レイヤー3 1点 -> レイヤー2 2点以上 -> レイヤー1 • 句節の質 文法が正しくない -> レイヤー4 意味が通らない -> レイヤー3 句節のつながりがない -> レイヤー2 つながりがある -> レイヤー1 句会の選 句節の質 朝焼の大川端を走りけり レイヤー3 レイヤー1 朝まだき百人分の冬至粥 レイヤー1 レイヤー1 評価用データセットの例 レイヤー分布 句 数 レイヤー
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 分析方針 1. 階層構造のレイヤーで閾値を設定 – 閾値以上のレイヤーの句を正例、それ以下を負例 2. 正例・負例を、俳句に対して各モデルで計算される尤度で分類 3. 分類問題の性能からモデルの俳句生成器としての性能を分析 仮定 良い俳句生成器は質の高いレイヤーの俳句 に高い評価値をつけることが可能 見分けたい項目 正例 負例 文法が正しい句 文法が正しい (句節の質3以上) 文法が正しくない (句節の質4) 意味が通る句 意味が通る (句節の質2以上) 通らない (句節の質3以下) 予選句で取られる句 予選句以上 (句会の選3以上) 予選句以下 (句会の選4) 並選以上で取られる句 並選以上 (句会の選2以上) 並選以下 (句会の選3以下)
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 結果 - 評価用データセット分析 • 文法的破綻のある句はモデルは低い尤度をつ けられている 尤度 句 数 尤度上位100句中負例は2句 Ex) 畦焼の嶺に青空ありに揺れ • 文法的に正しくない俳句 正例:句節の質レイヤー3以上 負例:句節の質レイヤー4 具体的な句数 AUC: 0.88 AUC: 0.94 AUC: 0.94 AUC: 0.94 AUC: 0.94 AUC: 0.91 正例は 高尤度 負例は 低尤度
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 結果 - 評価用データセット分析 • 意味の通らない句はモデルはある程度、低い 尤度をつけられている 尤度 句 数 尤度上位100句中負例は11句 Ex) 密談は煙草の花の書くところ • 意味の通らない俳句 正例:句節の質レイヤー2以上 負例:句節の質レイヤー3以下 AUC: 0.81 AUC: 0.85 AUC: 0.87 AUC: 0.86 AUC: 0.87 AUC: 0.83 具体的な句数
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 25 結果 - 評価用データセット分析 • 予選句で選ばれる句には高い尤度をつける 傾向がある 尤度 句 数 尤度上位100句中正例は80句 Ex) 北窓を塞ぎしあとの鏡餅 • 1名に予選句で取られた句 正例:句会の選レイヤー3以上 負例:句会の選レイヤー4 AUC: 0.71 AUC: 0.74 AUC: 0.75 AUC: 0.76 AUC: 0.75 AUC: 0.73 具体的な句数
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 26 結果 - 評価用データセット分析 • 並選以上で取られる可能性のある句と それ以下を捉えることはできない 尤度 句 数 尤度上位100句中負例が60句 Ex) 春風やいきものさがす池のふち • 句節のつながりはあるが、 選は取られない俳句 正例:句会の選レイヤー2以上 負例:句会の選レイヤー3以下 AUC: 0.50 AUC: 0.53 AUC: 0.55 AUC: 0.54 AUC: 0.55 AUC: 0.53 具体的な句数
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 27 モデルの現状と限界点 • モデルが高く評価してしまう句 – 俳句として読むことはできるが、情景が想像でき ない or 当たり前のことを詠んでいる Ex)尤度-40 以上で句会の選レイヤー4となった句 • rinna medium では 12/15 が句節の質レイヤー1 – 水底の石に竜胆咲きにけり – 朝焼の中を電車が通りけり – 白鳥の大き翼をひろげたる 句節のつながりがあり、句会の選が取られない句 をどう高く評価するか現状の課題であるといえる
  • 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 28 実験 3. アンケート調査による生成句の定性分析 – モデルが句会で得点を取る俳句を生成しうるか?
  • 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 29 アンケート調査 • 目的 – モデルが句会で得点を取る俳句を生成しうるかを 検証する • 人間作の俳句との得点比較 • 生成句の句節の質を人間が高く評価するか? • 手法 – 「霧」を含む句5句+秋の句25句をサンプリング • ふくし句会(人間作):30句 – ふくし句会で1点以上入った句 • モデル作:30句×6モデル – 100,000 文字列から有季定型句の内尤度上位句 – 「句会の選」「句節の質」について、 評価用データセットと同じ質問事項を集計
  • 30. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 30 ソースごとの平均値 予選句割合 句会の選 文法 意味が通る 句節のつながり ふくし句会 0.96 0.55 0.98 0.92 0.90 AWD-LSTM 0.10 0.0083 0.79 0.56 0.66 Aozora GPT2 0.46 0.10 0.90 0.80 0.84 Rinna small 0.66 0.23 0.96 0.82 0.89 Rinna medium 0.76 0.15 0.92 0.85 0.90 Rinna medium 有季定型句 0.60 0.10 0.95 0.83 0.85 T5 0.80 0.15 0.94 0.84 0.86 Max 2点 Max 1点 最良のソース:太字 モデル間で最良:下線 人間作のふくし句会の俳句がすべての項目で最良
  • 31. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 31 ソースごとの平均値 予選句割合 句会の選 文法 意味が通る 句節のつながり ふくし句会 0.96 0.55 0.98 0.92 0.90 AWD-LSTM 0.10 0.0083 0.79 0.56 0.66 Aozora GPT2 0.46 0.10 0.90 0.80 0.84 Rinna small 0.66 0.23 0.96 0.82 0.89 Rinna medium 0.76 0.15 0.92 0.85 0.90 Rinna medium 有季定型句 0.60 0.10 0.95 0.83 0.85 T5 0.80 0.15 0.94 0.84 0.86 Max 2点 Max 1点 最良のソース:太字 モデル間で最良:下線 Transformer-based モデルは句節の質に関する項目 はAWD-LSTMよりも人間作の俳句に近い割合
  • 32. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 32 ソースごとの平均値 予選句割合 句会の選 文法 意味が通る 句節のつながり ふくし句会 0.96 0.55 0.98 0.92 0.90 AWD-LSTM 0.10 0.0083 0.79 0.56 0.66 Aozora GPT2 0.46 0.10 0.90 0.80 0.84 Rinna small 0.66 0.23 0.96 0.82 0.89 Rinna medium 0.76 0.15 0.92 0.85 0.90 Rinna medium 有季定型句 0.60 0.10 0.95 0.83 0.85 T5 0.80 0.15 0.94 0.84 0.86 Max 2点 Max 1点 最良のソース:太字 モデル間で最良:下線 AWD-LSTM は「句会の選」「句節の質」ともに 評価の低い結果
  • 33. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 33 モデル作の高得点句についての考察 最高得点は4点 / 8点 でrinna small が生成 – 朝顔のてのひらほどにひろがりぬ • 「朝顔」の表現方法のオリジナリティ(俳人からの評価) – 稲妻や僧と仏の間より • 「稲妻」のインパクト、「僧と仏」を詠んだ神秘性 (俳人からの評価) • 4点以上の人間作は6句のみ • 実際の句会で4点以上獲得した句と同点 今回の定義・実験設定において、 多くの人の心を動かしうる俳句 を生成できていたといえる 人間作の句との比較
  • 34. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 34 結論 • 句会での評価プロセスを基に、俳句生成器の 評価用データセットを作成した – 心の動きの間接的な評価に句会の得点数を用いた • 評価用データセットに基づき、現状のモデルの 特徴と課題を示した – 意味の通る句、予選句で取られうる句を見分ける – 句節のつながりがあり、選の入らない句を見分けるこ とが課題 • 単一句会内で高得点を取りうる俳句が、尤度上位 30句に含まれる俳句生成器を構築した – 俳人の方からも高評価のコメントを頂いた
  • 35. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 35 研究業績 • 国際学会 口頭発表 査読あり(1件) – ○Kodai Hirata, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura : Implementation of Autoregressive Language Models for Generation of Seasonal Fixed-form Haiku in Japanese, KICSS, 2022 • 国内学会 口頭発表 査読無し(3件) – ○平田 航大, 横山 想一郎, 山下 倫央, 川村 秀憲 : Transformerによる言語モデルを 用いた俳句生成とその評価, 第143回情報基礎とアクセス技術研究発表会, 2021 – ○平田 航大, 横山 想一郎, 山下 倫央, 川村 秀憲 : 深層学習による自己回帰モデルを 用いた俳句生成器の評価, 情報処理学会第84回全国大会, 2022 – ○平田 航大, 横山 想一郎, 山下 倫央, 川村 秀憲 : 有季定型句の生成に向けた深層自 己回帰モデルの実装と評価, 第22回データ指向構成マイニングとシミュレーショ ン研究会(SIG-DOCMAS), 2022 • 発表予定 国内学会 口頭発表(2件) – ○平田 航大, 横山 想一郎, 山下 倫央, 川村 秀憲 : 評価用データセットを用いた有季 定型句の生成における深層学習モデルの性能比較,第210回知能システム研究発表 会, 2023 – ○平田 航大, 横山 想一郎, 山下 倫央, 川村 秀憲 : 有季定型句の生成における深層学 習モデル評価用データセットの作成と適用,情報処理学会第85回全国大会, 2023 • 受賞(3件) – 学生奨励賞, 大会優秀賞(情報処理学会第84回全国大会) – Outstanding Student Paper(KICSS2022)

Editor's Notes

  1. ・本研究では創作の一分野として俳句を取り上げる
  2. 3分くらい
  3. ここまでで頑張って4分50秒くらい
  4. 5分40秒
  5. 10分くらいで12分ぴったしくらい
  6. ふらんすはあまりにとほしかたつむり