A Study on the Generation of Clothing Captions Highlighting the Differences between Image Pairs

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
衣服画像ペアの差異を強調した
キャプションの生成に関する研究
2023/02/07
北海道大学工学部
情報エレクトロニクス学科情報理工学コース
複合情報工学分野調和系工学研究室
学部4年阿部晃平

画像キャプション生成
– 1枚の入力画像を説明する自然文を生成
【課題】類似画像に対して汎用的・同一のキャプションが生成され
画像の特徴的な部分が無視されることが多い
特徴的な画像キャプション生成
– 1枚の入力画像をデータベースから取得した類似画像群と比較する
ことで特徴的な部分を捉え、キャプション生成に利用
【課題】類似画像を明示的に指定できないため
指定した複数画像間の関係を考慮できない
研究背景 2
タオルのあるバスルーム
ピンク色のタオルと
青色のシャワー
カーテンがある
バスルーム
類似画像群
特徴的な画像キャプション生成の例[1]
[1] Mao, Y., Chen, L., Jiang, Z., Zhang, D., Zhang, Z., Shao, J. and Xiao, J.: Rethinking the reference-based distinctive image captioning, Proceedings of the 30th ACM International
Conference on Multimedia, pp.4374–4384 (2022)
データベース
入力画像

複数画像間の差異を強調したキャプションの生成
⇒ 指定した複数画像間の関係を考慮したキャプション生成が可能
差異を強調：差異についての記述が多く共通部分についての記述が少ない
本発表の位置付け
– 今回対象とする例：2枚の衣服画像
– 衣服画像ペアの差異を強調したキャプション生成手法の提案と検証
– 差異を属性で表現し、キャプション生成に利用
研究目的 3
衣服の特徴を表す語（Vネック，半袖，ポケットなど）
クルーネック
ショート丈
ロング丈
Vネック
ポケット
差異
ショート丈のクルーネックカーディガン
ポケット付きのロング丈Vネックカーディガン
差異を強調したキャプション
生成の流れ

• 変化画像キャプション生成[2]
– 2枚の入力画像の差異を明示的に記述する1文のキャプションを生成
【本研究】差異を強調したキャプションを入力画像のそれぞれに生成
• 衣服画像キャプション生成[3]
– 入力された1枚の衣服画像を説明する1文のキャプションを生成
【本研究】2枚の衣服画像を入力とする
関連研究 4
[2] Park, D.H., Darrell, T. and Rohrbach, A.: Robust change captioning, Proceedings of the IEEE/CVF International Conference on Computer Vision, pp.4624–4633 (2019)
[3] Yang, X., Zhang, H., Jin, D., Liu, Y., Wu, C.-H., Tan, J., Xie, D., Wang, J. and Wang, X.: Fashion Captioning: Towards Generating Accurate Descriptions with Semantic Rewards,
Computer Vision – ECCV 2020, pp. 1–17 (2020)
a richly textured blend of wool and silk
defines a handsome Italian sport coat framed
with smart notched lapel
変化画像キャプション生成の例[2]
衣服画像キャプション生成の例[3]

提案手法の概要図 5
入力異なる2枚の衣服画像
出力差異を強調したキャプション
A
B
属
性
推
定
属
性
推
定
stripe (0.86)
belt (0.74)
collar (0.63)
⋮
属性 (推定確率)
check (0.81)
sleeveless (0.77)
cotton (0.71)
⋮
A
B
差
異
の
取
得
stripe, collar
Aの推定差異属性
cotton, belt
推定共通属性
check, sleeveless
Bの推定差異属性
Regular collar long-sleeved
dress with stripe pattern
Sleeveless dress in check
with pleats for a fresh look
キ
ャ
プ
シ
ョ
ン
生
成

属性推定モジュール 6
A
B
属
性
推
定
属
性
推
定
stripe (0.86)
belt (0.74)
collar (0.63)
⋮
check (0.81)
sleeveless (0.77)
cotton (0.71)
⋮
A
B
差
異
の
取
得
stripe, collar
cotton, belt
推定共通属性
check, sleeveless
キ
ャ
プ
シ
ョ
ン
生
成
それぞれの衣服画像が持つ属性を推定する

差異の取得モジュール 7
A
B
属
性
推
定
属
性
推
定
stripe (0.86)
belt (0.74)
collar (0.63)
⋮
check (0.81)
sleeveless (0.77)
cotton (0.71)
⋮
A
B
差
異
の
取
得
stripe, collar
cotton, belt
推定共通属性
check, sleeveless
キ
ャ
プ
シ
ョ
ン
生
成
① 推定結果を基に各画像に属性を割り当てる
② 属性を比較
• ペアの一方のみに推定された属性：推定差異属性
• ペアの両方に推定された属性：推定共通属性

キャプション生成モジュール 8
A
B
属
性
推
定
属
性
推
定
stripe (0.86)
belt (0.74)
collar (0.63)
⋮
check (0.81)
sleeveless (0.77)
cotton (0.71)
⋮
A
B
差
異
の
取
得
stripe, collar
cotton, belt
推定共通属性
check, sleeveless
キ
ャ
プ
シ
ョ
ン
生
成
① 各画像に対して独立に複数の
キャプションを生成
② 取得した差異・共通属性を基に
出力となるキャプションを選択

モデル Top-3 Recall Top-5 Recall
WBIT[4] 27.46 35.37
DARN[5] 41.35 51.95
FashionNet[6] 45.52 54.61
衣服属性推定モデル 9
衣服属性推定モデルの精度の比較（DeepFashionデータセット）
Top-k Recall：推定確率上位k件の
属性を割り当て，正解の属性の中で
いくつ正解したかを測る
DeepFashion[6]：衣服属性推定の
ベンチマークデータセット
WBIT：CNNにMLPを接続したモデル
DARN：ECサイト，街頭撮影画像のドメイン用に2つのCNNを用いるモデル
FashionNet：袖や裾の位置を表すランドマークを同時に推定し，その情報を属性推定に
補助的に用いるモデル
2枚の画像の推定属性の差分をとる ⇒ 単一画像に対する属性推定の精度が高い
本研究で望ましいモデル
高い精度が確認されているFashionNetの事前学習モデルを選択
[4] HadiKiapour, M., Han, X., Lazebnik, S., Berg, A.C. and Berg, T.L.: Where to Buy It: Matching Street Clothing Photos in Online Shops, Proceedings of the IEEE International
Conference on Computer Vision (ICCV) (2015).
[5] Huang, J., Feris, R.S., Chen, Q. and Yan, S.: Cross-domain image retrieval with a dual attribute-aware ranking network, Proceedings of the IEEE international conference on
computer vision, pp.1062–1070 (2015).
[6] Liu, Z., Luo, P., Qiu, S., Wang, X. and Tang, X.: Deepfashion: Powering robust clothes recognition and retrieval with rich annotations, Proceedings of the IEEE conference on
computer vision and pattern recognition, pp. 1096–1104 (2016).

画像キャプション生成モデル 10
画像キャプション生成モデルの比較（MS COCOデータセット）
[7] Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan. Show and tell: A neural image caption generator. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 3156–3164, 2015.
[8] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In International conference
on machine learning, pp. 2048–2057. PMLR, 2015.
[9] Steven J Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, and Vaibhava Goel. Selfcritical sequence training for image captioning. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp.
7008–7024, 2017.
[10] Ron Mokady, Amir Hertz, and Amit H Bermano. Clipcap: Clip prefix for image captioning. arXiv preprint arXiv:2111.09734, 2021.
[11] Peng Wang, An Yang, Rui Men, Junyang Lin, Shuai Bai, Zhikang Li, Jianxin Ma, Chang Zhou, Jingren Zhou, and Hongxia Yang. Ofa: Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning
framework. In International Conference on Machine Learning, pp. 23318–23340. PMLR, 2022.
• 一般的な画像データセットにおける精度が高い
• 将来的に日本語キャプションの生成を目標とする ⇒ 出力キャプションの日本語化
の実現可能性が高い
本研究で望ましいモデル
モデル BLEU4 METEOR 詳細
NIC[7] 27.7 23.7 CNN+LSTMのエンコーダデコーダモデル
NICA[8] 25.0 23.9 NICに注意機構を導入
SCST[9] 30.9 24.5 強化学習を用いる
ClipCap[10] 39.5 30.5 事前学習モデルCLIP＋言語モデルGPT-2
OFA[11] 44.9 32.5 大規模画像言語ペアを用いた事前学習
高い精度が確認されており、日本語の事前学習
モデルが利用可能なClipCapを選択

衣服画像データセット 11
衣服画像データセットの比較
カテゴリ：衣服の分類を表す語（tee, dress, skirt, pantsなど）
属性を利用したキャプション生成 ⇒ 属性とキャプションを持つ
本研究で望ましいデータ
データセット画像数属性数カテゴリ数キャプションの有無
FACAD170K[12] 1,178,849 1,990 178 有
DeepFashion[6] 1,289,222 1,000 150 無
FashionGen[13] 1,325,536 - 148 有
iFashion[14] 1,062,550 1,228 105 無
Fashion-MNIST[15] 1,070,000 - 110 無
属性及びキャプションを持つFACAD170Kを選択
[12] Cai, C., Yap, K.-H. and Wang, S.: Attribute Conditioned Fashion Image Captioning, 2022 IEEE International Conference on Image Processing (ICIP), pp.1921–1925 (2022).
[13] Rostamzadeh, N., Hosseini, S., Boquet, T., Stokowiec, W., Zhang, Y., Jauvin, C. and Pal, C.: Fashion-gen: The generative fashion dataset and challenge, arXiv preprint
arXiv:1806.08317 (2018).
[14] Guo, S., Huang, W., Zhang, X., Srikhanta, P., Cui, Y., Li, Y., Adam, H., Scott, M.R. and Belongie, S.: The imaterialist fashion attribute dataset, Proceedings of the IEEE/CVF
International Conference on Computer Vision Workshops, pp.0–0 (2019).
[15] Xiao, H., Rasul, K. and Vollgraf, R.: Fashion-mnist: a novel image dataset for benchmarking machine learning algorithms, arXiv preprint arXiv:1708.07747 (2017).

FACAD170K 12
カテゴリ：blouse
キャプション：A neat band
collar is beautifully balanced
by dropped shoulder sleeve
in a staple button up top cut
from stretch kissed organic
cotton.
メタデータ：Front button
closure, Elbow-length
sleeves, 96% organic cotton,
4% spandex, Machine wash
カテゴリ：skirt
キャプション：A softly hued
floral grows and flow
between the accordion
pleat of this midi length
skirt that freshens any look
you create.
メタデータ：Midi-length,
100% polyester, Hand
wash, Line dry
各データが持つ情報
• 衣服画像：着用画像または衣服のみの画像
• カテゴリ：1画像につき1個
• 属性：1画像につき複数個（図の太字の単語）
• メタデータ
データの例
画像数
学習データ 172,849
検証データ 10,000
テストデータ 5,000
データセットの内訳

I. 属性推定モデルの精度の検証
【目的】提案手法の検証に用いるデータの選定
【方法】FACAD170Kの検証データを属性推定モデルに適用し精度を確認
【結果】FACAD170Kの990個の属性の内、26個の属性に対する
属性推定精度を確認できた
⇒ 今回はこれらの属性を持つデータを扱う
II. 属性の割り当て方法の検証
【目的】属性の割り当て方法の選定
【方法】FACAD170Kの検証データのペアデータに属性を割り当て、
差異属性のRecallを比較
【結果】推定確率上位9件の属性を割り当てる方法と
推定確率0.023以上の属性を割り当てる方法が最も良い評価を得た
予備実験 13
abstract, chiffon, classic, collar, cotton, crochet, denim, faux, fit, flare, floral, graphic, knit, lace,
leather, maxi, muscle, pleated, pocket, print, red, skater, sleeve, sleeveless, stripe, wash

提案手法には3つの設定が必要 ⇒ 複数の組み合わせ
– 差異の取得モジュール
1. 属性の割り当て方法
– キャプション生成モジュール
2. 複数キャプションの生成方法
3. 出力キャプションの選択方法
提案手法の検証はアンケート調査によって行う（実験②）
実験目的
– アンケート調査に用いる提案手法の設定の検討
方法
– 各手法の出力キャプションについて属性を用いた自動評価を行う
実験① 提案手法の設定の検討 14
前提

データ
– 予備実験によって選定したFACAD170Kのテストデータから
取得した衣服画像ペアデータ
画像キャプション生成モデルClipCapの学習
– FACAD170K学習データ：172,849枚
– 学習率：2e-5，バッチサイズ：64，エポック数：50
キャプション生成数
– 各画像に異なるキャプションを100文ずつ生成
– 生成時間を考慮
従来手法
– ClipCap（ビームサーチ：ビームサイズ5）
実験設定 15

1. 属性の割り当て方法（予備実験の結果より）
– 推定確率が上位9件の属性を割り当て
– 推定確率が閾値0.023以上の属性を割り当て
2. 複数キャプションの生成方法
– ビームサーチ
– 言語モデルの確率分布に従ったサンプリング
3. 出力キャプションの選択方法
– 推定差異属性＋推定共通属性を最も多く含むもの
– 推定差異属性を最も多く含み，推定共通属性を最も少なく含むもの
– 推定差異属性を最も多く含むもの
‒ 候補が複数ある場合、ビームサーチなら最もスコアが高いもの、サンプリング
ならランダムに選択
今回用いた提案手法の設定 16
今回は計12通りの設定を用いた提案手法の出力を評価

衣服画像ペアの一方のみが正解として持つ属性：正解差異属性
衣服画像ペアの両方が正解として持つ属性：正解共通属性
望ましい出力キャプション
– 正解差異属性を記述していて、正解共通属性を記述していない
評価指標
– 出力キャプションに現れる属性と
‒ 正解差異属性とのF値：大きい方が評価が高い
‒ 正解共通属性とのF値：小さい方が評価が高い
– 各手法の出力キャプションについて計算し、平均をとる
出力キャプションの評価 17

手法
属性
割り当て
キャプション
生成
キャプション
選択差異
F値
共通
F値
差異共通
ClipCap - ビームサーチ - - 0.224 0.321
提
案
手
法
推定確率
上位9件
ビームサーチ
多
多 0.285 0.327
少 0.373 0.226
- 0.344 0.274
サンプリング
多 0.292 0.319
少 0.385 0.202
- 0.352 0.255
推定確率
0.023以上
ビームサーチ
多 0.285 0.344
少 0.362 0.298
- 0.335 0.298
サンプリング
多 0.294 0.328
少 0.356 0.227
- 0.344 0.277
各手法の出力キャプションの評価値の平均 18

手法
属性
割り当て
キャプション
生成
キャプション
選択差異
F値
共通
F値
差異共通
ClipCap - ビームサーチ - - 0.224 0.321
提
案
手
法
推定確率
上位9件
ビームサーチ
多
多 0.285 0.327
少 0.373 0.226
- 0.344 0.274
サンプリング
多 0.292 0.319
少 0.385 0.202
- 0.352 0.255
推定確率
0.023以上
ビームサーチ
多 0.285 0.344
少 0.362 0.298
- 0.335 0.298
サンプリング
多 0.294 0.328
少 0.356 0.227
- 0.344 0.277
各手法の出力キャプションの評価値の平均 19
今回の12通りの設定の中で最も高い評価を得た手法
⇒ この手法の出力キャプションについてアンケート調査

目的
– 提案手法の出力キャプションが差異を
強調したキャプションとして適切か調査
対象
– 20代男女15人
表示した画像とキャプション
– 衣服画像ペア：5つ
‒ 類似ペア：3つ、非類似ペア：2つ
‒ 正解属性の類似度を基にサンプリング
‒ 属性推定に成功した画像
– キャプション
‒ 提案手法、従来手法の出力
‒ 日本語訳を提示
実験② アンケート調査 20
類似ペアの表示例
非類似ペアの表示例

• 提案手法
– 今回の設定の中で最も評価が高かった設定
– 属性割り当て上位9件、サンプリング、差異：多、共通：少
• 従来手法
– FACAD170Kを学習した画像キャプション生成モデルClipCap
‒ ビームサーチ
• 調査結果の分析に用いた検定手法
– Z検定
‒ 2群の比率の差の検定
– 有意水準：5%
– 帰無仮説：2群（提案手法と従来手法）の回答割合が等しい
– 多重比較検定
‒ ボンフェローニ補正
各手法の設定と検定手法 21

差異のある特徴について 22
Q 衣服ペアで差異のある特徴に関する記述があるか
67.6%
提案手法従来手法
92.3%
「1つだけある」または「複数ある」と回答された割合
– 提案手法と従来手法との差はZ検定により有意な差であることを確認
– 提案手法は従来手法に比べ、差異のある特徴を記述したキャプションを
多く生成できたといえる
P値：1.84 × 10−7

共通する特徴について 23
Q 衣服ペアで共通する特徴に関する記述があるか
67.6%
92.3%
31.5%
63.0%
「無い」と回答された割合
– 提案手法は従来手法に比べ、共通した特徴を記述しないキャプションを
多く生成できたといえる
P値：7.98 × 10−8

キャプション全体について 24
Q 衣服ペアの差異を強調したキャプションとして適切か
47.3%
「適切」または「どちらかといえば適切」と回答された割合
– 提案手法は従来手法に比べ、差異を強調したキャプションとして
適切と感じられるキャプションを多く生成できたといえる
89.2%
P値：3.19 × 10−6

類似ペアと非類似ペアにおける結果の比較 25
47.3%
提案手法
類似ペア非類似ペア
従来手法提案手法従来手法
92.3%
84.6%
43.5%
69.2%
「適切」または「どちらかといえば適切」と回答された割合
– 提案手法と従来手法との差は類似ペアにおいて大きい
– 提案手法は類似ペアに対してより有効であるといえる
‒ 非類似ペアは差異のある特徴を多く持つため従来手法でも十分に
差異を記述できるためと考えられる

従来手法の出力キャプション例 26
特徴的な柄やポケットに関する記述が無い
回答数

提案手法の出力キャプション例 27
推定差異属性が含まれる ⇒ 差異のある特徴を記述
回答数

まとめ
– 衣服画像ペアの差異を強調したキャプションの生成手法の提案
– アンケート調査の結果、提案手法は差異を強調したキャプション
として適切と感じられるキャプションを多く生成できたことを確認
– 提案手法の有効性は非類似ペアよりも類似ペアに対して高いことを
確認
今後の展望
– 今回の限られた属性では表現することのできない衣服の特徴がある
‒ データの整備により扱うことのできる属性を増やす
– 出力キャプションの日本語化のためのデータ収集
まとめと今後の展望 28

国内学会口頭発表査読無し（1件）
• 〇阿部晃平，横山想一郎，山下倫央，川村秀憲：画像群の差異の
説明に向けた服飾画像のキャプション生成手法の検証，第44回社
会におけるAI研究会，オンライン，2022．
発表予定国内学会口頭発表（1件）
• 〇阿部晃平，横山想一郎，山下倫央，川村秀憲：衣服画像ペアの
属性推定結果の差分を用いた衣服紹介文の生成，社会システムと
情報技術研究ウィーク(WSSIT2023)，2023．
研究業績 29

A Study on the Generation of Clothing Captions Highlighting the Differences between Image Pairs

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a A Study on the Generation of Clothing Captions Highlighting the Differences between Image Pairs

Similar a A Study on the Generation of Clothing Captions Highlighting the Differences between Image Pairs (20)

Más de harmonylab

Más de harmonylab (19)

A Study on the Generation of Clothing Captions Highlighting the Differences between Image Pairs