SlideShare una empresa de Scribd logo
1 de 29
Descargar para leer sin conexión
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
衣服画像ペアの差異を強調した
キャプションの生成に関する研究
2023/02/07
北海道大学 工学部
情報エレクトロニクス学科 情報理工学コース
複合情報工学分野 調和系工学研究室
学部4年 阿部 晃平
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
画像キャプション生成
– 1枚の入力画像を説明する自然文を生成
【課題】類似画像に対して汎用的・同一のキャプションが生成され
画像の特徴的な部分が無視されることが多い
特徴的な画像キャプション生成
– 1枚の入力画像をデータベースから取得した類似画像群と比較する
ことで特徴的な部分を捉え、キャプション生成に利用
【課題】類似画像を明示的に指定できないため
指定した複数画像間の関係を考慮できない
研究背景 2
タオルのあるバスルーム
ピンク色のタオルと
青色のシャワー
カーテンがある
バスルーム
類似画像群
特徴的な画像キャプション生成の例[1]
[1] Mao, Y., Chen, L., Jiang, Z., Zhang, D., Zhang, Z., Shao, J. and Xiao, J.: Rethinking the reference-based distinctive image captioning, Proceedings of the 30th ACM International
Conference on Multimedia, pp.4374–4384 (2022)
データベース
入力画像
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
複数画像間の差異を強調したキャプションの生成
⇒ 指定した複数画像間の関係を考慮したキャプション生成が可能
差異を強調:差異についての記述が多く共通部分についての記述が少ない
本発表の位置付け
– 今回対象とする例:2枚の衣服画像
– 衣服画像ペアの差異を強調したキャプション生成手法の提案と検証
– 差異を属性で表現し、キャプション生成に利用
研究目的 3
衣服の特徴を表す語(Vネック,半袖,ポケットなど)
クルーネック
ショート丈
ロング丈
Vネック
ポケット
差異
ショート丈のクルーネックカーディガン
ポケット付きのロング丈Vネックカーディガン
差異を強調したキャプション
生成の流れ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 変化画像キャプション生成[2]
– 2枚の入力画像の差異を明示的に記述する1文のキャプションを生成
【本研究】差異を強調したキャプションを入力画像のそれぞれに生成
• 衣服画像キャプション生成[3]
– 入力された1枚の衣服画像を説明する1文のキャプションを生成
【本研究】2枚の衣服画像を入力とする
関連研究 4
[2] Park, D.H., Darrell, T. and Rohrbach, A.: Robust change captioning, Proceedings of the IEEE/CVF International Conference on Computer Vision, pp.4624–4633 (2019)
[3] Yang, X., Zhang, H., Jin, D., Liu, Y., Wu, C.-H., Tan, J., Xie, D., Wang, J. and Wang, X.: Fashion Captioning: Towards Generating Accurate Descriptions with Semantic Rewards,
Computer Vision – ECCV 2020, pp. 1–17 (2020)
a richly textured blend of wool and silk
defines a handsome Italian sport coat framed
with smart notched lapel
変化画像キャプション生成の例[2]
衣服画像キャプション生成の例[3]
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法の概要図 5
入力 異なる2枚の衣服画像
出力 差異を強調したキャプション
A
B
属
性
推
定
属
性
推
定
stripe (0.86)
belt (0.74)
collar (0.63)
⋮
属性 (推定確率)
check (0.81)
sleeveless (0.77)
cotton (0.71)
⋮
属性 (推定確率)
A
B
差
異
の
取
得
stripe, collar
Aの推定差異属性
cotton, belt
推定共通属性
check, sleeveless
Bの推定差異属性
Regular collar long-sleeved
dress with stripe pattern
Sleeveless dress in check
with pleats for a fresh look
キ
ャ
プ
シ
ョ
ン
生
成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
属性推定モジュール 6
入力 異なる2枚の衣服画像
出力 差異を強調したキャプション
A
B
属
性
推
定
属
性
推
定
stripe (0.86)
belt (0.74)
collar (0.63)
⋮
属性 (推定確率)
check (0.81)
sleeveless (0.77)
cotton (0.71)
⋮
属性 (推定確率)
A
B
差
異
の
取
得
stripe, collar
Aの推定差異属性
cotton, belt
推定共通属性
check, sleeveless
Bの推定差異属性
Regular collar long-sleeved
dress with stripe pattern
Sleeveless dress in check
with pleats for a fresh look
キ
ャ
プ
シ
ョ
ン
生
成
それぞれの衣服画像が持つ属性を推定する
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
差異の取得モジュール 7
入力 異なる2枚の衣服画像
出力 差異を強調したキャプション
A
B
属
性
推
定
属
性
推
定
stripe (0.86)
belt (0.74)
collar (0.63)
⋮
属性 (推定確率)
check (0.81)
sleeveless (0.77)
cotton (0.71)
⋮
属性 (推定確率)
A
B
差
異
の
取
得
stripe, collar
Aの推定差異属性
cotton, belt
推定共通属性
check, sleeveless
Bの推定差異属性
Regular collar long-sleeved
dress with stripe pattern
Sleeveless dress in check
with pleats for a fresh look
キ
ャ
プ
シ
ョ
ン
生
成
① 推定結果を基に各画像に属性を割り当てる
② 属性を比較
• ペアの一方のみに推定された属性:推定差異属性
• ペアの両方に推定された属性:推定共通属性
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
キャプション生成モジュール 8
入力 異なる2枚の衣服画像
出力 差異を強調したキャプション
A
B
属
性
推
定
属
性
推
定
stripe (0.86)
belt (0.74)
collar (0.63)
⋮
属性 (推定確率)
check (0.81)
sleeveless (0.77)
cotton (0.71)
⋮
属性 (推定確率)
A
B
差
異
の
取
得
stripe, collar
Aの推定差異属性
cotton, belt
推定共通属性
check, sleeveless
Bの推定差異属性
Regular collar long-sleeved
dress with stripe pattern
Sleeveless dress in check
with pleats for a fresh look
キ
ャ
プ
シ
ョ
ン
生
成
① 各画像に対して独立に複数の
キャプションを生成
② 取得した差異・共通属性を基に
出力となるキャプションを選択
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
モデル Top-3 Recall Top-5 Recall
WBIT[4] 27.46 35.37
DARN[5] 41.35 51.95
FashionNet[6] 45.52 54.61
衣服属性推定モデル 9
衣服属性推定モデルの精度の比較(DeepFashionデータセット)
Top-k Recall:推定確率上位k件の
属性を割り当て,正解の属性の中で
いくつ正解したかを測る
DeepFashion[6]:衣服属性推定の
ベンチマークデータセット
WBIT:CNNにMLPを接続したモデル
DARN:ECサイト,街頭撮影画像のドメイン用に2つのCNNを用いるモデル
FashionNet:袖や裾の位置を表すランドマークを同時に推定し,その情報を属性推定に
補助的に用いるモデル
2枚の画像の推定属性の差分をとる ⇒ 単一画像に対する属性推定の精度が高い
本研究で望ましいモデル
高い精度が確認されているFashionNetの事前学習モデルを選択
[4] HadiKiapour, M., Han, X., Lazebnik, S., Berg, A.C. and Berg, T.L.: Where to Buy It: Matching Street Clothing Photos in Online Shops, Proceedings of the IEEE International
Conference on Computer Vision (ICCV) (2015).
[5] Huang, J., Feris, R.S., Chen, Q. and Yan, S.: Cross-domain image retrieval with a dual attribute-aware ranking network, Proceedings of the IEEE international conference on
computer vision, pp.1062–1070 (2015).
[6] Liu, Z., Luo, P., Qiu, S., Wang, X. and Tang, X.: Deepfashion: Powering robust clothes recognition and retrieval with rich annotations, Proceedings of the IEEE conference on
computer vision and pattern recognition, pp. 1096–1104 (2016).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
画像キャプション生成モデル 10
画像キャプション生成モデルの比較(MS COCOデータセット)
[7] Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan. Show and tell: A neural image caption generator. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 3156–3164, 2015.
[8] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In International conference
on machine learning, pp. 2048–2057. PMLR, 2015.
[9] Steven J Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, and Vaibhava Goel. Selfcritical sequence training for image captioning. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp.
7008–7024, 2017.
[10] Ron Mokady, Amir Hertz, and Amit H Bermano. Clipcap: Clip prefix for image captioning. arXiv preprint arXiv:2111.09734, 2021.
[11] Peng Wang, An Yang, Rui Men, Junyang Lin, Shuai Bai, Zhikang Li, Jianxin Ma, Chang Zhou, Jingren Zhou, and Hongxia Yang. Ofa: Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning
framework. In International Conference on Machine Learning, pp. 23318–23340. PMLR, 2022.
• 一般的な画像データセットにおける精度が高い
• 将来的に日本語キャプションの生成を目標とする ⇒ 出力キャプションの日本語化
の実現可能性が高い
本研究で望ましいモデル
モデル BLEU4 METEOR 詳細
NIC[7] 27.7 23.7 CNN+LSTMのエンコーダデコーダモデル
NICA[8] 25.0 23.9 NICに注意機構を導入
SCST[9] 30.9 24.5 強化学習を用いる
ClipCap[10] 39.5 30.5 事前学習モデルCLIP+言語モデルGPT-2
OFA[11] 44.9 32.5 大規模画像言語ペアを用いた事前学習
高い精度が確認されており、日本語の事前学習
モデルが利用可能なClipCapを選択
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
衣服画像データセット 11
衣服画像データセットの比較
カテゴリ:衣服の分類を表す語(tee, dress, skirt, pantsなど)
属性を利用したキャプション生成 ⇒ 属性とキャプションを持つ
本研究で望ましいデータ
データセット 画像数 属性数 カテゴリ数 キャプションの有無
FACAD170K[12] 1,178,849 1,990 178 有
DeepFashion[6] 1,289,222 1,000 150 無
FashionGen[13] 1,325,536 - 148 有
iFashion[14] 1,062,550 1,228 105 無
Fashion-MNIST[15] 1,070,000 - 110 無
属性及びキャプションを持つFACAD170Kを選択
[12] Cai, C., Yap, K.-H. and Wang, S.: Attribute Conditioned Fashion Image Captioning, 2022 IEEE International Conference on Image Processing (ICIP), pp.1921–1925 (2022).
[13] Rostamzadeh, N., Hosseini, S., Boquet, T., Stokowiec, W., Zhang, Y., Jauvin, C. and Pal, C.: Fashion-gen: The generative fashion dataset and challenge, arXiv preprint
arXiv:1806.08317 (2018).
[14] Guo, S., Huang, W., Zhang, X., Srikhanta, P., Cui, Y., Li, Y., Adam, H., Scott, M.R. and Belongie, S.: The imaterialist fashion attribute dataset, Proceedings of the IEEE/CVF
International Conference on Computer Vision Workshops, pp.0–0 (2019).
[15] Xiao, H., Rasul, K. and Vollgraf, R.: Fashion-mnist: a novel image dataset for benchmarking machine learning algorithms, arXiv preprint arXiv:1708.07747 (2017).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
FACAD170K 12
カテゴリ:blouse
キャプション:A neat band
collar is beautifully balanced
by dropped shoulder sleeve
in a staple button up top cut
from stretch kissed organic
cotton.
メタデータ:Front button
closure, Elbow-length
sleeves, 96% organic cotton,
4% spandex, Machine wash
カテゴリ:skirt
キャプション:A softly hued
floral grows and flow
between the accordion
pleat of this midi length
skirt that freshens any look
you create.
メタデータ:Midi-length,
100% polyester, Hand
wash, Line dry
各データが持つ情報
• 衣服画像:着用画像または衣服のみの画像
• カテゴリ:1画像につき1個
• 属性:1画像につき複数個(図の太字の単語)
• メタデータ
データの例
画像数
学習データ 172,849
検証データ 10,000
テストデータ 5,000
データセットの内訳
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
I. 属性推定モデルの精度の検証
【目的】提案手法の検証に用いるデータの選定
【方法】FACAD170Kの検証データを属性推定モデルに適用し精度を確認
【結果】FACAD170Kの990個の属性の内、26個の属性に対する
属性推定精度を確認できた
⇒ 今回はこれらの属性を持つデータを扱う
II. 属性の割り当て方法の検証
【目的】属性の割り当て方法の選定
【方法】FACAD170Kの検証データのペアデータに属性を割り当て、
差異属性のRecallを比較
【結果】推定確率上位9件の属性を割り当てる方法と
推定確率0.023以上の属性を割り当てる方法が最も良い評価を得た
予備実験 13
abstract, chiffon, classic, collar, cotton, crochet, denim, faux, fit, flare, floral, graphic, knit, lace,
leather, maxi, muscle, pleated, pocket, print, red, skater, sleeve, sleeveless, stripe, wash
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法には3つの設定が必要 ⇒ 複数の組み合わせ
– 差異の取得モジュール
1. 属性の割り当て方法
– キャプション生成モジュール
2. 複数キャプションの生成方法
3. 出力キャプションの選択方法
提案手法の検証はアンケート調査によって行う(実験②)
実験目的
– アンケート調査に用いる提案手法の設定の検討
方法
– 各手法の出力キャプションについて属性を用いた自動評価を行う
実験① 提案手法の設定の検討 14
前提
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
データ
– 予備実験によって選定したFACAD170Kのテストデータから
取得した衣服画像ペアデータ
画像キャプション生成モデルClipCapの学習
– FACAD170K学習データ:172,849枚
– 学習率:2e-5,バッチサイズ:64,エポック数:50
キャプション生成数
– 各画像に異なるキャプションを100文ずつ生成
– 生成時間を考慮
従来手法
– ClipCap(ビームサーチ:ビームサイズ5)
実験設定 15
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1. 属性の割り当て方法(予備実験の結果より)
– 推定確率が上位9件の属性を割り当て
– 推定確率が閾値0.023以上の属性を割り当て
2. 複数キャプションの生成方法
– ビームサーチ
– 言語モデルの確率分布に従ったサンプリング
3. 出力キャプションの選択方法
– 推定差異属性+推定共通属性を最も多く含むもの
– 推定差異属性を最も多く含み,推定共通属性を最も少なく含むもの
– 推定差異属性を最も多く含むもの
‒ 候補が複数ある場合、ビームサーチなら最もスコアが高いもの、サンプリング
ならランダムに選択
今回用いた提案手法の設定 16
今回は計12通りの設定を用いた提案手法の出力を評価
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
衣服画像ペアの一方のみが正解として持つ属性:正解差異属性
衣服画像ペアの両方が正解として持つ属性:正解共通属性
望ましい出力キャプション
– 正解差異属性を記述していて、正解共通属性を記述していない
評価指標
– 出力キャプションに現れる属性と
‒ 正解差異属性とのF値:大きい方が評価が高い
‒ 正解共通属性とのF値:小さい方が評価が高い
– 各手法の出力キャプションについて計算し、平均をとる
出力キャプションの評価 17
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
手法
属性
割り当て
キャプション
生成
キャプション
選択 差異
F値
共通
F値
差異 共通
ClipCap - ビームサーチ - - 0.224 0.321
提
案
手
法
推定確率
上位9件
ビームサーチ
多
多 0.285 0.327
少 0.373 0.226
- 0.344 0.274
サンプリング
多 0.292 0.319
少 0.385 0.202
- 0.352 0.255
推定確率
0.023以上
ビームサーチ
多 0.285 0.344
少 0.362 0.298
- 0.335 0.298
サンプリング
多 0.294 0.328
少 0.356 0.227
- 0.344 0.277
各手法の出力キャプションの評価値の平均 18
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
手法
属性
割り当て
キャプション
生成
キャプション
選択 差異
F値
共通
F値
差異 共通
ClipCap - ビームサーチ - - 0.224 0.321
提
案
手
法
推定確率
上位9件
ビームサーチ
多
多 0.285 0.327
少 0.373 0.226
- 0.344 0.274
サンプリング
多 0.292 0.319
少 0.385 0.202
- 0.352 0.255
推定確率
0.023以上
ビームサーチ
多 0.285 0.344
少 0.362 0.298
- 0.335 0.298
サンプリング
多 0.294 0.328
少 0.356 0.227
- 0.344 0.277
各手法の出力キャプションの評価値の平均 19
今回の12通りの設定の中で最も高い評価を得た手法
⇒ この手法の出力キャプションについてアンケート調査
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
目的
– 提案手法の出力キャプションが差異を
強調したキャプションとして適切か調査
対象
– 20代男女15人
表示した画像とキャプション
– 衣服画像ペア:5つ
‒ 類似ペア:3つ、非類似ペア:2つ
‒ 正解属性の類似度を基にサンプリング
‒ 属性推定に成功した画像
– キャプション
‒ 提案手法、従来手法の出力
‒ 日本語訳を提示
実験② アンケート調査 20
類似ペアの表示例
非類似ペアの表示例
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 提案手法
– 今回の設定の中で最も評価が高かった設定
– 属性割り当て上位9件、サンプリング、差異:多、共通:少
• 従来手法
– FACAD170Kを学習した画像キャプション生成モデルClipCap
‒ ビームサーチ
• 調査結果の分析に用いた検定手法
– Z検定
‒ 2群の比率の差の検定
– 有意水準:5%
– 帰無仮説:2群(提案手法と従来手法)の回答割合が等しい
– 多重比較検定
‒ ボンフェローニ補正
各手法の設定と検定手法 21
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
差異のある特徴について 22
Q 衣服ペアで差異のある特徴に関する記述があるか
67.6%
提案手法 従来手法
92.3%
「1つだけある」または「複数ある」と回答された割合
– 提案手法と従来手法との差はZ検定により有意な差であることを確認
– 提案手法は従来手法に比べ、差異のある特徴を記述したキャプションを
多く生成できたといえる
P値:1.84 × 10−7
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
共通する特徴について 23
Q 衣服ペアで共通する特徴に関する記述があるか
67.6%
92.3%
提案手法 従来手法
31.5%
63.0%
「無い」と回答された割合
– 提案手法と従来手法との差はZ検定により有意な差であることを確認
– 提案手法は従来手法に比べ、共通した特徴を記述しないキャプションを
多く生成できたといえる
P値:7.98 × 10−8
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
キャプション全体について 24
Q 衣服ペアの差異を強調したキャプションとして適切か
47.3%
提案手法 従来手法
「適切」または「どちらかといえば適切」と回答された割合
– 提案手法と従来手法との差はZ検定により有意な差であることを確認
– 提案手法は従来手法に比べ、差異を強調したキャプションとして
適切と感じられるキャプションを多く生成できたといえる
89.2%
P値:3.19 × 10−6
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
類似ペアと非類似ペアにおける結果の比較 25
Q 衣服ペアの差異を強調したキャプションとして適切か
47.3%
提案手法
類似ペア 非類似ペア
従来手法 提案手法 従来手法
92.3%
84.6%
43.5%
69.2%
「適切」または「どちらかといえば適切」と回答された割合
– 提案手法と従来手法との差は類似ペアにおいて大きい
– 提案手法は類似ペアに対してより有効であるといえる
‒ 非類似ペアは差異のある特徴を多く持つため従来手法でも十分に
差異を記述できるためと考えられる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
従来手法の出力キャプション例 26
特徴的な柄やポケットに関する記述が無い
Q 衣服ペアの差異を強調したキャプションとして適切か
回答数
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法の出力キャプション例 27
推定差異属性が含まれる ⇒ 差異のある特徴を記述
回答数
Q 衣服ペアの差異を強調したキャプションとして適切か
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
まとめ
– 衣服画像ペアの差異を強調したキャプションの生成手法の提案
– アンケート調査の結果、提案手法は差異を強調したキャプション
として適切と感じられるキャプションを多く生成できたことを確認
– 提案手法の有効性は非類似ペアよりも類似ペアに対して高いことを
確認
今後の展望
– 今回の限られた属性では表現することのできない衣服の特徴がある
‒ データの整備により扱うことのできる属性を増やす
– 出力キャプションの日本語化のためのデータ収集
まとめと今後の展望 28
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
国内学会 口頭発表 査読無し(1件)
• 〇阿部晃平,横山想一郎,山下倫央,川村秀憲:画像群の差異の
説明に向けた服飾画像のキャプション生成手法の検証,第44回社
会におけるAI研究会,オンライン,2022.
発表予定 国内学会 口頭発表(1件)
• 〇阿部晃平,横山想一郎,山下倫央,川村秀憲:衣服画像ペアの
属性推定結果の差分を用いた衣服紹介文の生成,社会システムと
情報技術研究ウィーク(WSSIT2023),2023.
研究業績 29

Más contenido relacionado

La actualidad más candente

画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
MPRG_Chubu_University
 

La actualidad más candente (20)

【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
[DL輪読会]Whole-Body Human Pose Estimation in the Wild
[DL輪読会]Whole-Body Human Pose Estimation in the Wild[DL輪読会]Whole-Body Human Pose Estimation in the Wild
[DL輪読会]Whole-Body Human Pose Estimation in the Wild
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
 
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
 
Deep Learningで似た画像を見つける技術 | OHS勉強会#5
Deep Learningで似た画像を見つける技術 | OHS勉強会#5Deep Learningで似た画像を見つける技術 | OHS勉強会#5
Deep Learningで似た画像を見つける技術 | OHS勉強会#5
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
 

Similar a A Study on the Generation of Clothing Captions Highlighting the Differences between Image Pairs

DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 

Similar a A Study on the Generation of Clothing Captions Highlighting the Differences between Image Pairs (20)

DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
 
Recursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human FeedbackRecursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedback
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
Solving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language ModelsSolving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language Models
 
2021 09 29_dl_hirata
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
2021 haizoku
2021 haizoku2021 haizoku
2021 haizoku
 
2021 haizoku
2021 haizoku2021 haizoku
2021 haizoku
 

Más de harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

Más de harmonylab (19)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
 
2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料
 
CKL_about_panf2022.pdf
CKL_about_panf2022.pdfCKL_about_panf2022.pdf
CKL_about_panf2022.pdf
 

A Study on the Generation of Clothing Captions Highlighting the Differences between Image Pairs

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 衣服画像ペアの差異を強調した キャプションの生成に関する研究 2023/02/07 北海道大学 工学部 情報エレクトロニクス学科 情報理工学コース 複合情報工学分野 調和系工学研究室 学部4年 阿部 晃平
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 画像キャプション生成 – 1枚の入力画像を説明する自然文を生成 【課題】類似画像に対して汎用的・同一のキャプションが生成され 画像の特徴的な部分が無視されることが多い 特徴的な画像キャプション生成 – 1枚の入力画像をデータベースから取得した類似画像群と比較する ことで特徴的な部分を捉え、キャプション生成に利用 【課題】類似画像を明示的に指定できないため 指定した複数画像間の関係を考慮できない 研究背景 2 タオルのあるバスルーム ピンク色のタオルと 青色のシャワー カーテンがある バスルーム 類似画像群 特徴的な画像キャプション生成の例[1] [1] Mao, Y., Chen, L., Jiang, Z., Zhang, D., Zhang, Z., Shao, J. and Xiao, J.: Rethinking the reference-based distinctive image captioning, Proceedings of the 30th ACM International Conference on Multimedia, pp.4374–4384 (2022) データベース 入力画像
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 複数画像間の差異を強調したキャプションの生成 ⇒ 指定した複数画像間の関係を考慮したキャプション生成が可能 差異を強調:差異についての記述が多く共通部分についての記述が少ない 本発表の位置付け – 今回対象とする例:2枚の衣服画像 – 衣服画像ペアの差異を強調したキャプション生成手法の提案と検証 – 差異を属性で表現し、キャプション生成に利用 研究目的 3 衣服の特徴を表す語(Vネック,半袖,ポケットなど) クルーネック ショート丈 ロング丈 Vネック ポケット 差異 ショート丈のクルーネックカーディガン ポケット付きのロング丈Vネックカーディガン 差異を強調したキャプション 生成の流れ
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 変化画像キャプション生成[2] – 2枚の入力画像の差異を明示的に記述する1文のキャプションを生成 【本研究】差異を強調したキャプションを入力画像のそれぞれに生成 • 衣服画像キャプション生成[3] – 入力された1枚の衣服画像を説明する1文のキャプションを生成 【本研究】2枚の衣服画像を入力とする 関連研究 4 [2] Park, D.H., Darrell, T. and Rohrbach, A.: Robust change captioning, Proceedings of the IEEE/CVF International Conference on Computer Vision, pp.4624–4633 (2019) [3] Yang, X., Zhang, H., Jin, D., Liu, Y., Wu, C.-H., Tan, J., Xie, D., Wang, J. and Wang, X.: Fashion Captioning: Towards Generating Accurate Descriptions with Semantic Rewards, Computer Vision – ECCV 2020, pp. 1–17 (2020) a richly textured blend of wool and silk defines a handsome Italian sport coat framed with smart notched lapel 変化画像キャプション生成の例[2] 衣服画像キャプション生成の例[3]
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法の概要図 5 入力 異なる2枚の衣服画像 出力 差異を強調したキャプション A B 属 性 推 定 属 性 推 定 stripe (0.86) belt (0.74) collar (0.63) ⋮ 属性 (推定確率) check (0.81) sleeveless (0.77) cotton (0.71) ⋮ 属性 (推定確率) A B 差 異 の 取 得 stripe, collar Aの推定差異属性 cotton, belt 推定共通属性 check, sleeveless Bの推定差異属性 Regular collar long-sleeved dress with stripe pattern Sleeveless dress in check with pleats for a fresh look キ ャ プ シ ョ ン 生 成
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 属性推定モジュール 6 入力 異なる2枚の衣服画像 出力 差異を強調したキャプション A B 属 性 推 定 属 性 推 定 stripe (0.86) belt (0.74) collar (0.63) ⋮ 属性 (推定確率) check (0.81) sleeveless (0.77) cotton (0.71) ⋮ 属性 (推定確率) A B 差 異 の 取 得 stripe, collar Aの推定差異属性 cotton, belt 推定共通属性 check, sleeveless Bの推定差異属性 Regular collar long-sleeved dress with stripe pattern Sleeveless dress in check with pleats for a fresh look キ ャ プ シ ョ ン 生 成 それぞれの衣服画像が持つ属性を推定する
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 差異の取得モジュール 7 入力 異なる2枚の衣服画像 出力 差異を強調したキャプション A B 属 性 推 定 属 性 推 定 stripe (0.86) belt (0.74) collar (0.63) ⋮ 属性 (推定確率) check (0.81) sleeveless (0.77) cotton (0.71) ⋮ 属性 (推定確率) A B 差 異 の 取 得 stripe, collar Aの推定差異属性 cotton, belt 推定共通属性 check, sleeveless Bの推定差異属性 Regular collar long-sleeved dress with stripe pattern Sleeveless dress in check with pleats for a fresh look キ ャ プ シ ョ ン 生 成 ① 推定結果を基に各画像に属性を割り当てる ② 属性を比較 • ペアの一方のみに推定された属性:推定差異属性 • ペアの両方に推定された属性:推定共通属性
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. キャプション生成モジュール 8 入力 異なる2枚の衣服画像 出力 差異を強調したキャプション A B 属 性 推 定 属 性 推 定 stripe (0.86) belt (0.74) collar (0.63) ⋮ 属性 (推定確率) check (0.81) sleeveless (0.77) cotton (0.71) ⋮ 属性 (推定確率) A B 差 異 の 取 得 stripe, collar Aの推定差異属性 cotton, belt 推定共通属性 check, sleeveless Bの推定差異属性 Regular collar long-sleeved dress with stripe pattern Sleeveless dress in check with pleats for a fresh look キ ャ プ シ ョ ン 生 成 ① 各画像に対して独立に複数の キャプションを生成 ② 取得した差異・共通属性を基に 出力となるキャプションを選択
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. モデル Top-3 Recall Top-5 Recall WBIT[4] 27.46 35.37 DARN[5] 41.35 51.95 FashionNet[6] 45.52 54.61 衣服属性推定モデル 9 衣服属性推定モデルの精度の比較(DeepFashionデータセット) Top-k Recall:推定確率上位k件の 属性を割り当て,正解の属性の中で いくつ正解したかを測る DeepFashion[6]:衣服属性推定の ベンチマークデータセット WBIT:CNNにMLPを接続したモデル DARN:ECサイト,街頭撮影画像のドメイン用に2つのCNNを用いるモデル FashionNet:袖や裾の位置を表すランドマークを同時に推定し,その情報を属性推定に 補助的に用いるモデル 2枚の画像の推定属性の差分をとる ⇒ 単一画像に対する属性推定の精度が高い 本研究で望ましいモデル 高い精度が確認されているFashionNetの事前学習モデルを選択 [4] HadiKiapour, M., Han, X., Lazebnik, S., Berg, A.C. and Berg, T.L.: Where to Buy It: Matching Street Clothing Photos in Online Shops, Proceedings of the IEEE International Conference on Computer Vision (ICCV) (2015). [5] Huang, J., Feris, R.S., Chen, Q. and Yan, S.: Cross-domain image retrieval with a dual attribute-aware ranking network, Proceedings of the IEEE international conference on computer vision, pp.1062–1070 (2015). [6] Liu, Z., Luo, P., Qiu, S., Wang, X. and Tang, X.: Deepfashion: Powering robust clothes recognition and retrieval with rich annotations, Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1096–1104 (2016).
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 画像キャプション生成モデル 10 画像キャプション生成モデルの比較(MS COCOデータセット) [7] Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan. Show and tell: A neural image caption generator. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 3156–3164, 2015. [8] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In International conference on machine learning, pp. 2048–2057. PMLR, 2015. [9] Steven J Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, and Vaibhava Goel. Selfcritical sequence training for image captioning. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 7008–7024, 2017. [10] Ron Mokady, Amir Hertz, and Amit H Bermano. Clipcap: Clip prefix for image captioning. arXiv preprint arXiv:2111.09734, 2021. [11] Peng Wang, An Yang, Rui Men, Junyang Lin, Shuai Bai, Zhikang Li, Jianxin Ma, Chang Zhou, Jingren Zhou, and Hongxia Yang. Ofa: Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework. In International Conference on Machine Learning, pp. 23318–23340. PMLR, 2022. • 一般的な画像データセットにおける精度が高い • 将来的に日本語キャプションの生成を目標とする ⇒ 出力キャプションの日本語化 の実現可能性が高い 本研究で望ましいモデル モデル BLEU4 METEOR 詳細 NIC[7] 27.7 23.7 CNN+LSTMのエンコーダデコーダモデル NICA[8] 25.0 23.9 NICに注意機構を導入 SCST[9] 30.9 24.5 強化学習を用いる ClipCap[10] 39.5 30.5 事前学習モデルCLIP+言語モデルGPT-2 OFA[11] 44.9 32.5 大規模画像言語ペアを用いた事前学習 高い精度が確認されており、日本語の事前学習 モデルが利用可能なClipCapを選択
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 衣服画像データセット 11 衣服画像データセットの比較 カテゴリ:衣服の分類を表す語(tee, dress, skirt, pantsなど) 属性を利用したキャプション生成 ⇒ 属性とキャプションを持つ 本研究で望ましいデータ データセット 画像数 属性数 カテゴリ数 キャプションの有無 FACAD170K[12] 1,178,849 1,990 178 有 DeepFashion[6] 1,289,222 1,000 150 無 FashionGen[13] 1,325,536 - 148 有 iFashion[14] 1,062,550 1,228 105 無 Fashion-MNIST[15] 1,070,000 - 110 無 属性及びキャプションを持つFACAD170Kを選択 [12] Cai, C., Yap, K.-H. and Wang, S.: Attribute Conditioned Fashion Image Captioning, 2022 IEEE International Conference on Image Processing (ICIP), pp.1921–1925 (2022). [13] Rostamzadeh, N., Hosseini, S., Boquet, T., Stokowiec, W., Zhang, Y., Jauvin, C. and Pal, C.: Fashion-gen: The generative fashion dataset and challenge, arXiv preprint arXiv:1806.08317 (2018). [14] Guo, S., Huang, W., Zhang, X., Srikhanta, P., Cui, Y., Li, Y., Adam, H., Scott, M.R. and Belongie, S.: The imaterialist fashion attribute dataset, Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops, pp.0–0 (2019). [15] Xiao, H., Rasul, K. and Vollgraf, R.: Fashion-mnist: a novel image dataset for benchmarking machine learning algorithms, arXiv preprint arXiv:1708.07747 (2017).
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. FACAD170K 12 カテゴリ:blouse キャプション:A neat band collar is beautifully balanced by dropped shoulder sleeve in a staple button up top cut from stretch kissed organic cotton. メタデータ:Front button closure, Elbow-length sleeves, 96% organic cotton, 4% spandex, Machine wash カテゴリ:skirt キャプション:A softly hued floral grows and flow between the accordion pleat of this midi length skirt that freshens any look you create. メタデータ:Midi-length, 100% polyester, Hand wash, Line dry 各データが持つ情報 • 衣服画像:着用画像または衣服のみの画像 • カテゴリ:1画像につき1個 • 属性:1画像につき複数個(図の太字の単語) • メタデータ データの例 画像数 学習データ 172,849 検証データ 10,000 テストデータ 5,000 データセットの内訳
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. I. 属性推定モデルの精度の検証 【目的】提案手法の検証に用いるデータの選定 【方法】FACAD170Kの検証データを属性推定モデルに適用し精度を確認 【結果】FACAD170Kの990個の属性の内、26個の属性に対する 属性推定精度を確認できた ⇒ 今回はこれらの属性を持つデータを扱う II. 属性の割り当て方法の検証 【目的】属性の割り当て方法の選定 【方法】FACAD170Kの検証データのペアデータに属性を割り当て、 差異属性のRecallを比較 【結果】推定確率上位9件の属性を割り当てる方法と 推定確率0.023以上の属性を割り当てる方法が最も良い評価を得た 予備実験 13 abstract, chiffon, classic, collar, cotton, crochet, denim, faux, fit, flare, floral, graphic, knit, lace, leather, maxi, muscle, pleated, pocket, print, red, skater, sleeve, sleeveless, stripe, wash
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法には3つの設定が必要 ⇒ 複数の組み合わせ – 差異の取得モジュール 1. 属性の割り当て方法 – キャプション生成モジュール 2. 複数キャプションの生成方法 3. 出力キャプションの選択方法 提案手法の検証はアンケート調査によって行う(実験②) 実験目的 – アンケート調査に用いる提案手法の設定の検討 方法 – 各手法の出力キャプションについて属性を用いた自動評価を行う 実験① 提案手法の設定の検討 14 前提
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. データ – 予備実験によって選定したFACAD170Kのテストデータから 取得した衣服画像ペアデータ 画像キャプション生成モデルClipCapの学習 – FACAD170K学習データ:172,849枚 – 学習率:2e-5,バッチサイズ:64,エポック数:50 キャプション生成数 – 各画像に異なるキャプションを100文ずつ生成 – 生成時間を考慮 従来手法 – ClipCap(ビームサーチ:ビームサイズ5) 実験設定 15
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1. 属性の割り当て方法(予備実験の結果より) – 推定確率が上位9件の属性を割り当て – 推定確率が閾値0.023以上の属性を割り当て 2. 複数キャプションの生成方法 – ビームサーチ – 言語モデルの確率分布に従ったサンプリング 3. 出力キャプションの選択方法 – 推定差異属性+推定共通属性を最も多く含むもの – 推定差異属性を最も多く含み,推定共通属性を最も少なく含むもの – 推定差異属性を最も多く含むもの ‒ 候補が複数ある場合、ビームサーチなら最もスコアが高いもの、サンプリング ならランダムに選択 今回用いた提案手法の設定 16 今回は計12通りの設定を用いた提案手法の出力を評価
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 衣服画像ペアの一方のみが正解として持つ属性:正解差異属性 衣服画像ペアの両方が正解として持つ属性:正解共通属性 望ましい出力キャプション – 正解差異属性を記述していて、正解共通属性を記述していない 評価指標 – 出力キャプションに現れる属性と ‒ 正解差異属性とのF値:大きい方が評価が高い ‒ 正解共通属性とのF値:小さい方が評価が高い – 各手法の出力キャプションについて計算し、平均をとる 出力キャプションの評価 17
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 手法 属性 割り当て キャプション 生成 キャプション 選択 差異 F値 共通 F値 差異 共通 ClipCap - ビームサーチ - - 0.224 0.321 提 案 手 法 推定確率 上位9件 ビームサーチ 多 多 0.285 0.327 少 0.373 0.226 - 0.344 0.274 サンプリング 多 0.292 0.319 少 0.385 0.202 - 0.352 0.255 推定確率 0.023以上 ビームサーチ 多 0.285 0.344 少 0.362 0.298 - 0.335 0.298 サンプリング 多 0.294 0.328 少 0.356 0.227 - 0.344 0.277 各手法の出力キャプションの評価値の平均 18
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 手法 属性 割り当て キャプション 生成 キャプション 選択 差異 F値 共通 F値 差異 共通 ClipCap - ビームサーチ - - 0.224 0.321 提 案 手 法 推定確率 上位9件 ビームサーチ 多 多 0.285 0.327 少 0.373 0.226 - 0.344 0.274 サンプリング 多 0.292 0.319 少 0.385 0.202 - 0.352 0.255 推定確率 0.023以上 ビームサーチ 多 0.285 0.344 少 0.362 0.298 - 0.335 0.298 サンプリング 多 0.294 0.328 少 0.356 0.227 - 0.344 0.277 各手法の出力キャプションの評価値の平均 19 今回の12通りの設定の中で最も高い評価を得た手法 ⇒ この手法の出力キャプションについてアンケート調査
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 目的 – 提案手法の出力キャプションが差異を 強調したキャプションとして適切か調査 対象 – 20代男女15人 表示した画像とキャプション – 衣服画像ペア:5つ ‒ 類似ペア:3つ、非類似ペア:2つ ‒ 正解属性の類似度を基にサンプリング ‒ 属性推定に成功した画像 – キャプション ‒ 提案手法、従来手法の出力 ‒ 日本語訳を提示 実験② アンケート調査 20 類似ペアの表示例 非類似ペアの表示例
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 提案手法 – 今回の設定の中で最も評価が高かった設定 – 属性割り当て上位9件、サンプリング、差異:多、共通:少 • 従来手法 – FACAD170Kを学習した画像キャプション生成モデルClipCap ‒ ビームサーチ • 調査結果の分析に用いた検定手法 – Z検定 ‒ 2群の比率の差の検定 – 有意水準:5% – 帰無仮説:2群(提案手法と従来手法)の回答割合が等しい – 多重比較検定 ‒ ボンフェローニ補正 各手法の設定と検定手法 21
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 差異のある特徴について 22 Q 衣服ペアで差異のある特徴に関する記述があるか 67.6% 提案手法 従来手法 92.3% 「1つだけある」または「複数ある」と回答された割合 – 提案手法と従来手法との差はZ検定により有意な差であることを確認 – 提案手法は従来手法に比べ、差異のある特徴を記述したキャプションを 多く生成できたといえる P値:1.84 × 10−7
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 共通する特徴について 23 Q 衣服ペアで共通する特徴に関する記述があるか 67.6% 92.3% 提案手法 従来手法 31.5% 63.0% 「無い」と回答された割合 – 提案手法と従来手法との差はZ検定により有意な差であることを確認 – 提案手法は従来手法に比べ、共通した特徴を記述しないキャプションを 多く生成できたといえる P値:7.98 × 10−8
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. キャプション全体について 24 Q 衣服ペアの差異を強調したキャプションとして適切か 47.3% 提案手法 従来手法 「適切」または「どちらかといえば適切」と回答された割合 – 提案手法と従来手法との差はZ検定により有意な差であることを確認 – 提案手法は従来手法に比べ、差異を強調したキャプションとして 適切と感じられるキャプションを多く生成できたといえる 89.2% P値:3.19 × 10−6
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 類似ペアと非類似ペアにおける結果の比較 25 Q 衣服ペアの差異を強調したキャプションとして適切か 47.3% 提案手法 類似ペア 非類似ペア 従来手法 提案手法 従来手法 92.3% 84.6% 43.5% 69.2% 「適切」または「どちらかといえば適切」と回答された割合 – 提案手法と従来手法との差は類似ペアにおいて大きい – 提案手法は類似ペアに対してより有効であるといえる ‒ 非類似ペアは差異のある特徴を多く持つため従来手法でも十分に 差異を記述できるためと考えられる
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 従来手法の出力キャプション例 26 特徴的な柄やポケットに関する記述が無い Q 衣服ペアの差異を強調したキャプションとして適切か 回答数
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法の出力キャプション例 27 推定差異属性が含まれる ⇒ 差異のある特徴を記述 回答数 Q 衣服ペアの差異を強調したキャプションとして適切か
  • 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. まとめ – 衣服画像ペアの差異を強調したキャプションの生成手法の提案 – アンケート調査の結果、提案手法は差異を強調したキャプション として適切と感じられるキャプションを多く生成できたことを確認 – 提案手法の有効性は非類似ペアよりも類似ペアに対して高いことを 確認 今後の展望 – 今回の限られた属性では表現することのできない衣服の特徴がある ‒ データの整備により扱うことのできる属性を増やす – 出力キャプションの日本語化のためのデータ収集 まとめと今後の展望 28
  • 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 国内学会 口頭発表 査読無し(1件) • 〇阿部晃平,横山想一郎,山下倫央,川村秀憲:画像群の差異の 説明に向けた服飾画像のキャプション生成手法の検証,第44回社 会におけるAI研究会,オンライン,2022. 発表予定 国内学会 口頭発表(1件) • 〇阿部晃平,横山想一郎,山下倫央,川村秀憲:衣服画像ペアの 属性推定結果の差分を用いた衣服紹介文の生成,社会システムと 情報技術研究ウィーク(WSSIT2023),2023. 研究業績 29