【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
深層生成モデルを用いたユーザ意図に基づく
衣服画像の生成に関する研究
2023/02/07
北海道大学工学部
情報エレクトロニクス学科情報理工学コース
複雑情報工学分野調和系工学研究室
学部4年竹田悠哉

2
背景
意思伝達が難しいと想定される場面
もう少しコンサバな…
顧客→店員：うまく言語化できない
店員→顧客：イメージがわかない
[1]友部直美, 柳田佳子 (2014) ファッションスタイルに対するファッションイメージ用語の適合性に関する一考察. 日本感性工学会論文誌 2014 年13巻1号 p.137-144
双方が印象を理解するための印象表現手法が求められる
印象を表すファッション用語は個人の感覚に依存し曖昧[1]
→ 正確な意思伝達は言語のみでは困難な場合がある
（印象の例：かわいい、かっこいい、コンサバ、カジュアル、フェミニンなど）

3
各々がその印象を知覚する対象の集合は異なるが、
共通している部分もある
印象の相互理解のためには、
まず共通項を埋めることが必要
印象表現の目標：
1. 共通項としての印象を学習
2. パーソナライズされた印象を表現
本研究では共通項としての印象を対象とする
(次段階でユーザごとに最適化)
背景・目的
ユーザＡのかわいい
B
C
D
E
本研究で扱う
印象の領域

4
衣服画像の印象に基づく生成モデルを提案
印象タグに基づく条件付き生成モデルの学習により
ファッション画像から印象を抽出
印象で条件付けて画像を生成
研究概要
生成モデル
数値化
条件付き生成
生
成
器
seed
印象
かっこいい
1
4
「かっこいい」が
１の画像
「かっこいい」が
４の画像

先行研究 5
• 服飾画像の印象でタグ付けされたデータ
セットを構築
• 印象推定器を作成
ResNet-50
研究概要モデル
服飾画像の
印象推定 [2]
Recommendation of
Compatible Outfits
Conditioned on Style [3]
• アウトドア、フォーマルなどのonline portalな分類
(≒印象)に基づく全身コーディネート推薦
• トップスと百分率で表した分類項目を与えると、
ボトムス、靴、アクセサリーをビームサーチで出力
Style-Compatibility-
Attention Network
＋
Style Encoder Network
（ResNetベース）
検
索
Fashion Intelligence
System [4]
• ZOZO研究所等による印象に基づく検索システム
• 全身コーディネート画像とファッション特有の曖昧かつ
多様な表現を学習・解釈
• ファッションに関する選択・行動を支援
Visual-Semantic
Embedding
（CNN、BOWで写像)
定
量
化
深層学習で衣服の印象を扱った研究
[2]神戸瑞樹 (2020). 深層学習を用いた服飾画像の印象推定に関する研究.
[3] Banerjee, D., Dhakad, L., Maheshwari, H., Chelliah, M., Ganguly, N. and Bhattacharya (2022). A.: Recommendation of Compatible Outfits Conditioned on Style, Lecture
Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), Vol.13185 LNCS, pp.35–50
[4] Ryotaro Shimizu, Yuki Saito, Megumi Matsutani, Masayuki Goto (2022) .Fashion intelligence system: An outfit interpretation utilizing images and rich abstract tags,
https://doi.org/10.1016/j.eswa.2022.119167.
推
薦

先行研究 6
• 属性のテクスト入力で操作可能な人物画像生成
• 既存の生成モデルでは難しい形や質感を高品質に再現
• ２ステージで生成；解析器が出力したマスク画像に
階層的コードブックを用いた生成器で服の質感を付与
解析器：U-netベース
生成器：VQVAE2ベース
研究概要モデル
TEXT2HUMAN [5]
ADGAN [6]
• ソース画像の属性による制御が可能な人物画像合成
• 属性は潜在空間に埋め込まれ(Pose Code, Style Code)、
Style Codeを編集することで制御・生成
• Style Block接続を備えた2つのエンコーディング経路
VGGエンコーダ＋GAN
（StyleGANライク）
生
成
[5] Jiang, Y., Yang, S., Qiu, H., Wu, W., Loy, C. C., & Liu, Z. (2022). Text2Human: Text-Driven Controllable Human Image Generation. ACM Transactions on Graphics, 41(4).
https://doi.org/10.1145/3528223.3530104
[6] Men, Y., Mao, Y., Jiang, Y., Ma, W. Y., & Lian, Z. (2020). Controllable person image synthesis with attribute-decomposed gan. In Proceedings of the IEEE/CVF conference on computer
vision and pattern recognition
衣服画像生成では印象が反映されていない

7
モデルの選定
衣服画像生成の先行研究
GANを利用
StyleGANを利用した画像生成
アーキテクチャと滑らかな潜在空間
手法
モデルの選定

8
生成モデルにはGANを使用
VQVAEなどベクトル量子化を用いた生成モデルが成果を
上げているが、潜在空間が離散化されるのは本研究では
好ましくない
また、研究の目的に対して、超高画質の画像生成は不要
手法：モデル選定
深層生成モデルアーキテクチャ推論
GAN
生成器 G(z)
識別器 D(x)
単体では不可能
（エンコーダを導入）
拡散モデル
逆過程
拡散過程
可能
𝑝(𝐱𝐫)𝚷𝐭𝐩(𝐱𝐭−𝟏|𝐱𝐭)
Π𝑡𝑞(𝐱𝐭|𝐱𝐭−𝟏)

9
モデルの選定
衣服画像生成の先行研究
GANを利用
StyleGANを利用した画像生成
アーキテクチャと滑らかな潜在空間
手法

StyleGANを利用した画像生成 10
潜在空間𝒲の性質により印象を反映した画像を生成
[7] Karras, T., & Aila, T. (n.d.). (2020). Analyzing and Improving the Image Quality of StyleGAN.
[8] Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine, Jaakko Lehtinen, Timo Aila (2020). Training Generative Adversarial Networks with Limited Data. NeurIPS.
StyleGAN2の生成器
synthesis
network
mapping
network
d-Latent
非線形写像 𝑓により
𝑧 をdisentanglement
歪んだ潜在空間
整った潜在空間
スタイルブロック：
コンテンツ情報(A)をもとに
スタイルに応じた画像を生成
条件
StyleGAN2 ADA(Adaptive Discriminator Augmentation)[7,8]
のアーキテクチャ

11
目的：印象に基づく衣服画像生成の検証
実験
データセット
Fashion Impression Dataset
扱う印象とカテゴリ分類について
モデルの学習と生成画像の分析
アンケート調査
概要
印象「かわいい」「かっこいい」ごとの結果と考察
実験
実験
データセット
概要

12
印象タグ付きの衣服画像を用いた教師なし学習
実験：データセット
かわいいきれいかっこいいモテるセクシーおしゃれ
3 4 1 3 2 4
3 4 1 3 2 4
3 4 2 2 2 3
3 3 1 3 2 3
・・・
カジュアルガーリー甘い
1 0 0
1 0 0
0 0 0
0 0 0
・
・
・
タグA(6種類) タグB(142種類)
(71781点)
色違い
Fashion Impression Dataset [2]
• ECサイトの画像に対して、デザイナーの意見から厳選されたタグを、
ファッションの専門学校生52名でアノテーション
[2]神戸瑞樹. .(2020). 深層学習を用いた服飾画像の印
象推定に関する研究.

13
ファッション用語の印象は、[1]のアンケート調査における
数量化Ⅲ類では図のようなマトリックスで可視化されている
先行研究をもとにデータセットを分析し、タグAのうち
「かわいい」「かっこいい」を使用し学習
実験：印象の選択
[1]友部直美, 柳田佳子『ファッションスタイルに対するファッ
ションイメージ用語の適合性に関する一考察』
かわいさ
活動性
タグAの相関行列
かわいいきれいかっこいいモテるセクシーおしゃれ
かわいい 1 0.1375 -0.1960 0.3887 0.1015 0.2466
きれい 0.1375 1 0.1369 0.2674 0.0907 0.2139
かっこいい
-0.1960
0.1369 1 0.0904 0.3346 0.2010
モテる 0.3887 0.2674 0.0904 1 0.3802 0.4261
セクシー 0.1015 0.0907 0.3346 0.3802 1 0.2789
おしゃれ 0.2466 0.2139 0.2010 0.4261 0.2789 1
かわいい
かっこいい

14
カテゴリに基づく分類に分けて学習
実験：カテゴリ分類について
分類カテゴリデータ数
トップス
カットソー 10719
ブラウス 10650
ニット 18693
コート 2481
ジャケット 2180
ブルゾン 1112
ワンピースワンピース 9313
カテゴリを「トップス」「ワンピース」
に分け、それぞれ学習
カットソーブラウス
ワンピース
ブルゾン

15
実験
データセット
概要
実験

実験：学習 16
systhesis
network
mapping
network
印象を付与
した画像
出力
入力
印象 (整数値)
反復回数：800000
バッチ数：16
最適化：Adam
学習率：0.0025
画像サイズ：256×256
データ拡張：ADA
学習設定
印象タグの入力
・単一の印象で
学習をおこなう
①かわいい：1,2,3,4
②かっこいい：1,2,3,4
条件付きでStyleGAN2 ADAを学習
Seed
印象タグ付きの衣服画像を用いた教師なし学習

17
実験結果
生成画像
変化の品質には幅がある
色や形、柄、装飾などが変化
同一の衣服において、印象に基づく
変化がなされることが適切
生成画像における品質の割合
(各72枚を手作業で分類)
変化が過剰なもの
変化に乏しいもの
印象かわいいかっこいい
カテゴリ分類トップスワンピーストップスワンピース
変化に乏しい 29.17% 45.83% 8.33% 33.33%
変化が適切 58.33% 41.67% 33.33% 45.83%
変化が過剰 12.50% 12.50% 58.33% 20.83%
条件値：１条件値：４
入力値：１条件値：４

18
実験結果
生成画像
タグ：かわいい
トップス
ワンピース
1.当てはまらない 2.どちらかというと
当てはまらない
3．どちらかというと
当てはまる
4. 当てはまる
・色合いが明るく
・ウエストが締まり、
肩紐が細く
変化
・色合いが明るく
・ウエストが締まり、
袖が短く
・下部にプリーツ

19
実験結果
生成画像
タグ：かっこいい
1.当てはまらない 2.どちらかというと
当てはまらない
3．どちらかというと
当てはまる
4. 当てはまる
・色合いが濃く
・襟が付き，全体的に
角ばったフォルムに
変化
・服地の青色が濃く
トップス
ワンピース
1と４の生成画像を用いてアンケートを実施

20
実験
データセット
概要
実験

21
目的：生成モデルが付与した印象が見た目として現れているか調査
20代男女14名(各7名ずつ)にアンケート調査を実施
質問形式は次スライド①～④の４種類
計28問（①４問、②８問、③８問、④８問）
①②は印象の4択で、選択肢は[1]のPCAをもとに選定
かわいさ
活動性
かわいい
かっこいい
エレガント
アクティブ
「印象を付与」の例
[1]友部直美, 柳田佳子 (2014) ファッションスタイルに対するファッションイメージ用語の適合性に関する一考察. 日本感性工学会論文誌 2014 年13巻1号 p.137-144

22
アンケート調査：質問形式
③ ある印象がどのくらい変化したと思うか回答
意図：付加された印象がわかるか、どれくらいか
④ 足した印象を開示した上で、どの程度感じるか回答
意図：付加された印象に同意が得られるか
① データセットの画像の印象を4択で回答
目的：回答者の印象に対する理解の調査
② 足された印象を４択で回答
目的：付加された印象がわかるか

23
集計方法
①、②は、印象を選択肢から回答
→そのまま4択として集計
③、④は、追加した印象が増加した
ように感じた割合
→2択にして正答率として集計
概観
正答率は全体として71~79%(95%信頼区間)
かわいいの方が、かっこいいより高い
トップスの方が、ワンピースより高い
クイズ形式の③の方が、
同意を問う形式の④より高い
全体としての数字にユーザーごとの
大きな偏りはなかった
アンケート調査：結果
回答者ごとの正答率
印象、質問形式、カテゴリごとの正答率
① ② ③
④

24
かわいい
正答率が高かったものは
細部の変化が大きい
プリーツの追加
ウエストが絞られる
正答率が低かったものは
大域的に変化
服地の色や柄の変化
ベルトの追加
丈が短くなる
アンケート調査：印象の違いによる結果
Q24:かわいいを足して生成、かわいいという印象が
足されたと感じるか？
Q17:ある印象を足して生成、かっこいいという印象が
足されたと思うか？
全員正解だった設問（形式③）
全員正解だった設問（形式④）

25
かわいい
正答率が高かったものは
細部の変化が大きい
プリーツの追加
ウエストが絞られる
正答率が低かったものは
大域的に変化
服地の色や柄の変化
ベルトの追加
丈が短くなる
Q23:かわいいを足して生成、かわいいという印象が
Q5:ある印象を足して生成、どの印象が足されたと思うか？
正答率が低かった設問（形式②）
正答率が低かった設問（形式④）

26
かっこいい
かわいいよりも正答率が低い
ワンピースが特に低い
＜理由として考えられること＞
Q26:かっこいいを足して生成、かっこいいという印象が
かっこいいとワンピースの相性
ワンピースというカテゴリが
かわいい寄りである
明確な記号の有無
形やプリーツといった、多くの人が
同意する特徴が少ない可能性がある
正答率が低かった設問（形式②）
正答率が低かった設問（形式④）
Q5:ある印象を足して生成、どの印象が足されたと思うか？

27
かっこいい
かわいいよりも正答率が低い
ワンピースが特に低い
＜理由として考えられること＞
かっこいいとワンピースの相性
ワンピースというカテゴリが
かわいい寄りである
明確な記号の有無
形やプリーツといった、多くの人が
同意する特徴が少ない可能性がある
データセットにおける
ワンピースの印象内訳
（上:かわいい、
下：かっこいい）

28
まとめと展望
生成モデルで印象を付与できるか、第一弾の検証として、
印象による条件付き生成の手法による結果をアンケート調査
生成結果に対するアンケートは、正答率100%がある一方、
あまり賛同を得られない設問もあった
→生成モデルでの印象の付与に一定の有効性
他の印象での検証
手法の改良：生成における印象の付与の改善
学習時に細部の変化が大きくなるような項を追加
潜在空間の解析と利用
マルチラベルでの安定した学習と生成
マルチモーダルモデル
画像を入力とする
まとめ
展望

【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a 【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究

Similar a 【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究 (20)

Más de harmonylab

Más de harmonylab (20)

【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究

Notas del editor