Más contenido relacionado La actualidad más candente (20) Similar a 【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究 (20) 【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
深層生成モデルを用いたユーザ意図に基づく
衣服画像の生成に関する研究
2023/02/07
北海道大学 工学部
情報エレクトロニクス学科 情報理工学コース
複雑情報工学分野 調和系工学研究室
学部4年 竹田悠哉
2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
背景
意思伝達が難しいと想定される場面
もう少しコンサバな…
顧客→店員:うまく言語化できない
店員→顧客:イメージがわかない
[1]友部 直美, 柳田 佳子 (2014) ファッションスタイルに対するファッションイメージ用語の適合性に関する一考察. 日本感性工学会論文誌 2014 年13巻1号 p.137-144
双方が印象を理解するための印象表現手法が求められる
印象を表すファッション用語は個人の感覚に依存し曖昧[1]
→ 正確な意思伝達は言語のみでは困難な場合がある
(印象の例:かわいい、かっこいい、コンサバ、カジュアル、フェミニンなど)
3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
各々がその印象を知覚する対象の集合は異なるが、
共通している部分もある
印象の相互理解のためには、
まず共通項を埋めることが必要
印象表現の目標:
1. 共通項としての印象を学習
2. パーソナライズされた印象を表現
本研究では共通項としての印象を対象とする
(次段階でユーザごとに最適化)
背景・目的
ユーザAのかわいい
B
C
D
E
本研究で扱う
印象の領域
4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
衣服画像の印象に基づく生成モデルを提案
印象タグに基づく条件付き生成モデルの学習により
ファッション画像から印象を抽出
印象で条件付けて画像を生成
研究概要
生成モデル
数値化
条件付き生成
生
成
器
seed
印象
かっこいい
1
4
「かっこいい」が
1の画像
「かっこいい」が
4の画像
5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
先行研究 5
• 服飾画像の印象でタグ付けされたデータ
セットを構築
• 印象推定器を作成
ResNet-50
研究 概要 モデル
服飾画像の
印象推定 [2]
Recommendation of
Compatible Outfits
Conditioned on Style [3]
• アウトドア、フォーマルなどのonline portalな分類
(≒印象)に基づく全身コーディネート推薦
• トップスと百分率で表した分類項目を与えると、
ボトムス、靴、アクセサリーをビームサーチで出力
Style-Compatibility-
Attention Network
+
Style Encoder Network
(ResNetベース)
検
索
Fashion Intelligence
System [4]
• ZOZO研究所等による印象に基づく検索システム
• 全身コーディネート画像とファッション特有の曖昧かつ
多様な表現を学習・解釈
• ファッションに関する選択・行動を支援
Visual-Semantic
Embedding
(CNN、BOWで写像)
定
量
化
深層学習で衣服の印象を扱った研究
[2]神戸瑞樹 (2020). 深層学習を用いた服飾画像の印象推定に関する研究.
[3] Banerjee, D., Dhakad, L., Maheshwari, H., Chelliah, M., Ganguly, N. and Bhattacharya (2022). A.: Recommendation of Compatible Outfits Conditioned on Style, Lecture
Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), Vol.13185 LNCS, pp.35–50
[4] Ryotaro Shimizu, Yuki Saito, Megumi Matsutani, Masayuki Goto (2022) .Fashion intelligence system: An outfit interpretation utilizing images and rich abstract tags,
https://doi.org/10.1016/j.eswa.2022.119167.
推
薦
6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
先行研究 6
• 属性のテクスト入力で操作可能な人物画像生成
• 既存の生成モデルでは難しい形や質感を高品質に再現
• 2ステージで生成;解析器が出力したマスク画像に
階層的コードブックを用いた生成器で服の質感を付与
解析器:U-netベース
生成器:VQVAE2ベース
研究 概要 モデル
TEXT2HUMAN [5]
ADGAN [6]
• ソース画像の属性による制御が可能な人物画像合成
• 属性は潜在空間に埋め込まれ(Pose Code, Style Code)、
Style Codeを編集することで制御・生成
• Style Block接続を備えた2つのエンコーディング経路
VGGエンコーダ+GAN
(StyleGANライク)
生
成
[5] Jiang, Y., Yang, S., Qiu, H., Wu, W., Loy, C. C., & Liu, Z. (2022). Text2Human: Text-Driven Controllable Human Image Generation. ACM Transactions on Graphics, 41(4).
https://doi.org/10.1145/3528223.3530104
[6] Men, Y., Mao, Y., Jiang, Y., Ma, W. Y., & Lian, Z. (2020). Controllable person image synthesis with attribute-decomposed gan. In Proceedings of the IEEE/CVF conference on computer
vision and pattern recognition
衣服画像生成では印象が反映されていない
7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
モデルの選定
衣服画像生成の先行研究
GANを利用
StyleGANを利用した画像生成
アーキテクチャと滑らかな潜在空間
手法
モデルの選定
8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
生成モデルにはGANを使用
VQVAEなどベクトル量子化を用いた生成モデルが成果を
上げているが、潜在空間が離散化されるのは本研究では
好ましくない
また、研究の目的に対して、超高画質の画像生成は不要
手法:モデル選定
深層生成モデル アーキテクチャ 推論
GAN
生成器 G(z)
識別器 D(x)
単体では不可能
(エンコーダを導入)
拡散モデル
逆過程
拡散過程
可能
𝑝(𝐱𝐫)𝚷𝐭𝐩(𝐱𝐭−𝟏|𝐱𝐭)
Π𝑡𝑞(𝐱𝐭|𝐱𝐭−𝟏)
9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
モデルの選定
衣服画像生成の先行研究
GANを利用
StyleGANを利用した画像生成
アーキテクチャと滑らかな潜在空間
手法
10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
StyleGANを利用した画像生成 10
潜在空間𝒲の性質により印象を反映した画像を生成
[7] Karras, T., & Aila, T. (n.d.). (2020). Analyzing and Improving the Image Quality of StyleGAN.
[8] Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine, Jaakko Lehtinen, Timo Aila (2020). Training Generative Adversarial Networks with Limited Data. NeurIPS.
StyleGAN2の生成器
synthesis
network
mapping
network
d-Latent
非線形写像 𝑓により
𝑧 をdisentanglement
歪んだ潜在空間
整った潜在空間
スタイルブロック:
コンテンツ情報(A)をもとに
スタイルに応じた画像を生成
条件
StyleGAN2 ADA(Adaptive Discriminator Augmentation)[7,8]
のアーキテクチャ
11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
目的:印象に基づく衣服画像生成の検証
実験
データセット
Fashion Impression Dataset
扱う印象とカテゴリ分類について
モデルの学習と生成画像の分析
アンケート調査
概要
印象「かわいい」「かっこいい」ごとの結果と考察
実験
実験
データセット
Fashion Impression Dataset
扱う印象とカテゴリ分類について
モデルの学習と生成画像の分析
アンケート調査
概要
印象「かわいい」「かっこいい」ごとの結果と考察
12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
印象タグ付きの衣服画像を用いた教師なし学習
実験:データセット
かわいい きれい かっこいい モテる セクシー おしゃれ
3 4 1 3 2 4
3 4 1 3 2 4
3 4 2 2 2 3
3 3 1 3 2 3
・・・
カジュアル ガーリー 甘い
1 0 0
1 0 0
0 0 0
0 0 0
・
・
・
タグA(6種類) タグB(142種類)
(71781点)
色違い
Fashion Impression Dataset [2]
• ECサイトの画像に対して、デザイナーの意見から厳選されたタグを、
ファッションの専門学校生52名でアノテーション
[2]神戸瑞樹. .(2020). 深層学習を用いた服飾画像の印
象推定に関する研究.
13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
ファッション用語の印象は、[1]のアンケート調査における
数量化Ⅲ類では図のようなマトリックスで可視化されている
先行研究をもとにデータセットを分析し、タグAのうち
「かわいい」「かっこいい」を使用し学習
実験:印象の選択
[1]友部 直美, 柳田 佳子『ファッションスタイルに対するファッ
ションイメージ用語の適合性に関する一考察』
かわいさ
活動性
タグAの相関行列
かわいい きれい かっこいい モテる セクシー おしゃれ
かわいい 1 0.1375 -0.1960 0.3887 0.1015 0.2466
きれい 0.1375 1 0.1369 0.2674 0.0907 0.2139
かっこいい
-0.1960
0.1369 1 0.0904 0.3346 0.2010
モテる 0.3887 0.2674 0.0904 1 0.3802 0.4261
セクシー 0.1015 0.0907 0.3346 0.3802 1 0.2789
おしゃれ 0.2466 0.2139 0.2010 0.4261 0.2789 1
かわいい
かっこいい
14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
カテゴリに基づく分類に分けて学習
実験:カテゴリ分類について
分類 カテゴリ データ数
トップス
カットソー 10719
ブラウス 10650
ニット 18693
コート 2481
ジャケット 2180
ブルゾン 1112
ワンピース ワンピース 9313
カテゴリを「トップス」「ワンピース」
に分け、 それぞれ学習
カットソー ブラウス
ワンピース
ブルゾン
15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
目的:印象に基づく衣服画像生成の検証
実験
データセット
Fashion Impression Dataset
扱う印象とカテゴリ分類について
モデルの学習と生成画像の分析
アンケート調査
概要
印象「かわいい」「かっこいい」ごとの結果と考察
実験
16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験:学習 16
systhesis
network
mapping
network
印象を付与
した画像
出力
入力
印象 (整数値)
反復回数:800000
バッチ数:16
最適化:Adam
学習率:0.0025
画像サイズ:256×256
データ拡張:ADA
学習設定
印象タグの入力
・単一の印象で
学習をおこなう
①かわいい:1,2,3,4
②かっこいい:1,2,3,4
条件付きでStyleGAN2 ADAを学習
Seed
印象タグ付きの衣服画像を用いた教師なし学習
17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
実験結果
生成画像
変化の品質には幅がある
色や形、柄、装飾などが変化
同一の衣服において、印象に基づく
変化がなされることが適切
生成画像における品質の割合
(各72枚を手作業で分類)
変化が過剰なもの
変化に乏しいもの
印象 かわいい かっこいい
カテゴリ分類 トップス ワンピース トップス ワンピース
変化に乏しい 29.17% 45.83% 8.33% 33.33%
変化が適切 58.33% 41.67% 33.33% 45.83%
変化が過剰 12.50% 12.50% 58.33% 20.83%
条件値:1 条件値:4
入力値:1 条件値:4
18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
実験結果
生成画像
タグ:かわいい
トップス
ワンピース
1.当てはまらない 2.どちらかというと
当てはまらない
3.どちらかというと
当てはまる
4. 当てはまる
・色合いが明るく
・ウエストが締まり、
肩紐が細く
変化
・色合いが明るく
・ウエストが締まり、
袖が短く
・下部にプリーツ
19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
実験結果
生成画像
タグ:かっこいい
1.当てはまらない 2.どちらかというと
当てはまらない
3.どちらかというと
当てはまる
4. 当てはまる
・色合いが濃く
・襟が付き,全体的に
角ばったフォルムに
変化
・服地の青色が濃く
トップス
ワンピース
1と4の生成画像を用いてアンケートを実施
20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
目的:印象に基づく衣服画像生成の検証
実験
データセット
Fashion Impression Dataset
扱う印象とカテゴリ分類について
モデルの学習と生成画像の分析
アンケート調査
概要
印象「かわいい」「かっこいい」ごとの結果と考察
実験
21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
目的:生成モデルが付与した印象が見た目として現れているか調査
20代男女14名(各7名ずつ)にアンケート調査を実施
質問形式は次スライド①~④の4種類
計28問(①4問、②8問、③8問、④8問)
①②は印象の4択で、選択肢は[1]のPCAをもとに選定
アンケート調査
かわいさ
活動性
かわいい
かっこいい
エレガント
アクティブ
「印象を付与」の例
[1]友部 直美, 柳田 佳子 (2014) ファッションスタイルに対するファッションイメージ用語の適合性に関する一考察. 日本感性工学会論文誌 2014 年13巻1号 p.137-144
22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
アンケート調査:質問形式
③ ある印象がどのくらい変化したと思うか回答
意図:付加された印象がわかるか、どれくらいか
④ 足した印象を開示した上で、どの程度感じるか回答
意図:付加された印象に同意が得られるか
① データセットの画像の印象を4択で回答
目的:回答者の印象に対する理解の調査
② 足された印象を4択で回答
目的:付加された印象がわかるか
23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
集計方法
①、②は、印象を選択肢から回答
→そのまま4択として集計
③、④は、追加した印象が増加した
ように感じた割合
→2択にして正答率として集計
概観
正答率は全体として71~79%(95%信頼区間)
かわいいの方が、かっこいいより高い
トップスの方が、ワンピースより高い
クイズ形式の③の方が、
同意を問う形式の④より高い
全体としての数字にユーザーごとの
大きな偏りはなかった
アンケート調査:結果
回答者ごとの正答率
印象、質問形式、カテゴリごとの正答率
① ② ③
④
24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
かわいい
正答率が高かったものは
細部の変化が大きい
プリーツの追加
ウエストが絞られる
正答率が低かったものは
大域的に変化
服地の色や柄の変化
ベルトの追加
丈が短くなる
アンケート調査:印象の違いによる結果
Q24:かわいいを足して生成、かわいいという印象が
足されたと感じるか?
Q17:ある印象を足して生成、かっこいいという印象が
足されたと思うか?
全員正解だった設問(形式③)
全員正解だった設問(形式④)
25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
25
かわいい
正答率が高かったものは
細部の変化が大きい
プリーツの追加
ウエストが絞られる
正答率が低かったものは
大域的に変化
服地の色や柄の変化
ベルトの追加
丈が短くなる
アンケート調査:印象の違いによる結果
Q23:かわいいを足して生成、かわいいという印象が
足されたと感じるか?
Q5:ある印象を足して生成、どの印象が足されたと思うか?
正答率が低かった設問(形式②)
正答率が低かった設問(形式④)
26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
26
アンケート調査:印象の違いによる結果
かっこいい
かわいいよりも正答率が低い
ワンピースが特に低い
<理由として考えられること>
Q26:かっこいいを足して生成、かっこいいという印象が
足されたと感じるか?
かっこいいとワンピースの相性
ワンピースというカテゴリが
かわいい寄りである
明確な記号の有無
形やプリーツといった、多くの人が
同意する特徴が少ない可能性がある
正答率が低かった設問(形式②)
正答率が低かった設問(形式④)
Q5:ある印象を足して生成、どの印象が足されたと思うか?
27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
27
アンケート調査:印象の違いによる結果
かっこいい
かわいいよりも正答率が低い
ワンピースが特に低い
<理由として考えられること>
かっこいいとワンピースの相性
ワンピースというカテゴリが
かわいい寄りである
明確な記号の有無
形やプリーツといった、多くの人が
同意する特徴が少ない可能性がある
データセットにおける
ワンピースの印象内訳
(上:かわいい、
下:かっこいい)
28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
28
まとめと展望
生成モデルで印象を付与できるか、第一弾の検証として、
印象による条件付き生成の手法による結果をアンケート調査
生成結果に対するアンケートは、正答率100%がある一方、
あまり賛同を得られない設問もあった
→生成モデルでの印象の付与に一定の有効性
他の印象での検証
手法の改良:生成における印象の付与の改善
学習時に細部の変化が大きくなるような項を追加
潜在空間の解析と利用
マルチラベルでの安定した学習と生成
マルチモーダルモデル
画像を入力とする
まとめ
展望
Notas del editor 深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究 1.1 一般消費者における印象
1.2 専門家の共通認識としての印象
・最終的には各々の印象
・まずは,共通項の部分を
・コミュニケーションの円滑化には,まず共通認識→パーソナライズ
・本研究では~
研究の概要図
印象付与後の画像の例が欲しい
具体的なseedや生成方法は後のスライドで
[4] Peebles, W., Zhang, R., Torralba, A., Efros, A. A., Berkeley, U. C., & Ai, F. (n.d.). GAN-Supervised Dense Visual Alignment. (2022)
[5] Alaluf, Y., Patashnik, O., & Cohen-Or, D. (2022). ReStyle: A Residual-Based StyleGAN Encoder via Iterative Refinement. 6691–6700. https://doi.org/10.1109/iccv48922.2021.00664 (2021)
[6] Ryotaro Shimizu, Yuki Saito, Megumi Matsutani, Masayuki Goto, Fashion intelligence system: An outfit interpretation utilizing images and rich abstract tags, https://doi.org/10.1016/j.eswa.2022.119167. (2022)
[2] Jiang, Y., Yang, S., Qiu, H., Wu, W., Loy, C. C., & Liu, Z. (2022). Text2Human: Text-Driven Controllable Human Image Generation. ACM Transactions on Graphics, 41(4). https://doi.org/10.1145/3528223.3530104
[3] Hou, Y., Vig, E., Donoser, M., & Bazzani, L. (2022). Learning Attribute-driven Disentangled Representations for Interactive Fashion Retrieval. 12127–12137. https://doi.org/10.1109/iccv48922.2021.01193
[6] Men, Y., Mao, Y., Jiang, Y., Ma, W. Y., & Lian, Z. (2020). Controllable person image synthesis with attribute-decomposed gan. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition [8] Karras, T., & Aila, T. (n.d.). Analyzing and Improving the Image Quality of StyleGAN. (2020)
[9] Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine, Jaakko Lehtinen, Timo Aila Training Generative Adversarial Networks with Limited Data. NeurIPS. (2020) 印象が反映されない,衣服の変化が大きすぎる(色や形が別の商品と言えるほど変化したり,カテゴリーが変わったりする)といった生成における問題点の解消や,モード崩壊を防ぐため 角度や微妙な照明の違いで同じに見える
母集団:71539
信頼レベル90%、許容誤差5%
→271.2 < 72 * 4 (= 288) かっこいいの方が低いものが多い
低いものは色は変わっていても細部の変化が少ない?
p3p4を見ると,かっこいいのワンピースが特に低い→かっこいいとワンピースが,そもそも相性が悪い?(ワンピースというカテゴリーが既にかわいい寄り)
「かわいい」にはリボンが付くといった明確に記号があるが,「かっこいい」の
かっこいいの方が低いものが多い
低いものは色は変わっていても細部の変化が少ない?
p3p4を見ると,かっこいいのワンピースが特に低い→かっこいいとワンピースが,そもそも相性が悪い?(ワンピースというカテゴリーが既にかわいい寄り)
「かわいい」にはリボンが付くといった明確に記号があるが,「かっこいい」の
アプリとして使う上で必要と思われること
ピクセル値の変化や識別ネットワークでの数値化により生成画像の変化の度合いを取得
ルールベースやヒューリスティックで条件付けに用いる数値を改良
展望は目的に照らし合わせて