Emotionally Intelligent Fashion Design Using CNN and GAN

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
北海道大学大学院情報科学研究院
情報理工学部門複合情報工学分野調和系工学研究室
修士2年右田幹
Emotionally Intelligent Fashion Design Using
CNN and GAN

論文情報 2
• タイトル
– Emotionally Intelligent Fashion Design Using CNN and GAN
• 著者
– Cheng Yang, Yuliang Zhou, authors Lingang Wu
• 出典及び出典日
– Computer-Aided Design and Applications, 2021 03
• 論文URL
– http://cad-journal.net/files/vol_18/CAD_18(5)_2021_900-913.pdf

概要 3
・消費者の抱くイメージとファッション商品のマッチングを目的
・商品イメージを分類（ Product Image Recognition model ）、生成
（ Intelligent Design Generation Model ）するモデルを提案
・Product Image Recognition modelモデルは、CNNベースにより構築
・Intelligent Design Generation Modelモデルは、DCGANとConditinal GAN
を組み合わせたものにより構築
・今回は、靴の画像に照準を絞る
・実験結果から、提案手法の実現可能性と有効性が示せた

背景 4
本研究では靴を対象にして、商品イメージの設計手法を検討
 商品イメージの認識（Product Image Recognition model ）、生成（Intelligent Design
Generation Model）を行う
製品性能が全体的に向上した
 選ぶ上で機能よりもイメージが先行
 消費者が望むイメージを把握することが重要に
機械学習により、消費者の感情を判断するモデルが登場
 Jaber : クラスタリングにより、女優を親密さに応じて分類
 Bell and Bala : CNNをもちいて、インテリアデザインに基づいて、配置する製品本体の
識別や類似製品の検索を実現
一方で、深層学習を利用して、ユーザーのイメージに基づいた
製品のデザイン分析に関する研究や開発はほとんどない
上記を実現することで、商品イメージの定義のみで
欲求通りの製品デザインを、容易かつ大量に取得可能

Product Image Recognition model 5
①データセット作成
②使用するイメージ選択
③商品のイメージをラベル付け
④CNNによる学習実装
⑤結果
Product Image Recognition modelの概要
説明の流れ

使用したデータセット：UT Zappos 50K
 複数ブランドの50,025枚の靴の写真が
含まれる
UT Zappos 50K データセットの一部
商品イメージ用語選出
・86個を選出（関連研究、雑誌、ECサイトなどを参考）
・同じ意味を持つものを削除し、63個残す
 例。 “publicized-introverted”、“publicized-understated”
・工業デザイン学科の大学院生・教員30名によりフィルタリング
 画像に対して、最も適したイメージ用語を選択してもらう
 15人以上によって正しく選択されたイメージ用語のみ。45個選出した
データセット

クラスタリングの概要
商品イメージのクラスタリング
 工業デザイン学科の大学院生・教員22名が参加
データセット
・２乗和誤差の和（SSE）により最適なクラスタ数を決定。
 4クラスタに分けたとき、明らかな変曲点があったため、これに
・4つのクラスタについて、各代表の単語ペアを選択
 gorgeous-plain, modern-retro, casual-formal, and male-female.
・各自、45個を自らの判断でクラスタリング
 クラスタ数、各クラスタに含まれる個数など、
制限はなし
・同じグループに含まれる単語同士の出現回数
を計算（45×45の行列に記入）
Female Retro …
Female ☓ 2 2
Retro 2 ☓ 3
… 3 4 ☓
行列の例
・スペクトルクラスタリングによりクラスタをグループ化
データからグラフを生成。グラフの連結性に注目してクラスタリングする手法

被検者の選定
・工業デザイン学科の大学教員と大学院生38名
 23歳から40歳の男性17名、女性21名
 一般消費者に比べ、商品イメージの知見がある
アンケート
・50,025枚のデータセットから無作為に1,200枚選出
・1200枚を無作為に12個のグループに分類。12種類のアンケートが出来上がる
アンケートの１例
商品イメージのラベル付け

ラベル付け結果
・Positive：各商品に対して、全体のスコア平均が0より大きい
・Negative：各商品に対して、全体のスコア平均が0より小さい
・Neutral （扱わないため、非表示）：各商品に対して、全体のスコア平均が0
各指標
（左側がPositive）
Positive Negative Total
Female - Male 426 503 929
Retro - Modern 525 398 923
Formal - Casual 778 200 978
Plain - Gorgeous 417 509 926
商品イメージのラベル付け

・CNNの入力に対応させるために、正方形に変換
 元々の画像サイズは136×102
 白Paddingを追加。歪みを回避
・データの分割
 Train data : 7割
 Test data : 3割
・RGB値の平均値を算出
 各画像の値から平均値を差し引き、これを用いる
・ Train dataに、画像を水平に反転させたものを追加
・224×224に変換。CNNに入力
UT Zappos 50K データセットの一部
前処理

・靴の画像認識のために、VGG16を使用
・出力層は、ソフトマックス関数を採用
 各指標は、0~1の実数を取る
VGG16の概要
指標(p9)に合わせて
4次元に変更
・損失関数（weighted cross entropy）
𝑙𝑜𝑠𝑠 =
𝑖=1
𝑛
𝛼𝑖𝐶𝐸𝑖
𝑖=1
𝑛
𝛼𝑖
𝑛 ∶ 学習する画像の数
𝛼𝑖 ∶ 𝑖番目の商品イメージの平均スコア
𝐶𝐸𝑖: 𝑖番目の交差エントロピー誤差
実装

・weight decayの使用（過学習対策）
 L2正則化とλ∑𝑤𝑖を損失関数に。（減衰率 λ=0.0005）
・パラメータ更新 : Momentum SGD
学習時の詳細設定
𝑊𝑡+1
= 𝑊𝑡
− 𝜂
𝜕𝐿 𝑊𝑡
𝜕𝑊𝑡 + 𝛽𝛥𝑊𝑡
𝐿 ∶ 損失関数
𝛽 ∶ 0.9
𝜂 : 0.0001（100epochごとに0.1倍）
・neutralは使用しない
 イメージが無いから
・学習の様子
実装

・standard loss（ standard cross entropy ）と
weighted cross （ weighted cross entropy ）で比較
 重みの導入と精度や学習効率の関係を確認するため
・weighted cross の方が精度が高い
・100epochのほうが低い
 オーバーフィッティングの影響
50 epoch 100 epoch
結果

Intelligent Design Generation Model 14
Product Image Recognition Modelで用いたデータセットだけでは不十分
 UT Zappos 50Kから10240個の靴をランダムに選択
 Product Image Recognition Modelよりラベル付け。大規模なデータセットを作成
各指標
（左側がPositive）
Positive Negative Total
Female - Male 4807 5433 10240
Retro - Modern 5844 4396 10240
Formal - Casual 7689 2551 10240
Plain - Gorgeous 4995 5245 10240
データの前処理
GANを用いて、想定するイメージかつ革新的な製品を生成する

・DCGANとConditional GANから成る
・Generator
 入力：100次元分の乱数、４次元（Female、Male、Formal、Casual）
の商品ラベルに関するone hot encodingの連結
⁃ 特徴を沢山持つのは稀だから
⁃ ユーザーは1~2個のスタイルを選ぶことが多い
 出力：画像を生成
Generator Discriminator
実装
・Discriminator
 入力：本物の画像、Discriminatorの出力
 出力：0~1の実数値（本物か偽物かを判定）
・収束するまで交互に学習

・ GeneratorとDiscriminatorを交互に更新
 Generatorを固定、 Discriminatorを2回更新
 Discriminatorを固定、 Generatorを1回更新
・batch size=32
・1 epochごとに320回学習。100epoch学習
・ GeneratorとDiscriminatorのパラメータ：正規分布（平均0, 標準偏差0.02）
・Adamによりパラメータ更新
・ Discriminatorの活性化関数：Leaky ReLU
学習時の詳細設定
学習時間に応じて、高品質な画像を生成
1 epoch 10 epoch 100 epoch

・右図は不適なサンプルも入っている
・イメージをもとに靴を生成できる
・生成された2000枚の画像のうち、不適なサンプルの割合は4.1％ほどあった
 プロのデザイナーの知見に基づいて評価
定性的な評価
100epochでの生成結果
不適なサンプルが生成された理由
・靴の色が複雑なものがある
・靴紐が細いものがある
 靴紐と本体の繋がりがわかりにくい

・アンケート実施
 生成された商品がイメージと合致しているか検証するため
・工業デザイン学科の大学院生・教員20名が被検者
 23歳から40歳までの男性7名、女性13名
・320枚のサンプルを作成
 4.1％の不適なサンプルを除去。各イメージごとに25枚選択（合計100枚）
・被検者は、1枚のサンプルごとにイメージを選択
 各自の経験をもとに選択
 「Male Casual」、「Male Formal」、「Female Casual」、「Female Formal」、
「non-conformance（どれにも適さない）」から選択
定量的な評価
16人以上（8割以上）の被検者が正しい選択をした場合
その生成サンプルはイメージ通り（True）と判断

定量的な評価
誤ったパターンについて
結果
（例）Female Casual
・約半数のみがFemale Casualを選択したサンプルが２枚
 Female Casual以外では、多くの人がnon-conformanceを選択
・ non-conformanceを選択したうちの一人は、 Neutral Casual と判断した

考察 20
・ファッション以外でも、他分野の商品イメージに対して適応可能
Intelligent Design Generation Modelの応用
（例）自動車
 必要な準備
⁃ 自動車画像の用意
⁃ ユーザーによる、イメージ評価（「モダン-レトロ」、「流行り-伝統的」な
ど）をしてもらう
（例）人間への支援
 デザイナー
⁃ 生成された画像を参考に、改善が可能（労働時間削減、作業効率向上）
 ユーザー
⁃ 生成された画像をもとに、自分の好みの理解につながる（外観の形成）
・現段階での課題：労力がかかる
 画像は同じ視点から撮影
 人手により行われるラベル付け
 上記2つを満たしたラベル付き画像が大量にある
教師なし学習による商品イメージ認識を検討

結論 21
・消費者の抱くイメージとファッション商品のマッチングを目的
・Product Image Recognition modelは、ユーザーとデザイナーの認識の一
致のため
・Intelligent Design Generation Modelは、革新的な商品を生成できる
・今回は、靴の画像に照準を絞る
・実験結果から、提案手法の実現可能性と有効性が示せた

Emotionally Intelligent Fashion Design Using CNN and GAN

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Emotionally Intelligent Fashion Design Using CNN and GAN

Similar to Emotionally Intelligent Fashion Design Using CNN and GAN (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (9)

Emotionally Intelligent Fashion Design Using CNN and GAN