Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Learning.pptx

H
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
DLゼミ
2022/08/29
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
修士2年 右田 幹
Fine-Grained Fashion Similarity Prediction by
Attribute-Specific Embedding Learning
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報 2
• タイトル
– Fine-Grained Fashion Similarity Prediction by Attribute-Specific Embedding Learning
• 著者
– Jianfeng Dong, Zhe Ma, Xiaofeng Mao, Xun Yang, Yuan He, Richang Hong, Shouling
Ji
• 出典及び出典日
– IEEE Transactions on Image Processing , 2021 03
• 論文URL
– https://arxiv.org/pdf/2104.02429.pdf
• GitHub
– https://github.com/maryeon/asenpp
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
概要 3
・ファッションアイテムのきめ細かい部分の類似性を識別する研究
・属性のembeddingを学習するASEN(Attribute-Specific Embedding
Network)を提案
・ ASEN はGrobal branch(画像全体を入力値)とLocal branch(属性
に関連する部分のみを入力値)から成る
・上記2つは、補完関係にある
・3種類のデータセットを用いて、有効性を確認
・実験の結果、ASENで類似度予測の有効性が確認できた
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
背景 4
ファッションのアイテム間の類似度予測は、重要なタスク
⁃ 例. ショップの服検索、服の適合度確認、互いの服が似ているか
これまでの手法:コサイン類似度
⁃ 似ているアイテムは特徴量の距離が近いことを前提とする
⁃ 全体の類似度を測ることは可能
全体的に似ていないものの、細かい部分(属性)で似ている部分を見つけるのが
困難(右下の図)
画像の中にある、属性のembeddingを学習する
ASEN(Attribute-Specific Embedding Network)を提案
・盗作アイテムは、一部分を真似しているが多く、こ
れの発見に貢献できる
応用例
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
関連研究 5
・vietら
⁃ 全体の特徴量を学習し、属性に応じてその部分をマスクする
⁃ 属性にごとに、関連しているembeddingの次元を選択(この部分がマ
スクされる)
⁃ マスクされた場所の特徴量をもとに、属性のきめ細かな類似度を識別
する
・Tanら
⁃ vietらの応用。固定マスクだったものを動的な重みを利用することで、
調節できるようにした
我々は、複数の属性のembedding 空間を学習
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法 6
ASENの概要
𝑓𝑔(𝐼, 𝑎) : Global Branchにより得られる属性に関する特徴量
𝐼 ∶ 入力画像
𝑎 ∶ 属性
𝑓𝑙(𝐼, 𝑎) : Local Branchにより得られる属性に関する特徴量
𝑓(𝐼, 𝑎) : 𝑓𝑔(𝐼, 𝑎)と𝑓𝑙(𝐼, 𝑎)を組み合わせた特徴量
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法 7
ASENの概要
Global Branch : 画像全体から属性に関する特徴量を取得
Local Branch : 画像の一部分に着目して、属性に関する特徴を取得
ASA(Atribute-aware Spatial Attention) : 画像の中で特に属性についての注目点を捉える
ACA(Attibute-aware Channel Attention) : 画像の中で注目すべきチャネルを捉える
上記2つのBranchには、下記のモデルが含まれている
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法 8
Global Branch
特徴抽出
𝐼 ∶ 入力画像
・特徴量抽出:ResNet-50(ImageNetを再学習したもの)
・画像サイズ : 𝑐 × ℎ × 𝑤
⁃ ℎ × 𝑤 : 特徴量のサイズ、 𝑐 : チャネル数
ResNet-50
この部分は
削除
𝑎 ∶ 属性
・one-hot vector(サイズ : n × 𝐶𝑎)
⁃ 𝑛 : 1枚の画像に存在する属性の数、 𝐶𝑎: 属性のembeddingの次元
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法 9
Global Branch
ASA (Atribute-aware Spatial Attention)
𝑥 ∶ 画像
𝑝(𝑥) = 𝑡𝑎𝑛ℎ(𝐶𝑜𝑛𝑣𝑐1
(𝑥))
𝑝 𝑎 = 𝑡𝑎𝑛ℎ 𝑊
𝑠𝑎 ∙ 1
𝐶𝑜𝑛𝑣𝑐1
∶ 𝑐1個の1×1の畳み込みカーネル
画像と属性の次元を揃える
𝑎 ∶ 属性 𝑊
𝑠 ∶ 変換行列
𝑎𝑠
= 𝑠𝑜𝑓𝑡𝑚𝑎𝑥( 𝑖
𝑐1
[𝑝 𝑎 𝑝(𝑥)]𝑖
𝑐1
)
𝑎𝑠
∶ attention weight
: Hadamard product
𝑥𝑠
=
𝑗
ℎ×𝑤
𝑎𝑗
𝑠
𝑥𝑗
𝑥𝑠 ∶ 𝐼 の中で属性𝑎に関する注目特徴ベクトル
𝑗 ∶ 画像の中で示している場所
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法 10
Global Branch
ACA(Attibute-aware Channel Attention)
𝑞(𝑎) = 𝛿(𝑊
𝑐𝑎)
𝑎𝑐
= 𝜎(𝑊2𝛿(𝑊1[𝑞 𝑎 , 𝑥𝑠]))
𝑊1 𝜖ℝ
𝑐
𝑟
+(𝑐+𝑐2)
𝑊2 𝜖ℝ𝑐×
𝑐
𝑟
異なる属性同士であっても、着目する場所が同じ場合がある
襟のデザイン、襟の色
どちらも注目点となる
属性に応じて、着目する次元を選ぶ
Attention weights
𝛿 ∶ 𝑅𝑒𝐿𝑈, 𝜎 ∶ シグモイド関数
属性のマッピング層
𝑊1 , 𝑊2 : 変換行列, 𝑊
𝑐 ∶ パラメータ
𝑥𝑠 ∶ 𝐴𝐶𝐴で求めたもの 𝑊
𝑐 𝜖ℝ𝑐2×𝑐𝑎
𝑟 ∶ 𝑟𝑒𝑑𝑢𝑐𝑡𝑖𝑜𝑛 𝑟𝑎𝑡𝑒
ACAの出力値
𝑥𝑐 = 𝑥𝑠 𝑎𝑐
𝑓𝑔 𝐼, 𝑎 = 𝑊𝑥𝑐 + 𝑏
ACAの出力値
𝑊 ∶ 変換行列
𝑏 ∶ バイアス項
𝑊 𝜖ℝ𝑐𝑜×𝑐
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法 11
Local Branch
入力:RoI(Region of Interest)
① ② ③
入力が異なるだけで、そのあとの流れはGlobal Branchと同じ
弱学習付き局在化方法によりRoIを生成
①ASAにより、着目している部分の情報を取得
②閾値(論文に詳細の記述はなし)を定めて、binary行列により表現
③②から、白部分が必ず含まれるように最小面積となるbounding boxを作成。
*短辺を正方形に拡張。白部分を真ん中に配置
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法 12
損失関数 𝜏 = { 𝐼, 𝐼+
, 𝐼−
𝑎)}
𝐼 ∶ 画像
𝐼+
∶ 属性𝑎を持つ
𝐼−
∶ 属性𝑎を持たない
Global BranchのTriplet ranking loss
ℬ ∶ 𝜏からサンプリングした
ミニバッチ
ℒ𝑔 =
𝐼,𝐼+,𝐼− 𝑎)}𝜖ℬ
max(0, 𝑚 − 𝑠𝑔 𝐼, 𝐼+
𝑎) + 𝑠𝑔 𝐼, 𝐼−
𝑎))
𝑚 ∶ 0.2(マージン)
𝑠○ ∶○ における類似度
𝑓◇ ∶ コサイン類似度
Local BranchのTriplet ranking loss
∗ 𝑠○ 𝐼, 𝐼∗
𝑎) =
𝑓○ 𝐼, 𝑎 ・𝑓○(𝐼∗
, 𝑎)
𝑓○ 𝐼, 𝑎 2 𝑓○(𝐼∗, 𝑎) 2
ℒ𝑙 =
𝐼,𝐼+,𝐼− 𝑎)}𝜖ℬ
max(0, 𝑚 − 𝑠𝑙 𝐼, 𝐼+
𝑎) + 𝑠𝑙 𝐼, 𝐼−
𝑎))
alignment loss : global , local どちらも表現した損失
ℒ𝑎 =
𝐼,𝐼+,𝐼− 𝑎)}𝜖ℬ
𝑑𝑔𝑙 𝐼 𝑎 + 𝑑𝑔𝑙 𝐼+
𝑎) + 𝑑𝑔𝑙 𝐼−
𝑎)]
𝑑𝑔𝑙 𝐼∗
𝑎) = 1 −
𝑓𝑔 𝐼∗
, 𝑎 ・𝑓𝑙(𝐼∗
, 𝑎)
𝑓𝑔 𝐼∗, 𝑎
2
𝑓𝑙(𝐼∗, 𝑎) 2
𝑑𝑔𝑙 ∶ 𝑎𝑙𝑖𝑔𝑛𝑚𝑒𝑛𝑡における類似度
𝑔 ∶ 𝑔𝑙𝑜𝑏𝑎𝑙 𝑏𝑟𝑎𝑛𝑐ℎにおける類似度
𝑙 ∶ 𝑙𝑜𝑐𝑎𝑙 𝑏𝑟𝑎𝑛𝑐ℎにおける類似度
ℒ = 𝛼ℒ𝑔 + 𝛽ℒ𝑙 + 𝛾ℒ𝑎
ASEN全体の損失関数 𝛼, 𝛽, 𝛾 ∶ ハイパーパラメータ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法 13
損失関数を用いた学習プロセス
𝜃𝑔: global branchに関するパラメータ
𝜃𝑙: local branchに関するパラメータ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法 14
類似度の算出
ASENモデルの学習が完了することで、画像のペアの類似度を以下の様に計算可能
𝑠 𝐼, 𝐼′ ∶ 属性に関する類似度
𝑠 𝐼, 𝐼′|𝑎 = 𝜆𝑠𝑔 𝐼, 𝐼′|𝑎 + 1 − 𝜆 𝜆𝑠𝑙 𝐼, 𝐼′|𝑎
𝜆 ∶ ハイパーパラメータ(0~1の実数)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 15
実験概要
ASENのきめ細かな類似性予測の有効性の検証
目的
属性に応じたファッション検索のタスクを実施
⁃ 画像と指定された属性が与えられたとき、与えられた画像と同じ属性値を持
つ画像を検索すること
目的を達成するための評価方法
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 16
実験にあうように、既存データセットを再構成
・FashionAI
・DARN
・DeepFashion
右図の9種類の属性がアノテーションされている
画像枚数 : 253,983枚
カテゴリ・属性予測用データセットを使用
画像枚数 : 289,222枚
6種類の属性項目に対して、1050種類の属性値の候補が存在
画像につき、1つ以上の属性のラベルを付与
画像枚数 : 180,335枚
属性の候補8種類。
属性をより細かくみたサブカテゴリも存在
いずれも
8:1:1 = 学習 : 検証 : テスト
をデータの分割比率とする
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 17
実験の詳細
比較方法
実装方法
・MAP
・Recall@100
0~100(%)で表現
・Pytorchにより実装
・Global branch
⁃ ResNet-50で特徴量抽出
⁃ 画像の短辺を224にリサイズ、中心部分を着る取る
・Local branch
⁃ ResNet-34で特徴量抽出。入力サイズは112×112
・第1段階
⁃ Global triplet ranking loss 学習率 : 10−4
(3エポックごとに学習率を0.9倍)
・第2段階
⁃ Global triplet ranking loss 学習率 : 10−5
⁃ Local triplet ranking loss 学習率 : 10−4
(2つとも1エポックごとに学習率を0.95倍)
2段階ごとのパラメータ調整
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 18
実験の詳細
その他パラメータ
損失関数
・ α = 1 , β = 0.1 , γ=0.1
ASEN学習後の類似度計算
・𝜆= 0.6
ASEN学習中
・バッチサイズ : 16
・最適化 : Adam
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 19
比較対象
・Random Baseline
候補画像をランダムにソート
・Triplet network:
CNNによって測定された画像全体の特徴量から、類似性を測定
・Conditional similarity network ( p5で説明したvietら)
マスクされた属性情報をもとに、類似度測定
・ 𝐴𝑆𝐸𝑁𝑔
ASENのglobal branchのみ持つ
・ 𝐴𝑆𝐸𝑁𝑙
ASENのlocal branchのみ持つ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結果 20
FashionAI dataset におけるMAPの性能
提案手法が最も優れている
細かい部分の属性の類似度を識別するのに最適
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結果 21
FashionAI dataset におけるMAPの性能
提案手法が最も優れている
細かい部分の属性の類似度を識別するのに最適
その他分析
𝐴𝑆𝐸𝑁𝑔はCSNより精度が高い
マスクで捉えるよりも、画像全体から注目点を捉える方法が効果的
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結果 22
FashionAI dataset におけるMAPの性能
提案手法が最も優れている
細かい部分の属性の類似度を識別するのに最適
その他分析
𝐴𝑆𝐸𝑁𝑔はCSNより精度が高い
マスクで捉えるよりも、画像全体から注目点を捉えるを捉える方法が効果的
𝐴𝑆𝐸𝑁𝑙はCSNより精度が低い
RoIの切り取り方が悪いと、精度が悪くなる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結果 23
DARN
DeepFashion
DARNとDeepFashionの結果
Recall@100の結果
提案手法が最も優れている
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結果 24
DARN
DeepFashion
DARNとDeepFashionの結果
Recall@100の結果
提案手法が最も優れている
その他分析
DeepFashionの精度が全体的に低い
アノテーションの質に原因
例. ShapeタイプのAラインのラベル付けされ
た画像のうち、正しいものは77.8%のみ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結果 25
・属性の注目の仕方について
・損失関数
・弱教師付き局在化、RoI
・ハイパーパラメータ
ASENの各構成要素の効果を分析
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結果 26
属性の注目の仕方について
𝐴𝑆𝐸𝑁𝑔からASAとACAをそれぞれ取り除いた方法で分析
⁃ w/o * : *を取り除いたモデル
𝐴𝑆𝐸𝑁𝑔が最も高い
ASA、ACAいずれも有効
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結果 27
損失関数
ℒ = 𝛼ℒ𝑔 + 𝛽ℒ𝑙 + 𝛾ℒ𝑎
右式の影響を調査
全体的なMAPは𝐴𝑆𝐸𝑁が最も高い
どの損失も必要
ASEN w/o ℒ𝑔 が最も精度が悪い
ℒ𝑔 は必要不可欠
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結果 28
弱教師付き局在化
𝐴𝑆𝐸𝑁𝑓𝑢𝑙𝑙 : local branchの入力画像に、切り抜いていない画像を投入
(global branchと入力している画像は同じ)
ASEN(入力に切り抜き(RoI)を用いる方法)の方が精度が高い
弱教師付き局在化法は効果的
Length関連は、精度が近い
アイテムの丈などは、全体を見て分かるものだから
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結果 29
弱教師付き局在化
𝐴𝑆𝐸𝑁1 : 最も広い範囲で注目された点1つのみ
design関連は、 𝐴𝑆𝐸𝑁1 のほうが高い
扱う領域を増やすと、ノイズが含まれやすくなるから
Length関連は、 𝐴𝑆𝐸𝑁2 のほうが高い
アイテムの丈など長さを表すものは、複数の領域に対応している
𝐴𝑆𝐸𝑁2 :広い範囲で注目された点上位2つ
着目された複数の領域の大きさ順から
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結果 30
・ λ = [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]
・ λに関係なく、 ASENが最も精度が高い
・ASENについて、いずれも0.5,0.6あたりがピーク値
ハイパーパラメータλの影響を
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
考察 31
同じ属性値同士は近く、異なる属性値同士は遠くなっている
ASENで学習できたものをt-SNEにより視覚化
FashionAIのテストデータセットを取り出し、2次元空間の分布を可視化
ASENが属性の識別がうまくできていることを表している
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
考察 32
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
考察 33
属性ごとにうまく分離できている
ASENで学習できたものをt-SNEにより視覚化
FashionAIのテストデータセットを取り出し、2次元空間の分布を可視化
属性別の埋め込み空間を表現
属性が異なるということは、アイテムの特性も異なる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
考察 34
画像内の属性に対する注目点の可視化
Global branch local branch Global branch local branch
ほとんどの画像で属性をうまく着目できている
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
考察 35
計算時間
・ASENのパラメータ数 : 210万
・FLOPs(コンピューターが1秒間に処理可能な演算回数): 4億1700万
・1枚の画像の特徴量抽出時間 : 7ms
・メモリ220G
・GPU : GTX 2080TI
使用したスペック
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結論 36
・ファッションアイテムのきめ細かい部分の類似性を識別する研究
・Grobal branchとLocal branchから成るASENを提案し、相互で視点の
補完を実現
・ASAとACAにより、属性の類似度計算を実現
・実験の結果、類似性を識別にはASENが最も良い
・きめ細かい類似性は全体の類似性と補完関係にある( Grobal branch
とLocal branch との関わり)
・今後は、テキスト文から属性を発見する手法も検討
1 de 36

Recomendados

MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2) por
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)harmonylab
2.4K vistas47 diapositivas
MLP-Mixer: An all-MLP Architecture for Vision por
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Visionharmonylab
655 vistas25 diapositivas
ArcFace: Additive Angular Margin Loss for Deep Face Recognition por
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognitionharmonylab
813 vistas21 diapositivas
Self-supervised Learning of Adversarial Example: Towards Good Generalizations... por
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...harmonylab
472 vistas21 diapositivas
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono... por
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...harmonylab
489 vistas32 diapositivas
A Generalist Agent por
A Generalist AgentA Generalist Agent
A Generalist Agentharmonylab
835 vistas33 diapositivas

Más contenido relacionado

Similar a Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Learning.pptx

RAPiD por
RAPiDRAPiD
RAPiDharmonylab
1K vistas31 diapositivas
Semi-Supervised Neural Architecture Search por
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Searchharmonylab
971 vistas15 diapositivas
You Only Learn One Representation: Unified Network for Multiple Tasks por
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasksharmonylab
1.3K vistas23 diapositivas
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic por
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmeticharmonylab
449 vistas29 diapositivas
Towards Total Recall in Industrial Anomaly Detection por
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detectionharmonylab
1.2K vistas31 diapositivas
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究 por
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究harmonylab
812 vistas28 diapositivas

Similar a Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Learning.pptx(20)

Semi-Supervised Neural Architecture Search por harmonylab
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
harmonylab971 vistas
You Only Learn One Representation: Unified Network for Multiple Tasks por harmonylab
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab1.3K vistas
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic por harmonylab
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
harmonylab449 vistas
Towards Total Recall in Industrial Anomaly Detection por harmonylab
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
harmonylab1.2K vistas
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究 por harmonylab
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
harmonylab812 vistas
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究 por harmonylab
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab518 vistas
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo... por harmonylab
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
harmonylab913 vistas
Feature Erasing and Diffusion Network for Occluded Person Re-Identification por harmonylab
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab660 vistas
Emotionally Intelligent Fashion Design Using CNN and GAN por harmonylab
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
harmonylab603 vistas
A Study on Generation of Deformed Route Maps using Octilinear Grid por harmonylab
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab480 vistas
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D... por harmonylab
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab1.1K vistas
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone por harmonylab
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab96 vistas
A Study on Clothing Recommendation Information Presentation System Based on C... por harmonylab
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
harmonylab447 vistas
2021 09 29_dl_hirata por harmonylab
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
harmonylab853 vistas
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation por harmonylab
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab741 vistas
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text por harmonylab
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
harmonylab390 vistas
Outfit net fashion outfit recommendation with attention based multiple instan... por harmonylab
Outfit net fashion outfit recommendation with attention based multiple instan...Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...
harmonylab906 vistas
修士論文 por harmonylab
修士論文修士論文
修士論文
harmonylab697 vistas
深層自己回帰モデルを用いた俳句の生成と評価に関する研究 por harmonylab
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab457 vistas

Más de harmonylab

Voyager: An Open-Ended Embodied Agent with Large Language Models por
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
519 vistas44 diapositivas
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation por
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
784 vistas36 diapositivas
ReAct: Synergizing Reasoning and Acting in Language Models por
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
781 vistas50 diapositivas
形態素解析を用いた帝国議会議事速記録の変遷に関する研究 por
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
346 vistas32 diapositivas
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究 por
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
306 vistas25 diapositivas
競輪におけるレーティングシステムを用いた予想記事生成に関する研究 por
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
1K vistas24 diapositivas

Más de harmonylab(15)

Voyager: An Open-Ended Embodied Agent with Large Language Models por harmonylab
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab519 vistas
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation por harmonylab
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab784 vistas
ReAct: Synergizing Reasoning and Acting in Language Models por harmonylab
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab781 vistas
形態素解析を用いた帝国議会議事速記録の変遷に関する研究 por harmonylab
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab346 vistas
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究 por harmonylab
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
harmonylab306 vistas
競輪におけるレーティングシステムを用いた予想記事生成に関する研究 por harmonylab
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
harmonylab1K vistas
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究 por harmonylab
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab489 vistas
A Study on Estimation of Household Kerosene Consumption for Optimization of D... por harmonylab
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
harmonylab313 vistas
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究 por harmonylab
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
harmonylab383 vistas
A Study on the Generation of Clothing Captions Highlighting the Differences b... por harmonylab
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
harmonylab563 vistas
2022年度調和系工学研究室配属説明会資料 por harmonylab
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料
harmonylab320 vistas
CKL_about_panf2022.pdf por harmonylab
CKL_about_panf2022.pdfCKL_about_panf2022.pdf
CKL_about_panf2022.pdf
harmonylab220 vistas
Outracing champion Gran Turismo drivers with deep reinforcement learning por harmonylab
Outracing champion Gran Turismo drivers with deep reinforcement learningOutracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learning
harmonylab556 vistas
Solving Quantitative Reasoning Problems with Language Models por harmonylab
Solving Quantitative Reasoning Problems with Language ModelsSolving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language Models
harmonylab494 vistas
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ... por harmonylab
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
harmonylab514 vistas

Último

光コラボは契約してはいけない por
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけないTakuya Matsunaga
24 vistas17 diapositivas
The Things Stack説明資料 by The Things Industries por
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things IndustriesCRI Japan, Inc.
73 vistas29 diapositivas
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) por
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
23 vistas38 diapositivas
SSH応用編_20231129.pdf por
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdficebreaker4
366 vistas13 diapositivas
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向 por
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Hitachi, Ltd. OSS Solution Center.
85 vistas26 diapositivas

Último(10)

光コラボは契約してはいけない por Takuya Matsunaga
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけない
Takuya Matsunaga24 vistas
The Things Stack説明資料 by The Things Industries por CRI Japan, Inc.
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.73 vistas
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) por NTT DATA Technology & Innovation
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
SSH応用編_20231129.pdf por icebreaker4
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdf
icebreaker4366 vistas
Windows 11 information that can be used at the development site por Atomu Hidaka
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development site
Atomu Hidaka89 vistas
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... por NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
SNMPセキュリティ超入門 por mkoda
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門
mkoda420 vistas

Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Learning.pptx

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. DLゼミ 2022/08/29 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 修士2年 右田 幹 Fine-Grained Fashion Similarity Prediction by Attribute-Specific Embedding Learning
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文情報 2 • タイトル – Fine-Grained Fashion Similarity Prediction by Attribute-Specific Embedding Learning • 著者 – Jianfeng Dong, Zhe Ma, Xiaofeng Mao, Xun Yang, Yuan He, Richang Hong, Shouling Ji • 出典及び出典日 – IEEE Transactions on Image Processing , 2021 03 • 論文URL – https://arxiv.org/pdf/2104.02429.pdf • GitHub – https://github.com/maryeon/asenpp
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 概要 3 ・ファッションアイテムのきめ細かい部分の類似性を識別する研究 ・属性のembeddingを学習するASEN(Attribute-Specific Embedding Network)を提案 ・ ASEN はGrobal branch(画像全体を入力値)とLocal branch(属性 に関連する部分のみを入力値)から成る ・上記2つは、補完関係にある ・3種類のデータセットを用いて、有効性を確認 ・実験の結果、ASENで類似度予測の有効性が確認できた
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 背景 4 ファッションのアイテム間の類似度予測は、重要なタスク ⁃ 例. ショップの服検索、服の適合度確認、互いの服が似ているか これまでの手法:コサイン類似度 ⁃ 似ているアイテムは特徴量の距離が近いことを前提とする ⁃ 全体の類似度を測ることは可能 全体的に似ていないものの、細かい部分(属性)で似ている部分を見つけるのが 困難(右下の図) 画像の中にある、属性のembeddingを学習する ASEN(Attribute-Specific Embedding Network)を提案 ・盗作アイテムは、一部分を真似しているが多く、こ れの発見に貢献できる 応用例
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 関連研究 5 ・vietら ⁃ 全体の特徴量を学習し、属性に応じてその部分をマスクする ⁃ 属性にごとに、関連しているembeddingの次元を選択(この部分がマ スクされる) ⁃ マスクされた場所の特徴量をもとに、属性のきめ細かな類似度を識別 する ・Tanら ⁃ vietらの応用。固定マスクだったものを動的な重みを利用することで、 調節できるようにした 我々は、複数の属性のembedding 空間を学習
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法 6 ASENの概要 𝑓𝑔(𝐼, 𝑎) : Global Branchにより得られる属性に関する特徴量 𝐼 ∶ 入力画像 𝑎 ∶ 属性 𝑓𝑙(𝐼, 𝑎) : Local Branchにより得られる属性に関する特徴量 𝑓(𝐼, 𝑎) : 𝑓𝑔(𝐼, 𝑎)と𝑓𝑙(𝐼, 𝑎)を組み合わせた特徴量
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法 7 ASENの概要 Global Branch : 画像全体から属性に関する特徴量を取得 Local Branch : 画像の一部分に着目して、属性に関する特徴を取得 ASA(Atribute-aware Spatial Attention) : 画像の中で特に属性についての注目点を捉える ACA(Attibute-aware Channel Attention) : 画像の中で注目すべきチャネルを捉える 上記2つのBranchには、下記のモデルが含まれている
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法 8 Global Branch 特徴抽出 𝐼 ∶ 入力画像 ・特徴量抽出:ResNet-50(ImageNetを再学習したもの) ・画像サイズ : 𝑐 × ℎ × 𝑤 ⁃ ℎ × 𝑤 : 特徴量のサイズ、 𝑐 : チャネル数 ResNet-50 この部分は 削除 𝑎 ∶ 属性 ・one-hot vector(サイズ : n × 𝐶𝑎) ⁃ 𝑛 : 1枚の画像に存在する属性の数、 𝐶𝑎: 属性のembeddingの次元
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法 9 Global Branch ASA (Atribute-aware Spatial Attention) 𝑥 ∶ 画像 𝑝(𝑥) = 𝑡𝑎𝑛ℎ(𝐶𝑜𝑛𝑣𝑐1 (𝑥)) 𝑝 𝑎 = 𝑡𝑎𝑛ℎ 𝑊 𝑠𝑎 ∙ 1 𝐶𝑜𝑛𝑣𝑐1 ∶ 𝑐1個の1×1の畳み込みカーネル 画像と属性の次元を揃える 𝑎 ∶ 属性 𝑊 𝑠 ∶ 変換行列 𝑎𝑠 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥( 𝑖 𝑐1 [𝑝 𝑎 𝑝(𝑥)]𝑖 𝑐1 ) 𝑎𝑠 ∶ attention weight : Hadamard product 𝑥𝑠 = 𝑗 ℎ×𝑤 𝑎𝑗 𝑠 𝑥𝑗 𝑥𝑠 ∶ 𝐼 の中で属性𝑎に関する注目特徴ベクトル 𝑗 ∶ 画像の中で示している場所
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法 10 Global Branch ACA(Attibute-aware Channel Attention) 𝑞(𝑎) = 𝛿(𝑊 𝑐𝑎) 𝑎𝑐 = 𝜎(𝑊2𝛿(𝑊1[𝑞 𝑎 , 𝑥𝑠])) 𝑊1 𝜖ℝ 𝑐 𝑟 +(𝑐+𝑐2) 𝑊2 𝜖ℝ𝑐× 𝑐 𝑟 異なる属性同士であっても、着目する場所が同じ場合がある 襟のデザイン、襟の色 どちらも注目点となる 属性に応じて、着目する次元を選ぶ Attention weights 𝛿 ∶ 𝑅𝑒𝐿𝑈, 𝜎 ∶ シグモイド関数 属性のマッピング層 𝑊1 , 𝑊2 : 変換行列, 𝑊 𝑐 ∶ パラメータ 𝑥𝑠 ∶ 𝐴𝐶𝐴で求めたもの 𝑊 𝑐 𝜖ℝ𝑐2×𝑐𝑎 𝑟 ∶ 𝑟𝑒𝑑𝑢𝑐𝑡𝑖𝑜𝑛 𝑟𝑎𝑡𝑒 ACAの出力値 𝑥𝑐 = 𝑥𝑠 𝑎𝑐 𝑓𝑔 𝐼, 𝑎 = 𝑊𝑥𝑐 + 𝑏 ACAの出力値 𝑊 ∶ 変換行列 𝑏 ∶ バイアス項 𝑊 𝜖ℝ𝑐𝑜×𝑐
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法 11 Local Branch 入力:RoI(Region of Interest) ① ② ③ 入力が異なるだけで、そのあとの流れはGlobal Branchと同じ 弱学習付き局在化方法によりRoIを生成 ①ASAにより、着目している部分の情報を取得 ②閾値(論文に詳細の記述はなし)を定めて、binary行列により表現 ③②から、白部分が必ず含まれるように最小面積となるbounding boxを作成。 *短辺を正方形に拡張。白部分を真ん中に配置
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法 12 損失関数 𝜏 = { 𝐼, 𝐼+ , 𝐼− 𝑎)} 𝐼 ∶ 画像 𝐼+ ∶ 属性𝑎を持つ 𝐼− ∶ 属性𝑎を持たない Global BranchのTriplet ranking loss ℬ ∶ 𝜏からサンプリングした ミニバッチ ℒ𝑔 = 𝐼,𝐼+,𝐼− 𝑎)}𝜖ℬ max(0, 𝑚 − 𝑠𝑔 𝐼, 𝐼+ 𝑎) + 𝑠𝑔 𝐼, 𝐼− 𝑎)) 𝑚 ∶ 0.2(マージン) 𝑠○ ∶○ における類似度 𝑓◇ ∶ コサイン類似度 Local BranchのTriplet ranking loss ∗ 𝑠○ 𝐼, 𝐼∗ 𝑎) = 𝑓○ 𝐼, 𝑎 ・𝑓○(𝐼∗ , 𝑎) 𝑓○ 𝐼, 𝑎 2 𝑓○(𝐼∗, 𝑎) 2 ℒ𝑙 = 𝐼,𝐼+,𝐼− 𝑎)}𝜖ℬ max(0, 𝑚 − 𝑠𝑙 𝐼, 𝐼+ 𝑎) + 𝑠𝑙 𝐼, 𝐼− 𝑎)) alignment loss : global , local どちらも表現した損失 ℒ𝑎 = 𝐼,𝐼+,𝐼− 𝑎)}𝜖ℬ 𝑑𝑔𝑙 𝐼 𝑎 + 𝑑𝑔𝑙 𝐼+ 𝑎) + 𝑑𝑔𝑙 𝐼− 𝑎)] 𝑑𝑔𝑙 𝐼∗ 𝑎) = 1 − 𝑓𝑔 𝐼∗ , 𝑎 ・𝑓𝑙(𝐼∗ , 𝑎) 𝑓𝑔 𝐼∗, 𝑎 2 𝑓𝑙(𝐼∗, 𝑎) 2 𝑑𝑔𝑙 ∶ 𝑎𝑙𝑖𝑔𝑛𝑚𝑒𝑛𝑡における類似度 𝑔 ∶ 𝑔𝑙𝑜𝑏𝑎𝑙 𝑏𝑟𝑎𝑛𝑐ℎにおける類似度 𝑙 ∶ 𝑙𝑜𝑐𝑎𝑙 𝑏𝑟𝑎𝑛𝑐ℎにおける類似度 ℒ = 𝛼ℒ𝑔 + 𝛽ℒ𝑙 + 𝛾ℒ𝑎 ASEN全体の損失関数 𝛼, 𝛽, 𝛾 ∶ ハイパーパラメータ
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法 13 損失関数を用いた学習プロセス 𝜃𝑔: global branchに関するパラメータ 𝜃𝑙: local branchに関するパラメータ
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法 14 類似度の算出 ASENモデルの学習が完了することで、画像のペアの類似度を以下の様に計算可能 𝑠 𝐼, 𝐼′ ∶ 属性に関する類似度 𝑠 𝐼, 𝐼′|𝑎 = 𝜆𝑠𝑔 𝐼, 𝐼′|𝑎 + 1 − 𝜆 𝜆𝑠𝑙 𝐼, 𝐼′|𝑎 𝜆 ∶ ハイパーパラメータ(0~1の実数)
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 15 実験概要 ASENのきめ細かな類似性予測の有効性の検証 目的 属性に応じたファッション検索のタスクを実施 ⁃ 画像と指定された属性が与えられたとき、与えられた画像と同じ属性値を持 つ画像を検索すること 目的を達成するための評価方法
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 16 実験にあうように、既存データセットを再構成 ・FashionAI ・DARN ・DeepFashion 右図の9種類の属性がアノテーションされている 画像枚数 : 253,983枚 カテゴリ・属性予測用データセットを使用 画像枚数 : 289,222枚 6種類の属性項目に対して、1050種類の属性値の候補が存在 画像につき、1つ以上の属性のラベルを付与 画像枚数 : 180,335枚 属性の候補8種類。 属性をより細かくみたサブカテゴリも存在 いずれも 8:1:1 = 学習 : 検証 : テスト をデータの分割比率とする
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 17 実験の詳細 比較方法 実装方法 ・MAP ・Recall@100 0~100(%)で表現 ・Pytorchにより実装 ・Global branch ⁃ ResNet-50で特徴量抽出 ⁃ 画像の短辺を224にリサイズ、中心部分を着る取る ・Local branch ⁃ ResNet-34で特徴量抽出。入力サイズは112×112 ・第1段階 ⁃ Global triplet ranking loss 学習率 : 10−4 (3エポックごとに学習率を0.9倍) ・第2段階 ⁃ Global triplet ranking loss 学習率 : 10−5 ⁃ Local triplet ranking loss 学習率 : 10−4 (2つとも1エポックごとに学習率を0.95倍) 2段階ごとのパラメータ調整
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 18 実験の詳細 その他パラメータ 損失関数 ・ α = 1 , β = 0.1 , γ=0.1 ASEN学習後の類似度計算 ・𝜆= 0.6 ASEN学習中 ・バッチサイズ : 16 ・最適化 : Adam
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 19 比較対象 ・Random Baseline 候補画像をランダムにソート ・Triplet network: CNNによって測定された画像全体の特徴量から、類似性を測定 ・Conditional similarity network ( p5で説明したvietら) マスクされた属性情報をもとに、類似度測定 ・ 𝐴𝑆𝐸𝑁𝑔 ASENのglobal branchのみ持つ ・ 𝐴𝑆𝐸𝑁𝑙 ASENのlocal branchのみ持つ
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結果 20 FashionAI dataset におけるMAPの性能 提案手法が最も優れている 細かい部分の属性の類似度を識別するのに最適
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結果 21 FashionAI dataset におけるMAPの性能 提案手法が最も優れている 細かい部分の属性の類似度を識別するのに最適 その他分析 𝐴𝑆𝐸𝑁𝑔はCSNより精度が高い マスクで捉えるよりも、画像全体から注目点を捉える方法が効果的
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結果 22 FashionAI dataset におけるMAPの性能 提案手法が最も優れている 細かい部分の属性の類似度を識別するのに最適 その他分析 𝐴𝑆𝐸𝑁𝑔はCSNより精度が高い マスクで捉えるよりも、画像全体から注目点を捉えるを捉える方法が効果的 𝐴𝑆𝐸𝑁𝑙はCSNより精度が低い RoIの切り取り方が悪いと、精度が悪くなる
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結果 23 DARN DeepFashion DARNとDeepFashionの結果 Recall@100の結果 提案手法が最も優れている
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結果 24 DARN DeepFashion DARNとDeepFashionの結果 Recall@100の結果 提案手法が最も優れている その他分析 DeepFashionの精度が全体的に低い アノテーションの質に原因 例. ShapeタイプのAラインのラベル付けされ た画像のうち、正しいものは77.8%のみ
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結果 25 ・属性の注目の仕方について ・損失関数 ・弱教師付き局在化、RoI ・ハイパーパラメータ ASENの各構成要素の効果を分析
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結果 26 属性の注目の仕方について 𝐴𝑆𝐸𝑁𝑔からASAとACAをそれぞれ取り除いた方法で分析 ⁃ w/o * : *を取り除いたモデル 𝐴𝑆𝐸𝑁𝑔が最も高い ASA、ACAいずれも有効
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結果 27 損失関数 ℒ = 𝛼ℒ𝑔 + 𝛽ℒ𝑙 + 𝛾ℒ𝑎 右式の影響を調査 全体的なMAPは𝐴𝑆𝐸𝑁が最も高い どの損失も必要 ASEN w/o ℒ𝑔 が最も精度が悪い ℒ𝑔 は必要不可欠
  • 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結果 28 弱教師付き局在化 𝐴𝑆𝐸𝑁𝑓𝑢𝑙𝑙 : local branchの入力画像に、切り抜いていない画像を投入 (global branchと入力している画像は同じ) ASEN(入力に切り抜き(RoI)を用いる方法)の方が精度が高い 弱教師付き局在化法は効果的 Length関連は、精度が近い アイテムの丈などは、全体を見て分かるものだから
  • 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結果 29 弱教師付き局在化 𝐴𝑆𝐸𝑁1 : 最も広い範囲で注目された点1つのみ design関連は、 𝐴𝑆𝐸𝑁1 のほうが高い 扱う領域を増やすと、ノイズが含まれやすくなるから Length関連は、 𝐴𝑆𝐸𝑁2 のほうが高い アイテムの丈など長さを表すものは、複数の領域に対応している 𝐴𝑆𝐸𝑁2 :広い範囲で注目された点上位2つ 着目された複数の領域の大きさ順から
  • 30. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結果 30 ・ λ = [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9] ・ λに関係なく、 ASENが最も精度が高い ・ASENについて、いずれも0.5,0.6あたりがピーク値 ハイパーパラメータλの影響を
  • 31. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 考察 31 同じ属性値同士は近く、異なる属性値同士は遠くなっている ASENで学習できたものをt-SNEにより視覚化 FashionAIのテストデータセットを取り出し、2次元空間の分布を可視化 ASENが属性の識別がうまくできていることを表している
  • 32. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 考察 32
  • 33. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 考察 33 属性ごとにうまく分離できている ASENで学習できたものをt-SNEにより視覚化 FashionAIのテストデータセットを取り出し、2次元空間の分布を可視化 属性別の埋め込み空間を表現 属性が異なるということは、アイテムの特性も異なる
  • 34. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 考察 34 画像内の属性に対する注目点の可視化 Global branch local branch Global branch local branch ほとんどの画像で属性をうまく着目できている
  • 35. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 考察 35 計算時間 ・ASENのパラメータ数 : 210万 ・FLOPs(コンピューターが1秒間に処理可能な演算回数): 4億1700万 ・1枚の画像の特徴量抽出時間 : 7ms ・メモリ220G ・GPU : GTX 2080TI 使用したスペック
  • 36. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結論 36 ・ファッションアイテムのきめ細かい部分の類似性を識別する研究 ・Grobal branchとLocal branchから成るASENを提案し、相互で視点の 補完を実現 ・ASAとACAにより、属性の類似度計算を実現 ・実験の結果、類似性を識別にはASENが最も良い ・きめ細かい類似性は全体の類似性と補完関係にある( Grobal branch とLocal branch との関わり) ・今後は、テキスト文から属性を発見する手法も検討