SlideShare una empresa de Scribd logo
1 de 19
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Feature Erasing and Diffusion
Network for Occluded Person
Re-Identification
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
西浦 翼
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報 2
著者
・Zhikand Wang, Feng Zhu, Shixiang Tang 他
発表
・CVPR2022
概要
・オクルージョン消去モジュール(OEM)と特徴拡散モジュール(FDM)を導入
したReIDモデル、FEDを提案
・Re-IDのベンチマークでSoTAを達成
リンク
・論文 :https://arxiv.org/abs/2112.08740
・git:https://github.com/ZacharyWang-007/FED-Occluded-ReID
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
研究背景
• Person ReID (Re-Identification)
– 異なるカメラ、視点、明るさ、場所で撮影された
人物画像から同一人物の判定をするタスク
– この分野のデータセット・モデルは基本的に、全
身画像が対象
– 実環境ではオクルージョンが発生
ex)駅、学校、病院、ショッピングモールなど
• ReID分野の大きな課題
– NPO (Non-Pedestrian Occlusions)
障害物とのオクルージョンのこと
– NTP (Non-Target Pedestrians)
注目したい人物以外の人物
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
研究背景
• ReIDの最先端手法
– Human key points
人物の特徴的なポイントに注目
– Human parsing information
人間の概形の情報を使用
– 身体情報 → 特徴抽出 という流れでNPOを回避
• 最先端手法の課題
1. NTPに弱い(NTPの特徴がノイズとして混入)
2. Human parsingは荷物を認識できない
3. 計算量が多く、リアルタイムに不向き
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
研究背景
• NPOには強いがNTPに弱い
– Pose estimation:HRNet (2019)
– Human parsing:PSPNet (2017)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
概要
• FED (Feature Erasing and Diffusion network)を提案
– OEM ( Occlusion Erasing Module)
– FDM (Feature Diffusion Module)
– NPOとNTPに強い
• 有効性を検証
– Occluded Datasets 3種類
– Holistic Datasets 2種類
– 特にOccluded DatasetsでRank-1、mAPがSoTA
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
提案モデル FED
NPO
Augmentation
Strategy
Occlusion
Erasing
Module
Feature
Diffusion
Module
• 特徴抽出にはViTを使用
• 2つのブランチでパラメータは共有
• FDMは補助モジュールで推論には使わない
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
NPO Augmentation Strategy
• 従来手法
1. ランダムな矩形をランダムな値で置換
過学習に強い、オクルージョンにロバスト
汎化性能が低い、何とのオクルージョンかわからない
2. 選択した物体や背景を貼り付け
オクルージョンのシミュレーションでロバスト
オクルージョンの領域がわからない
• 提案手法
– オクルージョンの補強
– マスク生成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
NPO Augmentation Strategy
• オクルージョンの補強
– 経験的に、オクルージョンの発生個所は4か所(上下左右)
– 経験的に、面積は1/4~1/2
– 手動でオブジェクト・背景を切り出してパッチセット作成
– 入力画像にリサイズ・パディング・ランダムクロップ
– ランダムクロップ・リサイズしたパッチを画像に貼り付け
• マスク生成
– オクルージョンは垂直方向と水平方向の2種
– ReIDモデルにとって垂直方向の判別は容易
– 人物矩形を上から4分割
– 水平方向にマスクを適用
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
Occlusion Erasing Module
• OEMは4つのサブモジュールから構成
• FC層、normalization、FC層、シグモイド層
• 第1FC層で次元を1/4にして意味的情報を抽出
• シグモイド層でオクルージョンスコア si を計算
• オクルージョンスコアと特徴量の積を計算
• OEMの学習を監視するため、マスクとMSEを計算
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
Feature Diffusion Module
• NTP対策で複数人画像をシミュレーションしたい
• 画像特徴量の集合、メモリバンクを使用
• 入力特徴量とメモリバンク内の類似別人で cross attention
• FFN(feed forward network)は2つのFCと活性化関数
• 特徴レベルでTPに類似したNTPを生成
• 学習時のみ使用、推論では使用しない
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
損失関数
• ID Loss:クロスエントロピー
• Contrastive Loss:クロスエントロピー
• Final Loss
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
実験
• データセット
– Occluded-DukeMTMC
702人15,629枚の学習、1,629人19,871枚の評価、最難関
– Occluded-REID
200人が各5枚の全身、5枚のオクルージョンで計2,000枚
– Partial-REID
60人600枚で全身、オクルージョン、一部のみなど
– Market-1501
– DukeMTMC-reID
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
実験
• オクルージョンデータセットでの評価
他を圧倒
NPO augmentationに関して
*なしはO-Dukeのみ、
*ありはMSMT17からも
パッチを作成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
実験
• 全身データセットでの評価
SoTAならず
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
アブレーションスタディ
1. Baseline + RE
2. Baseline + NPO Aug
3. Baseline + NPO Aug + OEM
4. Baseline + NPO Aug + FDM
5. FED
順調に精度上がって、当然全部盛りが1番いい
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
アブレーションスタディ
• 定性評価
OEMがNPOを特定している
NTPには特に効果なし
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
アブレーションスタディ
• Trans ReIDと比較
• 上2段がNPO、下2段がNTP
• 緑が正解、赤が不正解
• 圧倒的に良い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
結論
• NPOとNTPに対応したReIDモデルFEDを提案
• OEM(occlusion erasing module)でNPOを改善
• FDM(feature diffusion module)でNTPを改善
• 既存のデータセットで評価を行い、オクルー
ジョンを含むデータセットではSoTAを達成

Más contenido relacionado

La actualidad más candente

カメラ間人物照合サーベイ
カメラ間人物照合サーベイカメラ間人物照合サーベイ
カメラ間人物照合サーベイ
Yoshihisa Ijiri
 
[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustment[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustment
shima o
 

La actualidad más candente (20)

Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
 
Depth Estimation論文紹介
Depth Estimation論文紹介Depth Estimation論文紹介
Depth Estimation論文紹介
 
カメラ間人物照合サーベイ
カメラ間人物照合サーベイカメラ間人物照合サーベイ
カメラ間人物照合サーベイ
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度
 
[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustment[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustment
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
 

Similar a Feature Erasing and Diffusion Network for Occluded Person Re-Identification

You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

Similar a Feature Erasing and Diffusion Network for Occluded Person Re-Identification (20)

MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
RAPiD
RAPiDRAPiD
RAPiD
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
 
2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
Calorie Estimation in a Real-World Recipe Service
Calorie Estimation in a Real-World Recipe ServiceCalorie Estimation in a Real-World Recipe Service
Calorie Estimation in a Real-World Recipe Service
 

Más de harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 

Más de harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
 
CKL_about_panf2022.pdf
CKL_about_panf2022.pdfCKL_about_panf2022.pdf
CKL_about_panf2022.pdf
 

Último

Último (11)

論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

Feature Erasing and Diffusion Network for Occluded Person Re-Identification

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Feature Erasing and Diffusion Network for Occluded Person Re-Identification 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 西浦 翼
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文情報 2 著者 ・Zhikand Wang, Feng Zhu, Shixiang Tang 他 発表 ・CVPR2022 概要 ・オクルージョン消去モジュール(OEM)と特徴拡散モジュール(FDM)を導入 したReIDモデル、FEDを提案 ・Re-IDのベンチマークでSoTAを達成 リンク ・論文 :https://arxiv.org/abs/2112.08740 ・git:https://github.com/ZacharyWang-007/FED-Occluded-ReID
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 研究背景 • Person ReID (Re-Identification) – 異なるカメラ、視点、明るさ、場所で撮影された 人物画像から同一人物の判定をするタスク – この分野のデータセット・モデルは基本的に、全 身画像が対象 – 実環境ではオクルージョンが発生 ex)駅、学校、病院、ショッピングモールなど • ReID分野の大きな課題 – NPO (Non-Pedestrian Occlusions) 障害物とのオクルージョンのこと – NTP (Non-Target Pedestrians) 注目したい人物以外の人物
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 研究背景 • ReIDの最先端手法 – Human key points 人物の特徴的なポイントに注目 – Human parsing information 人間の概形の情報を使用 – 身体情報 → 特徴抽出 という流れでNPOを回避 • 最先端手法の課題 1. NTPに弱い(NTPの特徴がノイズとして混入) 2. Human parsingは荷物を認識できない 3. 計算量が多く、リアルタイムに不向き
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 研究背景 • NPOには強いがNTPに弱い – Pose estimation:HRNet (2019) – Human parsing:PSPNet (2017)
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 概要 • FED (Feature Erasing and Diffusion network)を提案 – OEM ( Occlusion Erasing Module) – FDM (Feature Diffusion Module) – NPOとNTPに強い • 有効性を検証 – Occluded Datasets 3種類 – Holistic Datasets 2種類 – 特にOccluded DatasetsでRank-1、mAPがSoTA
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 提案モデル FED NPO Augmentation Strategy Occlusion Erasing Module Feature Diffusion Module • 特徴抽出にはViTを使用 • 2つのブランチでパラメータは共有 • FDMは補助モジュールで推論には使わない
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 NPO Augmentation Strategy • 従来手法 1. ランダムな矩形をランダムな値で置換 過学習に強い、オクルージョンにロバスト 汎化性能が低い、何とのオクルージョンかわからない 2. 選択した物体や背景を貼り付け オクルージョンのシミュレーションでロバスト オクルージョンの領域がわからない • 提案手法 – オクルージョンの補強 – マスク生成
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 NPO Augmentation Strategy • オクルージョンの補強 – 経験的に、オクルージョンの発生個所は4か所(上下左右) – 経験的に、面積は1/4~1/2 – 手動でオブジェクト・背景を切り出してパッチセット作成 – 入力画像にリサイズ・パディング・ランダムクロップ – ランダムクロップ・リサイズしたパッチを画像に貼り付け • マスク生成 – オクルージョンは垂直方向と水平方向の2種 – ReIDモデルにとって垂直方向の判別は容易 – 人物矩形を上から4分割 – 水平方向にマスクを適用
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 Occlusion Erasing Module • OEMは4つのサブモジュールから構成 • FC層、normalization、FC層、シグモイド層 • 第1FC層で次元を1/4にして意味的情報を抽出 • シグモイド層でオクルージョンスコア si を計算 • オクルージョンスコアと特徴量の積を計算 • OEMの学習を監視するため、マスクとMSEを計算
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 Feature Diffusion Module • NTP対策で複数人画像をシミュレーションしたい • 画像特徴量の集合、メモリバンクを使用 • 入力特徴量とメモリバンク内の類似別人で cross attention • FFN(feed forward network)は2つのFCと活性化関数 • 特徴レベルでTPに類似したNTPを生成 • 学習時のみ使用、推論では使用しない
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 損失関数 • ID Loss:クロスエントロピー • Contrastive Loss:クロスエントロピー • Final Loss
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 実験 • データセット – Occluded-DukeMTMC 702人15,629枚の学習、1,629人19,871枚の評価、最難関 – Occluded-REID 200人が各5枚の全身、5枚のオクルージョンで計2,000枚 – Partial-REID 60人600枚で全身、オクルージョン、一部のみなど – Market-1501 – DukeMTMC-reID
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 実験 • オクルージョンデータセットでの評価 他を圧倒 NPO augmentationに関して *なしはO-Dukeのみ、 *ありはMSMT17からも パッチを作成
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 実験 • 全身データセットでの評価 SoTAならず
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 アブレーションスタディ 1. Baseline + RE 2. Baseline + NPO Aug 3. Baseline + NPO Aug + OEM 4. Baseline + NPO Aug + FDM 5. FED 順調に精度上がって、当然全部盛りが1番いい
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 アブレーションスタディ • 定性評価 OEMがNPOを特定している NTPには特に効果なし
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 アブレーションスタディ • Trans ReIDと比較 • 上2段がNPO、下2段がNTP • 緑が正解、赤が不正解 • 圧倒的に良い
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 結論 • NPOとNTPに対応したReIDモデルFEDを提案 • OEM(occlusion erasing module)でNPOを改善 • FDM(feature diffusion module)でNTPを改善 • 既存のデータセットで評価を行い、オクルー ジョンを含むデータセットではSoTAを達成