DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

H
DLゼミ (論文紹介)
ViTPose: Simple Vision Transformer
Baselines for Human Pose Estimation
北海道大学大学院 情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
博士後期課程2年 森 雄斗
2023/06/12
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報 2
タイトル
ViTPose: Simple Vision Transformer Baselines for Human
Pose Estimation
著者
Yufei Xu1*, Jing Zhang1*, Qiming Zhang1, Dacheng Tao2,1
1School of Computer Science, The University of Sydney, Australia
2 JD Explore Academy, China
発表
NeurIPS2022
URL
デモページ (Huggingface Spaces)
https://huggingface.co/spaces/hysts/ViTPose_video
GitHub
https://github.com/ViTAE-Transformer/ViTPose
論文
https://proceedings.neurips.cc/paper_files/paper/2022/file/fbb10
d319d44f8c3b4720873e4177c65-Paper-Conference.pdf
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
概要 3
プレーンなVision Transformerを用いた
姿勢推定モデルの提案
モデル構造のシンプルさ
モデルサイズのスケーラビリティ などが特徴
スループットとパフォーマンスの
パレートフロントの解であり、最高精度を記録
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
姿勢推定 (Pose Estimation) 4
コンピュータビジョンの1タスク
画像、動画から人間のキーポイント座標を推定
https://github.com/ViTAE-Transformer/ViTPose
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
姿勢推定の発展 5
CNNベース
Deeppose[1] (2014)
ResNet-50 base[2] (2018)
HRNet[3] (2019)
Transformerベース
HRFormer[4] (2021)
TokenPose[5] (2021)
TransPose[6] (2021)
[1] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition (CVPR), pages 1653–1660, 2014.
[2] B. Xiao, H. Wu, and Y. Wei. Simple baselines for human pose estimation and tracking. In Proceedings of the European conference on computer vision (ECCV), 2018.
[3] K. Sun, B. Xiao, D. Liu, and J. Wang. Deep high-resolution representation learning for human pose estimation. In Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition (CVPR), pages 5693–5703, 2019.
[4] Y. Yuan, R. Fu, L. Huang, W. Lin, C. Zhang, X. Chen, and J. Wang. Hrformer: High-resolution transformer for dense prediction. In Advances in Neural Information Processing
Systems, 2021.
[5] Y. Li, S. Zhang, Z. Wang, S. Yang, W. Yang, S.-T. Xia, and E. Zhou. Tokenpose: Learning keypoint tokens for human pose estimation. In Proceedings of the IEEE/CVF
International Conference on Computer Vision (ICCV), 2021.
[6] S. Yang, Z. Quan, M. Nie, and W. Yang. Transpose: Keypoint localization via transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision
(ICCV), 2021.
HRNetの出力
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
従来手法の課題 6
HRFormer
Transformerを使い特徴量を抽出し、
多解像度並列transformerを介して高解像度表現を得る
課題
特徴抽出のための余分のCNNが必要 or 変換器構造を慎重に検討する必要
著者の疑問
プレーンのTransformerは, 姿勢推定にどの程度対応できるのか?
ネットワーク構造
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
ViTPoseの優れた点 7
1. Simplicity (シンプルさ)
• シンプルで非階層的なVision Transformer[1]を採用
• 特定のドメイン知識を不必要
• デコーダーはup-sampling層と畳み込み予測層で構成
2. Scalability (拡張性)
• Transformer層の数による推論速度と性能のバランス
3. Flexibility(柔軟性)
• 入力画像の解像度
• single poseからmulti poseへの適応
[1] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, et al. An image is worth 16x16 words:
Transformers for image recognition at scale. In International Conference on Learning Representations, 2020.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
ViTPoseのネットワーク構造 8
Transformer Block
クラシックな
Decoder
シンプルな
Decoder
multiple datasetの
ためのDecoder群
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1. Simplicity: 入力からEncoderまで 9
𝑑: ダウンサンプリング率
𝐶: チャネル次元数
入力画像: 𝑋 ∈ ℛ𝐻×𝑊×3
Patch Embedding layer:
𝐹 ∈ ℛ
𝐻
𝑑
×
𝑊
𝑑
×𝐶
Transformer Blockの中身
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1. Simplicity: Transformer Block 10
MHSA = multi-head self-attention
LN = Layer Normalization (Norm)
FFN =Feed-forward network
[1] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, et al. An image is
worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations, 2020.
ViT[1]のネットワーク図
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1. Simplicity: Decoder 11
クラシックなDecoder
シンプルなDecoder
Bilinear: バイリニア補間
BN : Batch Normalization
Predictor: 畳み込み層で
ヒートマップを出力
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2. Scalability: transformer層の増減 12
transformer層の個数によって
特徴表現力を増減させることが可能
ViT-B, ViT-L, ViT-H
ViTAE-G
帰納的バイアスを獲得し、汎用性が向上したViT
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3. Flexibility 13
事前学習データ
Masked Autoencoderを使った事前学習によって
少ない学習データでも学習可能
解像度
入力サイズの変更が可能
ダウンサンプリング比𝑑も変更可能
Attention type
メモリ負担の軽減のための2つ手法を使用
Shift window
Pooling window
Patch Embedding layer:
𝐹 ∈ ℛ
𝐻
𝑑
×
𝑊
𝑑
×𝐶
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
関連研究 14
Vision transformerのための自己教師あり学習[1]
BERTで使われているMasked Autoencoder(MAE)の
Vision Transformer版
ViTPoseはmasked image modeling (MIM) で
事前学習したViTを採用
[1] K. He, X. Chen, S. Xie, Y. Li, P. Dollár, and R. Girshick. Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition (CVPR), pages 16000–16009, 2022.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3. Flexibility 15
FineTuning
MHSA のパラメータを凍結させても
すべてのパラメータを学習させた値に近い性能
Table6: 1,2行目
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験: 事前確認 16
バックボーンの詳細
過学習対策
Ablation study
ViTベースはSimpleなDecoderでも問題なし
𝐴𝑃5050: OKE(一致していると判定する指標) のしきい値50 のAverage Precision
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
実験: データセット
• データセット
– COCO Keypoint Detection
• 200,000以上の17のキーポイントが
ラベル付けされた画像
• https://cocodataset.org/#home
• 評価指標
– Object Keypoint Similarity (OKS)
𝑂𝐾𝑆 =
𝑖 𝑒𝑥𝑝 −𝑑𝑖
2
2𝑠2𝑘𝑖
2
𝛿 𝑣𝑖 > 0
𝑖 𝛿 𝑣𝑖 > 0
𝑑𝑖 : 推定座標とGround truthの座標のユークリッド距離
𝑠 : 人物領域の面積
𝑘𝑖 : 減衰を制御するキーポイントごとの定数 (eyes < nose < … < ankles < Hips)
𝑣𝑖 : Ground truthの可視性フラグ (部位が画像に存在するかどうか)
広範囲
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験: SoTA手法との比較 18
ViTPoseが高精度を記録
* multi-datasetで学習
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
ViTPoseの結果 19
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
パレートフロントを記録 20
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
制限と考察 21
特殊な構造がなくてもSoTAを記録
複雑なDecoderの設計やFPN構造を変えるこ
とでさらなる精度向上が見込める
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
まとめ 22
プレーンなVision Transformerを用いた
姿勢推定モデルの提案
モデル構造のシンプルさ
モデルサイズのスケーラビリティ などが特徴
スループットとパフォーマンスのパレートフロ
ントの解であり、最高精度を記録
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2023年6月現在の状況 23
PCT[1]
CVPR2023で発表
バックボーンはSwin-Transformer
Decoder部分にはMLP-mixerを使用
[1] Geng, Zigang, et al. "Human Pose as Compositional Tokens." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2023年6月現在の状況 24
ViTPose+[1]
ViTPoseと同じ著者
2022年11月にarXivに投稿
[1] Xu, Yufei, et al. "ViTPose+: Vision Transformer Foundation Model for Generic Body Pose Estimation." arXiv preprint arXiv:2212.04246 (2022).
新たなDecoder
1 de 24

Recomendados

Transformer 動向調査 in 画像認識 por
Transformer 動向調査 in 画像認識Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識Kazuki Maeno
807 vistas37 diapositivas
【DL輪読会】Scaling Laws for Neural Language Models por
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
3.5K vistas27 diapositivas
【メタサーベイ】Vision and Language のトップ研究室/研究者 por
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
1.8K vistas154 diapositivas
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation por
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose EstimationDeep Learning JP
6.5K vistas23 diapositivas
semantic segmentation サーベイ por
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
4.8K vistas34 diapositivas
ReAct: Synergizing Reasoning and Acting in Language Models por
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
786 vistas50 diapositivas

Más contenido relacionado

La actualidad más candente

[DL輪読会]ICLR2020の分布外検知速報 por
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
5.4K vistas12 diapositivas
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ... por
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...Deep Learning JP
3.2K vistas27 diapositivas
深層学習によるHuman Pose Estimationの基礎 por
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma
2.3K vistas44 diapositivas
Action Recognitionの歴史と最新動向 por
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Ohnishi Katsunori
8.7K vistas40 diapositivas
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 por
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
16K vistas38 diapositivas
Active Learning 入門 por
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
51.8K vistas60 diapositivas

La actualidad más candente(20)

[DL輪読会]ICLR2020の分布外検知速報 por Deep Learning JP
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP5.4K vistas
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ... por Deep Learning JP
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP3.2K vistas
深層学習によるHuman Pose Estimationの基礎 por Takumi Ohkuma
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma2.3K vistas
Action Recognitionの歴史と最新動向 por Ohnishi Katsunori
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向
Ohnishi Katsunori8.7K vistas
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 por Yusuke Uchida
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida16K vistas
Active Learning 入門 por Shuyo Nakatani
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani51.8K vistas
How Much Position Information Do Convolutional Neural Networks Encode? por Kazuyuki Miyazawa
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa2.3K vistas
[DL輪読会]MetaFormer is Actually What You Need for Vision por Deep Learning JP
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP1.4K vistas
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜 por SSII
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII3.8K vistas
【メタサーベイ】Video Transformer por cvpaper. challenge
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge2.2K vistas
CV分野での最近の脱○○系3選 por Kazuyuki Miyazawa
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
Kazuyuki Miyazawa3.5K vistas
【メタサーベイ】基盤モデル / Foundation Models por cvpaper. challenge
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge16.5K vistas
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data... por Deep Learning JP
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
Deep Learning JP2.9K vistas
ArcFace: Additive Angular Margin Loss for Deep Face Recognition por harmonylab
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
harmonylab814 vistas
[DeepLearning論文読み会] Dataset Distillation por Ryutaro Yamauchi
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
Ryutaro Yamauchi957 vistas
畳み込みニューラルネットワークの高精度化と高速化 por Yusuke Uchida
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida64.5K vistas
動作認識の最前線:手法,タスク,データセット por Toru Tamaki
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
Toru Tamaki3.3K vistas
【チュートリアル】コンピュータビジョンによる動画認識 por Hirokatsu Kataoka
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
Hirokatsu Kataoka12.5K vistas
これからの Vision & Language ~ Acadexit した4つの理由 por Yoshitaka Ushiku
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku6.6K vistas

Similar a DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo... por
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...harmonylab
916 vistas18 diapositivas
A Generalist Agent por
A Generalist AgentA Generalist Agent
A Generalist Agentharmonylab
836 vistas33 diapositivas
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone por
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
128 vistas30 diapositivas
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S... por
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...harmonylab
1K vistas19 diapositivas
You Only Learn One Representation: Unified Network for Multiple Tasks por
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasksharmonylab
1.3K vistas23 diapositivas
Self-supervised Learning of Adversarial Example: Towards Good Generalizations... por
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...harmonylab
472 vistas21 diapositivas

Similar a DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation(20)

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo... por harmonylab
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
harmonylab916 vistas
A Generalist Agent por harmonylab
A Generalist AgentA Generalist Agent
A Generalist Agent
harmonylab836 vistas
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone por harmonylab
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab128 vistas
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S... por harmonylab
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
harmonylab1K vistas
You Only Learn One Representation: Unified Network for Multiple Tasks por harmonylab
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab1.3K vistas
Self-supervised Learning of Adversarial Example: Towards Good Generalizations... por harmonylab
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
harmonylab472 vistas
深層学習を用いたバス乗客画像の属性推定 に関する研究 por harmonylab
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab507 vistas
Recursively Summarizing Books with Human Feedback por harmonylab
Recursively Summarizing Books with Human FeedbackRecursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedback
harmonylab925 vistas
A Study on the Generation of Clothing Captions Highlighting the Differences b... por harmonylab
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
harmonylab566 vistas
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D... por harmonylab
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab1.1K vistas
2021 09 29_dl_hirata por harmonylab
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
harmonylab854 vistas
Semi-Supervised Neural Architecture Search por harmonylab
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
harmonylab972 vistas
Personalized Fashion Recommendation from Personal Social Media Data An Item t... por harmonylab
Personalized Fashion Recommendation from Personal Social Media Data An Item t...Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
harmonylab401 vistas
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text por harmonylab
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
harmonylab391 vistas
Towards Total Recall in Industrial Anomaly Detection por harmonylab
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
harmonylab1.2K vistas
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono... por harmonylab
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab490 vistas
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation por harmonylab
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab787 vistas
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2) por harmonylab
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab2.4K vistas
2021 haizoku por harmonylab
2021 haizoku2021 haizoku
2021 haizoku
harmonylab303 vistas

Más de harmonylab

Voyager: An Open-Ended Embodied Agent with Large Language Models por
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
526 vistas44 diapositivas
形態素解析を用いた帝国議会議事速記録の変遷に関する研究 por
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
349 vistas32 diapositivas
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究 por
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
529 vistas28 diapositivas
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究 por
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
310 vistas25 diapositivas
深層自己回帰モデルを用いた俳句の生成と評価に関する研究 por
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
459 vistas35 diapositivas
競輪におけるレーティングシステムを用いた予想記事生成に関する研究 por
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
1.1K vistas24 diapositivas

Más de harmonylab(20)

Voyager: An Open-Ended Embodied Agent with Large Language Models por harmonylab
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab526 vistas
形態素解析を用いた帝国議会議事速記録の変遷に関する研究 por harmonylab
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab349 vistas
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究 por harmonylab
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab529 vistas
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究 por harmonylab
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
harmonylab310 vistas
深層自己回帰モデルを用いた俳句の生成と評価に関する研究 por harmonylab
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab459 vistas
競輪におけるレーティングシステムを用いた予想記事生成に関する研究 por harmonylab
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
harmonylab1.1K vistas
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究 por harmonylab
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab493 vistas
A Study on Estimation of Household Kerosene Consumption for Optimization of D... por harmonylab
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
harmonylab315 vistas
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究 por harmonylab
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
harmonylab385 vistas
A Study on Generation of Deformed Route Maps using Octilinear Grid por harmonylab
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab483 vistas
A Study on Clothing Recommendation Information Presentation System Based on C... por harmonylab
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
harmonylab449 vistas
Emotionally Intelligent Fashion Design Using CNN and GAN por harmonylab
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
harmonylab605 vistas
Feature Erasing and Diffusion Network for Occluded Person Re-Identification por harmonylab
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab663 vistas
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic por harmonylab
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
harmonylab452 vistas
2022年度調和系工学研究室配属説明会資料 por harmonylab
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料
harmonylab320 vistas
CKL_about_panf2022.pdf por harmonylab
CKL_about_panf2022.pdfCKL_about_panf2022.pdf
CKL_about_panf2022.pdf
harmonylab220 vistas
Outracing champion Gran Turismo drivers with deep reinforcement learning por harmonylab
Outracing champion Gran Turismo drivers with deep reinforcement learningOutracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learning
harmonylab557 vistas
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le... por harmonylab
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
harmonylab341 vistas
Solving Quantitative Reasoning Problems with Language Models por harmonylab
Solving Quantitative Reasoning Problems with Language ModelsSolving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language Models
harmonylab494 vistas
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ... por harmonylab
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
harmonylab515 vistas

Último

光コラボは契約してはいけない por
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけないTakuya Matsunaga
30 vistas17 diapositivas
定例会スライド_キャチs 公開用.pdf por
定例会スライド_キャチs 公開用.pdf定例会スライド_キャチs 公開用.pdf
定例会スライド_キャチs 公開用.pdfKeio Robotics Association
154 vistas64 diapositivas
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可 por
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可Hitachi, Ltd. OSS Solution Center.
13 vistas22 diapositivas
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向 por
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Hitachi, Ltd. OSS Solution Center.
110 vistas26 diapositivas
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 por
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PC Cluster Consortium
29 vistas36 diapositivas

Último(7)

光コラボは契約してはいけない por Takuya Matsunaga
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけない
Takuya Matsunaga30 vistas
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 por PC Cluster Consortium
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 por PC Cluster Consortium
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」

DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

  • 1. DLゼミ (論文紹介) ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 北海道大学大学院 情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 博士後期課程2年 森 雄斗 2023/06/12
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文情報 2 タイトル ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 著者 Yufei Xu1*, Jing Zhang1*, Qiming Zhang1, Dacheng Tao2,1 1School of Computer Science, The University of Sydney, Australia 2 JD Explore Academy, China 発表 NeurIPS2022 URL デモページ (Huggingface Spaces) https://huggingface.co/spaces/hysts/ViTPose_video GitHub https://github.com/ViTAE-Transformer/ViTPose 論文 https://proceedings.neurips.cc/paper_files/paper/2022/file/fbb10 d319d44f8c3b4720873e4177c65-Paper-Conference.pdf
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 概要 3 プレーンなVision Transformerを用いた 姿勢推定モデルの提案 モデル構造のシンプルさ モデルサイズのスケーラビリティ などが特徴 スループットとパフォーマンスの パレートフロントの解であり、最高精度を記録
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 姿勢推定 (Pose Estimation) 4 コンピュータビジョンの1タスク 画像、動画から人間のキーポイント座標を推定 https://github.com/ViTAE-Transformer/ViTPose
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 姿勢推定の発展 5 CNNベース Deeppose[1] (2014) ResNet-50 base[2] (2018) HRNet[3] (2019) Transformerベース HRFormer[4] (2021) TokenPose[5] (2021) TransPose[6] (2021) [1] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 1653–1660, 2014. [2] B. Xiao, H. Wu, and Y. Wei. Simple baselines for human pose estimation and tracking. In Proceedings of the European conference on computer vision (ECCV), 2018. [3] K. Sun, B. Xiao, D. Liu, and J. Wang. Deep high-resolution representation learning for human pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 5693–5703, 2019. [4] Y. Yuan, R. Fu, L. Huang, W. Lin, C. Zhang, X. Chen, and J. Wang. Hrformer: High-resolution transformer for dense prediction. In Advances in Neural Information Processing Systems, 2021. [5] Y. Li, S. Zhang, Z. Wang, S. Yang, W. Yang, S.-T. Xia, and E. Zhou. Tokenpose: Learning keypoint tokens for human pose estimation. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021. [6] S. Yang, Z. Quan, M. Nie, and W. Yang. Transpose: Keypoint localization via transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021. HRNetの出力
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 従来手法の課題 6 HRFormer Transformerを使い特徴量を抽出し、 多解像度並列transformerを介して高解像度表現を得る 課題 特徴抽出のための余分のCNNが必要 or 変換器構造を慎重に検討する必要 著者の疑問 プレーンのTransformerは, 姿勢推定にどの程度対応できるのか? ネットワーク構造
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. ViTPoseの優れた点 7 1. Simplicity (シンプルさ) • シンプルで非階層的なVision Transformer[1]を採用 • 特定のドメイン知識を不必要 • デコーダーはup-sampling層と畳み込み予測層で構成 2. Scalability (拡張性) • Transformer層の数による推論速度と性能のバランス 3. Flexibility(柔軟性) • 入力画像の解像度 • single poseからmulti poseへの適応 [1] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations, 2020.
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. ViTPoseのネットワーク構造 8 Transformer Block クラシックな Decoder シンプルな Decoder multiple datasetの ためのDecoder群
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1. Simplicity: 入力からEncoderまで 9 𝑑: ダウンサンプリング率 𝐶: チャネル次元数 入力画像: 𝑋 ∈ ℛ𝐻×𝑊×3 Patch Embedding layer: 𝐹 ∈ ℛ 𝐻 𝑑 × 𝑊 𝑑 ×𝐶 Transformer Blockの中身
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1. Simplicity: Transformer Block 10 MHSA = multi-head self-attention LN = Layer Normalization (Norm) FFN =Feed-forward network [1] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations, 2020. ViT[1]のネットワーク図
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1. Simplicity: Decoder 11 クラシックなDecoder シンプルなDecoder Bilinear: バイリニア補間 BN : Batch Normalization Predictor: 畳み込み層で ヒートマップを出力
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2. Scalability: transformer層の増減 12 transformer層の個数によって 特徴表現力を増減させることが可能 ViT-B, ViT-L, ViT-H ViTAE-G 帰納的バイアスを獲得し、汎用性が向上したViT
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3. Flexibility 13 事前学習データ Masked Autoencoderを使った事前学習によって 少ない学習データでも学習可能 解像度 入力サイズの変更が可能 ダウンサンプリング比𝑑も変更可能 Attention type メモリ負担の軽減のための2つ手法を使用 Shift window Pooling window Patch Embedding layer: 𝐹 ∈ ℛ 𝐻 𝑑 × 𝑊 𝑑 ×𝐶
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 関連研究 14 Vision transformerのための自己教師あり学習[1] BERTで使われているMasked Autoencoder(MAE)の Vision Transformer版 ViTPoseはmasked image modeling (MIM) で 事前学習したViTを採用 [1] K. He, X. Chen, S. Xie, Y. Li, P. Dollár, and R. Girshick. Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 16000–16009, 2022.
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3. Flexibility 15 FineTuning MHSA のパラメータを凍結させても すべてのパラメータを学習させた値に近い性能 Table6: 1,2行目
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験: 事前確認 16 バックボーンの詳細 過学習対策 Ablation study ViTベースはSimpleなDecoderでも問題なし 𝐴𝑃5050: OKE(一致していると判定する指標) のしきい値50 のAverage Precision
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 実験: データセット • データセット – COCO Keypoint Detection • 200,000以上の17のキーポイントが ラベル付けされた画像 • https://cocodataset.org/#home • 評価指標 – Object Keypoint Similarity (OKS) 𝑂𝐾𝑆 = 𝑖 𝑒𝑥𝑝 −𝑑𝑖 2 2𝑠2𝑘𝑖 2 𝛿 𝑣𝑖 > 0 𝑖 𝛿 𝑣𝑖 > 0 𝑑𝑖 : 推定座標とGround truthの座標のユークリッド距離 𝑠 : 人物領域の面積 𝑘𝑖 : 減衰を制御するキーポイントごとの定数 (eyes < nose < … < ankles < Hips) 𝑣𝑖 : Ground truthの可視性フラグ (部位が画像に存在するかどうか) 広範囲
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験: SoTA手法との比較 18 ViTPoseが高精度を記録 * multi-datasetで学習
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. ViTPoseの結果 19
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. パレートフロントを記録 20
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 制限と考察 21 特殊な構造がなくてもSoTAを記録 複雑なDecoderの設計やFPN構造を変えるこ とでさらなる精度向上が見込める
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. まとめ 22 プレーンなVision Transformerを用いた 姿勢推定モデルの提案 モデル構造のシンプルさ モデルサイズのスケーラビリティ などが特徴 スループットとパフォーマンスのパレートフロ ントの解であり、最高精度を記録
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2023年6月現在の状況 23 PCT[1] CVPR2023で発表 バックボーンはSwin-Transformer Decoder部分にはMLP-mixerを使用 [1] Geng, Zigang, et al. "Human Pose as Compositional Tokens." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2023年6月現在の状況 24 ViTPose+[1] ViTPoseと同じ著者 2022年11月にarXivに投稿 [1] Xu, Yufei, et al. "ViTPose+: Vision Transformer Foundation Model for Generic Body Pose Estimation." arXiv preprint arXiv:2212.04246 (2022). 新たなDecoder

Notas del editor

  1. 複雑なモジュールが性能を向上させる可能性があるとしてもなるべく避けることにした
  2. 複雑なモジュールが性能を向上させる可能性があるとしてもなるべく避けることにした