公開URL:https://proceedings.neurips.cc/paper_files/paper/2022/file/fbb10d319d44f8c3b4720873e4177c65-Paper-Conference.pdf 出典:Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao : ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation, Advances in Neural Information Processing Systems 35 (NeurIPS 2022), pp. 38571-38584 (2022) 概要:姿勢推定はコンピュータビジョンの1タスクとして知られています。本論文ではプレーンなVision Transformerを使った姿勢推定手法「ViTPose」を提案します。ViTPoseは非階層的なVision Transformerを特徴抽出のために使用し、100Mから1Bのパラメータにスケールアップ可能です。このモデルは事前学習や、複数のポーズタスク対応などにおいて柔軟性を持ち、大規模モデルの知識を小規模モデルに転送することも可能です。実験結果は、ViTPoseがMS COCO Keypoint DetectionベンチマークにおいてSoTAを達成しました。