深層学習によるHuman Pose Estimationの基礎

深層学習による Human Pose Estimationの基礎
1
大熊拓海 (東京大学情報理工学系研究科)
Twitter: @shien5963

2
 本資料は深層学習を用いたHuman Pose Estimation (HPE) の基礎的な内容を理
解する助けとなる事を期待して作成した。
 本資料では、HPEに関するタスクの種類 (2D, 3D, Single-person, Multi-person)、
及びそれらに関する手法について学び、それぞれに対する利点・欠点・評価指
標について説明する。
 幅広い内容を説明することを重視しており、各手法の説明はあまり丁寧でない
場合が多いので、詳細を知りたい方は引用にある論文等を参照して頂きたい。
はじめに

 経歴
 2019年 3月東京大学工学部計数工学科卒業
 2021年 3月東京大学情報理工学系研究科創造情報学専攻修士課程修了
（修了時に研究科長賞受賞）
 2021年 4月同博士課程進学（在籍中）
 2021年 6月株式会社Bluezone共同創業 CTO就任
 専門分野
 画像認識（Few-shot Learning、Human Pose Estimation)
 その他
 東京大学工学系研究科講義「深層学習」講師（2020年度-）
 松尾研究室サマースクール講義監修 (画像認識)・講師 (画像認識/生成モデル)
 2021年度未踏アドバンスト事業採択
 Twitter: @shien5963 （本資料に不備があった場合もこちらまで連絡お願いします）
3
自己紹介
大熊拓海（東京大学情報理工学系研究科/株式会社Bluezone CTO）

4
Human Pose Estimation 概要

5
 Human Pose Estimation (HPE) とは、画像中の人物の特定の点(キーポ
イント) の位置を推定することで、人物の姿勢を得る画像認識タスク。
Human Pose Estimationとは
[1] Cao, Zhe, et al. “OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields.” IEEE
transactions on pattern analysis and machine intelligence 43.1 (2019): 172-186. より図を引用

6
 姿勢推定を用いることで画像中の人間の動きを詳細に取ることが出来る
ので、単純な物体検出では困難な応用が可能となる。
 例としては以下の様な応用が挙げられる
 歩行者の行動予測
 不審者・酔っ払いの検出
 スポーツの審判補助
 オンラインコーチング（スポーツ等）
 （挙手等の）行動検知
 ゲームやVRにおけるインターフェイス
他にも様々な例が挙げられる
HPEの重要性

7
応用事例
[4] Dang, Qi, et al. "Deep learning based 2d human pose estimation: A survey“ Tsinghua
Science and Technology 24.6 (2019): 663-676. より図を引用

8
 HPEは問題設定によってサブタスクに分類される。
HPEのタスク分類 (2D or 3D)
2D HPE
キーポイントの画像上での二
次元座標を推定するタスク
3D HPE
キーポイントの実空間における
三次元座標を推定するタスク
[2] Pavllo, Dario, et al. “3d human pose estimation in video with temporal
convolutions and semi-supervised training.” Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. 2019. より左図を引用

9
 HPEは問題設定によってサブタスクに分類される。
HPEのタスク分類 (Single or Multi)
Multi-person HPE
画像中の複数人の姿勢を推定
するタスク
[1] Cao, Zhe, et al. “OpenPose: realtime multi-person 2D pose estimation
using Part Affinity Fields.” IEEE transactions on pattern analysis and
machine intelligence 43.1 (2019): 172-186. より左図を引用
Single-person HPE
画像中には一人しか人が存在し
ない状況で姿勢推定するタスク
[3] Pavllo, Dario, et al. “3d human pose estimation in video with temporal
convolutions and semi-supervised training.” Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. 2019. より左図を引用

11
 2D HPEはキーポイントの画像上での二次元座標を推定するタスク。
 2D HPEはさらにSingle-personとMulti-personに分けることが出来る。
 Multi-personは画像中の全ての人に対する姿勢推定を行う必要があるの
で、Single-personよりも難しいタスクである。
 Multi-personは基本的にSingle-personの拡張手法となるので、まずは
Single-personの説明をし、それを踏まえてMulti-personの説明を行う。
2D HPE

12
2D single-person HPEの手法は
1. Regression Method
各キーポイントの2D座標を直接予測。
2. Body Part Detection Method
各キーポイントの位置ごとの存在確率
をヒートマップとして出力し、これを
用いて予測結果を導く。
（現在ではこちらが主流）
の2種類に大きく分類できる。
2D single-person HPE
[4] Dang, Qi, et al. “Deep learning based 2d human pose estimation: A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より図を引用

13
 DeepPose[3]は2013年に提案された、最初にDeep LearningをHPEに導
入した手法である（Regression Method）。
 AlexNet[5]を用いて特徴抽出を行い、各関節点への回帰を行う
 損失関数にはMSE (平均二乗誤差) を用いる。
DeepPose (1/2)
[3] Pavllo, Dario, et al. “3d human pose estimation in video with temporal convolutions and semi-supervised
training.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. 図も本論文より引用
[5] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional
neural networks." Advances in neural information processing systems 25 (2012): 1097-1105.

14
 AlexNetの入力画像サイズは220×220で固定なので、細かい位置の推定には
適していない。
 そこで、ネットワークをカスケード状に多段に重ね、一つ前の層の各キーポ
イントの出力を中心にクロップされた画像を次の層へ入力することで、層を
経るごとに解像度の高い画像を扱うことが出来、精度が向上。
DeepPose (2/2)
[3] Pavllo, Dario, et al. “3d human pose
estimation in video with temporal convolutions
and semi-supervised training.” Proceedings of
the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. 2019.
より図を引用

15
 Body Part Detection Methodでは下図の様に各キーポイントの各座標に対する存在
確率を示すヒートマップを出力し、ピークとなる座標を予測座標とする。
 教師データは正解座標をピークとするガウス分布を持つヒートマップで与えられる。
 Regression Methodよりも教師データの情報量が多く、高い精度が期待できるので、近年では
Body Part Detection Methodが主流となっている。
 本資料ではBody Part Detection Methodの代表的な手法である “Stacked Hourglass
Networks for HPE [6]”について解説する。
Stacked Hourglass Networks for HPE [6] (1/3)
[6] Newell, Alejandro, Kaiyu Yang, and Jia Deng. “Stacked hourglass networks for human pose estimation.” European
conference on computer vision. Springer, Cham, 2016. 図も本論文より引用

16
 Stacked Hourglass Networksと呼ばれるEncoderとDecoderの繰り返し
(Hourglass Networks) で構成されるCNN (下図左) が用いられる。
 下図右はHourglass Networksの繰り返し構造の詳細を示しており、単純に
繰り返しを行うだけでなく、Skip Connectionを使っている。
 さらに各繰り返し毎にヒートマップを出力し（下図右の青い四角形）、各繰
り返しのヒートマップのLoss (教師となるヒートマップとの二乗誤差) の合
計を全体のLoss関数として学習を行う。
Stacked Hourglass Networks for HPE (2/3)
[6] Newell, Alejandro, Kaiyu Yang, and Jia Deng. “Stacked hourglass networks for human pose
estimation.” European conference on computer vision. Springer, Cham, 2016. より図を引用

 各Hourglass Networkは下図左の構造を持ち、下図左の各直方体は下図右の
Bottleneck Residual Blockを表している。
 このような構造のネットワークを用いることで、様々なスケールの情報を抽
出が可能となり、姿勢推定に有利である。
 顔や手などの特徴を特定には局所的な情報が必要であり、最終的な姿勢の推定は体全
体の情報が必要となる。
Stacked Hourglass Networks for HPE (3/3)
[6] Newell, Alejandro, Kaiyu Yang, and Jia Deng. “Stacked hourglass networks for human pose
estimation.” European conference on computer vision. Springer, Cham, 2016. より図を引用
17

・Percentage of Correct Keypoints (PCK)
推定されたキーポイント座標と正解座標との差が、閾値以下である割合による評価で、
高い方が高精度。閾値は人物の頭部やトルソーサイズ (トルソーは胴体部分を示す単語)
を基準とした長さで設定される。
頭部の0.5倍を基準とするときにはPCKh@0.5 (PCKhは誤字ではない)、トルソーの0.2倍
を基準とするときはPCK@0.2の様に表される。
・Percentage of Correct Parts(PCP)
キーポイント単位ではなく、腕や足等のパーツ単位の評価値。パーツの両端のキーポイ
ントの予測値と正解値の差が、各パーツの長さを基準とした閾値以下である割合を示す。
この指標はパーツが小さいときに厳しい評価をしてしまうという欠点があるので、基準
長さをトルソーで正規化するPercentage of Detected Joints (PDJ) も使われる。
18
2D single-person HPEの評価方法

19
Multi-person HPEはSingle-person手法をベースとしつつ、画像中の複数人の姿
勢推定を行うタスクであり、その手法はTop-DownとBottom-Upに分けられる。
2D multi-person HPE
・Top-Down
最初に物体検出器を用いて画像中の人を全て検出し、検出された各人に対して
Single-person HPEを行う。
精度面で優れるが、人が多くなると推論時間が長くなる弱点がある。
[4] Dang, Qi, et al. "Deep learning
based 2d human pose estimation: A
survey“ Tsinghua Science and
Technology 24.6 (2019): 663-676.
より図を引用

20
2D multi-person HPE
・Bottom-Up
最初に画像中のすべてのキーポイントを種類ごとに予測ネットワークを用いて、キーポ
イントの候補となる点を全て出力する。
その後、尤もらしいキーポイントの組み合わせを作ることで複数の人の姿勢を推定。
Top-Downより精度面では劣るが、人数が増えても推論時間があまり増加しないという
利点がある。
[4] Dang, Qi, et al. "Deep learning
based 2d human pose estimation: A
survey“ Tsinghua Science and
Technology 24.6 (2019): 663-676.
より図を引用

21
Cascaded Pyramid Network [7]
 Top-Downの代表的手法で、一般的な物体検出器で人を検出した後、下図の
Cascaded Pyramid Network (CPN)を用いて各人のキーポイントを検出。
 CPNの論文はmulti-person手法を提案したが、CPNそのものはsingle-person用である。
 CPNに限らずTop-Down手法は物体検出器とsingle-person HPEの組み合わせなので、single-
personを改善した結果multi-personの精度が上がったというmulti-personの研究は非常に多い。
 CPNは下図に示す様に、GlobalNetとRefineNetと呼ばれるCNNを組み合わせたモデ
ルでヒートマップを出力する。
 複数のスケールの特徴マップを統合して用いられる点で有利。
[7] Chen, Yilun, et al. “Cascaded pyramid network for
multi-person pose estimation.” Proceedings of the
IEEE conference on computer vision and pattern
recognition. 2018. 図も本論文より引用

22
 High-Resolution Net (HRNet) もTop-Downの代表的手法であり、物体検出
器で検出された人の姿勢推定を以下のHRNetを用いて行う。
 従来の姿勢推定用CNNが高解像度⇒低解像度⇒高解像度と情報を圧縮・復
元するのに対し、HRNetは高解像度から低解像度までの複数の解像度で層
数を重ねる構造を持ち、ヒートマップを予測する。
High-Resolution Net [8]
 exchange unitsと呼ばれる、異
なる解像度の特徴マップの情報
を統合する構造を複数持つ。
[8] Sun, Ke, et al. “Deep high-resolution representation
learning for human pose estimation.” Proceedings of
the IEEE/CVF Conference on Computer Vision and
Pattern Recognition. 2019. 図も本論文から引用

23
 2016-2017年あたりに大きく話題になったBottom-Up手法。
 まず初めにHPEのネットワークを用いて、画像中のすべてのキーポイントを種類ごとに
検出する（下図b）と同時に画像の各座標におけるキーポイント同士の親和性を表す
Part Affinity Fieldsを出力する (下図c) 。
 例えば腕に相当する座標では、肩から肘方向へのベクトルが出力される。
 検出されたキーポイントをPart Affinity Fieldsを基にマッチングし、各人の姿勢を構成。
OpenPose [1] (1/2)
[1] Cao, Zhe, et al. "OpenPose: realtime multi-
person 2D pose estimation using Part Affinity
Fields." IEEE transactions on pattern analysis
and machine intelligence 43.1 (2019): 172-186
図も本論文から引用.

24
 各キーポイントのマッチングでは、 Part Affinity Fieldsのベクトル値を各関節の
組み合わせ方向に線積分し、値が大きかったペアを正しい組み合わせと予測。
 Part Affinity Fieldsを予測するネットワークの学習に関する教師データは、キーポイン
ト間を結んだ線分との距離などから算出 (詳しくは論文を参照)。
 最終的には組み合わせ最適化問題に帰着する。
 効率的に解くための工夫、人間として不自然なペアにならないように（二人の人が合体
するなど）にするための工夫もなされている (詳しくは論文を参照)。
OpenPose (2/2)
[1] Cao, Zhe, et al. "OpenPose: realtime multi-
person 2D pose estimation using Part Affinity
Fields." IEEE transactions on pattern analysis
and machine intelligence 43.1 (2019): 172-186
より図を引用.

25
・Average Precision (AP)
どの程度の割合の関節を正確に検出できているかを示す指標。
まず、各人物に対して以下で定義されるOKSという指標を計算する。
2D multi-person HPEの評価方法
𝑑𝑖: 正解座標と予測座標の差
s: 人の大きさ
𝑘𝑖: 各関節点の検出の難しさを考慮する定数
𝑣𝑖: 関節が画像に写りこんでいるか否か
この値が一定の閾値を超えた人物の割合がAverage Precisionである。
また、閾値を0.5から0.95まで0.05ずつ変化させたAPを計算し、その平均を用
いて評価するmean Average Precision (mAP) も用いられる。
OKSは0から1の間の値を取り、すべての関節が完全に一致すると1となる。

26
 左表に示す様に、モデルの学習に使え
る様々な2D HPEデータセットがオープ
ンに公開されている。
 近年ではMulti-person手法の研究が主
流となっており、Multi-personに対応
したMPII, COCOが広く用いられている。
 データセット毎に、用意されている評
価指標が決まっている。
 動画をベースとしたデータセットも存
在している。
2D HPEのデータセット
[4] Dang, Qi, et al. “Deep learning based 2d human pose estimation: A
survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より表を引用

 3D HPEはキーポイントの実空間における三次元座標を推定するタスク。
 3D HPEは奥行きを推定する必要があるので、2D HPEと比較して難易度の高い
タスクである。
 3D HPEもSingle-personとMulti-person手法があり、本資料ではSingle-person
をメインで扱う。
 Single-personでは体の中心点 (root) に対する各キーポイントの相対三次元座標
を推定し、Multi-personではそれに加え各人同士の位置関係も推定する。
28
3D HPE

29
3D single-person HPEの手法は “Direct Estimation手法” と “2D to 3D
Lifting手法” に大きく分けられる。
3D single-person HPE (1/2)
・Direct Estimation
入力画像から直接3次元座標を推定する手法。
2D手法と同じようにRegressionとBody Part Detection手法の両方が存在する。

30
3D single-person HPE (2/2)
・2D to 3D Lifting
最初に既存の2D HPE手法を用いて2次元座標を推定する。
その後別のネットワークを用いて2次元座標を入力として3次元座標を推定する。
近年ではこちらの手法の方がより高い精度を実現でき、主流となっている。
 3Dと比較して2Dの教師データは手に入りやすく (後述)、これを用いて2D HPE精度を高
めることで3D HPEの精度も高くなるという点で有利。

31
 2014年に提案された3D HPEの初期の研究で、Direct EstimationをRegression
 ベースで行う手法を提案している。
 各キーポイントを直接推定するRegression networkに加え、サブタスクとして
入力画像の10×10に分割された各区画に関節が存在するか否かの分類タスクを
解くDetection networkを学習。
 Regressionベースの手法だが、空間におけるキーポイントの存在予測はヒートマップを用い
た手法に近い考え方で、精度の向上やOcculutionへの対応力に貢献。
3D Human Pose Estimation from Monocular Images
with Deep Convolutional Neural Network [9]
[9] Li, Sijin, and Antoni B. Chan. "3d human pose
estimation from monocular images with deep
convolutional neural network." Asian Conference
on Computer Vision. Springer, Cham, 2014.

32
 Direct EstimationをBody Part Detection
ベースで行う手法を提案。
 左図上の様に、入力画像に対する3次元
ヒートマップを出力する。
 ヒートマップの奥行き方向の次元は、チャ
ネル数を増やすことで表現。
 CNNの構造は前述のHourglassを採用。
 右図下の様に、奥行き方向の解像度を最初
のHourglassでは粗くし、徐々に解像度を
高めていく方式によりパラメータ数を削減。
 特徴マップの数を徐々に増やすことに対応。
Coarse-to-Fine Volumetric Prediction for Single-Image
3D Human Pose [10]
[10] Pavlakos, Georgios, et al. "Coarse-to-fine volumetric prediction for single-image 3D human
pose." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

33
 2D to 3D Liftingを用いた最初の3D HPEの研究。
 既存の2D HPEによる出力を、3D座標を推定するネットワークに入力
 ネットワークは下図の様なシンプルな構造。
 3D HPEを、2D HPEタスクと奥行き推定タスクに分割して解くという発想。
 3Dと比較して2Dは豊富なデータが手に入るので2D HPEの精度を上げるこ
とが出来、2D HPEの精度が高いほど3D HPEの精度も上がることを示した。
 仮に2D HPEの結果としてGround Truthを与えると、非常に精度は高くなる。
A simple yet effective baseline for 3d human pose estimation[11]
[11] Martinez, Julieta, et al. "A simple yet effective baseline for 3d human pose estimation." Proceedings of the IEEE
International Conference on Computer Vision. 2017. 図も本論文から引用.

34
 2D to 3D Lifting手法の一つ。
 まずは既存の2D HPE手法で2D Poseを推定
 事前に作成してある3D Poseライブラリを用
い、各3D Poseを2Dへ射影した際に最も2D
HPEの推定結果にマッチングするものを選択。
 選択された3D Poseと2D HPE結果を基に最終
的な3D座標を出力。
 ライブラリは約20万もの3D Poseを含んでい
るが、マッチングは39fpsでの動作が可能。
3D Human Pose Estimation = 2D Pose Estimation + Matching [12]
[12] Chen, Ching-Hang, and Deva Ramanan. "3d human pose estimation=
2d pose estimation+ matching." Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition. 2017. 図も本論文から引用.

35
3D single-person HPE の評価方法
・Mean Per Joint Position Error (MPJPE)
推定されたキーポイントと正解座標の距離の、全てのキーポイントに対する平均値。
誤差の大きさに関する評価なので、値が小さい方が精度が高い。
3D HPEの評価指標として最も広く用いられている。
・Percentage of Correct 3D Keypoinrs (3DPCK)
2DにおけるPercentage of Correct Keypoints (PCK)と同じように、推定されたキーポイ
ント座標と正解座標との差が、閾値以下である割合による評価である。
ただし、距離の測り方はPCKが体のパーツの画像上の長さであるのに対し、3DPCKは実
世界の距離であり、一般的に150mmで設定されることが多い。

36
 公開されている3D HPEデータセットを以下に示す。
 正解データが実空間座標である為、取得する為にはモーションキャプチャ
(MoCap) 等の高価な機器が必要で、データセット作成コストが高い。
 広く用いられているデータセットであるHuman3.6Mの場合、フレーム数は動画ベースで
3.6Mと多いが、被験者の数が11人と非常に少ない。
 データ取得機器の問題で、環境が室内に限定されたり、Multi-personのデータ取得が難しい
等の制約がついてしまうことも多い。
 2D to 3D Lifting手法では2D HPEの部分に大規模2D HPEデータを使えるので有利。
3D HPEのデータセット

37
Single-personタスクでは、root (一般に体の中心を示す) に対する各キーポイン
トの三次元座標を推定すれば十分であるのに対し、Multi-personタスクでは人同
士の実座標上での位置関係も推定する必要がある。
3D multi-person HPE (1/2) (本資料では概要のみ説明)
・Top-Down
2Dの場合と同様に人を物体検出した後、3D single-person HPEを用いてrootに対
する各キーポイントの三次元座標推定を行う。
最後に各人のrootを実空間座標に埋め込み相対位置を推定。
[4] Dang, Qi, et al. "Deep learning based 2d human pose estimation:
A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676.
より図を引用

38
3D multi-person HPE (2/2) (本資料では概要のみ説明)
・Bottom-Up
Bottom-Up手法では各人ごとに3D HPEを行うことは出来ない。
その代わり、全てのキーポイントのヒートマップに加え、各人のrootのdepth、各キー
ポイントのrootに対するdepthを推定し、これらを基に各キーポイントの三次元座標の
推定、及び人ごとのキーポイントのグルーピングを行う。
[4] Dang, Qi, et al. "Deep learning based 2d human pose estimation:
A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676.
より図を引用

39
3D HPEは2D HPEと比較し、以下の観点から難易度の高いタスクであるため、
精度を上げるために以下の工夫を用いることが可能である。
 三次元座標推定を、より低次元の2D画像から行う為情報が不足している。
 深度センサーを用いる。
 複数のカメラから撮影した動画を用いる。
 三次元座標の教師データを作るコストが高く、データ量・多様性が足りない。
 Semi-supervised Learningにより、教師データの無い、もしくは2D HPE用の教師
データしか持たない画像を活用する。
3D HPEの難しさ

40
 位置・向きの分かっている複数のカメラを用いた3D single-person HPE。
 各カメラによる画像に対し2D HPE手法でヒートマップを出力し、各カメラの場
所・向きを考慮して幾何学的に3次元空間でのヒートマップを作成し重ね合わせる。
 人間は二つの目で深度を推定できるのと同じ要領。
 カメラを多くすることで精度の向上が可能。
Learnable Triangulation of Human Pose [13]
[13] Iskakov, Karim, et al. “Learnable triangulation of human pose.” Proceedings of the
IEEE/CVF International Conference on Computer Vision. 2019. 図も本論文より引用

 まず教師なしデータに対し2D to 3D Lifting
の3D姿勢推定を行う。
 3Dの結果を2Dに射影し、2D to 3D Lifting
の途中で得られた2D座標との差分をLoss関
数として学習 (2D MPJPE loss)。
 教師ありデータにおける各パーツの長さを
の平均と、教師なしデータの出力結果にお
ける長さの差分もLoss関数に追加 (Bone
length L2 loss)。
 本研究は時系列を考慮した動画向けの3D
single-person HPEという側面も持っている。
41
3D human pose estimation in video with temporal
convolutions and semi-supervised training [2]
[2] Pavllo, Dario, et al. "3d human pose estimation in video with temporal
convolutions and semi-supervised training." Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. 2019.
図も本論文より引用

 2D及び3D HPEデータセットの詳細・作成方法
 [14] Andriluka, Mykhaylo, et al. “2d human pose estimation: New benchmark and state of the art analysis.” Proceedings of the IEEE
Conference on computer Vision and Pattern Recognition. 2014. (2D HPE データ)
 [15] Ionescu, Catalin, et al. “Human3. 6m: Large scale datasets and predictive methods for 3d human sensing in natural
environments.” IEEE transactions on pattern analysis and machine intelligence 36.7 (2013): 1325-1339. (3D HPEデータ)
 Occlusion と呼ばれる、キーポイントが隠れている場合に関する対処
 [16] Iqbal, Umar, and Juergen Gall. "Multi-person pose estimation with local joint-to-person associations." European conference on
computer vision. Springer, Cham, 2016.
 [17] Fang, Hao-Shu, et al. "Rmpe: Regional multi-person pose estimation." Proceedings of the IEEE international conference on
computer vision. 2017.
 人間のテクスチャレベルの推定等、キーポイント以外を出力するHPE
 [18] Li, Yining, Chen Huang, and Chen Change Loy. "Dense intrinsic appearance flow for human pose transfer." Proceedings of the
IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
 [19] Güler, Rıza Alp, Natalia Neverova, and Iasonas Kokkinos. "Densepose: Dense human pose estimation in the wild." Proceedings
of the IEEE conference on computer vision and pattern recognition. 2018.
42
本資料で説明しなかったトピック

43
 動画ベースのHPE
・時系列を考慮することで精度を上げる工夫
 [2] Pavllo, Dario, et al. "3d human pose estimation in video with temporal convolutions and semi-supervised training." Proceedings of the
IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
・Pose Trackingという、姿勢推定+Trackingが必要になるタスク
 [20] Iqbal, Umar, Anton Milan, and Juergen Gall. "Posetrack: Joint multi-person pose estimation and tracking." Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition. 2017.
 [21] Ning, Guanghan, Jian Pei, and Heng Huang. "Lighttrack: A generic framework for online top-down human pose
tracking." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020.
 人間の手や動物等、人間の体以外に対するHPE
 [22] Zimmermann, Christian, and Thomas Brox. “Learning to estimate 3d hand pose from single rgb images.” Proceedings of the IEEE
international conference on computer vision. 2017. (手の姿勢推定)
 [23] Li, Chen, and Gim Hee Lee. “From Synthetic to Real: Unsupervised Domain Adaptation for Animal Pose Estimation.” Proceedings of
the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021. (動物の姿勢推定)
本資料で説明しなかったトピック

44
 Human Pose Estimation (HPE) は画像中の人物の関節点等のキーポイント
の座標を推定するタスクであり、幅広い応用用途を持つ。
 画像中の座標を求める2D HPEと、実空間上での座標を求める3D HPEに
タスクを分けることが出来、それぞれに対する手法が提案されている。
 更に画像中の人物が一人であると仮定したSingle-personと、画像中の人物
全ての姿勢を推定するMulti-personタスクに分けることもできる。
 3D HPEは2Dと比較して情報、データ量の観点から難しいので、半教師あり
学習や複数カメラを用いる等、タスクそのものに対する工夫もみられる。
まとめ

深層学習によるHuman Pose Estimationの基礎

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a 深層学習によるHuman Pose Estimationの基礎

Similar a 深層学習によるHuman Pose Estimationの基礎 (20)

Más de Takumi Ohkuma

Más de Takumi Ohkuma (7)

Último

Último (11)

深層学習によるHuman Pose Estimationの基礎