SlideShare una empresa de Scribd logo
1 de 44
Descargar para leer sin conexión
深層学習による Human Pose Estimationの基礎
1
大熊 拓海 (東京大学 情報理工学系研究科)
Twitter: @shien5963
2
 本資料は深層学習を用いたHuman Pose Estimation (HPE) の基礎的な内容を理
解する助けとなる事を期待して作成した。
 本資料では、HPEに関するタスクの種類 (2D, 3D, Single-person, Multi-person)、
及びそれらに関する手法について学び、それぞれに対する利点・欠点・評価指
標について説明する。
 幅広い内容を説明することを重視しており、各手法の説明はあまり丁寧でない
場合が多いので、詳細を知りたい方は引用にある論文等を参照して頂きたい。
はじめに
 経歴
 2019年 3月 東京大学 工学部 計数工学科卒業
 2021年 3月 東京大学 情報理工学系研究科 創造情報学専攻 修士課程 修了
(修了時に研究科長賞受賞)
 2021年 4月 同 博士課程 進学 (在籍中)
 2021年 6月 株式会社Bluezone共同創業 CTO就任
 専門分野
 画像認識(Few-shot Learning、Human Pose Estimation)
 その他
 東京大学 工学系研究科 講義「深層学習」講師(2020年度-)
 松尾研究室サマースクール講義 監修 (画像認識)・講師 (画像認識/生成モデル)
 2021年度未踏アドバンスト事業採択
 Twitter: @shien5963 (本資料に不備があった場合もこちらまで連絡お願いします)
3
自己紹介
大熊拓海(東京大学 情報理工学系研究科/株式会社Bluezone CTO)
4
Human Pose Estimation 概要
5
 Human Pose Estimation (HPE) とは、画像中の人物の特定の点(キーポ
イント) の位置を推定することで、人物の姿勢を得る画像認識タスク。
Human Pose Estimationとは
[1] Cao, Zhe, et al. “OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields.” IEEE
transactions on pattern analysis and machine intelligence 43.1 (2019): 172-186. より図を引用
6
 姿勢推定を用いることで画像中の人間の動きを詳細に取ることが出来る
ので、単純な物体検出では困難な応用が可能となる。
 例としては以下の様な応用が挙げられる
 歩行者の行動予測
 不審者・酔っ払いの検出
 スポーツの審判補助
 オンラインコーチング(スポーツ等)
 (挙手等の)行動検知
 ゲームやVRにおけるインターフェイス
他にも様々な例が挙げられる
HPEの重要性
7
応用事例
[4] Dang, Qi, et al. "Deep learning based 2d human pose estimation: A survey“ Tsinghua
Science and Technology 24.6 (2019): 663-676. より図を引用
8
 HPEは問題設定によってサブタスクに分類される。
HPEのタスク分類 (2D or 3D)
2D HPE
キーポイントの画像上での二
次元座標を推定するタスク
3D HPE
キーポイントの実空間における
三次元座標を推定するタスク
[2] Pavllo, Dario, et al. “3d human pose estimation in video with temporal
convolutions and semi-supervised training.” Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. 2019. より左図を引用
9
 HPEは問題設定によってサブタスクに分類される。
HPEのタスク分類 (Single or Multi)
Multi-person HPE
画像中の複数人の姿勢を推定
するタスク
[1] Cao, Zhe, et al. “OpenPose: realtime multi-person 2D pose estimation
using Part Affinity Fields.” IEEE transactions on pattern analysis and
machine intelligence 43.1 (2019): 172-186. より左図を引用
Single-person HPE
画像中には一人しか人が存在し
ない状況で姿勢推定するタスク
[3] Pavllo, Dario, et al. “3d human pose estimation in video with temporal
convolutions and semi-supervised training.” Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. 2019. より左図を引用
10
2D Human Pose Estimation
11
 2D HPEはキーポイントの画像上での二次元座標を推定するタスク。
 2D HPEはさらにSingle-personとMulti-personに分けることが出来る。
 Multi-personは画像中の全ての人に対する姿勢推定を行う必要があるの
で、Single-personよりも難しいタスクである。
 Multi-personは基本的にSingle-personの拡張手法となるので、まずは
Single-personの説明をし、それを踏まえてMulti-personの説明を行う。
2D HPE
12
2D single-person HPEの手法は
1. Regression Method
各キーポイントの2D座標を直接予測。
2. Body Part Detection Method
各キーポイントの位置ごとの存在確率
をヒートマップとして出力し、これを
用いて予測結果を導く。
(現在ではこちらが主流)
の2種類に大きく分類できる。
2D single-person HPE
[4] Dang, Qi, et al. “Deep learning based 2d human pose estimation: A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より図を引用
13
 DeepPose[3]は2013年に提案された、最初にDeep LearningをHPEに導
入した手法である(Regression Method)。
 AlexNet[5]を用いて特徴抽出を行い、各関節点への回帰を行う
 損失関数にはMSE (平均二乗誤差) を用いる。
DeepPose (1/2)
[3] Pavllo, Dario, et al. “3d human pose estimation in video with temporal convolutions and semi-supervised
training.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. 図も本論文より引用
[5] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional
neural networks." Advances in neural information processing systems 25 (2012): 1097-1105.
14
 AlexNetの入力画像サイズは220×220で固定なので、細かい位置の推定には
適していない。
 そこで、ネットワークをカスケード状に多段に重ね、一つ前の層の各キーポ
イントの出力を中心にクロップされた画像を次の層へ入力することで、層を
経るごとに解像度の高い画像を扱うことが出来、精度が向上。
DeepPose (2/2)
[3] Pavllo, Dario, et al. “3d human pose
estimation in video with temporal convolutions
and semi-supervised training.” Proceedings of
the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. 2019.
より図を引用
15
 Body Part Detection Methodでは下図の様に各キーポイントの各座標に対する存在
確率を示すヒートマップを出力し、ピークとなる座標を予測座標とする。
 教師データは正解座標をピークとするガウス分布を持つヒートマップで与えられる。
 Regression Methodよりも教師データの情報量が多く、高い精度が期待できるので、近年では
Body Part Detection Methodが主流となっている。
 本資料ではBody Part Detection Methodの代表的な手法である “Stacked Hourglass
Networks for HPE [6]”について解説する。
Stacked Hourglass Networks for HPE [6] (1/3)
[6] Newell, Alejandro, Kaiyu Yang, and Jia Deng. “Stacked hourglass networks for human pose estimation.” European
conference on computer vision. Springer, Cham, 2016. 図も本論文より引用
16
 Stacked Hourglass Networksと呼ばれるEncoderとDecoderの繰り返し
(Hourglass Networks) で構成されるCNN (下図左) が用いられる。
 下図右はHourglass Networksの繰り返し構造の詳細を示しており、単純に
繰り返しを行うだけでなく、Skip Connectionを使っている。
 さらに各繰り返し毎にヒートマップを出力し(下図右の青い四角形)、各繰
り返しのヒートマップのLoss (教師となるヒートマップとの二乗誤差) の合
計を全体のLoss関数として学習を行う。
Stacked Hourglass Networks for HPE (2/3)
[6] Newell, Alejandro, Kaiyu Yang, and Jia Deng. “Stacked hourglass networks for human pose
estimation.” European conference on computer vision. Springer, Cham, 2016. より図を引用
 各Hourglass Networkは下図左の構造を持ち、下図左の各直方体は下図右の
Bottleneck Residual Blockを表している。
 このような構造のネットワークを用いることで、様々なスケールの情報を抽
出が可能となり、姿勢推定に有利である。
 顔や手などの特徴を特定には局所的な情報が必要であり、最終的な姿勢の推定は体全
体の情報が必要となる。
Stacked Hourglass Networks for HPE (3/3)
[6] Newell, Alejandro, Kaiyu Yang, and Jia Deng. “Stacked hourglass networks for human pose
estimation.” European conference on computer vision. Springer, Cham, 2016. より図を引用
17
・Percentage of Correct Keypoints (PCK)
推定されたキーポイント座標と正解座標との差が、閾値以下である割合による評価で、
高い方が高精度。閾値は人物の頭部やトルソーサイズ (トルソーは胴体部分を示す単語)
を基準とした長さで設定される。
頭部の0.5倍を基準とするときにはPCKh@0.5 (PCKhは誤字ではない)、トルソーの0.2倍
を基準とするときはPCK@0.2の様に表される。
・Percentage of Correct Parts(PCP)
キーポイント単位ではなく、腕や足等のパーツ単位の評価値。パーツの両端のキーポイ
ントの予測値と正解値の差が、各パーツの長さを基準とした閾値以下である割合を示す。
この指標はパーツが小さいときに厳しい評価をしてしまうという欠点があるので、基準
長さをトルソーで正規化するPercentage of Detected Joints (PDJ) も使われる。
18
2D single-person HPEの評価方法
19
Multi-person HPEはSingle-person手法をベースとしつつ、画像中の複数人の姿
勢推定を行うタスクであり、その手法はTop-DownとBottom-Upに分けられる。
2D multi-person HPE
・Top-Down
最初に物体検出器を用いて画像中の人を全て検出し、検出された各人に対して
Single-person HPEを行う。
精度面で優れるが、人が多くなると推論時間が長くなる弱点がある。
[4] Dang, Qi, et al. "Deep learning
based 2d human pose estimation: A
survey“ Tsinghua Science and
Technology 24.6 (2019): 663-676.
より図を引用
20
2D multi-person HPE
・Bottom-Up
最初に画像中のすべてのキーポイントを種類ごとに予測ネットワークを用いて、キーポ
イントの候補となる点を全て出力する。
その後、尤もらしいキーポイントの組み合わせを作ることで複数の人の姿勢を推定。
Top-Downより精度面では劣るが、人数が増えても推論時間があまり増加しないという
利点がある。
[4] Dang, Qi, et al. "Deep learning
based 2d human pose estimation: A
survey“ Tsinghua Science and
Technology 24.6 (2019): 663-676.
より図を引用
21
Cascaded Pyramid Network [7]
 Top-Downの代表的手法で、一般的な物体検出器で人を検出した後、下図の
Cascaded Pyramid Network (CPN)を用いて各人のキーポイントを検出。
 CPNの論文はmulti-person手法を提案したが、CPNそのものはsingle-person用である。
 CPNに限らずTop-Down手法は物体検出器とsingle-person HPEの組み合わせなので、single-
personを改善した結果multi-personの精度が上がったというmulti-personの研究は非常に多い。
 CPNは下図に示す様に、GlobalNetとRefineNetと呼ばれるCNNを組み合わせたモデ
ルでヒートマップを出力する。
 複数のスケールの特徴マップを統合して用いられる点で有利。
[7] Chen, Yilun, et al. “Cascaded pyramid network for
multi-person pose estimation.” Proceedings of the
IEEE conference on computer vision and pattern
recognition. 2018. 図も本論文より引用
22
 High-Resolution Net (HRNet) もTop-Downの代表的手法であり、物体検出
器で検出された人の姿勢推定を以下のHRNetを用いて行う。
 従来の姿勢推定用CNNが高解像度⇒低解像度⇒高解像度と情報を圧縮・復
元するのに対し、HRNetは高解像度から低解像度までの複数の解像度で層
数を重ねる構造を持ち、ヒートマップを予測する。
High-Resolution Net [8]
 exchange unitsと呼ばれる、異
なる解像度の特徴マップの情報
を統合する構造を複数持つ。
[8] Sun, Ke, et al. “Deep high-resolution representation
learning for human pose estimation.” Proceedings of
the IEEE/CVF Conference on Computer Vision and
Pattern Recognition. 2019. 図も本論文から引用
23
 2016-2017年あたりに大きく話題になったBottom-Up手法。
 まず初めにHPEのネットワークを用いて、画像中のすべてのキーポイントを種類ごとに
検出する(下図b)と同時に画像の各座標におけるキーポイント同士の親和性を表す
Part Affinity Fieldsを出力する (下図c) 。
 例えば腕に相当する座標では、肩から肘方向へのベクトルが出力される。
 検出されたキーポイントをPart Affinity Fieldsを基にマッチングし、各人の姿勢を構成。
OpenPose [1] (1/2)
[1] Cao, Zhe, et al. "OpenPose: realtime multi-
person 2D pose estimation using Part Affinity
Fields." IEEE transactions on pattern analysis
and machine intelligence 43.1 (2019): 172-186
図も本論文から引用.
24
 各キーポイントのマッチングでは、 Part Affinity Fieldsのベクトル値を各関節の
組み合わせ方向に線積分し、値が大きかったペアを正しい組み合わせと予測。
 Part Affinity Fieldsを予測するネットワークの学習に関する教師データは、キーポイン
ト間を結んだ線分との距離などから算出 (詳しくは論文を参照)。
 最終的には組み合わせ最適化問題に帰着する。
 効率的に解くための工夫、人間として不自然なペアにならないように(二人の人が合体
するなど)にするための工夫もなされている (詳しくは論文を参照)。
OpenPose (2/2)
[1] Cao, Zhe, et al. "OpenPose: realtime multi-
person 2D pose estimation using Part Affinity
Fields." IEEE transactions on pattern analysis
and machine intelligence 43.1 (2019): 172-186
より図を引用.
25
・Average Precision (AP)
どの程度の割合の関節を正確に検出できているかを示す指標。
まず、各人物に対して以下で定義されるOKSという指標を計算する。
2D multi-person HPEの評価方法
𝑑𝑖: 正解座標と予測座標の差
s: 人の大きさ
𝑘𝑖: 各関節点の検出の難しさを考慮する定数
𝑣𝑖: 関節が画像に写りこんでいるか否か
この値が一定の閾値を超えた人物の割合がAverage Precisionである。
また、閾値を0.5から0.95まで0.05ずつ変化させたAPを計算し、その平均を用
いて評価するmean Average Precision (mAP) も用いられる。
OKSは0から1の間の値を取り、すべての関節が完全に一致すると1となる。
26
 左表に示す様に、モデルの学習に使え
る様々な2D HPEデータセットがオープ
ンに公開されている。
 近年ではMulti-person手法の研究が主
流となっており、Multi-personに対応
したMPII, COCOが広く用いられている。
 データセット毎に、用意されている評
価指標が決まっている。
 動画をベースとしたデータセットも存
在している。
2D HPEのデータセット
[4] Dang, Qi, et al. “Deep learning based 2d human pose estimation: A
survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より表を引用
27
3D Human Pose Estimation
 3D HPEはキーポイントの実空間における三次元座標を推定するタスク。
 3D HPEは奥行きを推定する必要があるので、2D HPEと比較して難易度の高い
タスクである。
 3D HPEもSingle-personとMulti-person手法があり、本資料ではSingle-person
をメインで扱う。
 Single-personでは体の中心点 (root) に対する各キーポイントの相対三次元座標
を推定し、Multi-personではそれに加え各人同士の位置関係も推定する。
28
3D HPE
29
3D single-person HPEの手法は “Direct Estimation手法” と “2D to 3D
Lifting手法” に大きく分けられる。
3D single-person HPE (1/2)
[4] Dang, Qi, et al. “Deep learning based 2d human pose estimation: A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より図を引用
・Direct Estimation
入力画像から直接3次元座標を推定する手法。
2D手法と同じようにRegressionとBody Part Detection手法の両方が存在する。
30
3D single-person HPE (2/2)
・2D to 3D Lifting
最初に既存の2D HPE手法を用いて2次元座標を推定する。
その後別のネットワークを用いて2次元座標を入力として3次元座標を推定する。
近年ではこちらの手法の方がより高い精度を実現でき、主流となっている。
 3Dと比較して2Dの教師データは手に入りやすく (後述)、これを用いて2D HPE精度を高
めることで3D HPEの精度も高くなるという点で有利。
[4] Dang, Qi, et al. “Deep learning based 2d human pose estimation: A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より図を引用
31
 2014年に提案された3D HPEの初期の研究で、Direct EstimationをRegression
 ベースで行う手法を提案している。
 各キーポイントを直接推定するRegression networkに加え、サブタスクとして
入力画像の10×10に分割された各区画に関節が存在するか否かの分類タスクを
解くDetection networkを学習。
 Regressionベースの手法だが、空間におけるキーポイントの存在予測はヒートマップを用い
た手法に近い考え方で、精度の向上やOcculutionへの対応力に貢献。
3D Human Pose Estimation from Monocular Images
with Deep Convolutional Neural Network [9]
[9] Li, Sijin, and Antoni B. Chan. "3d human pose
estimation from monocular images with deep
convolutional neural network." Asian Conference
on Computer Vision. Springer, Cham, 2014.
図も本論文から引用.
32
 Direct EstimationをBody Part Detection
ベースで行う手法を提案。
 左図上の様に、入力画像に対する3次元
ヒートマップを出力する。
 ヒートマップの奥行き方向の次元は、チャ
ネル数を増やすことで表現。
 CNNの構造は前述のHourglassを採用。
 右図下の様に、奥行き方向の解像度を最初
のHourglassでは粗くし、徐々に解像度を
高めていく方式によりパラメータ数を削減。
 特徴マップの数を徐々に増やすことに対応。
Coarse-to-Fine Volumetric Prediction for Single-Image
3D Human Pose [10]
[10] Pavlakos, Georgios, et al. "Coarse-to-fine volumetric prediction for single-image 3D human
pose." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
図も本論文から引用.
33
 2D to 3D Liftingを用いた最初の3D HPEの研究。
 既存の2D HPEによる出力を、3D座標を推定するネットワークに入力
 ネットワークは下図の様なシンプルな構造。
 3D HPEを、2D HPEタスクと奥行き推定タスクに分割して解くという発想。
 3Dと比較して2Dは豊富なデータが手に入るので2D HPEの精度を上げるこ
とが出来、2D HPEの精度が高いほど3D HPEの精度も上がることを示した。
 仮に2D HPEの結果としてGround Truthを与えると、非常に精度は高くなる。
A simple yet effective baseline for 3d human pose estimation[11]
[11] Martinez, Julieta, et al. "A simple yet effective baseline for 3d human pose estimation." Proceedings of the IEEE
International Conference on Computer Vision. 2017. 図も本論文から引用.
34
 2D to 3D Lifting手法の一つ。
 まずは既存の2D HPE手法で2D Poseを推定
 事前に作成してある3D Poseライブラリを用
い、各3D Poseを2Dへ射影した際に最も2D
HPEの推定結果にマッチングするものを選択。
 選択された3D Poseと2D HPE結果を基に最終
的な3D座標を出力。
 ライブラリは約20万もの3D Poseを含んでい
るが、マッチングは39fpsでの動作が可能。
3D Human Pose Estimation = 2D Pose Estimation + Matching [12]
[12] Chen, Ching-Hang, and Deva Ramanan. "3d human pose estimation=
2d pose estimation+ matching." Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition. 2017. 図も本論文から引用.
35
3D single-person HPE の評価方法
・Mean Per Joint Position Error (MPJPE)
推定されたキーポイントと正解座標の距離の、全てのキーポイントに対する平均値。
誤差の大きさに関する評価なので、値が小さい方が精度が高い。
3D HPEの評価指標として最も広く用いられている。
・Percentage of Correct 3D Keypoinrs (3DPCK)
2DにおけるPercentage of Correct Keypoints (PCK)と同じように、推定されたキーポイ
ント座標と正解座標との差が、閾値以下である割合による評価である。
ただし、距離の測り方はPCKが体のパーツの画像上の長さであるのに対し、3DPCKは実
世界の距離であり、一般的に150mmで設定されることが多い。
36
 公開されている3D HPEデータセットを以下に示す。
 正解データが実空間座標である為、取得する為にはモーションキャプチャ
(MoCap) 等の高価な機器が必要で、データセット作成コストが高い。
 広く用いられているデータセットであるHuman3.6Mの場合、フレーム数は動画ベースで
3.6Mと多いが、被験者の数が11人と非常に少ない。
 データ取得機器の問題で、環境が室内に限定されたり、Multi-personのデータ取得が難しい
等の制約がついてしまうことも多い。
 2D to 3D Lifting手法では2D HPEの部分に大規模2D HPEデータを使えるので有利。
3D HPEのデータセット
[4] Dang, Qi, et al. “Deep learning based 2d human pose estimation: A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より図を引用
37
Single-personタスクでは、root (一般に体の中心を示す) に対する各キーポイン
トの三次元座標を推定すれば十分であるのに対し、Multi-personタスクでは人同
士の実座標上での位置関係も推定する必要がある。
3D multi-person HPE (1/2) (本資料では概要のみ説明)
・Top-Down
2Dの場合と同様に人を物体検出した後、3D single-person HPEを用いてrootに対
する各キーポイントの三次元座標推定を行う。
最後に各人のrootを実空間座標に埋め込み相対位置を推定。
[4] Dang, Qi, et al. "Deep learning based 2d human pose estimation:
A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676.
より図を引用
38
3D multi-person HPE (2/2) (本資料では概要のみ説明)
・Bottom-Up
Bottom-Up手法では各人ごとに3D HPEを行うことは出来ない。
その代わり、全てのキーポイントのヒートマップに加え、各人のrootのdepth、各キー
ポイントのrootに対するdepthを推定し、これらを基に各キーポイントの三次元座標の
推定、及び人ごとのキーポイントのグルーピングを行う。
[4] Dang, Qi, et al. "Deep learning based 2d human pose estimation:
A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676.
より図を引用
39
3D HPEは2D HPEと比較し、以下の観点から難易度の高いタスクであるため、
精度を上げるために以下の工夫を用いることが可能である。
 三次元座標推定を、より低次元の2D画像から行う為情報が不足している。
 深度センサーを用いる。
 複数のカメラから撮影した動画を用いる。
 三次元座標の教師データを作るコストが高く、データ量・多様性が足りない。
 Semi-supervised Learningにより、教師データの無い、もしくは2D HPE用の教師
データしか持たない画像を活用する。
3D HPEの難しさ
40
 位置・向きの分かっている複数のカメラを用いた3D single-person HPE。
 各カメラによる画像に対し2D HPE手法でヒートマップを出力し、各カメラの場
所・向きを考慮して幾何学的に3次元空間でのヒートマップを作成し重ね合わせる。
 人間は二つの目で深度を推定できるのと同じ要領。
 カメラを多くすることで精度の向上が可能。
Learnable Triangulation of Human Pose [13]
[13] Iskakov, Karim, et al. “Learnable triangulation of human pose.” Proceedings of the
IEEE/CVF International Conference on Computer Vision. 2019. 図も本論文より引用
 まず教師なしデータに対し2D to 3D Lifting
の3D姿勢推定を行う。
 3Dの結果を2Dに射影し、2D to 3D Lifting
の途中で得られた2D座標との差分をLoss関
数として学習 (2D MPJPE loss)。
 教師ありデータにおける各パーツの長さを
の平均と、教師なしデータの出力結果にお
ける長さの差分もLoss関数に追加 (Bone
length L2 loss)。
 本研究は時系列を考慮した動画向けの3D
single-person HPEという側面も持っている。
41
3D human pose estimation in video with temporal
convolutions and semi-supervised training [2]
[2] Pavllo, Dario, et al. "3d human pose estimation in video with temporal
convolutions and semi-supervised training." Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. 2019.
図も本論文より引用
 2D及び3D HPEデータセットの詳細・作成方法
 [14] Andriluka, Mykhaylo, et al. “2d human pose estimation: New benchmark and state of the art analysis.” Proceedings of the IEEE
Conference on computer Vision and Pattern Recognition. 2014. (2D HPE データ)
 [15] Ionescu, Catalin, et al. “Human3. 6m: Large scale datasets and predictive methods for 3d human sensing in natural
environments.” IEEE transactions on pattern analysis and machine intelligence 36.7 (2013): 1325-1339. (3D HPEデータ)
 Occlusion と呼ばれる、キーポイントが隠れている場合に関する対処
 [16] Iqbal, Umar, and Juergen Gall. "Multi-person pose estimation with local joint-to-person associations." European conference on
computer vision. Springer, Cham, 2016.
 [17] Fang, Hao-Shu, et al. "Rmpe: Regional multi-person pose estimation." Proceedings of the IEEE international conference on
computer vision. 2017.
 人間のテクスチャレベルの推定等、キーポイント以外を出力するHPE
 [18] Li, Yining, Chen Huang, and Chen Change Loy. "Dense intrinsic appearance flow for human pose transfer." Proceedings of the
IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
 [19] Güler, Rıza Alp, Natalia Neverova, and Iasonas Kokkinos. "Densepose: Dense human pose estimation in the wild." Proceedings
of the IEEE conference on computer vision and pattern recognition. 2018.
42
本資料で説明しなかったトピック
43
 動画ベースのHPE
・時系列を考慮することで精度を上げる工夫
 [2] Pavllo, Dario, et al. "3d human pose estimation in video with temporal convolutions and semi-supervised training." Proceedings of the
IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
・Pose Trackingという、姿勢推定+Trackingが必要になるタスク
 [20] Iqbal, Umar, Anton Milan, and Juergen Gall. "Posetrack: Joint multi-person pose estimation and tracking." Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition. 2017.
 [21] Ning, Guanghan, Jian Pei, and Heng Huang. "Lighttrack: A generic framework for online top-down human pose
tracking." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020.
 人間の手や動物等、人間の体以外に対するHPE
 [22] Zimmermann, Christian, and Thomas Brox. “Learning to estimate 3d hand pose from single rgb images.” Proceedings of the IEEE
international conference on computer vision. 2017. (手の姿勢推定)
 [23] Li, Chen, and Gim Hee Lee. “From Synthetic to Real: Unsupervised Domain Adaptation for Animal Pose Estimation.” Proceedings of
the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021. (動物の姿勢推定)
本資料で説明しなかったトピック
44
 Human Pose Estimation (HPE) は画像中の人物の関節点等のキーポイント
の座標を推定するタスクであり、幅広い応用用途を持つ。
 画像中の座標を求める2D HPEと、実空間上での座標を求める3D HPEに
タスクを分けることが出来、それぞれに対する手法が提案されている。
 更に画像中の人物が一人であると仮定したSingle-personと、画像中の人物
全ての姿勢を推定するMulti-personタスクに分けることもできる。
 3D HPEは2Dと比較して情報、データ量の観点から難しいので、半教師あり
学習や複数カメラを用いる等、タスクそのものに対する工夫もみられる。
まとめ

Más contenido relacionado

La actualidad más candente

画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
 

La actualidad más candente (20)

三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 

Similar a 深層学習によるHuman Pose Estimationの基礎

Similar a 深層学習によるHuman Pose Estimationの基礎 (20)

「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
9 可視化
9 可視化9 可視化
9 可視化
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ
 
RobotPaperChallenge 2019-07
RobotPaperChallenge 2019-07RobotPaperChallenge 2019-07
RobotPaperChallenge 2019-07
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展
 
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
 
Semantic segmentation2
Semantic segmentation2Semantic segmentation2
Semantic segmentation2
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 

Más de Takumi Ohkuma

Más de Takumi Ohkuma (7)

「解説資料」MetaFormer is Actually What You Need for Vision
「解説資料」MetaFormer is Actually What You Need for Vision「解説資料」MetaFormer is Actually What You Need for Vision
「解説資料」MetaFormer is Actually What You Need for Vision
 
「解説資料」Pervasive Label Errors in Test Sets Destabilize Machine Learning Bench...
「解説資料」Pervasive Label Errors in Test Sets Destabilize  Machine Learning Bench...「解説資料」Pervasive Label Errors in Test Sets Destabilize  Machine Learning Bench...
「解説資料」Pervasive Label Errors in Test Sets Destabilize Machine Learning Bench...
 
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
 
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...
 
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...
 
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
 
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
 

Último

Último (11)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 

深層学習によるHuman Pose Estimationの基礎

  • 1. 深層学習による Human Pose Estimationの基礎 1 大熊 拓海 (東京大学 情報理工学系研究科) Twitter: @shien5963
  • 2. 2  本資料は深層学習を用いたHuman Pose Estimation (HPE) の基礎的な内容を理 解する助けとなる事を期待して作成した。  本資料では、HPEに関するタスクの種類 (2D, 3D, Single-person, Multi-person)、 及びそれらに関する手法について学び、それぞれに対する利点・欠点・評価指 標について説明する。  幅広い内容を説明することを重視しており、各手法の説明はあまり丁寧でない 場合が多いので、詳細を知りたい方は引用にある論文等を参照して頂きたい。 はじめに
  • 3.  経歴  2019年 3月 東京大学 工学部 計数工学科卒業  2021年 3月 東京大学 情報理工学系研究科 創造情報学専攻 修士課程 修了 (修了時に研究科長賞受賞)  2021年 4月 同 博士課程 進学 (在籍中)  2021年 6月 株式会社Bluezone共同創業 CTO就任  専門分野  画像認識(Few-shot Learning、Human Pose Estimation)  その他  東京大学 工学系研究科 講義「深層学習」講師(2020年度-)  松尾研究室サマースクール講義 監修 (画像認識)・講師 (画像認識/生成モデル)  2021年度未踏アドバンスト事業採択  Twitter: @shien5963 (本資料に不備があった場合もこちらまで連絡お願いします) 3 自己紹介 大熊拓海(東京大学 情報理工学系研究科/株式会社Bluezone CTO)
  • 5. 5  Human Pose Estimation (HPE) とは、画像中の人物の特定の点(キーポ イント) の位置を推定することで、人物の姿勢を得る画像認識タスク。 Human Pose Estimationとは [1] Cao, Zhe, et al. “OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields.” IEEE transactions on pattern analysis and machine intelligence 43.1 (2019): 172-186. より図を引用
  • 6. 6  姿勢推定を用いることで画像中の人間の動きを詳細に取ることが出来る ので、単純な物体検出では困難な応用が可能となる。  例としては以下の様な応用が挙げられる  歩行者の行動予測  不審者・酔っ払いの検出  スポーツの審判補助  オンラインコーチング(スポーツ等)  (挙手等の)行動検知  ゲームやVRにおけるインターフェイス 他にも様々な例が挙げられる HPEの重要性
  • 7. 7 応用事例 [4] Dang, Qi, et al. "Deep learning based 2d human pose estimation: A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より図を引用
  • 8. 8  HPEは問題設定によってサブタスクに分類される。 HPEのタスク分類 (2D or 3D) 2D HPE キーポイントの画像上での二 次元座標を推定するタスク 3D HPE キーポイントの実空間における 三次元座標を推定するタスク [2] Pavllo, Dario, et al. “3d human pose estimation in video with temporal convolutions and semi-supervised training.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. より左図を引用
  • 9. 9  HPEは問題設定によってサブタスクに分類される。 HPEのタスク分類 (Single or Multi) Multi-person HPE 画像中の複数人の姿勢を推定 するタスク [1] Cao, Zhe, et al. “OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields.” IEEE transactions on pattern analysis and machine intelligence 43.1 (2019): 172-186. より左図を引用 Single-person HPE 画像中には一人しか人が存在し ない状況で姿勢推定するタスク [3] Pavllo, Dario, et al. “3d human pose estimation in video with temporal convolutions and semi-supervised training.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. より左図を引用
  • 10. 10 2D Human Pose Estimation
  • 11. 11  2D HPEはキーポイントの画像上での二次元座標を推定するタスク。  2D HPEはさらにSingle-personとMulti-personに分けることが出来る。  Multi-personは画像中の全ての人に対する姿勢推定を行う必要があるの で、Single-personよりも難しいタスクである。  Multi-personは基本的にSingle-personの拡張手法となるので、まずは Single-personの説明をし、それを踏まえてMulti-personの説明を行う。 2D HPE
  • 12. 12 2D single-person HPEの手法は 1. Regression Method 各キーポイントの2D座標を直接予測。 2. Body Part Detection Method 各キーポイントの位置ごとの存在確率 をヒートマップとして出力し、これを 用いて予測結果を導く。 (現在ではこちらが主流) の2種類に大きく分類できる。 2D single-person HPE [4] Dang, Qi, et al. “Deep learning based 2d human pose estimation: A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より図を引用
  • 13. 13  DeepPose[3]は2013年に提案された、最初にDeep LearningをHPEに導 入した手法である(Regression Method)。  AlexNet[5]を用いて特徴抽出を行い、各関節点への回帰を行う  損失関数にはMSE (平均二乗誤差) を用いる。 DeepPose (1/2) [3] Pavllo, Dario, et al. “3d human pose estimation in video with temporal convolutions and semi-supervised training.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. 図も本論文より引用 [5] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems 25 (2012): 1097-1105.
  • 15. 15  Body Part Detection Methodでは下図の様に各キーポイントの各座標に対する存在 確率を示すヒートマップを出力し、ピークとなる座標を予測座標とする。  教師データは正解座標をピークとするガウス分布を持つヒートマップで与えられる。  Regression Methodよりも教師データの情報量が多く、高い精度が期待できるので、近年では Body Part Detection Methodが主流となっている。  本資料ではBody Part Detection Methodの代表的な手法である “Stacked Hourglass Networks for HPE [6]”について解説する。 Stacked Hourglass Networks for HPE [6] (1/3) [6] Newell, Alejandro, Kaiyu Yang, and Jia Deng. “Stacked hourglass networks for human pose estimation.” European conference on computer vision. Springer, Cham, 2016. 図も本論文より引用
  • 16. 16  Stacked Hourglass Networksと呼ばれるEncoderとDecoderの繰り返し (Hourglass Networks) で構成されるCNN (下図左) が用いられる。  下図右はHourglass Networksの繰り返し構造の詳細を示しており、単純に 繰り返しを行うだけでなく、Skip Connectionを使っている。  さらに各繰り返し毎にヒートマップを出力し(下図右の青い四角形)、各繰 り返しのヒートマップのLoss (教師となるヒートマップとの二乗誤差) の合 計を全体のLoss関数として学習を行う。 Stacked Hourglass Networks for HPE (2/3) [6] Newell, Alejandro, Kaiyu Yang, and Jia Deng. “Stacked hourglass networks for human pose estimation.” European conference on computer vision. Springer, Cham, 2016. より図を引用
  • 17.  各Hourglass Networkは下図左の構造を持ち、下図左の各直方体は下図右の Bottleneck Residual Blockを表している。  このような構造のネットワークを用いることで、様々なスケールの情報を抽 出が可能となり、姿勢推定に有利である。  顔や手などの特徴を特定には局所的な情報が必要であり、最終的な姿勢の推定は体全 体の情報が必要となる。 Stacked Hourglass Networks for HPE (3/3) [6] Newell, Alejandro, Kaiyu Yang, and Jia Deng. “Stacked hourglass networks for human pose estimation.” European conference on computer vision. Springer, Cham, 2016. より図を引用 17
  • 18. ・Percentage of Correct Keypoints (PCK) 推定されたキーポイント座標と正解座標との差が、閾値以下である割合による評価で、 高い方が高精度。閾値は人物の頭部やトルソーサイズ (トルソーは胴体部分を示す単語) を基準とした長さで設定される。 頭部の0.5倍を基準とするときにはPCKh@0.5 (PCKhは誤字ではない)、トルソーの0.2倍 を基準とするときはPCK@0.2の様に表される。 ・Percentage of Correct Parts(PCP) キーポイント単位ではなく、腕や足等のパーツ単位の評価値。パーツの両端のキーポイ ントの予測値と正解値の差が、各パーツの長さを基準とした閾値以下である割合を示す。 この指標はパーツが小さいときに厳しい評価をしてしまうという欠点があるので、基準 長さをトルソーで正規化するPercentage of Detected Joints (PDJ) も使われる。 18 2D single-person HPEの評価方法
  • 19. 19 Multi-person HPEはSingle-person手法をベースとしつつ、画像中の複数人の姿 勢推定を行うタスクであり、その手法はTop-DownとBottom-Upに分けられる。 2D multi-person HPE ・Top-Down 最初に物体検出器を用いて画像中の人を全て検出し、検出された各人に対して Single-person HPEを行う。 精度面で優れるが、人が多くなると推論時間が長くなる弱点がある。 [4] Dang, Qi, et al. "Deep learning based 2d human pose estimation: A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より図を引用
  • 21. 21 Cascaded Pyramid Network [7]  Top-Downの代表的手法で、一般的な物体検出器で人を検出した後、下図の Cascaded Pyramid Network (CPN)を用いて各人のキーポイントを検出。  CPNの論文はmulti-person手法を提案したが、CPNそのものはsingle-person用である。  CPNに限らずTop-Down手法は物体検出器とsingle-person HPEの組み合わせなので、single- personを改善した結果multi-personの精度が上がったというmulti-personの研究は非常に多い。  CPNは下図に示す様に、GlobalNetとRefineNetと呼ばれるCNNを組み合わせたモデ ルでヒートマップを出力する。  複数のスケールの特徴マップを統合して用いられる点で有利。 [7] Chen, Yilun, et al. “Cascaded pyramid network for multi-person pose estimation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. 図も本論文より引用
  • 22. 22  High-Resolution Net (HRNet) もTop-Downの代表的手法であり、物体検出 器で検出された人の姿勢推定を以下のHRNetを用いて行う。  従来の姿勢推定用CNNが高解像度⇒低解像度⇒高解像度と情報を圧縮・復 元するのに対し、HRNetは高解像度から低解像度までの複数の解像度で層 数を重ねる構造を持ち、ヒートマップを予測する。 High-Resolution Net [8]  exchange unitsと呼ばれる、異 なる解像度の特徴マップの情報 を統合する構造を複数持つ。 [8] Sun, Ke, et al. “Deep high-resolution representation learning for human pose estimation.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. 図も本論文から引用
  • 23. 23  2016-2017年あたりに大きく話題になったBottom-Up手法。  まず初めにHPEのネットワークを用いて、画像中のすべてのキーポイントを種類ごとに 検出する(下図b)と同時に画像の各座標におけるキーポイント同士の親和性を表す Part Affinity Fieldsを出力する (下図c) 。  例えば腕に相当する座標では、肩から肘方向へのベクトルが出力される。  検出されたキーポイントをPart Affinity Fieldsを基にマッチングし、各人の姿勢を構成。 OpenPose [1] (1/2) [1] Cao, Zhe, et al. "OpenPose: realtime multi- person 2D pose estimation using Part Affinity Fields." IEEE transactions on pattern analysis and machine intelligence 43.1 (2019): 172-186 図も本論文から引用.
  • 24. 24  各キーポイントのマッチングでは、 Part Affinity Fieldsのベクトル値を各関節の 組み合わせ方向に線積分し、値が大きかったペアを正しい組み合わせと予測。  Part Affinity Fieldsを予測するネットワークの学習に関する教師データは、キーポイン ト間を結んだ線分との距離などから算出 (詳しくは論文を参照)。  最終的には組み合わせ最適化問題に帰着する。  効率的に解くための工夫、人間として不自然なペアにならないように(二人の人が合体 するなど)にするための工夫もなされている (詳しくは論文を参照)。 OpenPose (2/2) [1] Cao, Zhe, et al. "OpenPose: realtime multi- person 2D pose estimation using Part Affinity Fields." IEEE transactions on pattern analysis and machine intelligence 43.1 (2019): 172-186 より図を引用.
  • 25. 25 ・Average Precision (AP) どの程度の割合の関節を正確に検出できているかを示す指標。 まず、各人物に対して以下で定義されるOKSという指標を計算する。 2D multi-person HPEの評価方法 𝑑𝑖: 正解座標と予測座標の差 s: 人の大きさ 𝑘𝑖: 各関節点の検出の難しさを考慮する定数 𝑣𝑖: 関節が画像に写りこんでいるか否か この値が一定の閾値を超えた人物の割合がAverage Precisionである。 また、閾値を0.5から0.95まで0.05ずつ変化させたAPを計算し、その平均を用 いて評価するmean Average Precision (mAP) も用いられる。 OKSは0から1の間の値を取り、すべての関節が完全に一致すると1となる。
  • 26. 26  左表に示す様に、モデルの学習に使え る様々な2D HPEデータセットがオープ ンに公開されている。  近年ではMulti-person手法の研究が主 流となっており、Multi-personに対応 したMPII, COCOが広く用いられている。  データセット毎に、用意されている評 価指標が決まっている。  動画をベースとしたデータセットも存 在している。 2D HPEのデータセット [4] Dang, Qi, et al. “Deep learning based 2d human pose estimation: A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より表を引用
  • 27. 27 3D Human Pose Estimation
  • 28.  3D HPEはキーポイントの実空間における三次元座標を推定するタスク。  3D HPEは奥行きを推定する必要があるので、2D HPEと比較して難易度の高い タスクである。  3D HPEもSingle-personとMulti-person手法があり、本資料ではSingle-person をメインで扱う。  Single-personでは体の中心点 (root) に対する各キーポイントの相対三次元座標 を推定し、Multi-personではそれに加え各人同士の位置関係も推定する。 28 3D HPE
  • 29. 29 3D single-person HPEの手法は “Direct Estimation手法” と “2D to 3D Lifting手法” に大きく分けられる。 3D single-person HPE (1/2) [4] Dang, Qi, et al. “Deep learning based 2d human pose estimation: A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より図を引用 ・Direct Estimation 入力画像から直接3次元座標を推定する手法。 2D手法と同じようにRegressionとBody Part Detection手法の両方が存在する。
  • 30. 30 3D single-person HPE (2/2) ・2D to 3D Lifting 最初に既存の2D HPE手法を用いて2次元座標を推定する。 その後別のネットワークを用いて2次元座標を入力として3次元座標を推定する。 近年ではこちらの手法の方がより高い精度を実現でき、主流となっている。  3Dと比較して2Dの教師データは手に入りやすく (後述)、これを用いて2D HPE精度を高 めることで3D HPEの精度も高くなるという点で有利。 [4] Dang, Qi, et al. “Deep learning based 2d human pose estimation: A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より図を引用
  • 31. 31  2014年に提案された3D HPEの初期の研究で、Direct EstimationをRegression  ベースで行う手法を提案している。  各キーポイントを直接推定するRegression networkに加え、サブタスクとして 入力画像の10×10に分割された各区画に関節が存在するか否かの分類タスクを 解くDetection networkを学習。  Regressionベースの手法だが、空間におけるキーポイントの存在予測はヒートマップを用い た手法に近い考え方で、精度の向上やOcculutionへの対応力に貢献。 3D Human Pose Estimation from Monocular Images with Deep Convolutional Neural Network [9] [9] Li, Sijin, and Antoni B. Chan. "3d human pose estimation from monocular images with deep convolutional neural network." Asian Conference on Computer Vision. Springer, Cham, 2014. 図も本論文から引用.
  • 32. 32  Direct EstimationをBody Part Detection ベースで行う手法を提案。  左図上の様に、入力画像に対する3次元 ヒートマップを出力する。  ヒートマップの奥行き方向の次元は、チャ ネル数を増やすことで表現。  CNNの構造は前述のHourglassを採用。  右図下の様に、奥行き方向の解像度を最初 のHourglassでは粗くし、徐々に解像度を 高めていく方式によりパラメータ数を削減。  特徴マップの数を徐々に増やすことに対応。 Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose [10] [10] Pavlakos, Georgios, et al. "Coarse-to-fine volumetric prediction for single-image 3D human pose." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. 図も本論文から引用.
  • 33. 33  2D to 3D Liftingを用いた最初の3D HPEの研究。  既存の2D HPEによる出力を、3D座標を推定するネットワークに入力  ネットワークは下図の様なシンプルな構造。  3D HPEを、2D HPEタスクと奥行き推定タスクに分割して解くという発想。  3Dと比較して2Dは豊富なデータが手に入るので2D HPEの精度を上げるこ とが出来、2D HPEの精度が高いほど3D HPEの精度も上がることを示した。  仮に2D HPEの結果としてGround Truthを与えると、非常に精度は高くなる。 A simple yet effective baseline for 3d human pose estimation[11] [11] Martinez, Julieta, et al. "A simple yet effective baseline for 3d human pose estimation." Proceedings of the IEEE International Conference on Computer Vision. 2017. 図も本論文から引用.
  • 34. 34  2D to 3D Lifting手法の一つ。  まずは既存の2D HPE手法で2D Poseを推定  事前に作成してある3D Poseライブラリを用 い、各3D Poseを2Dへ射影した際に最も2D HPEの推定結果にマッチングするものを選択。  選択された3D Poseと2D HPE結果を基に最終 的な3D座標を出力。  ライブラリは約20万もの3D Poseを含んでい るが、マッチングは39fpsでの動作が可能。 3D Human Pose Estimation = 2D Pose Estimation + Matching [12] [12] Chen, Ching-Hang, and Deva Ramanan. "3d human pose estimation= 2d pose estimation+ matching." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017. 図も本論文から引用.
  • 35. 35 3D single-person HPE の評価方法 ・Mean Per Joint Position Error (MPJPE) 推定されたキーポイントと正解座標の距離の、全てのキーポイントに対する平均値。 誤差の大きさに関する評価なので、値が小さい方が精度が高い。 3D HPEの評価指標として最も広く用いられている。 ・Percentage of Correct 3D Keypoinrs (3DPCK) 2DにおけるPercentage of Correct Keypoints (PCK)と同じように、推定されたキーポイ ント座標と正解座標との差が、閾値以下である割合による評価である。 ただし、距離の測り方はPCKが体のパーツの画像上の長さであるのに対し、3DPCKは実 世界の距離であり、一般的に150mmで設定されることが多い。
  • 36. 36  公開されている3D HPEデータセットを以下に示す。  正解データが実空間座標である為、取得する為にはモーションキャプチャ (MoCap) 等の高価な機器が必要で、データセット作成コストが高い。  広く用いられているデータセットであるHuman3.6Mの場合、フレーム数は動画ベースで 3.6Mと多いが、被験者の数が11人と非常に少ない。  データ取得機器の問題で、環境が室内に限定されたり、Multi-personのデータ取得が難しい 等の制約がついてしまうことも多い。  2D to 3D Lifting手法では2D HPEの部分に大規模2D HPEデータを使えるので有利。 3D HPEのデータセット [4] Dang, Qi, et al. “Deep learning based 2d human pose estimation: A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より図を引用
  • 37. 37 Single-personタスクでは、root (一般に体の中心を示す) に対する各キーポイン トの三次元座標を推定すれば十分であるのに対し、Multi-personタスクでは人同 士の実座標上での位置関係も推定する必要がある。 3D multi-person HPE (1/2) (本資料では概要のみ説明) ・Top-Down 2Dの場合と同様に人を物体検出した後、3D single-person HPEを用いてrootに対 する各キーポイントの三次元座標推定を行う。 最後に各人のrootを実空間座標に埋め込み相対位置を推定。 [4] Dang, Qi, et al. "Deep learning based 2d human pose estimation: A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より図を引用
  • 38. 38 3D multi-person HPE (2/2) (本資料では概要のみ説明) ・Bottom-Up Bottom-Up手法では各人ごとに3D HPEを行うことは出来ない。 その代わり、全てのキーポイントのヒートマップに加え、各人のrootのdepth、各キー ポイントのrootに対するdepthを推定し、これらを基に各キーポイントの三次元座標の 推定、及び人ごとのキーポイントのグルーピングを行う。 [4] Dang, Qi, et al. "Deep learning based 2d human pose estimation: A survey“ Tsinghua Science and Technology 24.6 (2019): 663-676. より図を引用
  • 39. 39 3D HPEは2D HPEと比較し、以下の観点から難易度の高いタスクであるため、 精度を上げるために以下の工夫を用いることが可能である。  三次元座標推定を、より低次元の2D画像から行う為情報が不足している。  深度センサーを用いる。  複数のカメラから撮影した動画を用いる。  三次元座標の教師データを作るコストが高く、データ量・多様性が足りない。  Semi-supervised Learningにより、教師データの無い、もしくは2D HPE用の教師 データしか持たない画像を活用する。 3D HPEの難しさ
  • 40. 40  位置・向きの分かっている複数のカメラを用いた3D single-person HPE。  各カメラによる画像に対し2D HPE手法でヒートマップを出力し、各カメラの場 所・向きを考慮して幾何学的に3次元空間でのヒートマップを作成し重ね合わせる。  人間は二つの目で深度を推定できるのと同じ要領。  カメラを多くすることで精度の向上が可能。 Learnable Triangulation of Human Pose [13] [13] Iskakov, Karim, et al. “Learnable triangulation of human pose.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019. 図も本論文より引用
  • 41.  まず教師なしデータに対し2D to 3D Lifting の3D姿勢推定を行う。  3Dの結果を2Dに射影し、2D to 3D Lifting の途中で得られた2D座標との差分をLoss関 数として学習 (2D MPJPE loss)。  教師ありデータにおける各パーツの長さを の平均と、教師なしデータの出力結果にお ける長さの差分もLoss関数に追加 (Bone length L2 loss)。  本研究は時系列を考慮した動画向けの3D single-person HPEという側面も持っている。 41 3D human pose estimation in video with temporal convolutions and semi-supervised training [2] [2] Pavllo, Dario, et al. "3d human pose estimation in video with temporal convolutions and semi-supervised training." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. 図も本論文より引用
  • 42.  2D及び3D HPEデータセットの詳細・作成方法  [14] Andriluka, Mykhaylo, et al. “2d human pose estimation: New benchmark and state of the art analysis.” Proceedings of the IEEE Conference on computer Vision and Pattern Recognition. 2014. (2D HPE データ)  [15] Ionescu, Catalin, et al. “Human3. 6m: Large scale datasets and predictive methods for 3d human sensing in natural environments.” IEEE transactions on pattern analysis and machine intelligence 36.7 (2013): 1325-1339. (3D HPEデータ)  Occlusion と呼ばれる、キーポイントが隠れている場合に関する対処  [16] Iqbal, Umar, and Juergen Gall. "Multi-person pose estimation with local joint-to-person associations." European conference on computer vision. Springer, Cham, 2016.  [17] Fang, Hao-Shu, et al. "Rmpe: Regional multi-person pose estimation." Proceedings of the IEEE international conference on computer vision. 2017.  人間のテクスチャレベルの推定等、キーポイント以外を出力するHPE  [18] Li, Yining, Chen Huang, and Chen Change Loy. "Dense intrinsic appearance flow for human pose transfer." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.  [19] Güler, Rıza Alp, Natalia Neverova, and Iasonas Kokkinos. "Densepose: Dense human pose estimation in the wild." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. 42 本資料で説明しなかったトピック
  • 43. 43  動画ベースのHPE ・時系列を考慮することで精度を上げる工夫  [2] Pavllo, Dario, et al. "3d human pose estimation in video with temporal convolutions and semi-supervised training." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. ・Pose Trackingという、姿勢推定+Trackingが必要になるタスク  [20] Iqbal, Umar, Anton Milan, and Juergen Gall. "Posetrack: Joint multi-person pose estimation and tracking." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.  [21] Ning, Guanghan, Jian Pei, and Heng Huang. "Lighttrack: A generic framework for online top-down human pose tracking." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020.  人間の手や動物等、人間の体以外に対するHPE  [22] Zimmermann, Christian, and Thomas Brox. “Learning to estimate 3d hand pose from single rgb images.” Proceedings of the IEEE international conference on computer vision. 2017. (手の姿勢推定)  [23] Li, Chen, and Gim Hee Lee. “From Synthetic to Real: Unsupervised Domain Adaptation for Animal Pose Estimation.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021. (動物の姿勢推定) 本資料で説明しなかったトピック
  • 44. 44  Human Pose Estimation (HPE) は画像中の人物の関節点等のキーポイント の座標を推定するタスクであり、幅広い応用用途を持つ。  画像中の座標を求める2D HPEと、実空間上での座標を求める3D HPEに タスクを分けることが出来、それぞれに対する手法が提案されている。  更に画像中の人物が一人であると仮定したSingle-personと、画像中の人物 全ての姿勢を推定するMulti-personタスクに分けることもできる。  3D HPEは2Dと比較して情報、データ量の観点から難しいので、半教師あり 学習や複数カメラを用いる等、タスクそのものに対する工夫もみられる。 まとめ