[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
VoxelPose:Towards Multi-Camera 3D Human Pose Estimation
inWild Environment
Shizuma Kubo, ACES.Inc

書誌情報
• 書誌情報
 VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment
 著者: Hanyue Tu, Chunyu Wang, Wenjun Zeng
 所属: Microsoft Research Asia (1st authorは大学の所属もあり)
 ECCV’20 Oral (v1: 2020/04/13, v4: 2020/08/24 on arXiv)
 実装コード: https://github.com/microsoft/voxelpose-pytorch
 選択のモチベーション: Multi-Person Multi-Cameraの3D姿勢推定のタスクに興味があった
2

概要
3
• 複数カメラを使った複数人の3次元姿勢推定の手法であるVoxelPoseを提案した
• 既存手法は2次元の姿勢推定の結果（keypoint情報）を使うのに対し、提案手法ではheatmap
を3次元表現に落とし込み、頑健な推論を可能とした
• これによって、以下の課題に対応された (論文の表現を使うと“elegantly”に対応)
 どの関節点が同一人物のものか
 異なるカメラ視点でどの姿勢が同一人物か
• 複数人の3次元姿勢推定はSOTA、1人の3次元姿勢推定でもSOTAと同等

目次
4
1. 既存手法
2. 提案手法
3. 評価・結果
4. まとめ

目次
5
1. 既存手法
2. 提案手法
3. 評価・結果
4. まとめ

既存の3D姿勢推定
6Analytical: 幾何的に解決する手法、Predictive: ネットワークで解決する手法
Single Camera
Multi Camera
Analytical
Predictive
Analytical
Predictive
Single
Camera
Multi
Camera
Multi
Person
Single
Person
射影したときに2D keypointにあうように3D keypointを最適化
2D keypointから3D keypointを回帰 (Deep的手法中心)
複数視点の2D keypointを幾何的手法(三角測量)で3D keypointを再現
複数の2D keypointを3D特徴表現に落として回帰 (幾何的要素も含むことあり)
Single Personに帰着 (Top-down) / Multi-Cameraの特殊ケース
Pictorical modelやRe-identificationを使い、カメラ間の人物の紐付け

Single Camera
Multi Camera
Analytical
Predictive
Analytical
Predictive
Single
Camera
Multi
Camera
Multi
Person
Single
Person
• 以下の2つの項目が特に関連項目
 Single-Person Multi-Camera
 Multi-Person Multi-Camera
• Single-Person Multi-Cameraのタスクは比較的論文あり
 提案手法の発想が影響を強く受けているようにみえる
 精度の高いモデルはPredictive要素を含む (こちらが現状の主流な雰囲気)
• Multi-Person Multi-Cameraの研究はあまり盛んでない
 比較のために出てくるという感じ
 提案手法はむしろ、Single-Person Multi-Cameraの考え方を応用させたと捉え
るほうが自然

Single Camera
Multi Camera
Analytical
Predictive
Analytical
Predictive
Single
Camera
Multi
Camera
Multi
Person
Single
Person
 Learnable Triagular of Human Pose [Iskakov+ ICCV’19 (oral)]
 ① triangulationを活用する手法と② 3D特徴を使う手法の2つを提案
 ②のほうが精度が良くメインの手法 (SOTA/今回の提案手法に近い)
 Cross View Fusion for 3D Human Pose Estimation [Qiu+ ICCV’19]
 2D姿勢の結果とtriangulationを活用する手法 ([Iskakov+]①に近い)
 Epipolar Transformers [He+ CVPR’20]
 エピポーラ幾何を利用したモジュールの提案
 上記2つの手法 ([Qiu+]と[Iskakov+]①)の精度向上
[Iskakov+ ICCV’19]① [Iskakov+ ICCV’19]②

Single Camera
Multi Camera
Analytical
Predictive
Analytical
Predictive
Single
Camera
Multi
Camera
Multi
Person
Single
Person
 Fast and Robust Multi-Person 3D Pose Estimation from Multiple Views [Dong+
CVPR’19]
 2Dの姿勢推定をカメラごとに独立で行い、同じ人物でグルーピング
を行い、Single-Personの3D姿勢推定の処理を行う
 2D姿勢推定の結果を前提にするため、精度が落ちる
 (この論文に[Iskakov+ ICCV’19]の要素を足す感じが今回紹介する
VoxelPoseのイメージ)

目次
10
1. 既存手法
2. 提案手法
3. 評価・結果
4. まとめ

提案手法 VoxelPose の全体像
11
• 提案手法は3つのモジュールから構成される
 (a) 2D Pose Estimation : 2次元の姿勢推定モデルで単視点からの2D poseのヒートマップを出力
 (b) Cuboid Proposal Network (CPN) : 人の存在候補領域を推定
 (c) Pose Regression Network (PRN) : CPNの各候補領域ごとに3D poseを推定

(a) 2D Pose Estimation
12
• まず、各視点のカメラ画像を独立に2D Pose Estimationを行う
• 2D Pose EstimationのモデルはHRNet (2DのSOTAモデル)を利用
• データが少ない場合、過学習回避のため学習済みのモデルを使用
 実験ではCOCOの学習済みモデルを使用
 キーポイントまでは計算しない
 ヒートマップの状態で、CPN及び
PRNで使用されるのがポイント

(b) Cuboid Proposal Network (CPN)
13
• 各視点の2D ヒートマップから人の存在領域を推定する
 Feature Volume: 2Dヒートマップを3次元の特徴量に落とし込む (多分、[Islakov+ ICCV’19]と同様)
 Cuboid Proposals: 3D convのネットワークを使って、人物の3D存在位置を推定 (ヒートマップ)
引用: [Iskakov+ ICCV’19]

(b) Cuboid Proposal Network (CPN)
14
• Feature Volumeは以下のように、今回のデータセットでは、8m x 8m x 2m程度になる
 80 x 80 x 20の特徴量なので、1つのbinが大体100mmになる (人物の位置を特定だけなので粗い)
 人がどこにいるかの候補領域を推定する (図のproposals (2m x 2m x 2m)にあたる領域を推定)
8m
8m
2m

(c) Pose Regression Network (PRN)
15
• CPNで推定した候補領域ごとに3D姿勢を推定する
• CPNの3D特徴量の立方体より、小さなグリッドを使うことで、精緻な推定を行う
• CPNの処理はあくまで、候補領域を出すための処理であることに注意
 Proposalsのサイズは実スケー
ルの 2m x 2m x 2mのサイズ
 PRNのFeatureは64 x 64 x 64
なので、1つのbinが、2000 /
64 = 31.25mm になる
 ネットワークはCPNと入出力
サイズ以外同じ
 Keypointごとに重みは共有されており、proposal
個数分の推論がされる (実装見ても多分そう)

学習方法
16
• 2D姿勢推定の学習を20エポック(学習率のスケジューリングあり)行い、CPNとPRNを含めて
10エポック学習を回した (データセットによっては2D推定にCOCOで学習済みの重みを使用)
• CPNではGround Truth (GT)をガウシアンを使って、ヒートマップ化しておく
GT
GT
予測値
予測値
引用: [Zhou+ arXiv’19]
CenterNetに似ている

目次
17
1. 既存手法
2. 提案手法
3. 評価・結果
4. まとめ

データセット
18
 [Belagiannis+ CVPR’14]
 屋外で3人の人物を3つのカメラ
で撮影したデータセット
 小さなデータセットで過学習し
ないように、2D姿勢推定は
COCOで学習し、CPNとPRNだ
けこのデータセットで学習
 [Joo+ TPAMI’17]
 様々なカメラ数 (3, 6, 12, 13, 23)
で日常的な行動をする人々を撮
影したデータセット
 このデータセットについては、
2D姿勢推定の学習においてもこ
のデータセットを使用
 [Belagiannis+ CVPR’14]
 棚を分解する4人の人物を5つの
カメラで撮影したデータセット
 「The Campus Dataset」と同様
にCPNとPRNだけこのデータ
セットで学習
 「The Campus Dataset」と同じ
論文で評価として提案された
The CMU Panoptic DatasetThe Campus Dataset The Shelf Dataset

CPNの評価
19

CPNの評価
20
• Feature Volumeのサイズ (80 x 80 x 20の部分)の妥当性
 Binの幅を小さくすれば、精度が高くなっていく ((a)の図参照)
 精度と速度のトレードオフを考えて、80 x 80 x 20がちょうどよかった
• 自動生成したヒートマップの学習利用可能性
 3D姿勢を射影して2D姿勢のヒートマップを生成し、それで学習 ((b)の図参照)
 (a)と(b)の差がない
 -> 画像データがなくても同等の性能が実現できる (汎化性能が高い)
• カメラの数による影響の検証
 複数のカメラを使わずに、1つのカメラだけで検証 ((c)の図参照)
 175mmのthresholdでも95%以上出ている
 1つのカメラだけでも検出可能な実用性がある (c)
(b)
(a)
[補足] この検証にはPanopticデータセットが使用されている
(a)、(b)の実験では5視点のカメラが使用されており、(b)の学習ではカメラ画像は使われていない
(c)の実験では学習/テストともに1視点カメラが使われている

PRNの評価
21

評価指標
22
 [Dong+ CVPR’19]
 正解の関節点ごとに推論された最も近い関節点が
正しいかどうかのaccuracy
 False positive(誤検知)は考慮されない
Percentage of Correct Parts (PCP3D)
 PCP3Dのfalse positiveが考慮されない制限を解
決するためにAverage Precisionを導入
 MPJPEの値がKmm以下かどうかの基準で、
Average Precisionを計算
 物体認識で使われるAverage Precisionと感覚が
違うので注意
 物体認識のAP: Kが大きくなると難しい
 今回のAP: Kが大きくなると簡単
Average Precision (AP)
 推論された関節点と正解の関節点の距離を計算し、
全ての関節点の平均を取る
 単位としてよくmmが使われる
 Single-Personの手法との比較で使用
Mean Per Joint Position Error (MPJPE)

PRNの評価
23
• CPNのbinのサイズの影響
– (a)と(b)の比較。Binの数によって精度は上がるが、計算コスト
も上がるので、80 x 80 x 20がよい
• カメラ(視点)の数の影響
 (b)-(d)の比較。カメラの数を少なくすると、特にAP25
のように厳しい評価値では極端に悪くなる
 ただし、AP150の値はあまり下がらず、1視点3D姿勢
と同様の評価基準の(j)はSOTA (40.1mm) と同等水準
• Heatmapの精度の影響
 (b)と(g)の比較。Ground truthのheatmapを使うと精
度は上がる
• CPNのProposalの影響
 (b)と(h)の比較。あまり変わらない。CPNの精度は十
分で、PRNに改善可能性がある
[補足] この検証にもPanopticデータセットが使用されている

推論結果の例
24
• (a) 左が提案手法を射影した結果で、右がHRNet
の結果。通常難しいocclusionに対応 (複数カメ
ラ使用のためfairな比較ではないことに注意)
• (b) 失敗例。複数のカメラにうまく入れず、姿勢
が崩れる
• (c) カメラ視点が1つでもそこそこうまくいく例
• (d) 5視点の各射影とそれを3D表現で表示した例
(a)
(b)
(c)
(d)

既存手法との比較
25
• 2つのデータセット (Campus、Shelf) でSOTA
(PCP3D)
• ただし、既に高い値値での比較になってしまって
いる
• Panopticは既存手法での値が見当たらなく、比較
ができていないとのこと (future work)
• エラーになっているものの多くは、正解データの
間違いによるものだったとのこと (右図は正解デー
タであるが、アノテーション漏れがある)

26
Multi-Personの3D Pose EstimationでSOTA
引用: https://paperswithcode.com/task/3d-multi-person-pose-estimation

27
Single-Personの3D Pose Estimation (Human3.6m) でもSOTAと同等
19mmなので
この辺り
引用: https://paperswithcode.com/sota/3d-human-pose-estimation-on-human36m

目次
28
1. 既存手法
2. 提案手法
3. 評価・結果
4. まとめ

まとめ
29
• 要約
 複数カメラを使った複数人の3次元姿勢推定の手法であるVoxelPoseを提案した
 CPNとPRNを使って2次元姿勢を経由せずに、直接的に3次元姿勢を推定するため、2D姿勢推定の結
果の悪影響を受けにくい、頑健なモデルとなった
• 所感
 空間 (今回は 8m x 2m x 2mを仮定) の広さによって、どのように変わるのか見てみたい
 既存手法に比べて、汎用的で実用的な手法になっていると感じた。とはいえ、それでも、空間の大
小や複数カメラの扱いなど場面に応じて、変動が大きいため、どこまで汎用的に使うのがよいのか
は難しそう
 あまりSOTAにこだわっていないようで、テクニカルな改善可能な点を多くあるように感じた。利用
シーンにもよるが、現状のTitan X GPUで300msは遅い

[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment

Similar to [DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (10)

[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment