[DL輪読会]Whole-Body Human Pose Estimation in the Wild

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Whole-Body Human Pose Estimation in theWild
Shizuma Kubo, ACES.Inc

書誌情報
• 書誌情報
 Whole-Body Human Pose Estimation in the Wild
 著者: Sheng Jin, Lumin Xu, Jin Xu, Can Wang, Wentao Liu, Chen Qian, Wanli Ouyang, Ping Luo
 所属: The University of Hong Kong / SenseTime Research 中心
 ECCV’20 Poster (2020/07/23 on arXiv)
 データセット: https://github.com/jin-s13/COCO-WholeBody
2

概要
3
 顔、手、身体、足の2次元特徴点のアノテーショ
ンをCOCOデータセットに施したCOCO-
WholeBodyを作成 (全て含まれるのは初)
 VR、AR、行動認識へのアプリケーション応用を
想定
データセットの作成
 これらの2次元特徴点推定をend-to-endで学習さ
れるネットワークで一度に行うZoomNetを提案
 このように全身のキーポイントを推定するタスク
をWhole-body Pose Estimationと呼ぶ
 Whole-body Pose Estimationで既存手法に対し
て、大きく精度向上
モデルの提案

目次
4
1. 既存手法
 既存の2次元特徴点推定とWhole-Body Pose Estimation
 2次元姿勢推定の整理
2. 提案手法
 COCO-WholeBody Dataset
 ZoomNet
3. 評価
4. まとめ

目次
5
1. 既存手法
2. 提案手法
 ZoomNet
3. 評価
4. まとめ

既存の2次元特徴点データセット
6
• Body Pose Estimation: COCO (17点の身体キーポイント)、Body25 (足のアノテーション付)
• Hand Keypoint: Panoptic (Lab環境での撮影)、Hand10K (in the wildだが、数が少ない)
• Face Keypoint: 300W (複数のデータセットの組み合わせ、68点キーポイント)
• DensePose: 3D表現に対応するアノテーション。関節点の情報が不足していたり、顔や手の
キーポイントが少ない。今回のアノテーションには含まれない
Body Hand
Foot
Face DensePose
画像引用: https://github.com/facebookresearch/DensePose

既存の2次元特徴点データセットの課題
7
Body Hand
Foot
Face
1. In-the-wildな環境のHand Poseのデータセットがそもそも少ない
2. 光の当たり具合、姿勢、スケールの分散が各データセットごとに異なるため、全てを一緒
に学習することが難しい
課題
COCO-WholeBody Datasetはこ
の問題を解決するために、COCOに
face、hand、footのアノテーショ
ンを追加した (All-in-One)

既存のWhole-Body Pose Estimation
8
• OpenPose [Cao CVPR’17, Simon CVPR’17]: 身体と足のキーポイントの検知と手と顔の位
置をまず検出。その後、顔と手の推定を追加のネットワークで行う。複数のネットワークに依
存するため、学習が面倒、実行速度・計算量が増加してしまう
• SN [Hidalgo CVPR’19]: 基本構造はOpenPoseと同じだが、全身のキーポイントを一気に出力
し、グルーピング。全身のデータセットはなかったため学習時のサンプリングを工夫
問題点
1. スケールの分散をうまく扱えていないことを指摘 (つまり、手と顔のサイズが身体に対して
小さいため、同一に扱うと学習がうまくいかない)
2. 特に、Bottom-Upアプローチであることに起因することを指摘 (提案手法はTop-Down)

目次
9
1. 既存手法
2. 提案手法
 ZoomNet
3. 評価
4. まとめ

2次元姿勢推定のパラダイム
10
1. まず、画像中のキーポイントを全て検出する
2. そのキーポイントを人物ごとにグルーピング
する
 人物に関係なくキーポイントの推論を行うた
め、人物が増えても推論速度があまり変わら
ない
Bottom-Upアプローチ
1. まず、人物のbounding boxを検出する
2. そのbounding boxをboxごとにリサイズ、ク
ロップして、キーポイントの検出を行う
 人物のサイズを揃えることができるので精度
が高く出しやすい (SOTA論文はこのアプロー
チから出る)
Top-Downアプローチ
キーポイント検出グルーピング物体検出キーポイント検出

Whole-Body Pose Estimation のポイント
11
• Whole-body Pose Estimationには2段階のTop-Down/Bottom-Upの選択がある
1. 人物単位 (姿勢推定一般的な議論点)
2. 身体のパーツ単位 (Whole-body Pose Estimation特有の議論点)
物体検出
(Top-Down 1)
ZOOM-in
(Top-Down 2) キーポイント推論
パーツのキーポイント推論を人物画像に対して1度に行う (Bottom-Up)か、注目パーツごとに
分割して行う機構を取り入れて推論する(Top-Down)かの姿勢推定の際に人物ごとに分割する
かどうか(Top-Down/Bottom-Up)と同様の議論が生じる
ポイント

目次
12
1. 既存手法
2. 提案手法
 ZoomNet
3. 評価
4. まとめ

COCO-WholeBody Dataset
13
• 人物ごとにBounding BoxとKeypointsのアノテーション
• Bounding Box (person box、face box、left-hand box、right-hand box)
• 133 Keypoints (body: 17、feet: 6、face: 68、hands: 42)
Face
Hand
Whole
Statistics of COCO-WholeBody

データセットの比較
14

データセットの詳細情報
15
 手の形をfist、palm、others
の3つのパターンに分類
 一般的なデータセットである
Panopticと比較
 In-the-wildなデータセットで、
何かを掴んでいる手の画像が
多い
Gesture Variance
 図はキーポイント同士の距離
の分布を表す
 Bodyとhand/faceでは分布が
大きく違う (当然の結果では
ある)
 これらのスケールの違うキー
ポイントを推論するところに
タスクの難しさがある
スケールの違い
 画像のblurinessを一般的な
Faceのデータセットである
300Wと比較 (Blurinessは
Laplacian methodによる)
 300Wよりも広く分布してお
り、blurinessが1よりも小さ
いようなチャレンジングなも
のを含まれる
ぼやけ度 (Blurriness)

16
• 最低限Keypointができる程度の見え方のbboxにvalidのラベルを振り、そのbboxに対して
keypointのアノテーションを行った (画質が悪すぎる、オクルージョンが強すぎるものが
invalid)
• アノテーション時間目安 10 min/face、1.5min/hand、10 sec/box (by professional annotator)
1. 人物ごとにface/left-hand/right-handのbboxとvalid/invalidのラベルをアノテーション
2. 複数のアノテーターグループによる厳しい品質チェック
3. Validラベルのbboxにキーポイントのアノテーション HRNetv2ベースの学習済みモデルで
推論した結果を利用し、その結果を修正するようにしてアノテーション
4. 結果的に、handが約28%、faceが約6%だけが修正対象。この節約によって約89%の時間を
節約できたと推察
アノテーションステップ
アノテーションの仕方

目次
17
1. 既存手法
2. 提案手法
 ZoomNet
3. 評価
4. まとめ

ZoomNetの全体像
18
• 既存のFaster-RCNNで人物を検出し、以下のモジュールでその人物のキーポイントを推論する
• FeatureNet: 2つの畳み込み層とbottleneck blockから成る。
 入力サイズ: 384x288 -> F1: 192x144 -> F2: 96x72
• BodyNet: body/footのキーポイント予測とface/handのbbox予測を行う
• HandHead/FaceHead: BodyNetから得られるface/handのbbox中のキーポイントを予測する

BodyNet
19
• CornerNet[Law+ ECCV’18]にインスパイアされた方法 (とはいえ、やり方は違う)
• Bbox(face/left-hand/right-hand)をboxのコーナーの4点と中心点で表す
• このbboxと身体のキーポイント (body/foot)を2次元のヒートマップとして予測する
• 推論時には最も距離が近くなるboxのコーナー4点をbboxとみなす
• 出力は38チャンネル (bbox 5点x3種=15, keypoint 17(body)+6(foot)=23) でbackboneはHRNet-W32

HandHead/FaceHead
20
• BodyNetのbboxの出力を用いて、ROI Alignを行い、F1/F2からface/handに対応する特徴量を取
得する
• この特徴量からface/handそれぞれでキーポイントを推論する
• BackboneはそれぞれHRNet-18を使用

目次
21
1. 既存手法
2. 提案手法
 ZoomNet
3. 評価
4. まとめ

定量評価
22
• Whole-Body Pose Estimationとして提案されているOpenPoseとSNに加えて、Bottom-Up手法の
PAFとAE、Top-Down手法のHRNetを比較手法として追加
• COCO-WholeBodyで全てのモデルを学習させ、single-scaleでテストを実行
• ”-body”がつくものは17点の身体のキーポイントだけを使ったもの (他のキーポイントと一緒に
学習させてしまうと精度が悪化する)

Face/Handのデータセットの評価
24
• 左下図は顔の2次元特徴点抽出の手法比較 (300Wデータセットでの評価)
 *HR-OursはWhole-Body Face (WBF)で学習して300Wでテスト、HR-Oursは300Wで学習して
300Wでテスト、extra付きはWBFで事前学習
 事前学習の効果が出ている
• 右下図は手の2次元特徴点抽出の実験 (Panoptic (Pano.)とWhole-Body Hand (WBH))
 #1と#2の比較から事前学習効果が分かる
 #1と#3の結果からWBHはスケールが小さく、チャレンジング

その他分析結果
25
• Bboxの精度の影響①: Ground Truthのbboxを使った
場合 (Oracle)、精度が大幅に向上
• 人物のスケールの影響②: Bottom-Upの手法は
mediumサイズ(小さいサイズ)に弱く、精度が悪い
• Faceのblurrinessとposeの影響③: blurrinessには影
響を受けやすいが、poseには影響を受けにくい
• Handのposeの影響④: fistが比較的簡単
①
②
③ ④

目次
26
1. 既存手法
2. 提案手法
 ZoomNet
3. 評価
4. まとめ

まとめ
27
• データセットの作成
 Face/hand/footのkeypointアノテーションを加えたCOCO-WholeBodyの作成
 これによって、Whole-body Pose Estimationを同一のデータセットで学習が可能になった
 各パーツごとに見ても、in-the-wildで大規模なデータであり、有用
• モデルの提案
 パーツごとのスケールの分散の問題に取り組んだZoomNetを提案
 既存の手法・モデルに対して高い精度を達成
• 気になったこと
 既存手法として比較されるOpenPose、SNに精度で勝ることは納得感はあるが、HRNetはもう
少し真面目にチューニングすれば論文で言及しているよりは精度出そう

[DL輪読会]Whole-Body Human Pose Estimation in the Wild

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a [DL輪読会]Whole-Body Human Pose Estimation in the Wild

Similar a [DL輪読会]Whole-Body Human Pose Estimation in the Wild (14)

Más de Deep Learning JP

Más de Deep Learning JP (20)

[DL輪読会]Whole-Body Human Pose Estimation in the Wild