DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation

DLゼミ (論文紹介)
Ego-Body Pose Estimation
via Ego-Head Pose Estimation
北海道大学大学院情報科学研究院
情報理工学部門複合情報工学分野調和系工学研究室
博士後期課程2年森雄斗
2023/05/01

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
論文情報 2
タイトル
Ego-Body Pose Estimation via Ego-Head Pose
Estimation
著者
Jiaman Li, C. Karen Liu, Jiajun Wu
Stanford University
発表
CVPR2023 (受賞候補: 0.51% of accepted papers)
URL
プロジェクトページ
https://lijiaman.github.io/projects/egoego/
論文 (arXiv)
https://arxiv.org/abs/2212.04636
デモ動画
https://www.youtube.com/watch?v=Dg66DY2sGus

概要 3
一人称視点映像 (egocentric video)を用いた
人間の3Dモーション生成手法 EgoEgo の提案
中間表現として自身の頭部情報 (Ego-head)を使用
大規模で汎用的なSynthetic Datasetの自動生成
従来データセットと新規データセットで現在のSoTAより優れた性能

目次 4
3D human motion 分野の背景
関連研究
提案手法
(1) 一人称映像 → head pose
(2) head pose → 3d human motion
Synthetic データセット
実験

分野: 3D human motionの推論 5
一人称視点映像から3次元の人間の動きを推定
人間の行動理解に重要な役割
VR/ARにおいて応用が可能
Ground truthが一意に定まらない場合がある
https://lijiaman.github.io/projects/egoego/
一人称映像
(Egocentric video)
3次元の人間の動き
(3D human motion)

タスクの難しさ 6
一人称カメラに自分の動きは映らない
学習に必要なデータセットが大規模
連動した一人称視点と3D human posesが必要
大規模のデータセットは存在しない
小規模かつlab-likeなデータセット[1]はすでにある
[1] Zheng, Yang, et al. "Gimo: Gaze-informed human motion prediction in context." Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022,
Proceedings, Part XIII. Cham: Springer Nature Switzerland, 2022.
GIMOの3Dシーン
EgoEgo on GIMO

提案手法のキー 7
Head Poseを使った問題の分離
それぞれの既存データセットが使える
(1) 一人称映像 → Head pose (2) Head pose →3D human motion

目次 8
関連研究
提案手法
実験

関連研究: 一人称映像以外を使った例 9
センサーを使ったmotion推定
TransPose[1]: IMUとtransformerモデルの活用
3次元映像を使ったmotion推定
Self-supervised Learning of Motion Capture[2]
[1] Yi, Xinyu, Yuxiao Zhou, and Feng Xu. "Transpose: Real-time 3d human translation and pose estimation with six inertial sensors." ACM Transactions on Graphics (TOG)
40.4 (2021): 1-13.
[2] Tung, Hsiao-Yu, et al. "Self-supervised learning of motion capture." Advances in Neural Information Processing Systems 30 (2017).

関連研究: Kinpoly[1] 10
一人称映像を用いたmotion推定手法
運動学と動力学を統合し、妥当なモーションを推定
ただし、汎用的なシーンを扱うことができない
[1] Luo, Zhengyi, et al. "Dynamics-regulated kinematic policy for egocentric pose estimation." Advances in Neural Information
Processing Systems 34 (2021): 25019-25032.

提案手法 11

目次 12
関連研究
提案手法
実験

(1) 一人称映像 → Head pose の課題 13
解くべきタスクはロボットや自動運転における
Localization problemを同じ
正面映像を用いた自身の位置決め
しかし、通常の単眼SLAM法[1]では適用不可能
重力方向が未知
推定結果と現実空間のスケールが不一致
回転運動に対する精度低下
[1] Teed, Zachary, and Jia Deng. "Droid-slam: Deep visual slam for monocular, stereo, and rgb-d cameras." Advances in neural
information processing systems 34 (2021): 16558-16569.
撮影場所の推定結果

(1) 一人称映像 → Head pose の解決策 14
Gravity Net
既存手法の単眼SLAMの結果を用いた重力方向
推定モデル
Head Net
オプティカルフロー特徴を用いた頭部の回転と
並進距離を推定するモデル

Gravity Net 15
連続したhead poses ℎ1, ℎ1, … , ℎ𝑇 から重力方向 𝑔 ∈ ℝ3
を予測
ℎ𝑡 は6次元の回転行列
𝑡 stepの回転行列𝑂𝑡としたとき、𝑂𝑡−1
−1
𝑂𝑡で計算可能
学習は大規模モーションキャプチャデータセット
AMASS[1]を使用
正確な重心方向𝑔𝑐 = 0, 0, −1 𝑇を持つ
ランダムスケールとランダム回転で異なる分布を獲得
予測値𝑔と𝑔𝑐を一致させるための回転行列𝑅𝑔を
transformer-base[2]のモデルで学習
𝑇: シーケンスの合計数
t: 特定のシーケンス
[1] Naureen Mahmood, Nima Ghorbani, Nikolaus F Troje, Gerard Pons-Moll, and Michael J Black. AMASS: Archive of motion capture as
surface shapes. In ICCV, 2019. 3, 5
[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention
is all you need. In NeurIPS, 2017. 3

Head Net 16
オプティカルフロー特徴量𝑜1, … , 𝑜𝑇 から
距離𝑑1, … , 𝑑𝑇 と頭部回転 𝑹1, … , 𝑹𝑇 を予測
𝑜𝑡 は事前学習したResNet-18で抽出
モデルアーキテクチャはGravity Netと同じ
損失関数 ℒ = ℒ𝑑𝑖𝑠𝑡 + ℒ𝑣𝑒𝑙 + ℒ𝑟𝑜𝑡
ℒ𝑑𝑖𝑠𝑡: 並進距離のL1 loss
ℒ𝑣𝑒𝑙: 角速度のL1 loss
ℒ𝑟𝑜𝑡: 回転損失 (ℒ𝑟𝑜𝑡 = 𝑹𝑝𝑟𝑒𝑑𝑹𝑔𝑡
𝑇
− 𝑰
1
)

補足: オプティカルフロー 17
画像の各画素がその方向にどれだけ動いたの
かを求めた値
出典: ドローンマニアックス, https://toy-drone.com/dorone-opticalflow,
ThoghChildren, http://www.thothchildren.com/chapter/5bcc61fb51d9305189030d50, Accessed 2023/4/29
概要図車のオプティカルフロー

提案手法 18

目次 19
関連研究
提案手法
実験

(2) head pose → 3D human motion 20
異なる全身動作が同じ頭部姿勢をとる可能性
あり
一対一対応ではない
条件付き生成モデルを使用
拡散モデルを導入

3D body poseの定義 21
body pose 𝑋𝑡 ∈ ℝ𝐷
は以下を含む
グローバル座標の関節位置: ℝ𝑗×3
グローバル座標の関節回転: ℝ𝑗×6
スケルトンはSMPLモデル[1]を採用
関節数 𝑗 は22個
[1] Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, and Michael J. Black. SMPL: A skinned
multiperson linear model. ACM Transactions on Graphics (TOG), 34(6):1–16, 2015.

拡散モデル - 順拡散過程 22
Forward diffusion process
元データ 𝑥0 にガウシアンノイズを徐々に追加
マルコフ連鎖で定義可能
𝛽𝑛: 時刻𝑛のノイズの強さ
𝑥𝑛 の分布は𝑥𝑛−1に依存 (マルコフ性)
正規分布に従ってノイズを付与
平均分散
{𝑥𝑖}𝑡=1
𝑇

拡散モデル - 逆拡散過程 23
Reverse diffusion process
拡散プロセスを逆転させて
head-poseを条件とした3D human motionを生成
学習された平均と分散を持つマルコフ連鎖として
近似可能
𝜃: ニューラルネットワークのパラメータ
𝑐: head-poseの条件
𝜇𝜃: 学習した平均
𝛼𝑛, 𝛼𝑛: 固定パラメータ
𝑥𝜃(𝑥𝑛, 𝑛, 𝑐): 𝑥0の予測値
分散は単純化
損失関数 (復元度合い)

拡散モデル - 逆拡散過程 24
Reverse diffusion process
拡散プロセスを逆転させて
head-poseを条件とした3D human motionを生成
学習された平均と分散を持つマルコフ連鎖として
近似可能
𝑐: head-poseの条件
ノイズ除去ネットワークのアーキテクチャ

目次 25
関連研究
提案手法
実験

Synthetic Data Generation 26
一人称映像と3D human motionが対になった大規模デー
タセットの自動生成
大規模モーションキャプチャデータセットAMASS[1]と
3DシーンデータセットReplica[2]を使用
足が床に接触しているランダムな場所に配置
次のシーケンスの各姿勢について、Wangら[3]の透過損失を計算
※ 物体への貫通
生成されたデータセット AMASS-Replica-Ego-Syn (ARES)
[1] Naureen Mahmood, Nima Ghorbani, Nikolaus F Troje, Gerard Pons-Moll, and Michael J Black. AMASS: Archive of motion capture as surface shapes. In ICCV, 2019.
[2] Julian Straub, Thomas Whelan, Lingni Ma, Yufan Chen, Erik Wijmans, Simon Green, Jakob J Engel, Raul Mur-Artal, Carl Ren, Shobhit Verma, et al. The Replica dataset: A digital
replica of indoor spaces. arXiv preprint arXiv:1906.05797, 2019
[3] Jiashun Wang, Huazhe Xu, Jingwei Xu, Sifei Liu, and Xiaolong Wang. Synthesizing long-term 3D human motion and interaction in 3D scenes. In CVPR, 2021

目次 27
関連研究
提案手法
実験

実験 - データセット 28
AMASS-Replica-Ego-Syn (ARES)
一人称映像と3D human motionの対のデータセット
18シーンで約15時間
AMASS
モーションキャプチャのデータセット
約45時間
Kinploy-MoCap
約80分
研究室シーンのみ
Kinploy-RealWorld
iPhone ARKitで撮影
182シーケンス, 50k frames
GIMO
Hololens, iPhone 12, IMUベースのmocapスーツ
計19シーン

実験 - 評価指標 29
Head Orientation Error (𝑂ℎ𝑒𝑎𝑑)
回転行列 R𝑝𝑟𝑒𝑑𝑅𝑔𝑡
−1
− 𝐼
2
の差のフロベニウスノルム
Head Translation Error (𝑇ℎ𝑒𝑎𝑑)
2つの軌跡の平均ユークリッド距離 (mm)
MPJPE
関節ごとの平均位置誤差 (mm)
Accel
予測された関節位置とground truthの関節位置の
加速度の差 (𝑚𝑚 𝑠2)
FS
足の滑りの指標 (NeMF[1]を参照)
[1] Chengan He, Jun Saito, James Zachary, Holly Rushmeier, and Yi Zhou. NeMF: Neural motion fields for kinematic animation. In NeurIPS, 2022.

実験 - ベースライン 30
PoseReg[1]
オプティカルフロー特徴のシーケンスを入力
LSTMモデルで各ステップのposeを推定
Kinpoly-OF[2]
オプティカルフローの特徴から全身運動を推定
ステップごとの回帰モデルを提案
[1] Ye Yuan and Kris Kitani. Ego-pose estimation and forecasting as real-time PD control. In ICCV, 2019
[2] Zhengyi Luo, Ryo Hachiuma, Ye Yuan, and Kris Kitani. Dynamics-regulated kinematic policy for egocentric pose estimation. In NeurIPS, 2021.

実験 - 結果 (一人称映像 → 3D human motion) 31
すべての評価指標でベースライン手法より優れた結果

実験 - 結果 (一人称映像 → Head pose) 32
頭部回転予測
ARESで良い結果
リアルキャプチャデータでは同等の結果
データが少ないため今後は改善される
頭部軌跡
重力の整列がよく作用

実験 - 結果 (head pose → 3D human motion) 33
ベースライン
AvatarPoser: 手のpose情報を取り除いて比較
Kinploy-Head: そのまま
拡散モデルで高精度を記録

Ablation Studies – 頭部姿勢推定の各要素 34
重力方向を揃えるための回転と
学習したスケールは有効

Ablation Studies – 人間の知覚評価 35
どちらの結果が「より確からしいか」
Amazon Mechanical Turk 20人の評価
ベースライン手法より優れた評価
一人称映像 → 3D human motion Head-pose → 3D human motion

まとめ 36
一人称視点映像 (egocentric video)を用いた
人間の3Dモーション生成手法 EgoEgo の提案
中間表現として自身の頭部情報 (Ego-head)を使用
大規模で汎用的なSynthetic Datasetの自動生成
従来データセットと新規データセットで現在のSoTAより優れた性能

DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation

Similar to DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (8)

DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation

Editor's Notes