SlideShare a Scribd company logo
1 of 36
DLゼミ (論文紹介)
Ego-Body Pose Estimation
via Ego-Head Pose Estimation
北海道大学大学院 情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
博士後期課程2年 森 雄斗
2023/05/01
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報 2
タイトル
Ego-Body Pose Estimation via Ego-Head Pose
Estimation
著者
Jiaman Li, C. Karen Liu, Jiajun Wu
Stanford University
発表
CVPR2023 (受賞候補: 0.51% of accepted papers)
URL
プロジェクトページ
https://lijiaman.github.io/projects/egoego/
論文 (arXiv)
https://arxiv.org/abs/2212.04636
デモ動画
https://www.youtube.com/watch?v=Dg66DY2sGus
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
概要 3
一人称視点映像 (egocentric video)を用いた
人間の3Dモーション生成手法 EgoEgo の提案
中間表現として自身の頭部情報 (Ego-head)を使用
大規模で汎用的なSynthetic Datasetの自動生成
従来データセットと新規データセットで現在のSoTAより優れた性能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
目次 4
3D human motion 分野の背景
関連研究
提案手法
(1) 一人称映像 → head pose
(2) head pose → 3d human motion
Synthetic データセット
実験
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
分野: 3D human motionの推論 5
一人称視点映像から3次元の人間の動きを推定
人間の行動理解に重要な役割
VR/ARにおいて応用が可能
Ground truthが一意に定まらない場合がある
https://lijiaman.github.io/projects/egoego/
一人称映像
(Egocentric video)
3次元の人間の動き
(3D human motion)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
タスクの難しさ 6
一人称カメラに自分の動きは映らない
学習に必要なデータセットが大規模
連動した一人称視点と3D human posesが必要
大規模のデータセットは存在しない
小規模かつlab-likeなデータセット[1]はすでにある
[1] Zheng, Yang, et al. "Gimo: Gaze-informed human motion prediction in context." Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022,
Proceedings, Part XIII. Cham: Springer Nature Switzerland, 2022.
GIMOの3Dシーン
EgoEgo on GIMO
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法のキー 7
Head Poseを使った問題の分離
それぞれの既存データセットが使える
(1) 一人称映像 → Head pose (2) Head pose →3D human motion
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
目次 8
3D human motion 分野の背景
関連研究
提案手法
(1) 一人称映像 → head pose
(2) head pose → 3d human motion
Synthetic データセット
実験
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
関連研究: 一人称映像以外を使った例 9
センサーを使ったmotion推定
TransPose[1]: IMUとtransformerモデルの活用
3次元映像を使ったmotion推定
Self-supervised Learning of Motion Capture[2]
[1] Yi, Xinyu, Yuxiao Zhou, and Feng Xu. "Transpose: Real-time 3d human translation and pose estimation with six inertial sensors." ACM Transactions on Graphics (TOG)
40.4 (2021): 1-13.
[2] Tung, Hsiao-Yu, et al. "Self-supervised learning of motion capture." Advances in Neural Information Processing Systems 30 (2017).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
関連研究: Kinpoly[1] 10
一人称映像を用いたmotion推定手法
運動学と動力学を統合し、妥当なモーションを推定
ただし、汎用的なシーンを扱うことができない
[1] Luo, Zhengyi, et al. "Dynamics-regulated kinematic policy for egocentric pose estimation." Advances in Neural Information
Processing Systems 34 (2021): 25019-25032.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法 11
(1) 一人称映像 → Head pose (2) Head pose →3D human motion
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
目次 12
3D human motion 分野の背景
関連研究
提案手法
(1) 一人称映像 → head pose
(2) head pose → 3d human motion
Synthetic データセット
実験
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
(1) 一人称映像 → Head pose の課題 13
解くべきタスクはロボットや自動運転における
Localization problemを同じ
正面映像を用いた自身の位置決め
しかし、通常の単眼SLAM法[1]では適用不可能
重力方向が未知
推定結果と現実空間のスケールが不一致
回転運動に対する精度低下
[1] Teed, Zachary, and Jia Deng. "Droid-slam: Deep visual slam for monocular, stereo, and rgb-d cameras." Advances in neural
information processing systems 34 (2021): 16558-16569.
撮影場所の推定結果
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
(1) 一人称映像 → Head pose の解決策 14
Gravity Net
既存手法の単眼SLAMの結果を用いた重力方向
推定モデル
Head Net
オプティカルフロー特徴を用いた頭部の回転と
並進距離を推定するモデル
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Gravity Net 15
連続したhead poses ℎ1, ℎ1, … , ℎ𝑇 から重力方向 𝑔 ∈ ℝ3
を予測
ℎ𝑡 は6次元の回転行列
𝑡 stepの回転行列𝑂𝑡としたとき、𝑂𝑡−1
−1
𝑂𝑡で計算可能
学習は大規模モーションキャプチャデータセット
AMASS[1]を使用
正確な重心方向𝑔𝑐 = 0, 0, −1 𝑇を持つ
ランダムスケールとランダム回転で異なる分布を獲得
予測値𝑔と𝑔𝑐を一致させるための回転行列𝑅𝑔を
transformer-base[2]のモデルで学習
𝑇: シーケンスの合計数
t: 特定のシーケンス
[1] Naureen Mahmood, Nima Ghorbani, Nikolaus F Troje, Gerard Pons-Moll, and Michael J Black. AMASS: Archive of motion capture as
surface shapes. In ICCV, 2019. 3, 5
[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention
is all you need. In NeurIPS, 2017. 3
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Head Net 16
オプティカルフロー特徴量𝑜1, … , 𝑜𝑇 から
距離𝑑1, … , 𝑑𝑇 と 頭部回転 𝑹1, … , 𝑹𝑇 を予測
𝑜𝑡 は事前学習したResNet-18で抽出
モデルアーキテクチャはGravity Netと同じ
損失関数 ℒ = ℒ𝑑𝑖𝑠𝑡 + ℒ𝑣𝑒𝑙 + ℒ𝑟𝑜𝑡
ℒ𝑑𝑖𝑠𝑡: 並進距離のL1 loss
ℒ𝑣𝑒𝑙: 角速度のL1 loss
ℒ𝑟𝑜𝑡: 回転損失 (ℒ𝑟𝑜𝑡 = 𝑹𝑝𝑟𝑒𝑑𝑹𝑔𝑡
𝑇
− 𝑰
1
)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
補足: オプティカルフロー 17
画像の各画素がその方向にどれだけ動いたの
かを求めた値
出典: ドローンマニアックス, https://toy-drone.com/dorone-opticalflow,
ThoghChildren, http://www.thothchildren.com/chapter/5bcc61fb51d9305189030d50, Accessed 2023/4/29
概要図 車のオプティカルフロー
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法 18
(1) 一人称映像 → Head pose (2) Head pose →3D human motion
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
目次 19
3D human motion 分野の背景
関連研究
提案手法
(1) 一人称映像 → head pose
(2) head pose → 3d human motion
Synthetic データセット
実験
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
(2) head pose → 3D human motion 20
異なる全身動作が同じ頭部姿勢をとる可能性
あり
一対一対応ではない
条件付き生成モデルを使用
拡散モデルを導入
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3D body poseの定義 21
body pose 𝑋𝑡 ∈ ℝ𝐷
は以下を含む
グローバル座標の関節位置: ℝ𝑗×3
グローバル座標の関節回転: ℝ𝑗×6
スケルトンはSMPLモデル[1]を採用
関節数 𝑗 は22個
[1] Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, and Michael J. Black. SMPL: A skinned
multiperson linear model. ACM Transactions on Graphics (TOG), 34(6):1–16, 2015.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
拡散モデル - 順拡散過程 22
Forward diffusion process
元データ 𝑥0 にガウシアンノイズを徐々に追加
マルコフ連鎖で定義可能
𝛽𝑛: 時刻𝑛のノイズの強さ
𝑥𝑛 の分布は𝑥𝑛−1に依存 (マルコフ性)
正規分布に従ってノイズを付与
平均 分散
{𝑥𝑖}𝑡=1
𝑇
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
拡散モデル - 逆拡散過程 23
Reverse diffusion process
拡散プロセスを逆転させて
head-poseを条件とした3D human motionを生成
学習された平均と分散を持つマルコフ連鎖として
近似可能
𝜃: ニューラルネットワークのパラメータ
𝑐: head-poseの条件
𝜇𝜃: 学習した平均
𝛼𝑛, 𝛼𝑛: 固定パラメータ
𝑥𝜃(𝑥𝑛, 𝑛, 𝑐): 𝑥0の予測値
分散は単純化
損失関数 (復元度合い)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
拡散モデル - 逆拡散過程 24
Reverse diffusion process
拡散プロセスを逆転させて
head-poseを条件とした3D human motionを生成
学習された平均と分散を持つマルコフ連鎖として
近似可能
𝑐: head-poseの条件
ノイズ除去ネットワークのアーキテクチャ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
目次 25
3D human motion 分野の背景
関連研究
提案手法
(1) 一人称映像 → head pose
(2) head pose → 3d human motion
Synthetic データセット
実験
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Synthetic Data Generation 26
一人称映像と3D human motionが対になった大規模デー
タセットの自動生成
大規模モーションキャプチャデータセットAMASS[1]と
3DシーンデータセットReplica[2]を使用
足が床に接触しているランダムな場所に配置
次のシーケンスの各姿勢について、Wangら[3]の透過損失を計算
※ 物体への貫通
生成されたデータセット AMASS-Replica-Ego-Syn (ARES)
[1] Naureen Mahmood, Nima Ghorbani, Nikolaus F Troje, Gerard Pons-Moll, and Michael J Black. AMASS: Archive of motion capture as surface shapes. In ICCV, 2019.
[2] Julian Straub, Thomas Whelan, Lingni Ma, Yufan Chen, Erik Wijmans, Simon Green, Jakob J Engel, Raul Mur-Artal, Carl Ren, Shobhit Verma, et al. The Replica dataset: A digital
replica of indoor spaces. arXiv preprint arXiv:1906.05797, 2019
[3] Jiashun Wang, Huazhe Xu, Jingwei Xu, Sifei Liu, and Xiaolong Wang. Synthesizing long-term 3D human motion and interaction in 3D scenes. In CVPR, 2021
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
目次 27
3D human motion 分野の背景
関連研究
提案手法
(1) 一人称映像 → head pose
(2) head pose → 3d human motion
Synthetic データセット
実験
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 - データセット 28
AMASS-Replica-Ego-Syn (ARES)
一人称映像と3D human motionの対のデータセット
18シーンで約15時間
AMASS
モーションキャプチャのデータセット
約45時間
Kinploy-MoCap
一人称映像と3D human motionの対のデータセット
約80分
研究室シーンのみ
Kinploy-RealWorld
一人称映像と3D human motionの対のデータセット
iPhone ARKitで撮影
182シーケンス, 50k frames
GIMO
一人称映像と3D human motionの対のデータセット
Hololens, iPhone 12, IMUベースのmocapスーツ
計19シーン
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 - 評価指標 29
Head Orientation Error (𝑂ℎ𝑒𝑎𝑑)
回転行列 R𝑝𝑟𝑒𝑑𝑅𝑔𝑡
−1
− 𝐼
2
の差のフロベニウスノルム
Head Translation Error (𝑇ℎ𝑒𝑎𝑑)
2つの軌跡の平均ユークリッド距離 (mm)
MPJPE
関節ごとの平均位置誤差 (mm)
Accel
予測された関節位置とground truthの関節位置の
加速度の差 (𝑚𝑚 𝑠2)
FS
足の滑りの指標 (NeMF[1]を参照)
[1] Chengan He, Jun Saito, James Zachary, Holly Rushmeier, and Yi Zhou. NeMF: Neural motion fields for kinematic animation. In NeurIPS, 2022.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 - ベースライン 30
PoseReg[1]
オプティカルフロー特徴のシーケンスを入力
LSTMモデルで各ステップのposeを推定
Kinpoly-OF[2]
オプティカルフローの特徴から全身運動を推定
ステップごとの回帰モデルを提案
[1] Ye Yuan and Kris Kitani. Ego-pose estimation and forecasting as real-time PD control. In ICCV, 2019
[2] Zhengyi Luo, Ryo Hachiuma, Ye Yuan, and Kris Kitani. Dynamics-regulated kinematic policy for egocentric pose estimation. In NeurIPS, 2021.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 - 結果 (一人称映像 → 3D human motion) 31
すべての評価指標でベースライン手法より優れた結果
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 - 結果 (一人称映像 → Head pose) 32
頭部回転予測
ARESで良い結果
リアルキャプチャデータでは同等の結果
データが少ないため今後は改善される
頭部軌跡
重力の整列がよく作用
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 - 結果 (head pose → 3D human motion) 33
ベースライン
AvatarPoser: 手のpose情報を取り除いて比較
Kinploy-Head: そのまま
拡散モデルで高精度を記録
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Ablation Studies – 頭部姿勢推定の各要素 34
重力方向を揃えるための回転と
学習したスケールは有効
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Ablation Studies – 人間の知覚評価 35
どちらの結果が「より確からしいか」
Amazon Mechanical Turk 20人の評価
ベースライン手法より優れた評価
一人称映像 → 3D human motion Head-pose → 3D human motion
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
まとめ 36
一人称視点映像 (egocentric video)を用いた
人間の3Dモーション生成手法 EgoEgo の提案
中間表現として自身の頭部情報 (Ego-head)を使用
大規模で汎用的なSynthetic Datasetの自動生成
従来データセットと新規データセットで現在のSoTAより優れた性能

More Related Content

What's hot

ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文cvpaper. challenge
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose EstimationDeep Learning JP
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...西岡 賢一郎
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...Shunsuke Ono
 
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone ScanDeep Learning JP
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)cvpaper. challenge
 

What's hot (20)

ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
 
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
 

Similar to DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation

DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...harmonylab
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...harmonylab
 
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究harmonylab
 
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...harmonylab
 
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo MatchingReal-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matchingharmonylab
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...harmonylab
 
Recursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human FeedbackRecursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedbackharmonylab
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...harmonylab
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Daiki Shimada
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2Kuniyuki Takahashi
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasksharmonylab
 
Dance Information Processing / ダンス情報処理
Dance Information Processing / ダンス情報処理Dance Information Processing / ダンス情報処理
Dance Information Processing / ダンス情報処理SIGDance
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究harmonylab
 
RISPEC Presentation @CEDEC 2011
RISPEC Presentation @CEDEC 2011RISPEC Presentation @CEDEC 2011
RISPEC Presentation @CEDEC 2011Peichao Yu
 

Similar to DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation (20)

DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
 
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
 
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo MatchingReal-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matching
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
Recursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human FeedbackRecursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedback
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
 
Dance Information Processing / ダンス情報処理
Dance Information Processing / ダンス情報処理Dance Information Processing / ダンス情報処理
Dance Information Processing / ダンス情報処理
 
ダンス情報処理
ダンス情報処理ダンス情報処理
ダンス情報処理
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
RISPEC Presentation @CEDEC 2011
RISPEC Presentation @CEDEC 2011RISPEC Presentation @CEDEC 2011
RISPEC Presentation @CEDEC 2011
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...harmonylab
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANharmonylab
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detectionharmonylab
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identificationharmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 

Recently uploaded

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 

Recently uploaded (8)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation

  • 1. DLゼミ (論文紹介) Ego-Body Pose Estimation via Ego-Head Pose Estimation 北海道大学大学院 情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 博士後期課程2年 森 雄斗 2023/05/01
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文情報 2 タイトル Ego-Body Pose Estimation via Ego-Head Pose Estimation 著者 Jiaman Li, C. Karen Liu, Jiajun Wu Stanford University 発表 CVPR2023 (受賞候補: 0.51% of accepted papers) URL プロジェクトページ https://lijiaman.github.io/projects/egoego/ 論文 (arXiv) https://arxiv.org/abs/2212.04636 デモ動画 https://www.youtube.com/watch?v=Dg66DY2sGus
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 概要 3 一人称視点映像 (egocentric video)を用いた 人間の3Dモーション生成手法 EgoEgo の提案 中間表現として自身の頭部情報 (Ego-head)を使用 大規模で汎用的なSynthetic Datasetの自動生成 従来データセットと新規データセットで現在のSoTAより優れた性能
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 目次 4 3D human motion 分野の背景 関連研究 提案手法 (1) 一人称映像 → head pose (2) head pose → 3d human motion Synthetic データセット 実験
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 分野: 3D human motionの推論 5 一人称視点映像から3次元の人間の動きを推定 人間の行動理解に重要な役割 VR/ARにおいて応用が可能 Ground truthが一意に定まらない場合がある https://lijiaman.github.io/projects/egoego/ 一人称映像 (Egocentric video) 3次元の人間の動き (3D human motion)
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. タスクの難しさ 6 一人称カメラに自分の動きは映らない 学習に必要なデータセットが大規模 連動した一人称視点と3D human posesが必要 大規模のデータセットは存在しない 小規模かつlab-likeなデータセット[1]はすでにある [1] Zheng, Yang, et al. "Gimo: Gaze-informed human motion prediction in context." Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XIII. Cham: Springer Nature Switzerland, 2022. GIMOの3Dシーン EgoEgo on GIMO
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法のキー 7 Head Poseを使った問題の分離 それぞれの既存データセットが使える (1) 一人称映像 → Head pose (2) Head pose →3D human motion
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 目次 8 3D human motion 分野の背景 関連研究 提案手法 (1) 一人称映像 → head pose (2) head pose → 3d human motion Synthetic データセット 実験
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 関連研究: 一人称映像以外を使った例 9 センサーを使ったmotion推定 TransPose[1]: IMUとtransformerモデルの活用 3次元映像を使ったmotion推定 Self-supervised Learning of Motion Capture[2] [1] Yi, Xinyu, Yuxiao Zhou, and Feng Xu. "Transpose: Real-time 3d human translation and pose estimation with six inertial sensors." ACM Transactions on Graphics (TOG) 40.4 (2021): 1-13. [2] Tung, Hsiao-Yu, et al. "Self-supervised learning of motion capture." Advances in Neural Information Processing Systems 30 (2017).
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 関連研究: Kinpoly[1] 10 一人称映像を用いたmotion推定手法 運動学と動力学を統合し、妥当なモーションを推定 ただし、汎用的なシーンを扱うことができない [1] Luo, Zhengyi, et al. "Dynamics-regulated kinematic policy for egocentric pose estimation." Advances in Neural Information Processing Systems 34 (2021): 25019-25032.
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法 11 (1) 一人称映像 → Head pose (2) Head pose →3D human motion
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 目次 12 3D human motion 分野の背景 関連研究 提案手法 (1) 一人称映像 → head pose (2) head pose → 3d human motion Synthetic データセット 実験
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. (1) 一人称映像 → Head pose の課題 13 解くべきタスクはロボットや自動運転における Localization problemを同じ 正面映像を用いた自身の位置決め しかし、通常の単眼SLAM法[1]では適用不可能 重力方向が未知 推定結果と現実空間のスケールが不一致 回転運動に対する精度低下 [1] Teed, Zachary, and Jia Deng. "Droid-slam: Deep visual slam for monocular, stereo, and rgb-d cameras." Advances in neural information processing systems 34 (2021): 16558-16569. 撮影場所の推定結果
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. (1) 一人称映像 → Head pose の解決策 14 Gravity Net 既存手法の単眼SLAMの結果を用いた重力方向 推定モデル Head Net オプティカルフロー特徴を用いた頭部の回転と 並進距離を推定するモデル
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Gravity Net 15 連続したhead poses ℎ1, ℎ1, … , ℎ𝑇 から重力方向 𝑔 ∈ ℝ3 を予測 ℎ𝑡 は6次元の回転行列 𝑡 stepの回転行列𝑂𝑡としたとき、𝑂𝑡−1 −1 𝑂𝑡で計算可能 学習は大規模モーションキャプチャデータセット AMASS[1]を使用 正確な重心方向𝑔𝑐 = 0, 0, −1 𝑇を持つ ランダムスケールとランダム回転で異なる分布を獲得 予測値𝑔と𝑔𝑐を一致させるための回転行列𝑅𝑔を transformer-base[2]のモデルで学習 𝑇: シーケンスの合計数 t: 特定のシーケンス [1] Naureen Mahmood, Nima Ghorbani, Nikolaus F Troje, Gerard Pons-Moll, and Michael J Black. AMASS: Archive of motion capture as surface shapes. In ICCV, 2019. 3, 5 [2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, 2017. 3
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Head Net 16 オプティカルフロー特徴量𝑜1, … , 𝑜𝑇 から 距離𝑑1, … , 𝑑𝑇 と 頭部回転 𝑹1, … , 𝑹𝑇 を予測 𝑜𝑡 は事前学習したResNet-18で抽出 モデルアーキテクチャはGravity Netと同じ 損失関数 ℒ = ℒ𝑑𝑖𝑠𝑡 + ℒ𝑣𝑒𝑙 + ℒ𝑟𝑜𝑡 ℒ𝑑𝑖𝑠𝑡: 並進距離のL1 loss ℒ𝑣𝑒𝑙: 角速度のL1 loss ℒ𝑟𝑜𝑡: 回転損失 (ℒ𝑟𝑜𝑡 = 𝑹𝑝𝑟𝑒𝑑𝑹𝑔𝑡 𝑇 − 𝑰 1 )
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 補足: オプティカルフロー 17 画像の各画素がその方向にどれだけ動いたの かを求めた値 出典: ドローンマニアックス, https://toy-drone.com/dorone-opticalflow, ThoghChildren, http://www.thothchildren.com/chapter/5bcc61fb51d9305189030d50, Accessed 2023/4/29 概要図 車のオプティカルフロー
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法 18 (1) 一人称映像 → Head pose (2) Head pose →3D human motion
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 目次 19 3D human motion 分野の背景 関連研究 提案手法 (1) 一人称映像 → head pose (2) head pose → 3d human motion Synthetic データセット 実験
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. (2) head pose → 3D human motion 20 異なる全身動作が同じ頭部姿勢をとる可能性 あり 一対一対応ではない 条件付き生成モデルを使用 拡散モデルを導入
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3D body poseの定義 21 body pose 𝑋𝑡 ∈ ℝ𝐷 は以下を含む グローバル座標の関節位置: ℝ𝑗×3 グローバル座標の関節回転: ℝ𝑗×6 スケルトンはSMPLモデル[1]を採用 関節数 𝑗 は22個 [1] Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, and Michael J. Black. SMPL: A skinned multiperson linear model. ACM Transactions on Graphics (TOG), 34(6):1–16, 2015.
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 拡散モデル - 順拡散過程 22 Forward diffusion process 元データ 𝑥0 にガウシアンノイズを徐々に追加 マルコフ連鎖で定義可能 𝛽𝑛: 時刻𝑛のノイズの強さ 𝑥𝑛 の分布は𝑥𝑛−1に依存 (マルコフ性) 正規分布に従ってノイズを付与 平均 分散 {𝑥𝑖}𝑡=1 𝑇
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 拡散モデル - 逆拡散過程 23 Reverse diffusion process 拡散プロセスを逆転させて head-poseを条件とした3D human motionを生成 学習された平均と分散を持つマルコフ連鎖として 近似可能 𝜃: ニューラルネットワークのパラメータ 𝑐: head-poseの条件 𝜇𝜃: 学習した平均 𝛼𝑛, 𝛼𝑛: 固定パラメータ 𝑥𝜃(𝑥𝑛, 𝑛, 𝑐): 𝑥0の予測値 分散は単純化 損失関数 (復元度合い)
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 拡散モデル - 逆拡散過程 24 Reverse diffusion process 拡散プロセスを逆転させて head-poseを条件とした3D human motionを生成 学習された平均と分散を持つマルコフ連鎖として 近似可能 𝑐: head-poseの条件 ノイズ除去ネットワークのアーキテクチャ
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 目次 25 3D human motion 分野の背景 関連研究 提案手法 (1) 一人称映像 → head pose (2) head pose → 3d human motion Synthetic データセット 実験
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Synthetic Data Generation 26 一人称映像と3D human motionが対になった大規模デー タセットの自動生成 大規模モーションキャプチャデータセットAMASS[1]と 3DシーンデータセットReplica[2]を使用 足が床に接触しているランダムな場所に配置 次のシーケンスの各姿勢について、Wangら[3]の透過損失を計算 ※ 物体への貫通 生成されたデータセット AMASS-Replica-Ego-Syn (ARES) [1] Naureen Mahmood, Nima Ghorbani, Nikolaus F Troje, Gerard Pons-Moll, and Michael J Black. AMASS: Archive of motion capture as surface shapes. In ICCV, 2019. [2] Julian Straub, Thomas Whelan, Lingni Ma, Yufan Chen, Erik Wijmans, Simon Green, Jakob J Engel, Raul Mur-Artal, Carl Ren, Shobhit Verma, et al. The Replica dataset: A digital replica of indoor spaces. arXiv preprint arXiv:1906.05797, 2019 [3] Jiashun Wang, Huazhe Xu, Jingwei Xu, Sifei Liu, and Xiaolong Wang. Synthesizing long-term 3D human motion and interaction in 3D scenes. In CVPR, 2021
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 目次 27 3D human motion 分野の背景 関連研究 提案手法 (1) 一人称映像 → head pose (2) head pose → 3d human motion Synthetic データセット 実験
  • 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 - データセット 28 AMASS-Replica-Ego-Syn (ARES) 一人称映像と3D human motionの対のデータセット 18シーンで約15時間 AMASS モーションキャプチャのデータセット 約45時間 Kinploy-MoCap 一人称映像と3D human motionの対のデータセット 約80分 研究室シーンのみ Kinploy-RealWorld 一人称映像と3D human motionの対のデータセット iPhone ARKitで撮影 182シーケンス, 50k frames GIMO 一人称映像と3D human motionの対のデータセット Hololens, iPhone 12, IMUベースのmocapスーツ 計19シーン
  • 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 - 評価指標 29 Head Orientation Error (𝑂ℎ𝑒𝑎𝑑) 回転行列 R𝑝𝑟𝑒𝑑𝑅𝑔𝑡 −1 − 𝐼 2 の差のフロベニウスノルム Head Translation Error (𝑇ℎ𝑒𝑎𝑑) 2つの軌跡の平均ユークリッド距離 (mm) MPJPE 関節ごとの平均位置誤差 (mm) Accel 予測された関節位置とground truthの関節位置の 加速度の差 (𝑚𝑚 𝑠2) FS 足の滑りの指標 (NeMF[1]を参照) [1] Chengan He, Jun Saito, James Zachary, Holly Rushmeier, and Yi Zhou. NeMF: Neural motion fields for kinematic animation. In NeurIPS, 2022.
  • 30. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 - ベースライン 30 PoseReg[1] オプティカルフロー特徴のシーケンスを入力 LSTMモデルで各ステップのposeを推定 Kinpoly-OF[2] オプティカルフローの特徴から全身運動を推定 ステップごとの回帰モデルを提案 [1] Ye Yuan and Kris Kitani. Ego-pose estimation and forecasting as real-time PD control. In ICCV, 2019 [2] Zhengyi Luo, Ryo Hachiuma, Ye Yuan, and Kris Kitani. Dynamics-regulated kinematic policy for egocentric pose estimation. In NeurIPS, 2021.
  • 31. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 - 結果 (一人称映像 → 3D human motion) 31 すべての評価指標でベースライン手法より優れた結果
  • 32. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 - 結果 (一人称映像 → Head pose) 32 頭部回転予測 ARESで良い結果 リアルキャプチャデータでは同等の結果 データが少ないため今後は改善される 頭部軌跡 重力の整列がよく作用
  • 33. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 - 結果 (head pose → 3D human motion) 33 ベースライン AvatarPoser: 手のpose情報を取り除いて比較 Kinploy-Head: そのまま 拡散モデルで高精度を記録
  • 34. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Ablation Studies – 頭部姿勢推定の各要素 34 重力方向を揃えるための回転と 学習したスケールは有効
  • 35. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Ablation Studies – 人間の知覚評価 35 どちらの結果が「より確からしいか」 Amazon Mechanical Turk 20人の評価 ベースライン手法より優れた評価 一人称映像 → 3D human motion Head-pose → 3D human motion
  • 36. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. まとめ 36 一人称視点映像 (egocentric video)を用いた 人間の3Dモーション生成手法 EgoEgo の提案 中間表現として自身の頭部情報 (Ego-head)を使用 大規模で汎用的なSynthetic Datasetの自動生成 従来データセットと新規データセットで現在のSoTAより優れた性能

Editor's Notes

  1. 回転行列は直行行列であるから
  2. penetration loss → 元論文に該当箇所なし (異なる語で言い換えてる可能性あり)
  3. フロベニウスノルム = 行列の全成分を一列に並べたベクトルとみなしたときのベクトルの長さ