SlideShare a Scribd company logo
1 of 29
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
VoxelPose:Towards Multi-Camera 3D Human Pose Estimation
inWild Environment
Shizuma Kubo, ACES.Inc
書誌情報
• 書誌情報
 VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment
 著者: Hanyue Tu, Chunyu Wang, Wenjun Zeng
 所属: Microsoft Research Asia (1st authorは大学の所属もあり)
 ECCV’20 Oral (v1: 2020/04/13, v4: 2020/08/24 on arXiv)
 実装コード: https://github.com/microsoft/voxelpose-pytorch
 選択のモチベーション: Multi-Person Multi-Cameraの3D姿勢推定のタスクに興味があった
2
概要
3
• 複数カメラを使った複数人の3次元姿勢推定の手法であるVoxelPoseを提案した
• 既存手法は2次元の姿勢推定の結果(keypoint情報)を使うのに対し、提案手法ではheatmap
を3次元表現に落とし込み、頑健な推論を可能とした
• これによって、以下の課題に対応された (論文の表現を使うと“elegantly”に対応)
 どの関節点が同一人物のものか
 異なるカメラ視点でどの姿勢が同一人物か
• 複数人の3次元姿勢推定はSOTA、1人の3次元姿勢推定でもSOTAと同等
目次
4
1. 既存手法
2. 提案手法
3. 評価・結果
4. まとめ
目次
5
1. 既存手法
2. 提案手法
3. 評価・結果
4. まとめ
既存の3D姿勢推定
6Analytical: 幾何的に解決する手法、Predictive: ネットワークで解決する手法
Single Camera
Multi Camera
Analytical
Predictive
Analytical
Predictive
Single
Camera
Multi
Camera
Multi
Person
Single
Person
射影したときに2D keypointにあうように3D keypointを最適化
2D keypointから3D keypointを回帰 (Deep的手法中心)
複数視点の2D keypointを幾何的手法(三角測量)で3D keypointを再現
複数の2D keypointを3D特徴表現に落として回帰 (幾何的要素も含むことあり)
Single Personに帰着 (Top-down) / Multi-Cameraの特殊ケース
Pictorical modelやRe-identificationを使い、カメラ間の人物の紐付け
既存の3D姿勢推定
7Analytical: 幾何的に解決する手法、Predictive: ネットワークで解決する手法
Single Camera
Multi Camera
Analytical
Predictive
Analytical
Predictive
Single
Camera
Multi
Camera
Multi
Person
Single
Person
• 以下の2つの項目が特に関連項目
 Single-Person Multi-Camera
 Multi-Person Multi-Camera
• Single-Person Multi-Cameraのタスクは比較的論文あり
 提案手法の発想が影響を強く受けているようにみえる
 精度の高いモデルはPredictive要素を含む (こちらが現状の主流な雰囲気)
• Multi-Person Multi-Cameraの研究はあまり盛んでない
 比較のために出てくるという感じ
 提案手法はむしろ、Single-Person Multi-Cameraの考え方を応用させたと捉え
るほうが自然
既存の3D姿勢推定
8Analytical: 幾何的に解決する手法、Predictive: ネットワークで解決する手法
Single Camera
Multi Camera
Analytical
Predictive
Analytical
Predictive
Single
Camera
Multi
Camera
Multi
Person
Single
Person
 Learnable Triagular of Human Pose [Iskakov+ ICCV’19 (oral)]
 ① triangulationを活用する手法と② 3D特徴を使う手法の2つを提案
 ②のほうが精度が良くメインの手法 (SOTA/今回の提案手法に近い)
 Cross View Fusion for 3D Human Pose Estimation [Qiu+ ICCV’19]
 2D姿勢の結果とtriangulationを活用する手法 ([Iskakov+]①に近い)
 Epipolar Transformers [He+ CVPR’20]
 エピポーラ幾何を利用したモジュールの提案
 上記2つの手法 ([Qiu+]と[Iskakov+]①)の精度向上
[Iskakov+ ICCV’19]① [Iskakov+ ICCV’19]②
既存の3D姿勢推定
9Analytical: 幾何的に解決する手法、Predictive: ネットワークで解決する手法
Single Camera
Multi Camera
Analytical
Predictive
Analytical
Predictive
Single
Camera
Multi
Camera
Multi
Person
Single
Person
 Fast and Robust Multi-Person 3D Pose Estimation from Multiple Views [Dong+
CVPR’19]
 2Dの姿勢推定をカメラごとに独立で行い、同じ人物でグルーピング
を行い、Single-Personの3D姿勢推定の処理を行う
 2D姿勢推定の結果を前提にするため、精度が落ちる
 (この論文に[Iskakov+ ICCV’19]の要素を足す感じが今回紹介する
VoxelPoseのイメージ)
目次
10
1. 既存手法
2. 提案手法
3. 評価・結果
4. まとめ
提案手法 VoxelPose の全体像
11
• 提案手法は3つのモジュールから構成される
 (a) 2D Pose Estimation : 2次元の姿勢推定モデルで単視点からの2D poseのヒートマップを出力
 (b) Cuboid Proposal Network (CPN) : 人の存在候補領域を推定
 (c) Pose Regression Network (PRN) : CPNの各候補領域ごとに3D poseを推定
(a) 2D Pose Estimation
12
• まず、各視点のカメラ画像を独立に2D Pose Estimationを行う
• 2D Pose EstimationのモデルはHRNet (2DのSOTAモデル)を利用
• データが少ない場合、過学習回避のため学習済みのモデルを使用
 実験ではCOCOの学習済みモデルを使用
 キーポイントまでは計算しない
 ヒートマップの状態で、CPN及び
PRNで使用されるのがポイント
(b) Cuboid Proposal Network (CPN)
13
• 各視点の2D ヒートマップから人の存在領域を推定する
 Feature Volume: 2Dヒートマップを3次元の特徴量に落とし込む (多分、[Islakov+ ICCV’19]と同様)
 Cuboid Proposals: 3D convのネットワークを使って、人物の3D存在位置を推定 (ヒートマップ)
引用: [Iskakov+ ICCV’19]
(b) Cuboid Proposal Network (CPN)
14
• Feature Volumeは以下のように、今回のデータセットでは、8m x 8m x 2m程度になる
 80 x 80 x 20の特徴量なので、1つのbinが大体100mmになる (人物の位置を特定だけなので粗い)
 人がどこにいるかの候補領域を推定する (図のproposals (2m x 2m x 2m)にあたる領域を推定)
8m
8m
2m
(c) Pose Regression Network (PRN)
15
• CPNで推定した候補領域ごとに3D姿勢を推定する
• CPNの3D特徴量の立方体より、小さなグリッドを使うことで、精緻な推定を行う
• CPNの処理はあくまで、候補領域を出すための処理であることに注意
 Proposalsのサイズは実スケー
ルの 2m x 2m x 2mのサイズ
 PRNのFeatureは64 x 64 x 64
なので、1つのbinが、2000 /
64 = 31.25mm になる
 ネットワークはCPNと入出力
サイズ以外同じ
 Keypointごとに重みは共有されており、proposal
個数分の推論がされる (実装見ても多分そう)
学習方法
16
• 2D姿勢推定の学習を20エポック(学習率のスケジューリングあり)行い、CPNとPRNを含めて
10エポック学習を回した (データセットによっては2D推定にCOCOで学習済みの重みを使用)
• CPNではGround Truth (GT)をガウシアンを使って、ヒートマップ化しておく
GT
GT
予測値
予測値
引用: [Zhou+ arXiv’19]
CenterNetに似ている
目次
17
1. 既存手法
2. 提案手法
3. 評価・結果
4. まとめ
データセット
18
 [Belagiannis+ CVPR’14]
 屋外で3人の人物を3つのカメラ
で撮影したデータセット
 小さなデータセットで過学習し
ないように、2D姿勢推定は
COCOで学習し、CPNとPRNだ
けこのデータセットで学習
 [Joo+ TPAMI’17]
 様々なカメラ数 (3, 6, 12, 13, 23)
で日常的な行動をする人々を撮
影したデータセット
 このデータセットについては、
2D姿勢推定の学習においてもこ
のデータセットを使用
 [Belagiannis+ CVPR’14]
 棚を分解する4人の人物を5つの
カメラで撮影したデータセット
 「The Campus Dataset」と同様
にCPNとPRNだけこのデータ
セットで学習
 「The Campus Dataset」と同じ
論文で評価として提案された
The CMU Panoptic DatasetThe Campus Dataset The Shelf Dataset
CPNの評価
19
• 提案手法は3つのモジュールから構成される
 (a) 2D Pose Estimation : 2次元の姿勢推定モデルで単視点からの2D poseのヒートマップを出力
 (b) Cuboid Proposal Network (CPN) : 人の存在候補領域を推定
 (c) Pose Regression Network (PRN) : CPNの各候補領域ごとに3D poseを推定
CPNの評価
20
• Feature Volumeのサイズ (80 x 80 x 20の部分)の妥当性
 Binの幅を小さくすれば、精度が高くなっていく ((a)の図参照)
 精度と速度のトレードオフを考えて、80 x 80 x 20がちょうどよかった
• 自動生成したヒートマップの学習利用可能性
 3D姿勢を射影して2D姿勢のヒートマップを生成し、それで学習 ((b)の図参照)
 (a)と(b)の差がない
 -> 画像データがなくても同等の性能が実現できる (汎化性能が高い)
• カメラの数による影響の検証
 複数のカメラを使わずに、1つのカメラだけで検証 ((c)の図参照)
 175mmのthresholdでも95%以上出ている
 1つのカメラだけでも検出可能な実用性がある (c)
(b)
(a)
[補足] この検証にはPanopticデータセットが使用されている
(a)、(b)の実験では5視点のカメラが使用されており、(b)の学習ではカメラ画像は使われていない
(c)の実験では学習/テストともに1視点カメラが使われている
PRNの評価
21
• 提案手法は3つのモジュールから構成される
 (a) 2D Pose Estimation : 2次元の姿勢推定モデルで単視点からの2D poseのヒートマップを出力
 (b) Cuboid Proposal Network (CPN) : 人の存在候補領域を推定
 (c) Pose Regression Network (PRN) : CPNの各候補領域ごとに3D poseを推定
評価指標
22
 [Dong+ CVPR’19]
 正解の関節点ごとに推論された最も近い関節点が
正しいかどうかのaccuracy
 False positive(誤検知)は考慮されない
Percentage of Correct Parts (PCP3D)
 PCP3Dのfalse positiveが考慮されない制限を解
決するためにAverage Precisionを導入
 MPJPEの値がKmm以下かどうかの基準で、
Average Precisionを計算
 物体認識で使われるAverage Precisionと感覚が
違うので注意
 物体認識のAP: Kが大きくなると難しい
 今回のAP: Kが大きくなると簡単
Average Precision (AP)
 推論された関節点と正解の関節点の距離を計算し、
全ての関節点の平均を取る
 単位としてよくmmが使われる
 Single-Personの手法との比較で使用
Mean Per Joint Position Error (MPJPE)
PRNの評価
23
• CPNのbinのサイズの影響
– (a)と(b)の比較。Binの数によって精度は上がるが、計算コスト
も上がるので、80 x 80 x 20がよい
• カメラ(視点)の数の影響
 (b)-(d)の比較。カメラの数を少なくすると、特にAP25
のように厳しい評価値では極端に悪くなる
 ただし、AP150の値はあまり下がらず、1視点3D姿勢
と同様の評価基準の(j)はSOTA (40.1mm) と同等水準
• Heatmapの精度の影響
 (b)と(g)の比較。Ground truthのheatmapを使うと精
度は上がる
• CPNのProposalの影響
 (b)と(h)の比較。あまり変わらない。CPNの精度は十
分で、PRNに改善可能性がある
[補足] この検証にもPanopticデータセットが使用されている
推論結果の例
24
• (a) 左が提案手法を射影した結果で、右がHRNet
の結果。通常難しいocclusionに対応 (複数カメ
ラ使用のためfairな比較ではないことに注意)
• (b) 失敗例。複数のカメラにうまく入れず、姿勢
が崩れる
• (c) カメラ視点が1つでもそこそこうまくいく例
• (d) 5視点の各射影とそれを3D表現で表示した例
(a)
(b)
(c)
(d)
既存手法との比較
25
• 2つのデータセット (Campus、Shelf) でSOTA
(PCP3D)
• ただし、既に高い値値での比較になってしまって
いる
• Panopticは既存手法での値が見当たらなく、比較
ができていないとのこと (future work)
• エラーになっているものの多くは、正解データの
間違いによるものだったとのこと (右図は正解デー
タであるが、アノテーション漏れがある)
既存手法との比較
26
Multi-Personの3D Pose EstimationでSOTA
引用: https://paperswithcode.com/task/3d-multi-person-pose-estimation
既存手法との比較
27
Single-Personの3D Pose Estimation (Human3.6m) でもSOTAと同等
19mmなので
この辺り
引用: https://paperswithcode.com/sota/3d-human-pose-estimation-on-human36m
目次
28
1. 既存手法
2. 提案手法
3. 評価・結果
4. まとめ
まとめ
29
• 要約
 複数カメラを使った複数人の3次元姿勢推定の手法であるVoxelPoseを提案した
 CPNとPRNを使って2次元姿勢を経由せずに、直接的に3次元姿勢を推定するため、2D姿勢推定の結
果の悪影響を受けにくい、頑健なモデルとなった
• 所感
 空間 (今回は 8m x 2m x 2mを仮定) の広さによって、どのように変わるのか見てみたい
 既存手法に比べて、汎用的で実用的な手法になっていると感じた。とはいえ、それでも、空間の大
小や複数カメラの扱いなど場面に応じて、変動が大きいため、どこまで汎用的に使うのがよいのか
は難しそう
 あまりSOTAにこだわっていないようで、テクニカルな改善可能な点を多くあるように感じた。利用
シーンにもよるが、現状のTitan X GPUで300msは遅い

More Related Content

What's hot

動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...Deep Learning JP
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識Hirokatsu Kataoka
 
[DL輪読会]Whole-Body Human Pose Estimation in the Wild
[DL輪読会]Whole-Body Human Pose Estimation in the Wild[DL輪読会]Whole-Body Human Pose Estimation in the Wild
[DL輪読会]Whole-Body Human Pose Estimation in the WildDeep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video RecognitionDeep Learning JP
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向Kensho Hara
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピTakahiro Kubo
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 

What's hot (20)

動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
[DL輪読会]Whole-Body Human Pose Estimation in the Wild
[DL輪読会]Whole-Body Human Pose Estimation in the Wild[DL輪読会]Whole-Body Human Pose Estimation in the Wild
[DL輪読会]Whole-Body Human Pose Estimation in the Wild
 
Point net
Point netPoint net
Point net
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 

Similar to [DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment

[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19Deep Learning JP
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-studyNaoya Chiba
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...Deep Learning JP
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01]  Extreme 3D センシングSSII2020 [O3-01]  Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシングSSII
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mappingAkira Taniguchi
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural NetworksSeiya Tokui
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
[DL輪読会]Unsupervised Learning of 3D Structure from Images
[DL輪読会]Unsupervised Learning of 3D Structure from Images[DL輪読会]Unsupervised Learning of 3D Structure from Images
[DL輪読会]Unsupervised Learning of 3D Structure from ImagesDeep Learning JP
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習Naoya Chiba
 
Structured Light 技術俯瞰
Structured Light 技術俯瞰Structured Light 技術俯瞰
Structured Light 技術俯瞰Teppei Kurita
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」Naoya Chiba
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Posecvpaper. challenge
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...Shunsuke Ono
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会Kimikazu Kato
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakikanejaki
 

Similar to [DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment (20)

[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01]  Extreme 3D センシングSSII2020 [O3-01]  Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシング
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
[DL輪読会]Unsupervised Learning of 3D Structure from Images
[DL輪読会]Unsupervised Learning of 3D Structure from Images[DL輪読会]Unsupervised Learning of 3D Structure from Images
[DL輪読会]Unsupervised Learning of 3D Structure from Images
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
 
Structured Light 技術俯瞰
Structured Light 技術俯瞰Structured Light 技術俯瞰
Structured Light 技術俯瞰
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (10)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ VoxelPose:Towards Multi-Camera 3D Human Pose Estimation inWild Environment Shizuma Kubo, ACES.Inc
  • 2. 書誌情報 • 書誌情報  VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment  著者: Hanyue Tu, Chunyu Wang, Wenjun Zeng  所属: Microsoft Research Asia (1st authorは大学の所属もあり)  ECCV’20 Oral (v1: 2020/04/13, v4: 2020/08/24 on arXiv)  実装コード: https://github.com/microsoft/voxelpose-pytorch  選択のモチベーション: Multi-Person Multi-Cameraの3D姿勢推定のタスクに興味があった 2
  • 3. 概要 3 • 複数カメラを使った複数人の3次元姿勢推定の手法であるVoxelPoseを提案した • 既存手法は2次元の姿勢推定の結果(keypoint情報)を使うのに対し、提案手法ではheatmap を3次元表現に落とし込み、頑健な推論を可能とした • これによって、以下の課題に対応された (論文の表現を使うと“elegantly”に対応)  どの関節点が同一人物のものか  異なるカメラ視点でどの姿勢が同一人物か • 複数人の3次元姿勢推定はSOTA、1人の3次元姿勢推定でもSOTAと同等
  • 4. 目次 4 1. 既存手法 2. 提案手法 3. 評価・結果 4. まとめ
  • 5. 目次 5 1. 既存手法 2. 提案手法 3. 評価・結果 4. まとめ
  • 6. 既存の3D姿勢推定 6Analytical: 幾何的に解決する手法、Predictive: ネットワークで解決する手法 Single Camera Multi Camera Analytical Predictive Analytical Predictive Single Camera Multi Camera Multi Person Single Person 射影したときに2D keypointにあうように3D keypointを最適化 2D keypointから3D keypointを回帰 (Deep的手法中心) 複数視点の2D keypointを幾何的手法(三角測量)で3D keypointを再現 複数の2D keypointを3D特徴表現に落として回帰 (幾何的要素も含むことあり) Single Personに帰着 (Top-down) / Multi-Cameraの特殊ケース Pictorical modelやRe-identificationを使い、カメラ間の人物の紐付け
  • 7. 既存の3D姿勢推定 7Analytical: 幾何的に解決する手法、Predictive: ネットワークで解決する手法 Single Camera Multi Camera Analytical Predictive Analytical Predictive Single Camera Multi Camera Multi Person Single Person • 以下の2つの項目が特に関連項目  Single-Person Multi-Camera  Multi-Person Multi-Camera • Single-Person Multi-Cameraのタスクは比較的論文あり  提案手法の発想が影響を強く受けているようにみえる  精度の高いモデルはPredictive要素を含む (こちらが現状の主流な雰囲気) • Multi-Person Multi-Cameraの研究はあまり盛んでない  比較のために出てくるという感じ  提案手法はむしろ、Single-Person Multi-Cameraの考え方を応用させたと捉え るほうが自然
  • 8. 既存の3D姿勢推定 8Analytical: 幾何的に解決する手法、Predictive: ネットワークで解決する手法 Single Camera Multi Camera Analytical Predictive Analytical Predictive Single Camera Multi Camera Multi Person Single Person  Learnable Triagular of Human Pose [Iskakov+ ICCV’19 (oral)]  ① triangulationを活用する手法と② 3D特徴を使う手法の2つを提案  ②のほうが精度が良くメインの手法 (SOTA/今回の提案手法に近い)  Cross View Fusion for 3D Human Pose Estimation [Qiu+ ICCV’19]  2D姿勢の結果とtriangulationを活用する手法 ([Iskakov+]①に近い)  Epipolar Transformers [He+ CVPR’20]  エピポーラ幾何を利用したモジュールの提案  上記2つの手法 ([Qiu+]と[Iskakov+]①)の精度向上 [Iskakov+ ICCV’19]① [Iskakov+ ICCV’19]②
  • 9. 既存の3D姿勢推定 9Analytical: 幾何的に解決する手法、Predictive: ネットワークで解決する手法 Single Camera Multi Camera Analytical Predictive Analytical Predictive Single Camera Multi Camera Multi Person Single Person  Fast and Robust Multi-Person 3D Pose Estimation from Multiple Views [Dong+ CVPR’19]  2Dの姿勢推定をカメラごとに独立で行い、同じ人物でグルーピング を行い、Single-Personの3D姿勢推定の処理を行う  2D姿勢推定の結果を前提にするため、精度が落ちる  (この論文に[Iskakov+ ICCV’19]の要素を足す感じが今回紹介する VoxelPoseのイメージ)
  • 10. 目次 10 1. 既存手法 2. 提案手法 3. 評価・結果 4. まとめ
  • 11. 提案手法 VoxelPose の全体像 11 • 提案手法は3つのモジュールから構成される  (a) 2D Pose Estimation : 2次元の姿勢推定モデルで単視点からの2D poseのヒートマップを出力  (b) Cuboid Proposal Network (CPN) : 人の存在候補領域を推定  (c) Pose Regression Network (PRN) : CPNの各候補領域ごとに3D poseを推定
  • 12. (a) 2D Pose Estimation 12 • まず、各視点のカメラ画像を独立に2D Pose Estimationを行う • 2D Pose EstimationのモデルはHRNet (2DのSOTAモデル)を利用 • データが少ない場合、過学習回避のため学習済みのモデルを使用  実験ではCOCOの学習済みモデルを使用  キーポイントまでは計算しない  ヒートマップの状態で、CPN及び PRNで使用されるのがポイント
  • 13. (b) Cuboid Proposal Network (CPN) 13 • 各視点の2D ヒートマップから人の存在領域を推定する  Feature Volume: 2Dヒートマップを3次元の特徴量に落とし込む (多分、[Islakov+ ICCV’19]と同様)  Cuboid Proposals: 3D convのネットワークを使って、人物の3D存在位置を推定 (ヒートマップ) 引用: [Iskakov+ ICCV’19]
  • 14. (b) Cuboid Proposal Network (CPN) 14 • Feature Volumeは以下のように、今回のデータセットでは、8m x 8m x 2m程度になる  80 x 80 x 20の特徴量なので、1つのbinが大体100mmになる (人物の位置を特定だけなので粗い)  人がどこにいるかの候補領域を推定する (図のproposals (2m x 2m x 2m)にあたる領域を推定) 8m 8m 2m
  • 15. (c) Pose Regression Network (PRN) 15 • CPNで推定した候補領域ごとに3D姿勢を推定する • CPNの3D特徴量の立方体より、小さなグリッドを使うことで、精緻な推定を行う • CPNの処理はあくまで、候補領域を出すための処理であることに注意  Proposalsのサイズは実スケー ルの 2m x 2m x 2mのサイズ  PRNのFeatureは64 x 64 x 64 なので、1つのbinが、2000 / 64 = 31.25mm になる  ネットワークはCPNと入出力 サイズ以外同じ  Keypointごとに重みは共有されており、proposal 個数分の推論がされる (実装見ても多分そう)
  • 16. 学習方法 16 • 2D姿勢推定の学習を20エポック(学習率のスケジューリングあり)行い、CPNとPRNを含めて 10エポック学習を回した (データセットによっては2D推定にCOCOで学習済みの重みを使用) • CPNではGround Truth (GT)をガウシアンを使って、ヒートマップ化しておく GT GT 予測値 予測値 引用: [Zhou+ arXiv’19] CenterNetに似ている
  • 17. 目次 17 1. 既存手法 2. 提案手法 3. 評価・結果 4. まとめ
  • 18. データセット 18  [Belagiannis+ CVPR’14]  屋外で3人の人物を3つのカメラ で撮影したデータセット  小さなデータセットで過学習し ないように、2D姿勢推定は COCOで学習し、CPNとPRNだ けこのデータセットで学習  [Joo+ TPAMI’17]  様々なカメラ数 (3, 6, 12, 13, 23) で日常的な行動をする人々を撮 影したデータセット  このデータセットについては、 2D姿勢推定の学習においてもこ のデータセットを使用  [Belagiannis+ CVPR’14]  棚を分解する4人の人物を5つの カメラで撮影したデータセット  「The Campus Dataset」と同様 にCPNとPRNだけこのデータ セットで学習  「The Campus Dataset」と同じ 論文で評価として提案された The CMU Panoptic DatasetThe Campus Dataset The Shelf Dataset
  • 19. CPNの評価 19 • 提案手法は3つのモジュールから構成される  (a) 2D Pose Estimation : 2次元の姿勢推定モデルで単視点からの2D poseのヒートマップを出力  (b) Cuboid Proposal Network (CPN) : 人の存在候補領域を推定  (c) Pose Regression Network (PRN) : CPNの各候補領域ごとに3D poseを推定
  • 20. CPNの評価 20 • Feature Volumeのサイズ (80 x 80 x 20の部分)の妥当性  Binの幅を小さくすれば、精度が高くなっていく ((a)の図参照)  精度と速度のトレードオフを考えて、80 x 80 x 20がちょうどよかった • 自動生成したヒートマップの学習利用可能性  3D姿勢を射影して2D姿勢のヒートマップを生成し、それで学習 ((b)の図参照)  (a)と(b)の差がない  -> 画像データがなくても同等の性能が実現できる (汎化性能が高い) • カメラの数による影響の検証  複数のカメラを使わずに、1つのカメラだけで検証 ((c)の図参照)  175mmのthresholdでも95%以上出ている  1つのカメラだけでも検出可能な実用性がある (c) (b) (a) [補足] この検証にはPanopticデータセットが使用されている (a)、(b)の実験では5視点のカメラが使用されており、(b)の学習ではカメラ画像は使われていない (c)の実験では学習/テストともに1視点カメラが使われている
  • 21. PRNの評価 21 • 提案手法は3つのモジュールから構成される  (a) 2D Pose Estimation : 2次元の姿勢推定モデルで単視点からの2D poseのヒートマップを出力  (b) Cuboid Proposal Network (CPN) : 人の存在候補領域を推定  (c) Pose Regression Network (PRN) : CPNの各候補領域ごとに3D poseを推定
  • 22. 評価指標 22  [Dong+ CVPR’19]  正解の関節点ごとに推論された最も近い関節点が 正しいかどうかのaccuracy  False positive(誤検知)は考慮されない Percentage of Correct Parts (PCP3D)  PCP3Dのfalse positiveが考慮されない制限を解 決するためにAverage Precisionを導入  MPJPEの値がKmm以下かどうかの基準で、 Average Precisionを計算  物体認識で使われるAverage Precisionと感覚が 違うので注意  物体認識のAP: Kが大きくなると難しい  今回のAP: Kが大きくなると簡単 Average Precision (AP)  推論された関節点と正解の関節点の距離を計算し、 全ての関節点の平均を取る  単位としてよくmmが使われる  Single-Personの手法との比較で使用 Mean Per Joint Position Error (MPJPE)
  • 23. PRNの評価 23 • CPNのbinのサイズの影響 – (a)と(b)の比較。Binの数によって精度は上がるが、計算コスト も上がるので、80 x 80 x 20がよい • カメラ(視点)の数の影響  (b)-(d)の比較。カメラの数を少なくすると、特にAP25 のように厳しい評価値では極端に悪くなる  ただし、AP150の値はあまり下がらず、1視点3D姿勢 と同様の評価基準の(j)はSOTA (40.1mm) と同等水準 • Heatmapの精度の影響  (b)と(g)の比較。Ground truthのheatmapを使うと精 度は上がる • CPNのProposalの影響  (b)と(h)の比較。あまり変わらない。CPNの精度は十 分で、PRNに改善可能性がある [補足] この検証にもPanopticデータセットが使用されている
  • 24. 推論結果の例 24 • (a) 左が提案手法を射影した結果で、右がHRNet の結果。通常難しいocclusionに対応 (複数カメ ラ使用のためfairな比較ではないことに注意) • (b) 失敗例。複数のカメラにうまく入れず、姿勢 が崩れる • (c) カメラ視点が1つでもそこそこうまくいく例 • (d) 5視点の各射影とそれを3D表現で表示した例 (a) (b) (c) (d)
  • 25. 既存手法との比較 25 • 2つのデータセット (Campus、Shelf) でSOTA (PCP3D) • ただし、既に高い値値での比較になってしまって いる • Panopticは既存手法での値が見当たらなく、比較 ができていないとのこと (future work) • エラーになっているものの多くは、正解データの 間違いによるものだったとのこと (右図は正解デー タであるが、アノテーション漏れがある)
  • 26. 既存手法との比較 26 Multi-Personの3D Pose EstimationでSOTA 引用: https://paperswithcode.com/task/3d-multi-person-pose-estimation
  • 27. 既存手法との比較 27 Single-Personの3D Pose Estimation (Human3.6m) でもSOTAと同等 19mmなので この辺り 引用: https://paperswithcode.com/sota/3d-human-pose-estimation-on-human36m
  • 28. 目次 28 1. 既存手法 2. 提案手法 3. 評価・結果 4. まとめ
  • 29. まとめ 29 • 要約  複数カメラを使った複数人の3次元姿勢推定の手法であるVoxelPoseを提案した  CPNとPRNを使って2次元姿勢を経由せずに、直接的に3次元姿勢を推定するため、2D姿勢推定の結 果の悪影響を受けにくい、頑健なモデルとなった • 所感  空間 (今回は 8m x 2m x 2mを仮定) の広さによって、どのように変わるのか見てみたい  既存手法に比べて、汎用的で実用的な手法になっていると感じた。とはいえ、それでも、空間の大 小や複数カメラの扱いなど場面に応じて、変動が大きいため、どこまで汎用的に使うのがよいのか は難しそう  あまりSOTAにこだわっていないようで、テクニカルな改善可能な点を多くあるように感じた。利用 シーンにもよるが、現状のTitan X GPUで300msは遅い