SlideShare una empresa de Scribd logo
1 de 25
Descargar para leer sin conexión
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
BANMo: Building Animatable 3D Neural Models from
Many Casual Videos
Kento Doi, Matsuo Lab.
何ができるか?
• Deformableなオブジェクトの動画から,動かせる3Dモデルを復元
• ニューラル陰関数表現 (neural implicit representation (NIR)) でcanonical 3D
shape, appearance, skinning weights, time-varying articulationを表現
• 3D shapeはSDFで表現
• skinning weights … 各⾻格 (bone) に対する物体表⾯ (skin) の対応度合いを表す
• time-varying articulation … 時刻ごとの関節の動き
何ができるか?
書誌情報
• 著者の所属はMeta AI, Meta Reality Labs, CMU
• Metaは前Facebook
• Meta AIにおけるインターンシップでの成果
• 2021/12にarXivで公開された
• 投稿された会議などは不明
• CVPR2022, ECCV2022, SIGGRAPH2022あたり?
モチベーション
• モチベーション:動画から3Dモデルを復元したい
• 静的なシーンでは,SfMを⽤いて3D形状の復元が可能
• 例) ウェブ上の画像からランドマークや街の形状を復元
Ø⽣き物のように,変形する (deformable) オブジェクトを復元するには?
• 問題設定:Deformableなオブジェクトが映る動画を⽤いた3D復元
• ただし,同じオブジェクトを写した複数の動画があるとする
• 例) 異なる⽇に撮影された飼い猫の動画
提案⼿法:overview
• BANMo (Builder of Animatable 3D Neural Models)
• 多数の動画フレームの情報をcanonical spaceに統合し,3D shape,
appearance, articulationを学習
• Canonical space中のモデルを変形させることで,各時刻のフレームのオブ
ジェクト表現
提案⼿法:overview
• BANMo (Builder of Animatable 3D Neural Models)
• 変形 (articulation) をどのように表現するか
• Neural blend skinningを⽤いる
• NIRで表現されたモデルの各部位を複数の剛体変換の重みづけにより変換
• 各部位で異なる重みづけを⾏うことで,変形を表現可能
提案⼿法:課題
• Canonical spaceでモデルを獲得する上での課題が3つ
1. どのようにオブジェクトの⾒かけと変形を表現するか
2. Canonical spaceと各フレーム間のマッピングをどのように獲得するか
3. フレーム間の対応をどのように獲得するか
Øこれらを解決する⼯夫を提案
提案⼿法:Shape and Appearance Model
• オブジェクトの形状と⾒かけをどう表現するか
• Canonical space中のモデルと,各時刻のモデルの関係性は??
提案⼿法:Preliminary
• NeRF (Neural Radiance Fields)
• Radiance field is a continuous function whose input is the 3D coordinates plus the
view direction (𝑥, 𝑦, 𝑧, 𝜃, 𝜙) and output is the density and the view-dependent color
(𝑅𝐺𝐵𝜎)
• Arbitrarily view is rendered using the classical volume rendering and NeRF
10
B. Mildenhall et al. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV, 2020. https://github.com/bmild/nerf
提案⼿法:Canonical shape model
• Canonical spaceでの3Dモデルを定義し,各フレームのオブジェクト
の形状をcanonical spaceのモデルの変換で表現
• Canonical spaceではモデルを以下のように表現する
𝑋∗ ∈ ℝ" : canonical spaceの三次元点座標
𝑣# ∈ ℝ$ : 時刻ごとの視線⽅向
𝜔%
#
∈ ℝ&'
: 照明条件を司る潜在表現 (動画で共通)(learnable parameter)
𝑐# ∈ ℝ" : 三次元点のRGB color
𝜎 ∈ [0, 1] : 三次元点の密度
𝜓 ∈ ℝ(& : canonical embedding (後で使う)
※ 𝜎 はSDFをラプラス分布で密度に変換している
提案⼿法:Space-time warping model
• Canonical spaceのモデルを各時刻のモデルの変形させるには
• 三次元点を別の三次元点に移すwarping関数を考える
• Forwardとbackwardの2種類のwarpingを定義
• Forward warping function
• Backward warping function
<latexit sha1_base64="6ACywV6Or5w7o1sDHmKIIB2nvA8=">AAACl3ichVFNSxtBGH5crR+x1agXSy+LwVJKCRMRFS+KBfFo1JiA0TC7jsngfjE7ieiSP+AfUPBUoYj0P3jxoH+gB39C8WihFw++2SxoK9V32ZnnfeZ93nlmxgocGWrGbjqMzq433T29fan+t+8GBtNDw+uhX1e2KNi+46uSxUPhSE8UtNSOKAVKcNdyRNHa/dpaLzaECqXvren9QGy6vOrJHWlzTVQlPVF2ua7Z3ImKza1IfzHLSlZrmivl7zXNWbO09fkpRbmupDMsy+Iwn4NcAjJIYtlPn6GMbfiwUYcLAQ+asAOOkL4N5MAQELeJiDhFSMbrAk2kSFunKkEVnNhdGquUbSSsR3mrZxirbdrFoV+R0sQ4+8nO2R27Zj/YL3b/315R3KPlZZ9mq60VQWXwcHT1z6sql2aN2qPqRc8aO5iJvUryHsRM6xR2W984OLpbnV0Zjz6yU3ZL/r+xG3ZJJ/Aav+3vebFyghQ9QO7f634O1ieyuansZH4yM7+QPEUvPmAMn+i+pzGPJSyjQPse4wJXuDbeG3PGorHULjU6Es0I/goj/wDEcp1O</latexit>
Wt,!
: X⇤
! Xt
<latexit sha1_base64="RFw6zqauKE8nrkeUVnDBo3YTduc=">AAAClnichVFNSxtBGH7cqrWp1VgvQi9Lg1KKhNkirXgo0lLsMX7EBIyG2XWSDM5+MDtJ0SV/oH/AgycLUkp/Q0+C9g/04E8oHi300oNvNgtiRX2XnXneZ97nnWdm3EjJ2DB2NmA9GBwafjjyKPd49MnYeH7i6XoctrUnyl6oQl11eSyUDETZSKNENdKC+64SFXfnfW+90hE6lmGwZnYjsenzZiAb0uOGqHreqfnctDyukkp3KzGzdk2JhuFah5+69oJd3TJ2Tctmq09R/rKeL7AiS8O+CZwMFJBFKcx/RQ3bCOGhDR8CAQxhBY6Yvg04YIiI20RCnCYk03WBLnKkbVOVoApO7A6NTco2MjagvNczTtUe7aLo16S0Mc1+sW/sgv1k39lv9u/WXknao+dll2a3rxVRffzz1Orfe1U+zQatK9Wdng0amE+9SvIepUzvFF5f39nbv1hdWJlOZtgXdk7+D9kZO6YTBJ0/3tGyWDlAjh7A+f+6b4L1V0XndXFuea6w+C57ihE8w3O8oPt+g0V8RAll2ncfP3CCU2vKemt9sJb6pdZAppnEtbBKl6hRnNE=</latexit>
Wt,
: Xt
! X⇤
提案⼿法:Space-time warping model
• NeRFと同様に,volume renderingで各時刻の画像をレンダリング
• Warpingを考慮すると次の式のようになる
• ただし,𝜏.は点iにレイが到達する確率,𝑜 はピクセルの透過率を表す
• 𝜏.はレイが点に到達するまでに物体にぶつからない場合に⾼くなる
提案⼿法:Deformation Model via Neural Blend Skinning
• Canonical spaceの三次元点𝑋∗
と各時刻の三次元点𝑋"
の間のワープを
どのように表現するか
提案⼿法:Blend skinning deformation
• Canonical → 各フレームのワーピングは次のような式で⾏われる
• ただし,G, Jは共に剛体変換を表す
• また,G, JはMLPにより各時刻の潜在変数から計算される
• さらに,JはB個の剛体変換の加重平均により得られる (linear blend skinning)
• Wは重み,ΔJは剛体変換のパラメータを表す
提案⼿法: Skinning weights
• 前ページの重みWをどのように求めるか,
ØCanonical spaceにB個のガウス分布を配置
Ø点𝑋∗とガウス分布の中⼼とのマハラノビス距離で重みづけを⾏う
Øガウス分布のパラメータを学習
提案⼿法: Registration via Canonical Embeddings
• 異なる時刻で観測したピクセルを対応づけるため,canonical space
の三次元点のセマンティックな情報の埋め込みを学習する
• 具体的には,三次元点𝑋∗
をMLPを⽤いて𝜓 ∈ ℝ#$
に埋め込む
提案⼿法:Canonical embeddings matching
• 得られた埋め込みを⽤いて2D-3Dのマッチングを計算できる
Ø特徴を⽤いたマッチングと幾何的な変換の整合を正則化として⽤いる
• 2Dの特徴は,CNNにより抽出したものを⽤いる
• 2D-3Dの対応はsoft argmaxにより求める:
2D特徴の
embedding
3D特徴の
embedding
Optimization
RGB値の⼆乗誤差 &
ピクセルの透過率の誤差
2D optical flowと
canonical spaceを経由し
て求めたflowの整合
skinningとembedding
matchingの整合
feature matchingにより
求めた3D点を2Dに投影
forward warpingと
backward warpingの整合
実験:定性評価
• データセット:
• 猫(ブリティッシュショートヘア)の動画20本
• ⼈物の動画10本
• シルエットとoptical flowはそれぞれ学習済みモデルを⽤いて取得
• ベースライン:
• Nerfies … NeRF系のモデル.radiance field + deformationでシーンをモデル
化
• ViSER … 類似⼿法.複数視点の動画から動かせるオブジェクトを復元.NIR
の代わりにmeshモデルを利⽤
実験:定性評価
実験:定量評価
• データセット:
• AMA human dataset … メッシュのGTがある⼈物の動画データセット
• Animated Objects dataset … CGで作成した動画のデータセット
• 評価指標:
• 再構成した3Dモデルと正解のメッシュモデルの間のChamfer距離
実験:定量評価
実験:定量評価
まとめ
• 動画から動きのある3Dモデルを復元するBANMoを提案
• Canonical space中の3Dモデルを各フレームに投影する⽅法でオブ
ジェクトを表現
• モデルの変形をneural blend skinningで表現
• フレームとcanonical spaceの対応づけを強化するための埋め込みを
提案
• 感想
• 物体が中央に写っている動画があれば3Dモデルを復元できるのはすごい
• DeformableなNeRFの極みのような研究だと思った

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
Point net
Point netPoint net
Point net
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
 

Similar a [DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos

第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
kanejaki
 

Similar a [DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos (20)

Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
 
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
輪読発表資料: Efficient Virtual Shadow Maps for Many Lights
輪読発表資料: Efficient Virtual Shadow Maps for Many Lights輪読発表資料: Efficient Virtual Shadow Maps for Many Lights
輪読発表資料: Efficient Virtual Shadow Maps for Many Lights
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
 
Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
 
Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
 
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
 
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
 

Más de Deep Learning JP

Más de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ BANMo: Building Animatable 3D Neural Models from Many Casual Videos Kento Doi, Matsuo Lab.
  • 2. 何ができるか? • Deformableなオブジェクトの動画から,動かせる3Dモデルを復元 • ニューラル陰関数表現 (neural implicit representation (NIR)) でcanonical 3D shape, appearance, skinning weights, time-varying articulationを表現 • 3D shapeはSDFで表現 • skinning weights … 各⾻格 (bone) に対する物体表⾯ (skin) の対応度合いを表す • time-varying articulation … 時刻ごとの関節の動き
  • 4. 書誌情報 • 著者の所属はMeta AI, Meta Reality Labs, CMU • Metaは前Facebook • Meta AIにおけるインターンシップでの成果 • 2021/12にarXivで公開された • 投稿された会議などは不明 • CVPR2022, ECCV2022, SIGGRAPH2022あたり?
  • 5. モチベーション • モチベーション:動画から3Dモデルを復元したい • 静的なシーンでは,SfMを⽤いて3D形状の復元が可能 • 例) ウェブ上の画像からランドマークや街の形状を復元 Ø⽣き物のように,変形する (deformable) オブジェクトを復元するには? • 問題設定:Deformableなオブジェクトが映る動画を⽤いた3D復元 • ただし,同じオブジェクトを写した複数の動画があるとする • 例) 異なる⽇に撮影された飼い猫の動画
  • 6. 提案⼿法:overview • BANMo (Builder of Animatable 3D Neural Models) • 多数の動画フレームの情報をcanonical spaceに統合し,3D shape, appearance, articulationを学習 • Canonical space中のモデルを変形させることで,各時刻のフレームのオブ ジェクト表現
  • 7. 提案⼿法:overview • BANMo (Builder of Animatable 3D Neural Models) • 変形 (articulation) をどのように表現するか • Neural blend skinningを⽤いる • NIRで表現されたモデルの各部位を複数の剛体変換の重みづけにより変換 • 各部位で異なる重みづけを⾏うことで,変形を表現可能
  • 8. 提案⼿法:課題 • Canonical spaceでモデルを獲得する上での課題が3つ 1. どのようにオブジェクトの⾒かけと変形を表現するか 2. Canonical spaceと各フレーム間のマッピングをどのように獲得するか 3. フレーム間の対応をどのように獲得するか Øこれらを解決する⼯夫を提案
  • 9. 提案⼿法:Shape and Appearance Model • オブジェクトの形状と⾒かけをどう表現するか • Canonical space中のモデルと,各時刻のモデルの関係性は??
  • 10. 提案⼿法:Preliminary • NeRF (Neural Radiance Fields) • Radiance field is a continuous function whose input is the 3D coordinates plus the view direction (𝑥, 𝑦, 𝑧, 𝜃, 𝜙) and output is the density and the view-dependent color (𝑅𝐺𝐵𝜎) • Arbitrarily view is rendered using the classical volume rendering and NeRF 10 B. Mildenhall et al. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV, 2020. https://github.com/bmild/nerf
  • 11. 提案⼿法:Canonical shape model • Canonical spaceでの3Dモデルを定義し,各フレームのオブジェクト の形状をcanonical spaceのモデルの変換で表現 • Canonical spaceではモデルを以下のように表現する 𝑋∗ ∈ ℝ" : canonical spaceの三次元点座標 𝑣# ∈ ℝ$ : 時刻ごとの視線⽅向 𝜔% # ∈ ℝ&' : 照明条件を司る潜在表現 (動画で共通)(learnable parameter) 𝑐# ∈ ℝ" : 三次元点のRGB color 𝜎 ∈ [0, 1] : 三次元点の密度 𝜓 ∈ ℝ(& : canonical embedding (後で使う) ※ 𝜎 はSDFをラプラス分布で密度に変換している
  • 12. 提案⼿法:Space-time warping model • Canonical spaceのモデルを各時刻のモデルの変形させるには • 三次元点を別の三次元点に移すwarping関数を考える • Forwardとbackwardの2種類のwarpingを定義 • Forward warping function • Backward warping function <latexit sha1_base64="6ACywV6Or5w7o1sDHmKIIB2nvA8=">AAACl3ichVFNSxtBGH5crR+x1agXSy+LwVJKCRMRFS+KBfFo1JiA0TC7jsngfjE7ieiSP+AfUPBUoYj0P3jxoH+gB39C8WihFw++2SxoK9V32ZnnfeZ93nlmxgocGWrGbjqMzq433T29fan+t+8GBtNDw+uhX1e2KNi+46uSxUPhSE8UtNSOKAVKcNdyRNHa/dpaLzaECqXvren9QGy6vOrJHWlzTVQlPVF2ua7Z3ImKza1IfzHLSlZrmivl7zXNWbO09fkpRbmupDMsy+Iwn4NcAjJIYtlPn6GMbfiwUYcLAQ+asAOOkL4N5MAQELeJiDhFSMbrAk2kSFunKkEVnNhdGquUbSSsR3mrZxirbdrFoV+R0sQ4+8nO2R27Zj/YL3b/315R3KPlZZ9mq60VQWXwcHT1z6sql2aN2qPqRc8aO5iJvUryHsRM6xR2W984OLpbnV0Zjz6yU3ZL/r+xG3ZJJ/Aav+3vebFyghQ9QO7f634O1ieyuansZH4yM7+QPEUvPmAMn+i+pzGPJSyjQPse4wJXuDbeG3PGorHULjU6Es0I/goj/wDEcp1O</latexit> Wt,! : X⇤ ! Xt <latexit sha1_base64="RFw6zqauKE8nrkeUVnDBo3YTduc=">AAAClnichVFNSxtBGH7cqrWp1VgvQi9Lg1KKhNkirXgo0lLsMX7EBIyG2XWSDM5+MDtJ0SV/oH/AgycLUkp/Q0+C9g/04E8oHi300oNvNgtiRX2XnXneZ97nnWdm3EjJ2DB2NmA9GBwafjjyKPd49MnYeH7i6XoctrUnyl6oQl11eSyUDETZSKNENdKC+64SFXfnfW+90hE6lmGwZnYjsenzZiAb0uOGqHreqfnctDyukkp3KzGzdk2JhuFah5+69oJd3TJ2Tctmq09R/rKeL7AiS8O+CZwMFJBFKcx/RQ3bCOGhDR8CAQxhBY6Yvg04YIiI20RCnCYk03WBLnKkbVOVoApO7A6NTco2MjagvNczTtUe7aLo16S0Mc1+sW/sgv1k39lv9u/WXknao+dll2a3rxVRffzz1Orfe1U+zQatK9Wdng0amE+9SvIepUzvFF5f39nbv1hdWJlOZtgXdk7+D9kZO6YTBJ0/3tGyWDlAjh7A+f+6b4L1V0XndXFuea6w+C57ihE8w3O8oPt+g0V8RAll2ncfP3CCU2vKemt9sJb6pdZAppnEtbBKl6hRnNE=</latexit> Wt, : Xt ! X⇤
  • 13. 提案⼿法:Space-time warping model • NeRFと同様に,volume renderingで各時刻の画像をレンダリング • Warpingを考慮すると次の式のようになる • ただし,𝜏.は点iにレイが到達する確率,𝑜 はピクセルの透過率を表す • 𝜏.はレイが点に到達するまでに物体にぶつからない場合に⾼くなる
  • 14. 提案⼿法:Deformation Model via Neural Blend Skinning • Canonical spaceの三次元点𝑋∗ と各時刻の三次元点𝑋" の間のワープを どのように表現するか
  • 15. 提案⼿法:Blend skinning deformation • Canonical → 各フレームのワーピングは次のような式で⾏われる • ただし,G, Jは共に剛体変換を表す • また,G, JはMLPにより各時刻の潜在変数から計算される • さらに,JはB個の剛体変換の加重平均により得られる (linear blend skinning) • Wは重み,ΔJは剛体変換のパラメータを表す
  • 16. 提案⼿法: Skinning weights • 前ページの重みWをどのように求めるか, ØCanonical spaceにB個のガウス分布を配置 Ø点𝑋∗とガウス分布の中⼼とのマハラノビス距離で重みづけを⾏う Øガウス分布のパラメータを学習
  • 17. 提案⼿法: Registration via Canonical Embeddings • 異なる時刻で観測したピクセルを対応づけるため,canonical space の三次元点のセマンティックな情報の埋め込みを学習する • 具体的には,三次元点𝑋∗ をMLPを⽤いて𝜓 ∈ ℝ#$ に埋め込む
  • 18. 提案⼿法:Canonical embeddings matching • 得られた埋め込みを⽤いて2D-3Dのマッチングを計算できる Ø特徴を⽤いたマッチングと幾何的な変換の整合を正則化として⽤いる • 2Dの特徴は,CNNにより抽出したものを⽤いる • 2D-3Dの対応はsoft argmaxにより求める: 2D特徴の embedding 3D特徴の embedding
  • 19. Optimization RGB値の⼆乗誤差 & ピクセルの透過率の誤差 2D optical flowと canonical spaceを経由し て求めたflowの整合 skinningとembedding matchingの整合 feature matchingにより 求めた3D点を2Dに投影 forward warpingと backward warpingの整合
  • 20. 実験:定性評価 • データセット: • 猫(ブリティッシュショートヘア)の動画20本 • ⼈物の動画10本 • シルエットとoptical flowはそれぞれ学習済みモデルを⽤いて取得 • ベースライン: • Nerfies … NeRF系のモデル.radiance field + deformationでシーンをモデル 化 • ViSER … 類似⼿法.複数視点の動画から動かせるオブジェクトを復元.NIR の代わりにmeshモデルを利⽤
  • 22. 実験:定量評価 • データセット: • AMA human dataset … メッシュのGTがある⼈物の動画データセット • Animated Objects dataset … CGで作成した動画のデータセット • 評価指標: • 再構成した3Dモデルと正解のメッシュモデルの間のChamfer距離
  • 25. まとめ • 動画から動きのある3Dモデルを復元するBANMoを提案 • Canonical space中の3Dモデルを各フレームに投影する⽅法でオブ ジェクトを表現 • モデルの変形をneural blend skinningで表現 • フレームとcanonical spaceの対応づけを強化するための埋め込みを 提案 • 感想 • 物体が中央に写っている動画があれば3Dモデルを復元できるのはすごい • DeformableなNeRFの極みのような研究だと思った