SlideShare una empresa de Scribd logo
1 de 21
Descargar para leer sin conexión
1
HyperDiffusion: Generating Implicit Neural Fields with
Weight-Space Diffusion
Naruya Kondo (Digital Nature Group D1)
書誌情報
2
● HyperDiffusion: Generating Implicit Neural Fields with Weight-Space
Diffusion
○ Arxiv Submitted on 2023/03/29 (CVPR?)
○ by Technical University of Munich, Apple (⇦ Vision Pro (VR HMD) で話題の!!)
● ひとことで言うと
○ 3D / 4D の (条件付けなしの) 深層生成モデル
○ データセットの各データを (neural field) MLPで過適合させて、
MLP のパラメタ空間で diffusion model を学習、MLP パラメタの生成を可能にする
○ 4D でも同じやり方でできる
プロジェクトページ
https://ziyaerkoc.com/hyperdiffusion/?ref=aiartweekly
3
ここからの内容
• 背景
• 提案手法
– Per-Sample MLP Overfitting
– MLP Weight-Space Diffusion
– 実装のベース: G.pt
• 比較手法 (3つ)
• 評価指標 (4つ)
• 結果
• Limitation
• (関連研究)
• まとめと感想
4
HyperDiffusion
5
背景
• 3D の生成モデルの学習が難しい
– ボクセル (データ量が爆発)
– メッシュ (スパース、トポロジーの問題)
– (点群 (?) / Tri-Plane (?))
– …どういう表現ベースで学習すればいいのか
• 3D のデータがそんなにない
– 空間全体が学習できる (多様体が獲得できる) ほどもない
– 過適合を避けるとなると、詳細な形を生成するのが困難
• 各データに最適化されたMLPの空間で diffusion する!
– データが密
– High detailed な生成が期待できる
6
全体像
7
(過適合MLPを用意)
学習データ
(過適合されたような、新しいMLPを生成)
全体像 (これ自体は簡単)
8
(MLP Overfitting + Diffusion)
Per-Sample MLP Overfitting
• 入力 → 出力: xyz,(t) → in/out (1/0)
• モデル: 3層のMLP, hidden 128 (パラメタ数≈36k)
• データ数: 10万点 (一様) + 10万点 (表面付近)
• モデルの初期化: 1つめのデータに overfitting した MLPを使う
• 学習: BCE Loss, 800epoch, 6分 per shape
9
だいたい同じようなMLPの
パラメタが集められる!
MLP Weight-Space Diffusion
Diffusion
• transformerベース。500 diffusion step
• MLPパラメタに noise を足して除いて学習
transformer
• 2880 hidden, 12 layers, 16 attention head
• 9個のトークン (w,b × 4 + t)
10
w,b
(4箇所)
t: diffusion step
Learning to Learn with Generative Models of Neural Network
Checkpoints (ICLR 2023 Reject, reviewer「役に立つか分からない」)
• 勾配法 (の最適化器) は、過去の経験を参考にしない問題がある
– 常に目の前や少し前のデータしか考えてない
• 大量のモデルを学習させた時の checkpointsで diffusion してみた
• diffusion step でパラメタ最適化ができるようになり、
(そのタスクでは) 1stepだけで劇的にlossを更新できるようになる
• パラメータ空間の多様体を見ることができるようになる
• (狙ったloss / errorのモデルを作れるようになる)
• (感想: パラメタ空間 denoising のメタ学習ができたら最高そう)
実装のベース: G.pt
11
• PVD (Point Voxel Diffusion, ICCV 2021)
– 3D点群データで diffusion
– 球状の点群から始めて、point-voxel CNN で
点群全体を一括で少し動かすようにして denoise
• DPC (Diffusion Probabilistic Models, CVPR 2021)
– 3D点群データで diffusion
– auto-encoder の表現学習と組み合わせて、
点単位で動かす?
• Voxel ← オリジナルで追加のベースラインを用意 (for 3D, 4D)
– 24^3のボクセルに区切って、直接 transformer で diffusion
比較手法
12
評価指標
• FPD スコア
– 生成画像の品質と多様性の両方を評価
– FID スコアの 点群 ver. 学習済みPointNet++を代わりに使う。
• 学習済みモデルで正解データ、生成データの特徴量ベクトルを全部出して、特徴量ベクトルの多次元ガウ
ス分布のフレシェ距離がスコア。(多次元ガウス分布は特徴ベクトルの平均と共分散行列で作られる、フレ
シェ距離は、2つのガウス分布の平均の間のユークリッド距離と、それぞれの共分散行列のトレース (対角
成分の和) の差との和)
• (準備) Chamfer Distance (CD)
– 2つの点群X,Yの距離の定義の1つ (メッシュの距離にも使える)
• 点群Xの各点xについて一番近い点群Yのある点までの距離の総和 + そのXY逆版
• 4Dなら各時刻tでこのCDをとってTで平均
13
評価指標の詳しい説明がのってた論文 : https://arxiv.org/abs/2210.06978
Sr: 正解データ(点群)の集合、Sg: 生成データの集合
• MMD (Minimum matching distance) スコア
– どれだけ正解データセットに近い多様な生成ができているか
– 正解データそれぞれについて、一番近い生成データとの距離の和
– △ 悪い生成結果について評価されない
• COV (Coverage) スコア
– どれだけ正解データセットを網羅できているか
– 各生成データについて一番近い正解データを集めた集合の個数の、正解データ全体の個数に対する比率
評価指標
14
評価指標の詳しい説明がのってた論文 : https://arxiv.org/abs/2210.06978
COV だと誤って高く評価されてしまう例
はこんなの?この場合、次の1-NNA の
方が良さそう (by 近藤)
評価指標
• 1-NNA (1-nearest neighbor accuracy) スコア
– 生成画像の品質と多様性の両方を評価
– 生成に一番近いのが生成ならペナルティ1点、正解に一番近いのが正解ならペナルティ1点
– 正解データと生成データは空間の中で良く混ざっているといいよね、分布が完全に1対1対応レベルで一致して
いるとさらにいいよね。
あるデータ1個に注目して、(1番)近いサンプルのラベルだけからrかgかかを当てるときに、良く混ざってる (==
正解は50%) なら 0.5点、分布が完全一致 (== 正解は0%) なら 0点 (最高)、というスコア
15
評価指標の詳しい説明がのってた論文 : https://arxiv.org/abs/2210.06978
Nx : Sg ⋃ Sr - {X} の中で1番 X に近い要素
関数1[] : [] 内がYesなら1, Noなら0
結果
• データ: ShapeNet (3D), DeformingThings4D⇩ (4D)
• 3D
– 3000~6000個 /
カテゴリ
• 4D
– 1772 anim 採用
– 16 frame 16
結果
• 1-NNA と FPDが本命の評価指標。良かった
• 4D も voxel より良かった
• その他 ablation
– Positional Encoding ありの方が良い
– 1つめのNLPで残りのNLP初期化した方が良い
17
Limitations
• 明示的な surface reconstruction の最適化はできていない
– やってみたけどうまく行かなかったらしい
• 広域3Dデータに対して、MLP で表現するには限界がある
– (Block NeRF みたいに) ブロック分割して複数の MLP で表現できるかも
• (続きのanimation を生成するとかはたぶん難しそう (近藤))
18
関連研究
- GEM (2021) / Functa (2022)
- パラメタ空間の一部だけを生成したり、
潜在変数を使ってパラメタを変えたり
- DIFFUSION PROBABILISTIC FIELDS (2023)
- Explicit field representation で生成
19
functa
まとめと感想
• MLP のパラメタ空間で生成モデルを学習させる新しさ
– 高解像度化が期待できる
– 3D でも 4D でも同じやり方でできる
– 獲得した MLP は downstream タスクに使えるかも
– Diffusion Models の alternative アプローチとなるだろう
• 感想
– パラメタ空間のノイズってわかるものなのか・・・?
• (CNNの基底なら分かるっちゃ分かる(?)し、分かるのかな)
– より Diffusion が学習しやすい MLP のパラメタのパターンとかありそう
• そうなってくると使ってみたい
– Tri-Plane系とどっちの方がいいんだろう
20
(おまけ)
EMD (Earth-Mover-Distance)
• 点群Aの1点1点すべてを点群Bのどれかの点に被りなくかつ割り当てられない点も出ないように移動させたときの総
移動距離
• Chamfer Distanc の代わりに使われることがある。
• 最適な対応付けを効率的に見つけるアルゴリズム (ハンガリアンアルゴリズムなど) が存在します by GPT
21

Más contenido relacionado

La actualidad más candente

SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot LearningDeep Learning JP
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...Deep Learning JP
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionKazuyuki Miyazawa
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)Deep Learning JP
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 

La actualidad más candente (20)

SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 

Similar a 【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Diffusion

[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Modelscvpaper. challenge
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learningKazuki Adachi
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object DetectionDeep Learning JP
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
Combinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guidedCombinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guidedShuntaro Ohno
 
Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...Shuntaro Ohno
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...Deep Learning JP
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochiOhsawa Goodfellow
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也harePreferred Networks
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-studyNaoya Chiba
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイNaoya Chiba
 
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Masayoshi Kondo
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...Deep Learning JP
 

Similar a 【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Diffusion (20)

[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
Combinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guidedCombinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guided
 
Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
 

Más de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Más de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Diffusion

  • 1. 1 HyperDiffusion: Generating Implicit Neural Fields with Weight-Space Diffusion Naruya Kondo (Digital Nature Group D1)
  • 2. 書誌情報 2 ● HyperDiffusion: Generating Implicit Neural Fields with Weight-Space Diffusion ○ Arxiv Submitted on 2023/03/29 (CVPR?) ○ by Technical University of Munich, Apple (⇦ Vision Pro (VR HMD) で話題の!!) ● ひとことで言うと ○ 3D / 4D の (条件付けなしの) 深層生成モデル ○ データセットの各データを (neural field) MLPで過適合させて、 MLP のパラメタ空間で diffusion model を学習、MLP パラメタの生成を可能にする ○ 4D でも同じやり方でできる
  • 4. ここからの内容 • 背景 • 提案手法 – Per-Sample MLP Overfitting – MLP Weight-Space Diffusion – 実装のベース: G.pt • 比較手法 (3つ) • 評価指標 (4つ) • 結果 • Limitation • (関連研究) • まとめと感想 4
  • 6. 背景 • 3D の生成モデルの学習が難しい – ボクセル (データ量が爆発) – メッシュ (スパース、トポロジーの問題) – (点群 (?) / Tri-Plane (?)) – …どういう表現ベースで学習すればいいのか • 3D のデータがそんなにない – 空間全体が学習できる (多様体が獲得できる) ほどもない – 過適合を避けるとなると、詳細な形を生成するのが困難 • 各データに最適化されたMLPの空間で diffusion する! – データが密 – High detailed な生成が期待できる 6
  • 9. Per-Sample MLP Overfitting • 入力 → 出力: xyz,(t) → in/out (1/0) • モデル: 3層のMLP, hidden 128 (パラメタ数≈36k) • データ数: 10万点 (一様) + 10万点 (表面付近) • モデルの初期化: 1つめのデータに overfitting した MLPを使う • 学習: BCE Loss, 800epoch, 6分 per shape 9 だいたい同じようなMLPの パラメタが集められる!
  • 10. MLP Weight-Space Diffusion Diffusion • transformerベース。500 diffusion step • MLPパラメタに noise を足して除いて学習 transformer • 2880 hidden, 12 layers, 16 attention head • 9個のトークン (w,b × 4 + t) 10 w,b (4箇所) t: diffusion step
  • 11. Learning to Learn with Generative Models of Neural Network Checkpoints (ICLR 2023 Reject, reviewer「役に立つか分からない」) • 勾配法 (の最適化器) は、過去の経験を参考にしない問題がある – 常に目の前や少し前のデータしか考えてない • 大量のモデルを学習させた時の checkpointsで diffusion してみた • diffusion step でパラメタ最適化ができるようになり、 (そのタスクでは) 1stepだけで劇的にlossを更新できるようになる • パラメータ空間の多様体を見ることができるようになる • (狙ったloss / errorのモデルを作れるようになる) • (感想: パラメタ空間 denoising のメタ学習ができたら最高そう) 実装のベース: G.pt 11
  • 12. • PVD (Point Voxel Diffusion, ICCV 2021) – 3D点群データで diffusion – 球状の点群から始めて、point-voxel CNN で 点群全体を一括で少し動かすようにして denoise • DPC (Diffusion Probabilistic Models, CVPR 2021) – 3D点群データで diffusion – auto-encoder の表現学習と組み合わせて、 点単位で動かす? • Voxel ← オリジナルで追加のベースラインを用意 (for 3D, 4D) – 24^3のボクセルに区切って、直接 transformer で diffusion 比較手法 12
  • 13. 評価指標 • FPD スコア – 生成画像の品質と多様性の両方を評価 – FID スコアの 点群 ver. 学習済みPointNet++を代わりに使う。 • 学習済みモデルで正解データ、生成データの特徴量ベクトルを全部出して、特徴量ベクトルの多次元ガウ ス分布のフレシェ距離がスコア。(多次元ガウス分布は特徴ベクトルの平均と共分散行列で作られる、フレ シェ距離は、2つのガウス分布の平均の間のユークリッド距離と、それぞれの共分散行列のトレース (対角 成分の和) の差との和) • (準備) Chamfer Distance (CD) – 2つの点群X,Yの距離の定義の1つ (メッシュの距離にも使える) • 点群Xの各点xについて一番近い点群Yのある点までの距離の総和 + そのXY逆版 • 4Dなら各時刻tでこのCDをとってTで平均 13 評価指標の詳しい説明がのってた論文 : https://arxiv.org/abs/2210.06978
  • 14. Sr: 正解データ(点群)の集合、Sg: 生成データの集合 • MMD (Minimum matching distance) スコア – どれだけ正解データセットに近い多様な生成ができているか – 正解データそれぞれについて、一番近い生成データとの距離の和 – △ 悪い生成結果について評価されない • COV (Coverage) スコア – どれだけ正解データセットを網羅できているか – 各生成データについて一番近い正解データを集めた集合の個数の、正解データ全体の個数に対する比率 評価指標 14 評価指標の詳しい説明がのってた論文 : https://arxiv.org/abs/2210.06978 COV だと誤って高く評価されてしまう例 はこんなの?この場合、次の1-NNA の 方が良さそう (by 近藤)
  • 15. 評価指標 • 1-NNA (1-nearest neighbor accuracy) スコア – 生成画像の品質と多様性の両方を評価 – 生成に一番近いのが生成ならペナルティ1点、正解に一番近いのが正解ならペナルティ1点 – 正解データと生成データは空間の中で良く混ざっているといいよね、分布が完全に1対1対応レベルで一致して いるとさらにいいよね。 あるデータ1個に注目して、(1番)近いサンプルのラベルだけからrかgかかを当てるときに、良く混ざってる (== 正解は50%) なら 0.5点、分布が完全一致 (== 正解は0%) なら 0点 (最高)、というスコア 15 評価指標の詳しい説明がのってた論文 : https://arxiv.org/abs/2210.06978 Nx : Sg ⋃ Sr - {X} の中で1番 X に近い要素 関数1[] : [] 内がYesなら1, Noなら0
  • 16. 結果 • データ: ShapeNet (3D), DeformingThings4D⇩ (4D) • 3D – 3000~6000個 / カテゴリ • 4D – 1772 anim 採用 – 16 frame 16
  • 17. 結果 • 1-NNA と FPDが本命の評価指標。良かった • 4D も voxel より良かった • その他 ablation – Positional Encoding ありの方が良い – 1つめのNLPで残りのNLP初期化した方が良い 17
  • 18. Limitations • 明示的な surface reconstruction の最適化はできていない – やってみたけどうまく行かなかったらしい • 広域3Dデータに対して、MLP で表現するには限界がある – (Block NeRF みたいに) ブロック分割して複数の MLP で表現できるかも • (続きのanimation を生成するとかはたぶん難しそう (近藤)) 18
  • 19. 関連研究 - GEM (2021) / Functa (2022) - パラメタ空間の一部だけを生成したり、 潜在変数を使ってパラメタを変えたり - DIFFUSION PROBABILISTIC FIELDS (2023) - Explicit field representation で生成 19 functa
  • 20. まとめと感想 • MLP のパラメタ空間で生成モデルを学習させる新しさ – 高解像度化が期待できる – 3D でも 4D でも同じやり方でできる – 獲得した MLP は downstream タスクに使えるかも – Diffusion Models の alternative アプローチとなるだろう • 感想 – パラメタ空間のノイズってわかるものなのか・・・? • (CNNの基底なら分かるっちゃ分かる(?)し、分かるのかな) – より Diffusion が学習しやすい MLP のパラメタのパターンとかありそう • そうなってくると使ってみたい – Tri-Plane系とどっちの方がいいんだろう 20
  • 21. (おまけ) EMD (Earth-Mover-Distance) • 点群Aの1点1点すべてを点群Bのどれかの点に被りなくかつ割り当てられない点も出ないように移動させたときの総 移動距離 • Chamfer Distanc の代わりに使われることがある。 • 最適な対応付けを効率的に見つけるアルゴリズム (ハンガリアンアルゴリズムなど) が存在します by GPT 21