SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition

早稲田大学、AIST (産総研)
綱島秀樹
SPACE: Unsupervised Object-
Oriented Scene Representation via
Spatial Attention and Decomposition

自己紹介
2
綱島秀樹 (@maguroIsland )
◆所属
早稲田大学博士1年－森島繁生研究室
産総研 (AIST) Research Assistant
◆研究テーマ
修士課程：深層画像生成モデルの計算量・パラメータ削減
博士課程：深層画像生成モデルを用いた画像編集
◆趣味
筋トレ、アメフト、読書、音楽ゲーム (弐寺)
(音楽ゲームの知り合いが全然いないので、誰かお話しましょう、、、)

Contents
⚫ Object-aware Representation Learningとは
⚫ SPACEの概説、実験結果
⚫ Spatial Attention
⚫ Scene Decomposition
⚫ 実際に動かしてみた
⚫ Future Work
3

Contents
⚫ Future Work
4
SPACEの詳細

Contents
5

Object-aware Representation Learning
6
直訳すると、オブジェクトを意識した表現学習※
表現学習
入力データから出力データにする過程で、特徴空間で意味がある
ベクトルを獲得する学習方法
NNの学習は必ず特徴空間が生じるため、NNの学習は全て表現学習
オブジェクトを意識した
NNの中間層で獲得されている表現として入力画像のオブジェクトの
個別の分離を行う
※ Object-oriented Representation Learningや
Object-centric Representation Learningとも呼ばれたりします

Object-aware Representation Learning
8
オブジェクトを意識した
NNの中間層で獲得されている表現として入力画像のオブジェクトの
個別の分離を行う
背景分離
前景分離

Contents
⚫ Future Work
9

Contents
10

SPACEの概説、実験結果
11
SPACE: Unsupervised Object-Oriented Scene Representation
via Spatial Attention and Decomposition
Spatial Attention Decomposition

12
SPACE: Unsupervised Object-Oriented Scene Representation
via Spatial Attention and Decomposition
Spatial Attention：画像空間でのマスクを生成して前景を個々に分離
Decomposition ：画像から獲得した潜在変数から背景を個々に生成

13
Decomposition
Spatial Attention

14
SPACEは前景背景を分離後再構成して、前景背景を個々に獲得可能
＜貢献＞
✓ Object-aware Rep.において、前景の物体検出と背景の分離生成の
組み合わせが有効であることを証明
✓ オブジェクト数が増加するにつれて計算量が増加する問題を解決
✓ 先行研究を超える定性、定量性能を示した

15
Spatial Attentionの該当分野は
 Unsupervised Object Detection
Decompositionの該当分野は
 Unsupervised Panoptic Segmentation
 Unsupervised Segmentation

16
Spatial Attentionの該当分野は
 Unsupervised Object Detection
Decompositionの該当分野は
 Unsupervised Panoptic Segmentation
 Unsupervised Segmentation
ただし、Object-aware Rep.の論文以外では扱われていないテーマで
あるため、本スライドの著者が仮に命名しています
Unsupervised Segmentationは存在します。ご興味があれば論文を
ご紹介するので、お問い合わせお願いいたします

17
入力画像
再構成画像
物体検出
前景マスク
再構成背景
分離後背景

18
SPAIRでは前景はうまく物体検知できるが、背景は扱えない
IODINE、GENESISはマスクは扱えるが、切り抜いていないのでボヤける

19
SPAIRでは物体の検知ミスにより背景と前景が混ざっている
IODINE、GENESISは3D roomと同様にボヤけている

20
SPACEはバッチ当たりのlatencyも少ない (手法は後述)
MSEを縦軸にした収束速度もほぼ最速
処理速度収束速度

Contents
⚫ Future Work
21

Contents
22

Spatial Attention
23
前景は下図のように画像を細かく分断して処理 (1つ1つをセルと呼ぶ)
セルのサイズはSPACEは32x32

Spatial Attention
24
＜Notation＞
𝑧 𝑝𝑟𝑒𝑠 ：ピクセルに前景が存在するか
しないかの2値{0, 1}の潜在変数
𝑧 𝑑𝑒𝑝𝑡ℎ ：前景の深度を推定する潜在変数
𝑧 𝑤ℎ𝑒𝑟𝑒：前景の座標と大きさの潜在変数

ρ
Spatial Attention
25
𝑥 μ 𝑑𝑒𝑝𝑡ℎ
, σ 𝑑𝑒𝑝𝑡ℎ
μ 𝑤ℎ𝑒𝑟𝑒
, σ 𝑤ℎ𝑒𝑟𝑒
𝑧 𝑝𝑟𝑒𝑠
𝑧 𝑑𝑒𝑝𝑡ℎ
𝑧 𝑤ℎ𝑒𝑟𝑒
※ 𝑧 𝑤ℎ𝑒𝑟𝑒
はさらに2つの潜在変数から構成
されているが、簡略化のためこのように表記

ρ
Spatial Attention
26
𝑥 μ 𝑑𝑒𝑝𝑡ℎ
, σ 𝑑𝑒𝑝𝑡ℎ
μ 𝑤ℎ𝑒𝑟𝑒
, σ 𝑤ℎ𝑒𝑟𝑒
𝑧 𝑝𝑟𝑒𝑠
𝑧 𝑑𝑒𝑝𝑡ℎ
𝑧 𝑤ℎ𝑒𝑟𝑒
※ 𝑧 𝑤ℎ𝑒𝑟𝑒
はさらに2つの潜在変数から構成
されているが、簡略化のためこのように表記

ここで一度先行研究のお話

Spatial Attention
28
先行研究 (SPAIR)
Spatially Invariant Unsupervised Object Detection
with Convolutional Neural Networks

Spatial Attention
29
＜Notation＞
𝑖, 𝑗 ：セルの番号
𝑐 ：セルのサイズ
෨𝑏 ：セルの端から対象物の中心
までの距離
𝑏 ：画像の端から対象物の中心
までの距離
𝑏ℎ𝑤：対象物を中心としたb-box
の大きさ

Spatial Attention
30
＜Notation＞
までの距離
までの距離
の大きさ

Spatial Attention
31
＜Notation＞
までの距離
までの距離
の大きさ

Spatial Attention
32
＜Notation＞
までの距離
までの距離
の大きさ

Spatial Attention
33
＜Notation＞
までの距離
までの距離
の大きさ

Spatial Attention
34
これらが正しく獲得できれば
再構成もうまく行くので、自動的
にこれらの値が獲得される
→明示的な帰納バイアス
→要するにNNへのお気持ち表明

Spatial Attention
36
෨𝑏 𝑥
෨𝑏 𝑦
𝑐ℎ
𝑐 𝑤
𝑏ℎ
𝑏 𝑤

Spatial Attention
37
SPACEは平均場近似を使ってセルごと
にパラレルで処理を行う
平均場近似とは沢山絡み合ってると
めんどくさいから全部独立と仮定して
しまおう！というもの (物理学のお話)
そのためSPAIRではセルサイズを16x16
としていたが、SPACEでは32x32を採用
(セル内に物体を収めるため※)
※学習序盤はセルを跨ぐ前景は無視
するように学習し、収束したらセル
を跨ぐ前景も検知します
ご興味ある方は質問お願いします
෨𝑏 𝑥
෨𝑏 𝑦
𝑐ℎ
𝑐 𝑤
𝑏ℎ
𝑏 𝑤

次はDecompositionですが
またまた先行研究のお話

Scene Decomposition
39
先行研究 (MONet)
MONet: Unsupervised Scene Decomposition and Representation
1. 画像をscope を使いマスク生成
大きな領域からマスク生成する

Scene Decomposition
40
2. マスクごとの画像をVAEで
エンコード、デコード

Scene Decomposition
41
2. マスクごとの画像をVAEで
エンコード、デコード
3. 全ての画像をconcatしてELBO※
を計算
※ELBOはEvidence Lower Boundの
略で、変分下界とも呼ばれます
再構成誤差 (MSEやBinary Cross
Entropy)とKL Divergenceで構成

Scene Decomposition
42
しかし、VAE中の潜在変数同士の
相互影響が考慮できていないため、
表現力が低い (うまく分解できない)

Scene Decomposition
43
先行研究 (GENESIS)
GENESIS: Generative Scene Inference and Sampling with Object-Centric
Latent Representations
VAEを2つスタックした構造で前半で潜在変数同士の相互関係を考慮
(LSTMでシーケンシャルに処理を行う)

Scene Decomposition
45
背景は先行研究であるGENESISを用いて分離を行う

SPACE
46
SPACEは前景背景を分離後再構成して、前景背景を個々に獲得可能
＜貢献＞
✓ Object-aware Rep.において、前景の物体検出と背景の分離生成の
組み合わせが有効であることを証明
✓ オブジェクト数が増加するにつれて計算量が増加する問題を解決
✓ 先行研究を超える定性、定量性能を示した

Contents
⚫ Future Work
47

Contents
⚫ Future Work
48

実際に動かしてみた
49
Project Page (https://sites.google.com/view/space-project-page)
公式実装 (https://github.com/zhixuan-lin/SPACE)
3D room smallという一番スケールの小さなデータセットを訓練
NVIDIA Tesla V100 1台で数時間～1日 (ちゃんと測ってなかったです、、、)

50
入力画像
物体検出
分離後前景再構成背景分離後背景
再構成画像

51
物体検知は定性的にはかなりうまく行っている！
しかし、背景については再構成はできているが、個々の分離が微妙、、、

Future Work
52
著者が論文とgithubで言及しているコメントを抜粋
⚫ Seedにかなり敏感 (物体検出も背景分離もUnsupervisedなので、そりゃ
不安定だろうという当たり前感)
⚫ 3D roomやAtari Gameでは背景と前景が明確に分かれているが、実際
は綺麗に分かれていないなので、そのようなデータにも対応可能にする
⚫ オブジェクトサイズが大きく変化するようなデータセットには弱い
⚫ 強化学習への応用 (SPACEを基に強化学習の下流タスクを解く)

SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Último

Último (10)

SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition