(ICML2020 K.Kato et al. fujitsu) Rate distortion optimization guided autoencoder 解説速報版

Rate-Distortion Optimization Guided
Autoencoder for Isometric Embedding in
Euclidean Latent Space
(ICML2020 K.Kato et al. Fujitsu Labo.)
解説スライド（速報版）
2020/07/18
YAMAMOTO YOSHIKI

自己紹介
山本健生（やまもとよしき） Age:25
 神戸大理学研究科数学専攻修了（専門は微分幾何学）
 現在の業務は関西の電機メーカーで「画像AIの研究」と「AIの利活用検討」
 数学を駆使して現実世界の課題を解決したい
持ってる資格：数学検定準１級、PAST中級、 DL検定G、統計検定２級（準１受けようと思ったら
なくなった…）
趣味はカメラ、スキーとか。

論文を読んだ理由
プレリリースで面白そうな論文出してる
↓
いきなり『 Isometric Map and Notions of Differential Geometry 』って書いてある！
これは微分幾何学の知識使えるのでは！？
↓
どうせ日本語解説記事がないなら、今日１日暇だし作るか！
（速報版なので、多少の間違い等は許してください。後日加筆&訂正予定です）

1.イントロ
高次元データ𝑥の分布𝑃𝑥を知りたい
→しかし、「次元の呪い」によって、確率分布𝑃𝑥を求めるのは困難
→よって、次元を圧縮したデータ𝑧を作り、𝑃𝑧を観測して𝑃𝑥に戻すことで、𝑃𝑥 を観測する
𝑥
𝑓
高次元すぎて
推定できない
𝑧
次元圧縮
𝑃𝑧𝑃𝑥
𝑓−1
分布推定

1.イントロ
この次元圧縮𝑓には様々な方法がとられており、
そのうちの１つがVAE(Variational Autoencoder)である
例えば異常検知などでは、このzの平均からの距離を計算することでxの外れ値を検出する
しかし、VAEはisometricではない：今回の課題
画像引用元：深層生成モデルを巡る旅(2): VAE
https://qiita.com/shionhonda/items/e2cf9fe93ae1034dd771

1.イントロ
Isometric（等長写像）とは？
Def.
距離空間(𝑋, 𝑑)と(𝑌, 𝑑’)に対して、fが等長写像であるとは、
任意の元𝑥, 𝑦 ∈ 𝑋 に対して、
𝑑 𝑥, 𝑦 = 𝑑′ 𝑓 𝑥 , 𝑓 𝑦
を満たすときをいう。すなわち、写像𝑓で送った先の距離関係が一致するような写像のこ
とをいう
“近いものは近くに”、“遠いものは遠くに”

1.イントロ
Isometric（等長写像）じゃないと何が困るの？
VAEは”元に復元できる”と”𝑧が正規分布に従う”しか要求していないので、
𝑥での各点の関係が𝑧でも維持されるとは限らない
→この状況では、𝑃𝑥 = 𝑓−1(𝑃𝑧)で𝑃𝑥を求めても、”substitution”に過ぎない
(Chen et al., 2018; Shao et al., 2018; Geng et al., 2020)
よって、”近くのものを近くに”、”遠くのものを遠くに”を担保するため、𝑓にIsometricを
要求する
例）VAEによって、遠いものが近くなる可能性を否定できない
𝑓
𝑥 𝑧
代用品

1.イントロ
ではそのような𝒇は存在するのか？
「多様体仮説」によれば、高次元データは全次元に一様に分布しておらず、一部の領域に集
中している（多様体ℳとする）
ナッシュの埋め込み定理により、 ℳはℝ 𝑀
に等張性を保ったまま埋め込むことができる
(dimℳ + 1 ≤ 𝑀）
→よって、データ𝑋の次元𝑁に対して、dimℳ < 𝑀 ≪ 𝑁を満たすような小さい次元𝑀に、
等張性を保ったままデータを圧縮することができるのではないか
この考えを用いれば、データ種別に依存しない、良い次元圧縮ができるはず
（※データ種別に依存する圧縮方法：バイナリデータにおけるBCEや画像におけるSSIMなど）

1.イントロ
また、数学的には、𝑓が等長埋め込みであることは、𝑓のヤコビアンの列が正規直交基底
をなすことに等しい
経験的手法として、直交変換符号化(DIC)はディープラーニングを使った画像圧縮で高成
績を残している(Balle et al., 2018; Zhou et al., 2019)
この２本では議論されていないが、この高成績の裏にはRDO (Rate-Distortion
Optimization)との理論的な関係があるはず
→本論文ではRDOがVAEの直交性を誘導していることを証明する

1.イントロ(まとめ)
よって、この論文では次を示す：
 理論的にも実験的にも、写像𝑓のヤコビアンは正規直交系を持ち、
よってデータは低次元ユークリッド空間に等長的に埋め込むことができる
 等長性が確保されることにより、𝑃𝑧は𝑃𝑥をきちんと誘導することができる
この２つを示すことによって、新しいVAEを作り上げ(RaDOGAGA)、
４つの公開データセットにおいてSOTAを達成できた

3.RDOによるVAEの誘導
後日予定

4.理論的な構成
RDOに基づくLoss関数は次の通りになる（ラグランジュ未定乗数法）
𝐿 = 𝑅 + 𝜆𝐷
ここで、Rは圧縮率、Dは元データとノイズ入りで復元したデータの誤差なので、Dを
一定に保ちつつRを小さくしていくことを考える
これを、VAEの言葉で書き直すと次のようになる：
𝐿 = − log 𝑃𝑧 + 𝜆1 log 𝐷 𝑥, 𝑥 + 𝜆2(𝐷 𝑥, 𝑥 )
各項の意味は次ページより
ネットワーク構造→

𝐿 = − log 𝑃𝑧 + 𝜆1 log 𝐷 𝑥, 𝑥 + 𝜆2(𝐷 𝑥, 𝑥 )
第１項は通常のVAEのKL-lossに当てはまるもの
第２項は通常のVAEのRecon-lossに当てはまるもの
第３項はRDOの量子化誤差を制御するもの
すなわち、これで”近いものを近く”、”遠いものを遠く“を制御する
最初に読んだ時の疑問：第３項、本当にうまく行くのか…？

第３項、本当にうまく行くのか…？
論文の4.2.には次のように書いてある：
まず学習を進めると第2項がどんどん小さくなり、無視できるぐらい小さくなる(𝑥 ≒ 𝑥)
→すると、その時点でLの期待値は次のように近似できる
この時、両辺を
𝜕𝑥
𝜕𝑧 𝑗
で偏微分する（E[𝐿]が最小になる点を求めに行く）
※𝐽は
𝜕𝑥
𝜕𝑧
を並べたヤコビアン

第３項、本当にうまく行くのか…？
偏微分=0と置いて整理すると次の式が出てくる
これは、𝐴(𝑥)で定義された内積について、ヤコビアンは正規直交基底をなすことを示す
※ 𝐴(𝑥)で定義された内積：
微分幾何学では、点pにおける内積を次のように定義します
𝑣, 𝑤 𝑝 = 𝑣 𝑇
𝐴 𝑝 𝑤
通常ユークリッド空間で使用する内積は𝐴が単位行列の場合ですが、
曲がった空間などでは𝐴を異なる行列に変えることがあります

つまりどういうこと？
第三項があることによって、xでの点の距離とzでの点の距離が、定数倍を除いて一致す
ることをVAEに対して要求することができる
→論文の当初の目的を果たすことができた！

5.実験結果
①ちゃんと等長的に埋め込めているか？ →成功!
Beta-VAEに比べて、データXにおける2点間の距離と、潜在空間Zにおける2点間の距離の
相関係数が上がっている！（図左）
また、VAEだと256次元すべての分散が1に等しかったが、
RaDOGAGAだと一部の変数以外は分散がほぼ0である→分散0の次元は削除して良い！

5.実験結果
①ちゃんと等長的に埋め込めているか？ →成功!
分散が大きい上位の変数は、RaDOGAGAだときちんと「変数の意味」を持てている
（z0:背景色、z1:髪の左右振り分け、z2:髪色、z3:髪の長さ…)

5.実験結果
②(toydataで)確率分布変数を推定できているか？） →成功!
3つの正規分布を混ぜたガウス混合分布を推定させる
→従来手法DAGMMはz1方向に対して歪んでいるのに対し、RaDOGAGAは成功（左図）
また、DAGMMは確率と実際の点の密集度がズレがち（右図）

5.実験結果
③RaDOGAGAを利用して、異常検知できないか？ →成功!
KDDCup(-rev),Thyroid,Arrythmia
の4つのデータについて異常検知を実行
→従来手法に比べてF1で
すべてSOTAを達成した

6.まとめ
 今までのVAEでは、等長性がなくデータ点間の構造が保たれていなかった
 これに対し、等長性を要求することによって𝑃𝑥と𝑃𝑧を対応させることができ、
𝑃𝑧から𝑃𝑥を誘導してSOTAを達成した
 今回の変換はデータの構造に依存しておらず、様々なアプリケーションに対応できる
 変数間に直交性があることで、PCAlikeな分析が可能
所感）
・やはり「次元の呪い」を解消できたのは強いのではないか？
・最後のPCAlikeな分析ができるのも、「AIの説明性」が求められている中で強そう

(ICML2020 K.Kato et al. fujitsu) Rate distortion optimization guided autoencoder 解説速報版

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Último

Último (8)

(ICML2020 K.Kato et al. fujitsu) Rate distortion optimization guided autoencoder 解説速報版