SlideShare una empresa de Scribd logo
1 de 21
Rate-Distortion Optimization Guided
Autoencoder for Isometric Embedding in
Euclidean Latent Space
(ICML2020 K.Kato et al. Fujitsu Labo.)
解説スライド(速報版)
2020/07/18
YAMAMOTO YOSHIKI
自己紹介
山本 健生(やまもと よしき) Age:25
 神戸大理学研究科数学専攻修了(専門は微分幾何学)
 現在の業務は関西の電機メーカーで「画像AIの研究」と「AIの利活用検討」
 数学を駆使して現実世界の課題を解決したい
持ってる資格:数学検定準1級、PAST中級、 DL検定G、統計検定2級(準1受けようと思ったら
なくなった…)
趣味はカメラ、スキーとか。
論文を読んだ理由
プレリリースで面白そうな論文出してる
↓
いきなり『 Isometric Map and Notions of Differential Geometry 』って書いてある!
これは微分幾何学の知識使えるのでは!?
↓
どうせ日本語解説記事がないなら、今日1日暇だし作るか!
(速報版なので、多少の間違い等は許してください。後日加筆&訂正予定です)
1.イントロ
高次元データ𝑥の分布𝑃𝑥を知りたい
→しかし、「次元の呪い」によって、確率分布𝑃𝑥を求めるのは困難
→よって、次元を圧縮したデータ𝑧を作り、𝑃𝑧を観測して𝑃𝑥に戻すことで、𝑃𝑥 を観測する
𝑥
𝑓
高次元すぎて
推定できない
𝑧
次元圧縮
𝑃𝑧𝑃𝑥
𝑓−1
分布推定
1.イントロ
この次元圧縮𝑓には様々な方法がとられており、
そのうちの1つがVAE(Variational Autoencoder)である
例えば異常検知などでは、このzの平均からの距離を計算することでxの外れ値を検出する
しかし、VAEはisometricではない:今回の課題
画像引用元:深層生成モデルを巡る旅(2): VAE
https://qiita.com/shionhonda/items/e2cf9fe93ae1034dd771
1.イントロ
Isometric(等長写像)とは?
Def.
距離空間(𝑋, 𝑑)と(𝑌, 𝑑’)に対して、fが等長写像であるとは、
任意の元𝑥, 𝑦 ∈ 𝑋 に対して、
𝑑 𝑥, 𝑦 = 𝑑′ 𝑓 𝑥 , 𝑓 𝑦
を満たすときをいう。すなわち、写像𝑓で送った先の距離関係が一致するような写像のこ
とをいう
“近いものは近くに”、“遠いものは遠くに”
1.イントロ
Isometric(等長写像)じゃないと何が困るの?
VAEは”元に復元できる”と”𝑧が正規分布に従う”しか要求していないので、
𝑥での各点の関係が𝑧でも維持されるとは限らない
→この状況では、𝑃𝑥 = 𝑓−1(𝑃𝑧)で𝑃𝑥を求めても、”substitution”に過ぎない
(Chen et al., 2018; Shao et al., 2018; Geng et al., 2020)
よって、”近くのものを近くに”、”遠くのものを遠くに”を担保するため、𝑓にIsometricを
要求する
例)VAEによって、遠いものが近くなる可能性を否定できない
𝑓
𝑥 𝑧
代用品
1.イントロ
ではそのような𝒇は存在するのか?
「多様体仮説」によれば、高次元データは全次元に一様に分布しておらず、一部の領域に集
中している(多様体ℳとする)
ナッシュの埋め込み定理により、 ℳはℝ 𝑀
に等張性を保ったまま埋め込むことができる
(dimℳ + 1 ≤ 𝑀)
→よって、データ𝑋の次元𝑁に対して、dimℳ < 𝑀 ≪ 𝑁を満たすような小さい次元𝑀に、
等張性を保ったままデータを圧縮することができるのではないか
この考えを用いれば、データ種別に依存しない、良い次元圧縮ができるはず
(※データ種別に依存する圧縮方法:バイナリデータにおけるBCEや画像におけるSSIMなど)
1.イントロ
また、数学的には、𝑓が等長埋め込みであることは、𝑓のヤコビアンの列が正規直交基底
をなすことに等しい
経験的手法として、直交変換符号化(DIC)はディープラーニングを使った画像圧縮で高成
績を残している(Balle et al., 2018; Zhou et al., 2019)
この2本では議論されていないが、この高成績の裏にはRDO (Rate-Distortion
Optimization)との理論的な関係があるはず
→本論文ではRDOがVAEの直交性を誘導していることを証明する
1.イントロ(まとめ)
よって、この論文では次を示す:
 理論的にも実験的にも、写像𝑓のヤコビアンは正規直交系を持ち、
よってデータは低次元ユークリッド空間に等長的に埋め込むことができる
 等長性が確保されることにより、𝑃𝑧は𝑃𝑥をきちんと誘導することができる
この2つを示すことによって、新しいVAEを作り上げ(RaDOGAGA)、
4つの公開データセットにおいてSOTAを達成できた
3.RDOによるVAEの誘導
後日予定
4.理論的な構成
RDOに基づくLoss関数は次の通りになる(ラグランジュ未定乗数法)
𝐿 = 𝑅 + 𝜆𝐷
ここで、Rは圧縮率、Dは元データとノイズ入りで復元したデータの誤差なので、Dを
一定に保ちつつRを小さくしていくことを考える
これを、VAEの言葉で書き直すと次のようになる:
𝐿 = − log 𝑃𝑧 + 𝜆1 log 𝐷 𝑥, 𝑥 + 𝜆2(𝐷 𝑥, 𝑥 )
各項の意味は次ページより
ネットワーク構造→
4.理論的な構成
𝐿 = − log 𝑃𝑧 + 𝜆1 log 𝐷 𝑥, 𝑥 + 𝜆2(𝐷 𝑥, 𝑥 )
第1項は通常のVAEのKL-lossに当てはまるもの
第2項は通常のVAEのRecon-lossに当てはまるもの
第3項はRDOの量子化誤差を制御するもの
すなわち、これで”近いものを近く”、”遠いものを遠く“を制御する
最初に読んだ時の疑問:第3項、本当にうまく行くのか…?
4.理論的な構成
第3項、本当にうまく行くのか…?
論文の4.2.には次のように書いてある:
まず学習を進めると第2項がどんどん小さくなり、無視できるぐらい小さくなる(𝑥 ≒ 𝑥)
→すると、その時点でLの期待値は次のように近似できる
この時、両辺を
𝜕𝑥
𝜕𝑧 𝑗
で偏微分する(E[𝐿]が最小になる点を求めに行く)
※𝐽は
𝜕𝑥
𝜕𝑧
を並べたヤコビアン
4.理論的な構成
第3項、本当にうまく行くのか…?
偏微分=0と置いて整理すると次の式が出てくる
これは、𝐴(𝑥)で定義された内積について、ヤコビアンは正規直交基底をなすことを示す
※ 𝐴(𝑥)で定義された内積:
微分幾何学では、点pにおける内積を次のように定義します
𝑣, 𝑤 𝑝 = 𝑣 𝑇
𝐴 𝑝 𝑤
通常ユークリッド空間で使用する内積は𝐴が単位行列の場合ですが、
曲がった空間などでは𝐴を異なる行列に変えることがあります
4.理論的な構成
つまりどういうこと?
第三項があることによって、xでの点の距離とzでの点の距離が、定数倍を除いて一致す
ることをVAEに対して要求することができる
→論文の当初の目的を果たすことができた!
5.実験結果
①ちゃんと等長的に埋め込めているか? →成功!
Beta-VAEに比べて、データXにおける2点間の距離と、潜在空間Zにおける2点間の距離の
相関係数が上がっている!(図左)
また、VAEだと256次元すべての分散が1に等しかったが、
RaDOGAGAだと一部の変数以外は分散がほぼ0である→分散0の次元は削除して良い!
5.実験結果
①ちゃんと等長的に埋め込めているか? →成功!
分散が大きい上位の変数は、RaDOGAGAだときちんと「変数の意味」を持てている
(z0:背景色、z1:髪の左右振り分け、z2:髪色、z3:髪の長さ…)
5.実験結果
②(toydataで)確率分布変数を推定できているか?) →成功!
3つの正規分布を混ぜたガウス混合分布を推定させる
→従来手法DAGMMはz1方向に対して歪んでいるのに対し、RaDOGAGAは成功(左図)
また、DAGMMは確率と実際の点の密集度がズレがち(右図)
5.実験結果
③RaDOGAGAを利用して、異常検知できないか? →成功!
KDDCup(-rev),Thyroid,Arrythmia
の4つのデータについて異常検知を実行
→従来手法に比べてF1で
すべてSOTAを達成した
6.まとめ
 今までのVAEでは、等長性がなくデータ点間の構造が保たれていなかった
 これに対し、等長性を要求することによって𝑃𝑥と𝑃𝑧を対応させることができ、
𝑃𝑧から𝑃𝑥を誘導してSOTAを達成した
 今回の変換はデータの構造に依存しておらず、様々なアプリケーションに対応できる
 変数間に直交性があることで、PCAlikeな分析が可能
所感)
・やはり「次元の呪い」を解消できたのは強いのではないか?
・最後のPCAlikeな分析ができるのも、「AIの説明性」が求められている中で強そう

Más contenido relacionado

La actualidad más candente

東大を目指して…その後
東大を目指して…その後東大を目指して…その後
東大を目指して…その後naoki yamagishi
 
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会Kenyu Uehara
 
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標圭輔 大曽根
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画までShunji Umetani
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列Kenjiro Sugimoto
 
信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化Shunsuke Ono
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)ryotat
 
最尤推定法(NNでの応用)
最尤推定法(NNでの応用)最尤推定法(NNでの応用)
最尤推定法(NNでの応用)MatsuiRyo
 
系列ラベリングの基礎
系列ラベリングの基礎系列ラベリングの基礎
系列ラベリングの基礎Takatomo Isikawa
 
MCMCで研究報告
MCMCで研究報告MCMCで研究報告
MCMCで研究報告Masaru Tokuoka
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定Akira Masuda
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process ModelsDeep Learning JP
 
スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元Shogo Muramatsu
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦Tatsuya Matsushima
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証Masaharu Kinoshita
 
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価これからの仮説検証・モデル評価
これからの仮説検証・モデル評価daiki hojo
 

La actualidad más candente (20)

東大を目指して…その後
東大を目指して…その後東大を目指して…その後
東大を目指して…その後
 
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
 
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列
 
信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
 
最尤推定法(NNでの応用)
最尤推定法(NNでの応用)最尤推定法(NNでの応用)
最尤推定法(NNでの応用)
 
系列ラベリングの基礎
系列ラベリングの基礎系列ラベリングの基礎
系列ラベリングの基礎
 
For MANABIYA
For MANABIYAFor MANABIYA
For MANABIYA
 
MCMCで研究報告
MCMCで研究報告MCMCで研究報告
MCMCで研究報告
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
 
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価これからの仮説検証・モデル評価
これからの仮説検証・モデル評価
 

Último

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 

Último (8)

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 

(ICML2020 K.Kato et al. fujitsu) Rate distortion optimization guided autoencoder 解説速報版