Más contenido relacionado La actualidad más candente (20) Más de Deep Learning JP (20) [DL輪読会]Opening the Black Box of Deep Neural Networks via Information1. DEEP LEARNING JP
[DL Papers]
Opening the Black Box of Deep Neural Networks
via Information
Hiromu Yokokura, Computer Science department
http://deeplearning.jp/
2. 書誌情報
• 著者: Ravid Shwartz-Ziv, Naftali Tishby
• arXiv (last revised 29 Apr 2017)
2
4. 相互情報量
• 確率変数XとYの相互情報量
• 性質1: 可逆変換に対する不変性
• 性質2: Data Processing Inequality (DPI)
• 確率変数変数X, Y, ZがMalkov連鎖 X→Y→Zを形成する時、
4
Xの曖昧さ Yを知っても残るXの曖昧さ
「入力XがラベルYに関して持っている平均の情報量」
5. Information Plane
• 座標系
• 入力Xの(確率的な)写像である確率変数Tは、エンコーダ/デコーダの確率分布で特徴付
けられる
• 同時分布P(X,Y)が与えられればTはinformation planeのある1点にマッピングされる
• K層DNNのMalkov連鎖を考えると、次のDPI順序を満たすInformation Pathを形成する
• 可逆変換に不変であったから、異なるDNNが同じInformation Pathを形成し得る
5
12. SGDの振る舞い
• driftフェーズ
• 勾配の平均>標準偏差
• 勾配の確率性が低い(Hihg SNR)
• 誤差が急激に減少して、Iyが上昇する
• diffusion(拡散)フェーズ
• 勾配の標準偏差>平均
• 経験誤差がサチってバッチ間の変動が支配的になる
• 勾配が平均の小さいガウシアンノイズのように振る舞う(Low SNR)
• 重みの分布が拡散過程になる→ が増大していく(stochastic relaxation)
12このフェーズ移行が学習のフェーズ移行と対応している
が小さくなる
19. まとめ
• SGDによる最適化には2つのフェーズがある
• ERMフェーズ、representation compressionフェーズ
• compressionフェーズはstochastic relaxationによるもので、Ixが減少して圧縮
が起きている。(誤差最小化の制限があるのでIB boundに収束する)
• 隠れ層の最も大きい利点は、stochastic relaxation time (圧縮が収束するま
での時間)が急激に減少すること
• 隠れ層はIB boundのcritical pointに収束する(?)
19