More Related Content
More from Fujimoto Keisuke (20)
Deep Fried Convnets
- 3. 本発表の概要
• 発表論文
• Deep Fried Convnets
• 本論文に至るまでの経緯
• 2008年 Random Kitchen SinkがNIPSで発表される
• 2013年 Random Kitchen SinkをベースにFast Food
TransformがGoogleから発表される(※猫画像のあの人)
• 2015年 Fast Food Transformを用いたDeep Fried
Convnetsが発表される
• どんな論文?
• ニューラルネットワークの全結合層のパラメータ削減・高速化
- 4. Deep Fried Convnets
Z. Yang, M. Moczulski, M. Denil
N. Freitas, A. Smola, L. Song, Z. Wang
画像出典:http://makopi.sakura.ne.jp/images/1004/10040303.jpg
- 5. Convolutional Neural Network
• 高性能な画像認識を実現
• 畳み込み層、プーリング層、全結合層から構成
畳み込み層:画像から様々な特徴を抽出
プーリング層:
特徴を消さないように
サイズを縮小
全結合層:残った特徴と
認識対象を紐づけ
𝑦 = 𝑓 𝑊 𝑇 𝑥 + 𝑏
𝑦 = 𝑓 𝑤 ∗ 𝑥 + 𝑏
- 6. Convolutional Neural Networkの課題
• 全結合層におけるパラメータ数・計算負荷が大きい
• 全パラメータの99.9%以上を占める
※Caffe reference modelの場合
パラメータ数:
58,621,952個!!
パラメータ数:
27,232個
𝑦 = 𝑓 𝑤 ∗ 𝑥 + 𝑏 𝑦 = 𝑓 𝑊 𝑇 𝑥 + 𝑏
局所特徴量の
サイズに依存
特徴量の次元数に依存
- 7. Deep Fried Convnets
• Fastfood TransformをNN用に改良し、全結
合層の行列計算を少数のパラメータで近似
パラメータ数:
計算量:
O(nd) O(n)
O(nd) O(nlogd)
𝑦 = 𝑓 𝑊 𝑇
𝑥 + 𝑏
これ
※xがd次元、yがn次元
- 8. 𝑤𝑙
𝑇
Fastfood Transform
• SVM等のカーネル法を高速近似手法
• Random Kitchen Sinkを高速化する手法として
提案された
参考・・・Random Kitchen Sinkとは
• カーネルと等価な特徴ベクトルをサンプリングで算出
• データ数に依存しない計算量での予測が可能
𝑦 =
𝑖
𝛼𝑖 𝑘 𝑥, 𝑥𝑖
カーネル関数kを用いた予測
データ数に依存
𝑘 𝑥, 𝑥′
= 𝑝 𝑤 exp 𝑖𝑤 𝑇
𝑥 − 𝑥′ 𝑑𝑤
Bochnerの定理
※ガウシアンカーネルであればwはガウス分布
- 9. = 𝑝 𝑤 cos 𝑤 𝑇 𝑥 − 𝑥′ 𝑑𝑤
Random Kitchen Sink (cond.)
カーネルは実数として
= 𝑝 𝑤 cos 𝑤 𝑇
𝑥 cos 𝑤 𝑇
𝑥′
+ sin 𝑤 𝑇
𝑥 sin 𝑤 𝑇
𝑥′
𝑑𝑤
≈
1
𝐿
cos 𝑤𝑙
𝑇
𝑥 cos 𝑤𝑙
𝑇
𝑥′ + sin 𝑤𝑙
𝑇
𝑥 sin 𝑤𝑙
𝑇
𝑥′
= φ 𝑥 φ 𝑥′ , φ 𝑥 =
1
𝐿
cos 𝐖T 𝒙 sin 𝐖T 𝒙
𝑇
サンプル数𝐿に依存するφ 𝑥 を基底として計算
𝑦 =
𝑙
𝛽𝑙φ𝑙 𝑥
積分をサンプリングによって近似すると
- 10. Fastfood Transform
• SVM等のカーネル法を高速化するための近似手法
• Random Kitchen Sinkを高速化
𝑤𝑙
𝑇
Random Kitchen Sink
φ 𝑥 =
1
𝐿
cos 𝐖T
𝒙 sin 𝐖T
𝒙
𝑇
特徴ベクトル:
O(Ld)
𝑊 ≈ 𝑆𝐻𝐺Π𝐻𝐵
• RKSの行列Wを下記計算で近似
• 各行列は対角行列や置換行列など、計算が容易
• パラメータ数:O(Ld)→O(L)
• 計算量:O(Ld)→O(Llogd)
※Wは各要素をガウス分布で
サンプリングしたランダム行列
- 11. Fastfood Transform (cond.)
• RKSの行列を下記計算で近似
𝑊 ≈ 𝑆𝐻𝐺Π𝐻𝐵
S:スケール調整用の対角行列
G:ガウス分布から値を生成した対角行列
B:{±1}からランダムに値を生成した対角行列
Π:ランダムに生成された置換行列
H:アダマール変換
- 13. Fastfood Transform (cond.)
• 詳しい証明は省略するが、下記条件を満たすこと
からWの要素はガウス分布となる
𝑊 ≈ 𝑆𝐻𝐺Π𝐻𝐵
• なぜ行列Wを近似できるのか?
1. 𝐻𝐺Π𝐻𝐵の各行は同じスケール
2. 𝐻𝐺Π𝐻𝐵の各行内の各要素は独立のガウス分布
3. 𝑆𝐻𝐺Π𝐻𝐵の各行はガウシアンである
- 16. Random Projectionとの関係
• Random Projection・・・ランダム行列による次元削減
• ランダムな行列を掛けるだけで、高次元データをデータ間
の距離関係を保ったまま低次元化できる
参考:さかな前線「魚でもわかるRandom Projection」、 http://daily.belltail.jp/?p=737
• RPと比べて必要な記憶容量・計算量も低い
• 学習可能な次元削除法であり精度が高い
- 20. 実験
•ImageNet
• 畳み込み層も含めて全パラメータを学習
Model Top-1 Error Params
Fastfood 16,384 46.88% 16.4M
Adaptive Fastfood 16,384 42.90% 16.4M
Fastfood 32,768 46.63% 32.8M
Adaptive Fastfood 32,768 41.93% 32.8M
Reference Model 42.59% 58.7M