Más contenido relacionado La actualidad más candente (20) Similar a Fisher Vectorによる画像認識 (20) Fisher Vectorによる画像認識1. 2013/04/24 上智大学 山中高夫
フィッシャーベクトルによる画像認識
[0] 赤穂昭太郎,カーネル多変量解析,岩波書店,2009.
[1] F. Perronnin and C. Dance, “Fisher Kernels on Visual Vocabularies for Image
Categorization,” in IEEE Conference on Computer Vision and Pattern Recognition, 2007.
[2] F. Perronnin, S. Jorge, and T. Mensink, “Improving the Fisher Kernel for Large-Scale
Image Classification,” in European Conference on Computer Vision, 2010.
[3] F. Perronnin, Y. Liu, J. Sanchez, and H. Poirier, “Large-scale image retrieval with
compressed Fisher vectors,” in IEEE Conference on Computer Vision and Pattern
Recognition, 2010.
[4] J. Sanchez and F. Perronnin, “High-dimensional signature compression for large-scale
image classification,” in IEEE Conference on Computer Vision and Pattern Recognition,
2011.
[5] J. Krapac, J. Verbeek, and F. Jurie, “Modeling spatial layout with fisher vectors for
image categorization,” in International Conference on Computer Vision, 2011.
[6] V. Garg, S. Chandra, and C. V. Jawahar, “Sparse discriminative Fisher vectors in visual
classification,” in Indian Conference on Computer Vision, Graphics and Image
Processing, 2012.
[7] J. Sánchez, F. Perronnin, and T. de Campos, “Modeling the spatial layout of images
beyond spatial pyramids,” Pattern Recognition Letters, vol. 33, pp. 2216–2223, Dec.
2012.
3. 多変量解析(1)
線形モデル
𝑑
𝑦 = 𝒘𝑇 𝒙=
𝑤𝑚𝑥
𝑚
𝑚=1
評価関数
𝑁
𝑦𝑗 − 𝒘𝑇 𝒙𝑗
𝑅 𝒘 =
2
𝑗=1
行列表現
𝑦1
𝑦2 ,
𝒚=
⋮
𝑦𝑛
1
𝑥1
𝑦1
2
𝑦 2 = 𝑥1
⋮
⋮
𝑛
𝑦
𝑥1𝑛
𝑇
1
𝑥1
𝒙1
𝑇
2
𝒙2 = 𝑥1
𝐗=
⋮
⋮
𝑇
𝑥1𝑛
𝒙𝑛
⋯
𝑥1
𝑑
𝑥2
𝑑
⋮
𝑥 𝑑𝑛
𝑤1
𝑤2
⋮
𝑤𝑑
⋯
𝑥1
𝑑
2
𝑥𝑑
⋮
𝑥 𝑑𝑛
𝒚 = 𝐗𝒘
4. 多変量解析(2)
最小2乗解
𝒚 = 𝐗𝒘
𝑅 𝒘 = 𝒚 − 𝐗𝒘 𝑇 (𝒚 − 𝐗𝒘)
𝜕𝑅 𝒘
𝜕
&=
𝒚 𝑇 𝒚 − 2𝒘T 𝐗 𝑇 𝒚 + 𝒘 𝑇 𝐗 𝑇 𝐗𝒘
𝜕𝒘
𝜕𝒘
=
& −2𝐗 𝑇 𝒚 + 2𝐗 𝑇 𝐗𝒘
𝑅 𝒘 が最小になる𝒘では,微分
が0になるので(極値なので)
−2𝐗 𝑇 𝒚 + 2𝐗 𝑇 𝐗𝒘 = 0
𝐗𝑇 𝐗
−1
𝐗𝑇 𝐗 𝒘=
𝐗𝑇 𝐗
−1
𝐗𝑇 𝒚
𝒘=
𝐗𝑇 𝐗
−1
𝐗𝑇 𝒚
近似直線を表すパラメータ
5. カーネル法(1)
線形モデル
𝑦 = 𝒘𝑇 𝒙
カーネル関数
𝒙 𝑖 , 𝒙の類似度を表す
カーネル関数を使った非線形モデル
ただし,
𝑛
𝑦&=
𝛼 𝑖 𝑘 𝒙 𝑖, 𝒙
𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖
𝑖=1
𝑛
=
&
𝑇
𝝓 𝒙
𝒙 𝑖 は𝑛点のサンプルのうちの一つ
𝛼𝑖 𝝓 𝒙𝑖
𝑇
𝝓 𝒙
𝑖=1
𝑛
=
&
=
&
𝛼𝑖 𝝓 𝒙𝑖
𝑖=1
𝒘𝑇 𝝓
𝒙
𝑇
𝝓 𝒙
線形モデルにおける𝒙を非線形
関数𝝓 𝒙 に置き換えたモデル
6. カーネル法(2)
カーネル関数を使った非線形モデル
𝑦&= 𝒘 𝑇 𝝓 𝒙
𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖
𝑛
=
&
𝑇
𝝓 𝒙
𝛼 𝑖 𝑘 𝒙 𝑖, 𝒙
𝑖=1
𝑘(𝑥1 , 𝑥1 )
𝑦1
𝑦 2 , 𝐊 = 𝑘(𝑥1 , 𝑥2 ) ⋯
𝒚=
⋮
⋮
𝑘(𝑥1 , 𝑥 𝑛 )
𝑦𝑛
最小2乗解
𝒚 = 𝐊𝜶
𝑅 𝜶 = 𝒚 − 𝐊𝜶 𝑇 (𝒚 − 𝐊𝜶)
𝜶=
𝐊𝑇 𝐊
−1
𝐊𝑇 𝒚
非線形モデル
のパラメータ
𝐊を対称行列とすると
𝜶=
𝐊2
−1
𝐊𝒚 = 𝐊 −1 𝐲
全てのデータ間の類似度𝐊を定義できれば,非
線形関数𝝓 𝒙 を明示的に定義する必要がない
𝛼1
𝑘(𝑥 𝑛 , 𝑥1 )
𝛼2
𝑘(𝑥 𝑛 , 𝑥2 )
, 𝜶= ⋮
⋮
𝛼𝑛
𝑘(𝑥 𝑛 , 𝑥 𝑛 )
7. カーネル法(3)
正則化:関数に制限をつけてオーバーフィッティングを防ぐ
𝒚 = 𝐊𝜶
𝑅 𝜶 = 𝒚 − 𝐊𝜶
𝑇
正則化項
𝑇
𝒚 − 𝐊𝜶 + 𝜆𝜶 𝐊𝜶
𝜕𝑅 𝜶
𝜕
&=
𝒚 𝑇 𝒚 − 2𝜶T 𝐊 𝑇 𝒚 + 𝜶 𝑇 𝐊 𝑇 𝐊𝜶 + 𝜆𝜶 𝑇 𝐊𝜶
𝜕𝜶
𝜕𝜶
=
& −2𝐊 𝑇 𝒚 + 2 𝐊 𝑇 + 𝜆𝐈 𝐊𝜶
非線形モデル
𝜶 = 𝐊 𝑇 + 𝜆𝐈 𝐊 −1 𝐊 𝑇 𝒚
のパラメータ
𝐊を対称行列とすると
−2𝐊𝒚 + 2 𝐊 + 𝜆𝐈 𝐊𝜶 = 𝟎
𝐊𝐊 + 𝜆𝐊 𝜶 = 𝐊𝒚
𝐊 + 𝜆𝐈 𝜶 = 𝒚
𝜶=
𝐊 + 𝜆𝐈
−1
𝒚
8. カーネル関数の設計(1)
𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖
𝑇
𝝓 𝒙
𝑘(𝑥1 , 𝑥1 )
𝑘(𝑥1 , 𝑥2 )
𝐊=
⋯
⋮
𝑘(𝑥1 , 𝑥 𝑛 )
𝑘(𝑥 𝑛 , 𝑥1 )
𝑘(𝑥 𝑛 , 𝑥2 )
⋮
𝑘(𝑥 𝑛 , 𝑥 𝑛 )
カーネル法のモデルパラメータ
を推定するためには,この行列
が定義出来ればよい
例1)ガウスカーネル
𝑘 𝒙 𝑖 , 𝒙 = exp −𝛽 𝒙 𝑖 − 𝒙
2
近い点同士は高い類似度を,遠い
点同士は低い類似度を割り当てる
9. カーネル関数の設計(2)
例2)フィッシャーカーネル
𝒙がパラメータ𝜽をもつ確率分布𝑝 𝒙; 𝜽 から生成されるとする
例えば,Gaussian Mixture Model (GMM)
𝐾
𝑝 𝒙 =
𝑘=1
1
𝜋 𝑘 exp −
𝒙− 𝝁𝑘
2
𝑇 −1
𝚺𝑘
𝒙− 𝝁𝑘
𝜽 = 𝜋2 , ⋯ , 𝜋 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾
= 𝜃1 , ⋯ , 𝜃 𝑀
スコア関数
𝒔 𝒙; &𝜽 =
𝜕 log 𝑝 𝒙; 𝜽
𝜕 log 𝑝 𝒙; 𝜽
,⋯,
𝜕𝜃1
𝜕𝜃 𝑀
𝑇
仮定した確率分布𝑝 𝒙; 𝜽 を利用して,あるデータ𝒙及びあるパラメータ𝜽からスコ
ア関数を計算できる.スコア関数は確率分布の対数をとったlog 𝑝 𝒙; 𝜽 に対して,
パラメータ𝜽に関する偏微分を計算したベクトルである.
与えられたデータ𝒙を代入したlog 𝑝 𝒙; 𝜽 の𝜽に関する傾きを表す
10. カーネル関数の設計(3)
例2)フィッシャーカーネル(続き)
フィッシャー情報行列
𝐺 𝜽 = E 𝒙 𝒔 𝒙; &𝜽 𝒔 𝒙; &𝜽
パラメータ数𝑀 × 𝑀の行列
𝑇
フィッシャーカーネル
𝑘 𝒙 𝑖 , 𝒙; 𝜽 = 𝒔 𝒙 𝑖 ; &𝜽
𝑇
𝐺 −1 𝜽 𝒔 𝒙; &𝜽
フィッシャー情報行列における期待値を計算できないことが多いので,実
際にはサンプル平均で置き換えることが多い
𝐺 𝜽 &= E 𝒙 𝒔 𝒙; &𝜽 𝒔 𝒙; &𝜽
≅
&
1
𝑛
𝑇
𝑛
𝒔 𝒙 𝑖 ; &𝜽 𝒔 𝒙 𝑖 ; &𝜽
𝑇
𝑖=1
スコア行列はあるデータ𝒙, あるパラメータ𝜽において計算するが,フィー
シャーカーネルはフィッシャー情報行列の逆行列で正規化することにより
パラメータ𝜽に依存しない値になる
11. Fisher Kernels on Visual Vocabularies for
Image Categorization
F. Perronnin and C. Dance, IEEE Conference on Computer
Vision and Pattern Recognition, 2007.
13. Bag of Visual Words / Bag of Features
Bag of Visual Wordsにおける処理の流れ
1. 画像から局所特徴量の抽出
2. ベクトル量子化による画像特徴量の表現
3. 識別器による画像識別
35
30
25
20
15
10
5
0
0
5
10
15
20
25
𝜙
400
350
300
250
200
150
100
50
0
画像から局所特徴量の抽出
1
2
3
4
5
6
7
ベクトル量子化による
画像特徴量の表現
識別器による画像識別
14. Bag of Visual Words (1)
1. 画像から局所特徴量の抽出
よく利用される局所特徴量は,SIFT (Scale-Invariant Feature Transform)
赤で示した各点で,その周辺のパッ
チから特徴量ベクトル(局所特徴
量)を抽出する
点の設定方法
1.キーポイント検出器
2. GRID
コンピュータ最先端ガイド2,第1章,アドコム・メディア,2010
15. Bag of Visual Words (2)
2. ベクトル量子化による画像特徴量の表現
35
5
30
6
7
25
20
𝑥2 15
4
400
350
2
10
300
250
5
0
1
3
0
5
200
10
15
20
𝑥1
25
150
100
50
1枚の画像における局所特徴量分布
(特徴量空間にプロット)
0
1
2
3
4
5
6
7
ベクトル量子化ヒストグラム
16. Bag of Visual Words (3)
3. 識別器による画像識別
Support Vector Machine (SVM)
による識別
カーネル関数を利用し
た高次元空間への写像
𝜙
ベクトル量子化ヒスト
グラムの特徴量空間
線形の超平面に
よる識別
17. Bag of Visual Wordsにおける課題
膨大な量の画像データを処理するために,計算量を可能な限り小さくしたい
1. コンパクトな画像特徴量表現: 少ないVisual Word数
2. ユニバーサルなVisual Words(辞書): 辞書の学習データに依存しな
い認識精度
一般に両立しない
• 少ないVisual Word数で高精度の認識を可能にするためには,評
価する画像をよく表現するVisual Wordsを用意する必要がある
• 評価画像に特化したVisual Wordsになるため,他のデータベース
画像に対しては精度が低下する可能性が高い
フィッシャーカーネルを利用して,出来る限り少ないVisual Word数
で表現力が豊かな画像特徴量表現を検討する
18. フィッシャーカーネルの利用(1)
ベクトル量子化による特徴量分布表現
Gaussian Mixture Model(GMM)によ
る局所特徴量分布の表現
35
35
5
30
7
25
6
30
25
20
20
𝑥2
𝑥2
4
15
10
2
15
10
5
0
3
0
5
1
5
10
15
20
25
0
𝑥1
0
5
10
15
20
25
𝑥1
𝐾
400
350
𝑝 𝒙 =
300
250
𝜋 𝑘 exp −
𝑘=1
200
150
1
𝒙− 𝝁𝑘
2
𝑇 𝚺 −1
𝑘
𝒙− 𝝁𝑘
100
50
0
1
2
3
4
5
6
7
1&&&&&2&&&&&3&&&&&4&&&&&5&&&&&6&&&&&7
𝜽 = 𝜋2 , ⋯ , 𝜋 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾
= 𝜃1 , ⋯ , 𝜃 𝑀
20. フィッシャーカーネルの理論(1)
GMMに限らず,局所特徴量分布を𝑝 𝒙|𝜽 の確率密度関数で表す
ただし,𝜽は確率密度関数のパラメータ
例えば,GMMの場合は,
𝐾
𝑝 𝒙|𝜽 =
𝜋 𝑘 exp −
𝑘=1
1
𝒙− 𝝁𝑘
2
𝑇 𝚺 −1
𝑘
𝒙− 𝝁𝑘
𝜽 = 𝜋2 , ⋯ , 𝜋 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾 = 𝜃1 , ⋯ , 𝜃 𝑀
サンプル𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,対数尤度は,
𝐿 𝑿 𝜽 = log 𝑝 𝑿|𝜽
であり,各サンプルが独立であると仮定すると,
𝐿 𝑿 𝜽 &= log
=
& log
=
& log
=
& log
𝑝 𝑿|𝜽
𝑝 𝒙1 , 𝒙2 , ⋯ , 𝒙 𝑇 |𝜽
𝑝 𝒙1 |𝜽 𝑝 𝒙2 |𝜽 ⋯ 𝑝 𝒙 𝑇 |𝜽
𝑝 𝒙1 |𝜽 + log 𝑝 𝒙2 |𝜽 + ⋯ + log 𝑝 𝒙 𝑇 |𝜽
𝑇
=
&
log 𝑝 𝒙 𝑡 |𝜽
𝑡=1
21. フィッシャーカーネルの理論(2)
フィッシャーカーネル(フィッシャーベクトル)を定義するために,スコア関数を
以下の式で定義する
確率密度関数のモデルをデータ
𝒔 𝑿|𝜽 &= 𝛻 𝜃 log 𝑝 𝑿|𝜽
𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 にフィッ
𝑇
ティングするため,モデルパラ
𝜕 log 𝑝 𝑿|𝜽
𝜕 log 𝑝 𝑿|𝜽
=
&
,⋯,
メータ𝜽を変化させる方向
𝜕𝜃1
𝜕𝜃 𝑀
フィッシャー情報行列
𝑭 𝜽 = E 𝑿 𝒔 𝑿|𝜽 𝒔 𝑿|𝜽
パラメータ数𝑀 × 𝑀の行列
𝑇
フィッシャーカーネル
1
𝑘 𝑿 𝑖 , 𝑿|𝜽 =
𝒔 𝑿 𝑖 |𝜽
𝑇
𝑇
𝑭−1
𝜽
1
𝒔 𝑿|𝜽
𝑇
フィッシャーベクトル
1
1
𝑔 𝜽𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽 = 𝑳 𝜽
𝛻 log 𝑝 𝑿|𝜽
𝑇
𝑇 𝜃
確率密度関数モデルの勾配方
向をフィッシャー情報行列で
正規化
𝑭−1 = 𝑳 𝜽 𝑻 𝑳 𝜽
𝜽
とおくと,フィッシャーカーネルはフィッシャーベクトルの内積で表現できる
𝑿 𝑇
𝑘 𝑿 𝑖 , 𝑿|𝜽 = 𝑔 𝜽 𝑖 𝑔 𝜽𝑿
つまり,カーネル法において𝝓 𝑿 = 𝑔 𝜽𝑿
22. フィッシャーカーネルの理論(3)
フィッシャーベクトルを計算する具体的手順
35
30
• あらかじめ,多くの画像の局所特徴量から,確率密
度関数のモデル𝑝 𝒙|𝜽 に最もフィットするパラメー
タ𝜽を求める
• 一枚の画像に対して,局所特徴量
𝑿 = 𝒙 𝑡 , 𝑡 = 1, ⋯ , 𝑇 を計算し, 𝑿にフィットするよ
うに,パラメータ𝜽に対するlog 𝑝 𝑿|𝜽 の勾配ベクト
ルを計算する
𝒔 𝑿|𝜽 &= 𝛻 𝜃 log 𝑝 𝑿|𝜽
=
&
𝜕 log 𝑝 𝑿|𝜽
𝜕 log 𝑝 𝑿|𝜽
,⋯,
𝜕𝜃1
𝜕𝜃 𝑀
𝑇
25
20
15
𝑥2
10
5
0
-5
-5
0
5
10
15
20
25
30
35
𝑥1
多くの画像の局所特徴量に対するGMM
(Visual Words辞書に対応)
35
30
25
• 以下の式でフィッシャーベクトルを計算する
1
𝑔 𝜽𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽
𝑇
• フィッシャーカーネルは𝑔 𝜽𝑿 の内積で表されるので,
内積を使った線形SVMによりフィッシャーカーネル
を使ったSVMによる識別を実現できる
20
𝑥2
15
10
5
0
0
5
10
15
20
25
𝑥1
辞書のGMMパラメータを変化させて,
1枚の画像に対する局所特徴量分布に
フィッティング
23. GMMに対するフィッシャーベクトル(1)
確率密度関数のモデルをGMMとすると,パラメータ𝜽は𝐾個のガウス分布の重み,平
均,共分散行列である(ただし,確率密度関数の面積を1にするため,1番目の重み
パラメータは他の重みから決定される)
𝐾
𝑝 𝒙|𝜽 =
𝑘=1
1
𝜋 𝑘 exp −
𝒙− 𝝁𝑘
2
𝑝 𝑘 𝒙|𝜽 =
𝜽=
1
𝐷/2
2𝜋
Σ𝑘
𝐾
𝑇 𝚺 −1
𝑘
exp −
1/2
𝒙− 𝝁𝑘
=
𝜔 𝑘 𝑝 𝑘 𝒙|𝜽
𝑘=1
1
𝒙− 𝝁𝑘
2
𝐾
𝑇 𝚺 −1
𝑘
𝒙− 𝝁𝑘
𝜔2 , ⋯ , 𝜔 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾 = 𝜃1 , ⋯ , 𝜃 𝑀 ,
サンプル𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,対数尤度は,
𝐿 𝑿 𝜽 &= log 𝑝 𝑿|𝜽
𝑇
=
&
log 𝑝 𝒙 𝑡 |𝜽
𝑡=1
𝑇
=
&
𝐾
log
𝑡=1
𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽
𝑘=1
,
𝜔𝑘 =1
𝑖=1
M = (2𝑑 + 1)𝐾 − 1
24. GMMに対するフィッシャーベクトル(2)
サンプル𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,対数尤度は,
𝑇
𝐾
𝐿 𝑿 𝜽 =
log
𝑡=1
𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽
𝑘=1
パラメータ𝜽に対する勾配ベクトルは,GMMの共分散行列Σ 𝑘 を対角行列と仮定すると,
𝜕𝐿 𝑿 𝜽
&=
𝜕𝜔 𝑖
𝜕𝐿 𝑿 𝜽
&=
𝜕𝜇 𝑖𝑑
𝜕𝐿 𝑿 𝜽
𝜕𝜎 𝑖 𝑑
𝑇
𝑡=1
𝑇
𝑡=1
𝑇
&=
𝑡=1
𝜕
1
𝛾𝑡 𝑖
−
𝒙 − 𝝁𝑖
2 𝑡
𝜕𝜇 𝑖𝑑
𝐾
𝑘=1
𝑡=1
𝛾 𝑡 (𝑖) 𝛾 𝑡 (1)
−
𝜔𝑖
𝜔1
𝜔 𝑖 𝑝 𝑖 𝒙 𝑡 |𝜽
, 𝜔1 = 1 −
𝐾
𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽
𝑘=1
𝑖 = 2, ⋯ , 𝐾
𝑇
𝑇 𝚺 −1
𝑖
𝒙 𝑡 − 𝝁𝑖
=
𝛾𝑡 𝑖
𝑥 𝑡𝑑 − 𝜇 𝑖𝑑
𝜎𝑖 𝑑
𝑡=1
𝜔𝑖
𝜕
𝑝 𝒙|𝜽 =
𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽 𝜕𝜎 𝑖 𝑑 𝑖
ただし,
𝛾𝑡 𝑖 =
𝑇
−𝑝1 𝒙 𝑡 |𝜽 + 𝑝 𝑖 𝒙 𝑡 |𝜽
=
𝐾
𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽
𝑘=1
𝑇
𝛾𝑡 𝑖
𝑡=1
𝑥 𝑡𝑑 − 𝜇 𝑖𝑑
𝜎𝑖
𝐾
𝜔 𝑘 , 𝜎𝑖 𝑑
𝑖=2
2
= Σ 𝑖 (𝑑, 𝑑)
𝑑 3
2
−
2
1
𝜎𝑖 𝑑
25. GMMに対するフィッシャーベクトル(3)
以上で,1枚の画像の局所特徴量集合𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,事前に学習し
たGMMパラメータ𝜽におけるスコア関数を計算できる
𝒔 𝑿|𝜽 &= 𝛻 𝜃 log 𝑝 𝑿|𝜽
=
&
𝜕 log 𝑝 𝑿|𝜽
𝜕 log 𝑝 𝑿|𝜽
,⋯,
𝜕𝜃1
𝜕𝜃 𝑀
𝑇
以下の式でフィッシャーベクトルを計算するためには,フィッシャー情報行列𝑭 𝜽 が求
まれば良い.𝑭−1 = 𝑳 𝜽 𝑻 𝑳 𝜽 として,
𝜽
1
𝑔 𝜽𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽
1
1
𝑇
𝑓 𝜔 𝑡 &= 𝑇
+
𝜔𝑖
𝜔1
フィッシャー情報行列𝑭 𝜽 は以下の仮定をおく
𝜔𝑖
と,右式のように近似できる
𝑓 𝑢 𝑑 &= 𝑇
2
𝑖
𝜎𝑖 𝑑
(1) フィッシャー情報行列を対角行列とする
(計算を簡単にするため)
2𝜔 𝑖
𝑓 𝜎 𝑑 &&= 𝑇
2
(2) 各画像から得られる局所特徴量数は等しい
𝑖
𝜎𝑖 𝑑
(3) 𝛾 𝑡 𝑖 は0もしくは1に近い値をとる(各画
ただし,𝑓 𝜔 𝑡 , 𝑓 𝑢 𝑑 , 𝑓 𝜎 𝑑 はそれぞれ
像において,GMMの1つのガウス分布の寄
𝑖
𝑖
与が他に比べて非常に大きい)
フィッシャー情報行列𝑭 𝜽 の対応す
るパラメータの対角成分とする
26. GMMに対するフィッシャーベクトル(4)
フィッシャーベクトル計算式のまとめ
1
𝑿
𝑔𝜽 = 𝑳𝜽
𝑇
𝜕𝐿 𝑿|𝜽
𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽
𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽
𝜕𝐿 𝑿|𝜽
,⋯,
,
,⋯,
,
,⋯,
𝜕𝜔2
𝜕𝜔 𝐾
𝜕𝜇1
𝜕𝜇 𝐾
𝜕𝜎1
𝜕𝜎 𝐾
1
𝑿
𝑔 𝜔 𝑖 &=
𝑇
𝑔 𝜇𝑿 𝑑 &=
𝑖
1
𝑇
1
𝑔 𝜎𝑿 𝑑 &=
𝑖
𝑇
𝑇
𝑇
𝑇
−
1
1
+
𝜔𝑖
𝜔1
1
−
2
𝜔𝑖
𝜎𝑖
𝑑 2
2𝜔 𝑖
𝜎𝑖
𝑑 2
1
2
𝑇
𝑡=1
𝑇
𝛾𝑡 𝑖
𝑡=1
−
1
2
𝑇
𝛾𝑡 𝑖
𝑡=1
35
𝛾𝑡 𝑖
𝛾𝑡 1
−
𝜔𝑖
𝜔1
𝑥 𝑡𝑑 − 𝜇 𝑖𝑑
𝜎𝑖
𝑑 2
=
𝑥 𝑡𝑑 − 𝜇 𝑖𝑑
𝜎𝑖
𝑑 3
−
1
1
1
=
+
𝜔1
𝑇 𝑇 𝜔𝑖
𝑇
1
𝑇
𝑇𝜔 𝑖
2
−
1
𝜎𝑖 𝑑
𝛾𝑡 𝑖
𝑇
𝑡=1
𝛾𝑡 𝑖
𝛾𝑡 1
−
𝜔𝑖
𝜔1
𝑥 𝑡𝑑 − 𝜇 𝑖𝑑
𝜎𝑖 𝑑
𝑡=1
=
1
2
𝑇
1
𝑇 2𝑇𝜔 𝑖
𝑇
𝛾𝑡 𝑖
𝑡=1
𝑥 𝑡𝑑 − 𝜇 𝑖𝑑
𝜎𝑖
𝑑 2
2
−1
𝑿
𝑔 𝜔 𝑖 &: 各ガウス分布の重み(寄与)
𝑔 𝜇𝑿 𝑑 : 各ガウス分布の平均ベクトル
30
25
𝑖
20
𝑔 𝜎𝑿 𝑑 :
𝑖
𝑥2
15
各ガウス分布の分散(大きさ)
10
フィッシャーベクトルの次元: (2𝑑 + 1)𝐾 − 1
5
0
0
5
10
15
𝑥1
20
25
27. Improving the Fisher Kernel for
Large-Scale Image Classification
F. Perronnin, S. Jorge, and T. Mensink, European Conference
on Computer Vision, 2010.
29. L2正規化(1)
フィッシャーベクトル
𝑔 𝜽𝑿
1
𝑿
= 𝑳 𝜽 𝒔 𝑿|𝜽 = 𝑳 𝜽 𝑮 𝜃
𝑇
1
1
1
𝑿
𝑮 𝜃 = 𝒔 𝑿|𝜽 = 𝛻 𝜃 log 𝑝 𝑿|𝜽 = 𝛻 𝜃
𝑇
𝑇
𝑇
𝑇
log 𝑝 𝒙 𝑡 |𝜽
𝑡=1
多くの画像から得られた局所特徴量の確率密度関数を𝑝 𝑿|𝜽 = 𝑢 𝜽 𝒙
とすると
𝑇
1
𝑿
𝑮 𝜃 = 𝛻𝜃
𝑇
log 𝑢 𝜽 𝒙 𝑡
𝑡=1
1枚の画像から得られる局所特徴量数𝑇が十分大きいと仮定すると,
𝑿
𝑮 𝜃 &= 𝛻 𝜃 𝐸 𝒙 log 𝑢 𝜽 𝒙
=
& 𝛻𝜃
1枚の画像に対する期待値
𝑝 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙
𝒙
1枚の画像から得られる局
所特徴量の確率密度関数
多くの画像から得られる局所特徴量の
確率密度関数 → 画像の背景と仮定
30. L2正規化(2)
1枚の画像から得られる局所特徴量の確率密度関数𝑝 𝒙 を背景𝑢 𝜽 𝒙 と対象物体
𝑞 𝒙 の確率密度関数の和で表す
𝑢𝜽 𝒙
𝑝 𝒙 = 𝜔𝑞 𝒙 + 1 − 𝜔 𝑢 𝜃 (𝒙)
𝑿
𝑮 𝜃 &= 𝛻 𝜃
𝑝 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙
𝒙
𝑞 𝒙
=
& 𝛻𝜃
𝜔𝑞 𝒙 + 1 − 𝜔 𝑢 𝜃 (𝒙) log 𝑢 𝜽 𝒙 𝑑𝒙
𝒙
=
& 𝜔𝛻 𝜃
𝑞 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 + 1 − 𝜔 𝛻 𝜃
𝒙
=
& 𝜔𝛻 𝜃
𝒙
𝑢 𝜃 (𝒙) log 𝑢 𝜽 𝒙 𝑑𝒙
𝒙
𝑞 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 + 1 − 𝜔 𝛻 𝜃 𝐸 𝑢 𝜃 log 𝑢 𝜽 𝒙
多くの画像から確率密度関数を最尤法で推定する場合,𝐸 𝑢 𝜃 log 𝑢 𝜽 𝒙 が
最大となるように推定するので,𝛻 𝜃 𝐸 𝑢 𝜃 log 𝑢 𝜽 𝒙 ≅ 0
𝑿
∴ & 𝑮 𝜃 ≅ 𝜔𝛻 𝜃
𝑞 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙
𝑿
𝑮𝜃
𝐾 𝑋, 𝑌
𝑿
𝑮𝜃
𝐾 𝑋, 𝑋 𝐾(𝑌, 𝑌)
対象物体の確率密度関数𝑞 𝒙 に依存する
ただし,背景と物体の混合比𝜔が残るので,正規化で排除する
𝒙
33. フィッシャーベクトルの評価実験
評価用データセット
•
PASCAL VOC 2007 (約10,000画像 @ 20カテゴリ)
•
CalTech256 (約30,000画像 @ 256カテゴリ)
局所特徴量
•
パッチサイズ:32x32,グリッドサンプリング(間隔16画素),5スケール
•
128次元のSIFT特徴量,及び96次元のカラー特徴量(各パッチにおいて,4x4
に領域を分けてそれぞれの領域におけるRGBの平均と分散を並べた特徴量)
•
SIFTとカラー特徴量は主成分分析(PCA)により64次元に圧縮して利用
Gaussian Mixture Model (GMM)
•
GMMの混合数K=256に設定
•
GMMの学習には,最尤法(Maximum Likelihood Estimation)と標準的なEMア
ルゴリズムを使用
識別
•
線形SVMを使用
•
SIFT特徴量とカラー特徴量を組み合わせるときは,それぞれで識別を行い,
SVMのスコアを単純に平均して識別
34. 評価指標
PASCAL VOC 2007データセット
• 20クラスのそれぞれに対して,各画像中にそのクラスの物体が存在する
か,それともしないかを判断
• 各クラスに対してPrecision/Recall曲線を計算(Precision: 物体が存在す
ると判断した画像中,実際に正解だった割合,Recall: 物体が存在する画
像中,物体が存在すると判断された画像の割合)
• Recallに対するPrecisionをグラフに描き,Recallに対するPrecisionの平
均値を計算
Average Precision (AP)
CalTech256データセット
• 各クラスから学習データを決められた画像数だけランダムに抽出
(ntrain=15, 30, 45, 60)
• SVMのパラメータは学習データ中のクラスバリデーションで決定
• 学習データ以外のデータをテストデータとして識別率を計算
• 学習データとテストデータの分け方を変えて5回繰り返して識別
平均識別率
40. まとめ
• 多変量解析に利用されるカーネル法を紹介し,カーネル関数の例として
フィッシャーカーネルを説明した.
• Bag of Visual Wordsの拡張として,フィッシャーカーネルに基づいた
フィッシャーベクトルを画像認識に適用した.ユニバーサルでコンパク
トな辞書で画像識別が可能である.
• L2正規化,パワー正規化,空間ピラミッドをフィッシャーベクトルに導
入することにより,複雑で高計算コストの手法と同等の画像識別精度が
実現可能であることを示した.高速な計算が可能なため,ImageNetなど
大規模データにも適用可能である.
• 下記の文献では,近年提案された画像識別手法を比較した結果,フィッ
シャーベクトルを利用した手法が高い精度を示すことが報告されている
K. Chatfield, V. Lempitsky, A. Vedaldi, and A. Zisserman, “The devil is in the details: an
evaluation of recent feature encoding methods,” British Machine Vision Conference, 2011.