Fisher Vectorによる画像認識

2013/04/24 上智大学山中高夫

フィッシャーベクトルによる画像認識
[0] 赤穂昭太郎，カーネル多変量解析，岩波書店，2009.
[1] F. Perronnin and C. Dance, “Fisher Kernels on Visual Vocabularies for Image
Categorization,” in IEEE Conference on Computer Vision and Pattern Recognition, 2007.
[2] F. Perronnin, S. Jorge, and T. Mensink, “Improving the Fisher Kernel for Large-Scale
Image Classification,” in European Conference on Computer Vision, 2010.
[3] F. Perronnin, Y. Liu, J. Sanchez, and H. Poirier, “Large-scale image retrieval with
compressed Fisher vectors,” in IEEE Conference on Computer Vision and Pattern
Recognition, 2010.
[4] J. Sanchez and F. Perronnin, “High-dimensional signature compression for large-scale
image classification,” in IEEE Conference on Computer Vision and Pattern Recognition,
2011.
[5] J. Krapac, J. Verbeek, and F. Jurie, “Modeling spatial layout with fisher vectors for
image categorization,” in International Conference on Computer Vision, 2011.
[6] V. Garg, S. Chandra, and C. V. Jawahar, “Sparse discriminative Fisher vectors in visual
classification,” in Indian Conference on Computer Vision, Graphics and Image
Processing, 2012.
[7] J. Sánchez, F. Perronnin, and T. de Campos, “Modeling the spatial layout of images
beyond spatial pyramids,” Pattern Recognition Letters, vol. 33, pp. 2216–2223, Dec.
2012.

パターン認識におけるカーネル法
赤穂昭太郎，カーネル多変量解析，岩波書店，2009.

多変量解析（1）
線形モデル

𝑑

𝑦 = 𝒘𝑇 𝒙=

𝑤𝑚𝑥

𝑚

𝑚=1

評価関数
𝑁

𝑦𝑗 − 𝒘𝑇 𝒙𝑗

𝑅 𝒘 =

2

𝑗=1

行列表現
𝑦1
𝑦2 ,
𝒚=
⋮
𝑦𝑛
1
𝑥1
𝑦1
2
𝑦 2 = 𝑥1
⋮
⋮
𝑛
𝑦
𝑥1𝑛

𝑇
1
𝑥1
𝒙1
𝑇
2
𝒙2 = 𝑥1
𝐗=
⋮
⋮
𝑇
𝑥1𝑛
𝒙𝑛

⋯

𝑥1
𝑑
𝑥2
𝑑
⋮
𝑥 𝑑𝑛

𝑤1
𝑤2
⋮
𝑤𝑑

⋯

𝑥1
𝑑
2
𝑥𝑑
⋮
𝑥 𝑑𝑛

𝒚 = 𝐗𝒘

多変量解析（2）
最小２乗解
𝒚 = 𝐗𝒘
𝑅 𝒘 = 𝒚 − 𝐗𝒘 𝑇 (𝒚 − 𝐗𝒘)
𝜕𝑅 𝒘
𝜕
&=
𝒚 𝑇 𝒚 − 2𝒘T 𝐗 𝑇 𝒚 + 𝒘 𝑇 𝐗 𝑇 𝐗𝒘
𝜕𝒘
𝜕𝒘
=
& −2𝐗 𝑇 𝒚 + 2𝐗 𝑇 𝐗𝒘

𝑅 𝒘 が最小になる𝒘では，微分
が0になるので（極値なので）
−2𝐗 𝑇 𝒚 + 2𝐗 𝑇 𝐗𝒘 = 0
𝐗𝑇 𝐗

−1

𝐗𝑇 𝐗 𝒘=

𝐗𝑇 𝐗

−1

𝐗𝑇 𝒚

𝒘=

𝐗𝑇 𝐗

−1

𝐗𝑇 𝒚

近似直線を表すパラメータ

カーネル法（1）
線形モデル
𝑦 = 𝒘𝑇 𝒙
カーネル関数
𝒙 𝑖 , 𝒙の類似度を表す

カーネル関数を使った非線形モデル
ただし，

𝑛

𝑦&=

𝛼 𝑖 𝑘 𝒙 𝑖, 𝒙

𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖

𝑖=1
𝑛

=
&

𝑇

𝝓 𝒙

𝒙 𝑖 は𝑛点のサンプルのうちの一つ
𝛼𝑖 𝝓 𝒙𝑖

𝑇

𝝓 𝒙

𝑖=1
𝑛

=
&
=
&

𝛼𝑖 𝝓 𝒙𝑖
𝑖=1
𝒘𝑇 𝝓

𝒙

𝑇

𝝓 𝒙

線形モデルにおける𝒙を非線形
関数𝝓 𝒙 に置き換えたモデル

カーネル関数を使った非線形モデル
𝑦&= 𝒘 𝑇 𝝓 𝒙


𝑛

=
&

𝑇

𝝓 𝒙

𝛼 𝑖 𝑘 𝒙 𝑖, 𝒙
𝑖=1

𝑘(𝑥1 , 𝑥1 )
𝑦1
𝑦 2 , 𝐊 = 𝑘(𝑥1 , 𝑥2 ) ⋯
𝒚=
⋮
⋮
𝑘(𝑥1 , 𝑥 𝑛 )
𝑦𝑛

最小２乗解
𝒚 = 𝐊𝜶

𝑅 𝜶 = 𝒚 − 𝐊𝜶 𝑇 (𝒚 − 𝐊𝜶)

𝜶=

𝐊𝑇 𝐊

−1

𝐊𝑇 𝒚

非線形モデル
のパラメータ

𝐊を対称行列とすると
𝜶=

𝐊2

−1

𝐊𝒚 = 𝐊 −1 𝐲

全てのデータ間の類似度𝐊を定義できれば，非
線形関数𝝓 𝒙 を明示的に定義する必要がない

𝛼1
𝑘(𝑥 𝑛 , 𝑥1 )
𝛼2
𝑘(𝑥 𝑛 , 𝑥2 )
, 𝜶= ⋮
⋮
𝛼𝑛
𝑘(𝑥 𝑛 , 𝑥 𝑛 )

正則化：関数に制限をつけてオーバーフィッティングを防ぐ
𝒚 = 𝐊𝜶
𝑅 𝜶 = 𝒚 − 𝐊𝜶

𝑇

正則化項

𝑇

𝒚 − 𝐊𝜶 + 𝜆𝜶 𝐊𝜶

𝜕𝑅 𝜶
𝜕
&=
𝒚 𝑇 𝒚 − 2𝜶T 𝐊 𝑇 𝒚 + 𝜶 𝑇 𝐊 𝑇 𝐊𝜶 + 𝜆𝜶 𝑇 𝐊𝜶
𝜕𝜶
𝜕𝜶
=
& −2𝐊 𝑇 𝒚 + 2 𝐊 𝑇 + 𝜆𝐈 𝐊𝜶
非線形モデル
𝜶 = 𝐊 𝑇 + 𝜆𝐈 𝐊 −1 𝐊 𝑇 𝒚
のパラメータ
𝐊を対称行列とすると
−2𝐊𝒚 + 2 𝐊 + 𝜆𝐈 𝐊𝜶 = 𝟎
𝐊𝐊 + 𝜆𝐊 𝜶 = 𝐊𝒚
𝐊 + 𝜆𝐈 𝜶 = 𝒚
𝜶=

𝐊 + 𝜆𝐈

−1

𝒚

カーネル関数の設計（1）

𝑇

𝝓 𝒙

𝑘(𝑥1 , 𝑥1 )
𝑘(𝑥1 , 𝑥2 )
𝐊=
⋯
⋮
𝑘(𝑥1 , 𝑥 𝑛 )

𝑘(𝑥 𝑛 , 𝑥1 )
𝑘(𝑥 𝑛 , 𝑥2 )
⋮
𝑘(𝑥 𝑛 , 𝑥 𝑛 )

カーネル法のモデルパラメータ
を推定するためには，この行列
が定義出来ればよい

例1）ガウスカーネル
𝑘 𝒙 𝑖 , 𝒙 = exp −𝛽 𝒙 𝑖 − 𝒙

2

近い点同士は高い類似度を，遠い
点同士は低い類似度を割り当てる

例2）フィッシャーカーネル
𝒙がパラメータ𝜽をもつ確率分布𝑝 𝒙; 𝜽 から生成されるとする
例えば，Gaussian Mixture Model (GMM)
𝐾

𝑝 𝒙 =
𝑘=1

1
𝜋 𝑘 exp −
𝒙− 𝝁𝑘
2

𝑇 −1
𝚺𝑘

𝒙− 𝝁𝑘

𝜽 = 𝜋2 , ⋯ , 𝜋 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾

= 𝜃1 , ⋯ , 𝜃 𝑀
スコア関数
𝒔 𝒙; &𝜽 =

𝜕 log 𝑝 𝒙; 𝜽
𝜕 log 𝑝 𝒙; 𝜽
,⋯,
𝜕𝜃1
𝜕𝜃 𝑀

𝑇

仮定した確率分布𝑝 𝒙; 𝜽 を利用して，あるデータ𝒙及びあるパラメータ𝜽からスコ
ア関数を計算できる．スコア関数は確率分布の対数をとったlog 𝑝 𝒙; 𝜽 に対して，
パラメータ𝜽に関する偏微分を計算したベクトルである．
与えられたデータ𝒙を代入したlog 𝑝 𝒙; 𝜽 の𝜽に関する傾きを表す

例2）フィッシャーカーネル（続き）
フィッシャー情報行列
𝐺 𝜽 = E 𝒙 𝒔 𝒙; &𝜽 𝒔 𝒙; &𝜽

パラメータ数𝑀 × 𝑀の行列

𝑇

フィッシャーカーネル
𝑘 𝒙 𝑖 , 𝒙; 𝜽 = 𝒔 𝒙 𝑖 ; &𝜽

𝑇

𝐺 −1 𝜽 𝒔 𝒙; &𝜽

フィッシャー情報行列における期待値を計算できないことが多いので，実
際にはサンプル平均で置き換えることが多い
𝐺 𝜽 &= E 𝒙 𝒔 𝒙; &𝜽 𝒔 𝒙; &𝜽
≅
&

1
𝑛

𝑇

𝑛

𝒔 𝒙 𝑖 ; &𝜽 𝒔 𝒙 𝑖 ; &𝜽

𝑇

𝑖=1

スコア行列はあるデータ𝒙, あるパラメータ𝜽において計算するが，フィー
シャーカーネルはフィッシャー情報行列の逆行列で正規化することにより
パラメータ𝜽に依存しない値になる

Fisher Kernels on Visual Vocabularies for
Image Categorization
F. Perronnin and C. Dance, IEEE Conference on Computer
Vision and Pattern Recognition, 2007.

画像認識 (Image Categorization）

Airplane

Ant

Butterfly

Camera

Chair

Dolphin

Bag of Visual Words / Bag of Features
Bag of Visual Wordsにおける処理の流れ
1. 画像から局所特徴量の抽出

2. ベクトル量子化による画像特徴量の表現
3. 識別器による画像識別
35

30

25

20

15

10

5

0

0

5

10

15

20

25

𝜙

400

350

300

250

200

150

100

50

0

画像から局所特徴量の抽出

1

2

3

4

5

6

7

ベクトル量子化による
画像特徴量の表現

識別器による画像識別

Bag of Visual Words (1)
1. 画像から局所特徴量の抽出
よく利用される局所特徴量は，SIFT (Scale-Invariant Feature Transform)

赤で示した各点で，その周辺のパッ
チから特徴量ベクトル（局所特徴
量）を抽出する
点の設定方法
１．キーポイント検出器
２． GRID
コンピュータ最先端ガイド2，第１章，アドコム・メディア，2010

2. ベクトル量子化による画像特徴量の表現
35

5

30

6

7
25

20

𝑥2 15

4

400

350

2

10

300

250

5

0

1

3
0

5

200

10

15

20

𝑥1

25

150

100

50

１枚の画像における局所特徴量分布
（特徴量空間にプロット）

0

1

2

3

4

5

6

7

ベクトル量子化ヒストグラム

3. 識別器による画像識別
Support Vector Machine (SVM)
による識別

カーネル関数を利用し
た高次元空間への写像
𝜙

ベクトル量子化ヒスト
グラムの特徴量空間

線形の超平面に
よる識別

Bag of Visual Wordsにおける課題
膨大な量の画像データを処理するために，計算量を可能な限り小さくしたい
1. コンパクトな画像特徴量表現：少ないVisual Word数
2. ユニバーサルなVisual Words（辞書）：辞書の学習データに依存しな
い認識精度

一般に両立しない
• 少ないVisual Word数で高精度の認識を可能にするためには，評
価する画像をよく表現するVisual Wordsを用意する必要がある

• 評価画像に特化したVisual Wordsになるため，他のデータベース
画像に対しては精度が低下する可能性が高い

フィッシャーカーネルを利用して，出来る限り少ないVisual Word数
で表現力が豊かな画像特徴量表現を検討する

フィッシャーカーネルの利用（1）
ベクトル量子化による特徴量分布表現

Gaussian Mixture Model(GMM)によ
る局所特徴量分布の表現

35

35

5

30

7

25

6

30

25
20

20

𝑥2

𝑥2

4

15

10

2

15

10

5

0

3

0

5

1
5

10

15

20

25

0

𝑥1

0

5

10

15

20

25

𝑥1
𝐾

400

350

𝑝 𝒙 =

300

250

𝜋 𝑘 exp −
𝑘=1

200

150

1
𝒙− 𝝁𝑘
2

𝑇 𝚺 −1
𝑘

𝒙− 𝝁𝑘

100

50

0

1

2

3

4

5

6

7

1&&&&&2&&&&&3&&&&&4&&&&&5&&&&&6&&&&&7

𝜽 = 𝜋2 , ⋯ , 𝜋 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾
= 𝜃1 , ⋯ , 𝜃 𝑀

フィッシャーカーネルの利用（2）
各画像に対してGMMのパラメータを計算するのは計算コストが高い
あらかじめ多くの画像の局所特徴量から，様々な画像の局所特徴量に対
するGMMパラメータを求める（Visual Words辞書学習）
各画像に対して，GMMのパラメータをどのように変化させるとその画
像にフィットするGMMが求まるかで画像特徴量を表現する → フィッ
シャーベクトル

•
•
•

35

35

30

30

25

25

20
20

𝑥2

𝑥2

15

15

10
10

5
5

0

-5
-5

0

5

10

15

20

25

30

35

𝑥1
多くの画像の局所特徴量に対するGMM
(Visual Words辞書に対応）

0

0

5

10

15

20

25

𝑥1

辞書のGMMパラメータを変化させて，
1枚の画像に対する局所特徴量分布に
フィッティング

フィッシャーベクトルを計算する具体的手順

35

30

• あらかじめ，多くの画像の局所特徴量から，確率密
度関数のモデル𝑝 𝒙|𝜽 に最もフィットするパラメー
タ𝜽を求める
• 一枚の画像に対して，局所特徴量
𝑿 = 𝒙 𝑡 , 𝑡 = 1, ⋯ , 𝑇 を計算し， 𝑿にフィットするよ
うに，パラメータ𝜽に対するlog 𝑝 𝑿|𝜽 の勾配ベクト
ルを計算する
=
&

,⋯,
𝜕𝜃1
𝜕𝜃 𝑀

𝑇

25

20

15

𝑥2

10

5

0

-5
-5

0

5

10

15

20

25

30

35

𝑥1
多くの画像の局所特徴量に対するGMM
(Visual Words辞書に対応）
35

30

25

• 以下の式でフィッシャーベクトルを計算する
1
𝑔 𝜽𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽
𝑇
• フィッシャーカーネルは𝑔 𝜽𝑿 の内積で表されるので，
内積を使った線形SVMによりフィッシャーカーネル
を使ったSVMによる識別を実現できる

20

𝑥2

15

10

5

0

0

5

10

15

20

25

𝑥1
辞書のGMMパラメータを変化させて，
1枚の画像に対する局所特徴量分布に
フィッティング

GMMに対するフィッシャーベクトル（1）
確率密度関数のモデルをGMMとすると，パラメータ𝜽は𝐾個のガウス分布の重み，平
均，共分散行列である（ただし，確率密度関数の面積を1にするため，1番目の重み
パラメータは他の重みから決定される）
𝐾

𝑝 𝒙|𝜽 =
𝑘=1

1
𝜋 𝑘 exp −
𝒙− 𝝁𝑘
2

𝑝 𝑘 𝒙|𝜽 =
𝜽=

1
𝐷/2

2𝜋

Σ𝑘

𝐾
𝑇 𝚺 −1
𝑘

exp −
1/2

𝒙− 𝝁𝑘

=

𝜔 𝑘 𝑝 𝑘 𝒙|𝜽
𝑘=1

1
𝒙− 𝝁𝑘
2

𝐾
𝑇 𝚺 −1
𝑘

𝒙− 𝝁𝑘

𝜔2 , ⋯ , 𝜔 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾 = 𝜃1 , ⋯ , 𝜃 𝑀 ,

𝐿 𝑿 𝜽 &= log 𝑝 𝑿|𝜽
𝑇

=
&

𝑡=1
𝑇

=
&

𝐾

log
𝑡=1

𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽
𝑘=1

,

𝜔𝑘 =1
𝑖=1

M = (2𝑑 + 1)𝐾 − 1

𝑇

𝐾

𝐿 𝑿 𝜽 =

log
𝑡=1

𝑘=1

パラメータ𝜽に対する勾配ベクトルは，GMMの共分散行列Σ 𝑘 を対角行列と仮定すると，
𝜕𝐿 𝑿 𝜽
&=
𝜕𝜔 𝑖
𝜕𝐿 𝑿 𝜽
&=
𝜕𝜇 𝑖𝑑
𝜕𝐿 𝑿 𝜽
𝜕𝜎 𝑖 𝑑

𝑇

𝑡=1
𝑇

𝑡=1
𝑇

&=
𝑡=1

𝜕
1
𝛾𝑡 𝑖
−
𝒙 − 𝝁𝑖
2 𝑡
𝜕𝜇 𝑖𝑑
𝐾
𝑘=1

𝑡=1

𝛾 𝑡 (𝑖) 𝛾 𝑡 (1)
−
𝜔𝑖
𝜔1

𝜔 𝑖 𝑝 𝑖 𝒙 𝑡 |𝜽
, 𝜔1 = 1 −
𝐾
𝑘=1

𝑖 = 2, ⋯ , 𝐾
𝑇

𝑇 𝚺 −1
𝑖

𝒙 𝑡 − 𝝁𝑖

=

𝛾𝑡 𝑖

𝑥 𝑡𝑑 − 𝜇 𝑖𝑑
𝜎𝑖 𝑑

𝑡=1

𝜔𝑖
𝜕
𝑝 𝒙|𝜽 =
𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽 𝜕𝜎 𝑖 𝑑 𝑖

ただし，
𝛾𝑡 𝑖 =

𝑇

−𝑝1 𝒙 𝑡 |𝜽 + 𝑝 𝑖 𝒙 𝑡 |𝜽
=
𝐾
𝑘=1

𝑇

𝛾𝑡 𝑖
𝑡=1

𝜎𝑖

𝐾

𝜔 𝑘 , 𝜎𝑖 𝑑
𝑖=2

2

= Σ 𝑖 (𝑑, 𝑑)

𝑑 3

2

−

2

1
𝜎𝑖 𝑑

以上で，１枚の画像の局所特徴量集合𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して，事前に学習し
たGMMパラメータ𝜽におけるスコア関数を計算できる
=
&

,⋯,
𝜕𝜃1
𝜕𝜃 𝑀

𝑇

以下の式でフィッシャーベクトルを計算するためには，フィッシャー情報行列𝑭 𝜽 が求
まれば良い．𝑭−1 = 𝑳 𝜽 𝑻 𝑳 𝜽 として，
𝜽
1
𝑔 𝜽𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽
1
1
𝑇
𝑓 𝜔 𝑡 &= 𝑇
+
𝜔𝑖
𝜔1
フィッシャー情報行列𝑭 𝜽 は以下の仮定をおく
𝜔𝑖
と，右式のように近似できる
𝑓 𝑢 𝑑 &= 𝑇
2
𝑖
𝜎𝑖 𝑑
(1) フィッシャー情報行列を対角行列とする
（計算を簡単にするため）
2𝜔 𝑖
𝑓 𝜎 𝑑 &&= 𝑇
2
(2) 各画像から得られる局所特徴量数は等しい
𝑖
𝜎𝑖 𝑑
(3) 𝛾 𝑡 𝑖 は0もしくは1に近い値をとる（各画
ただし，𝑓 𝜔 𝑡 , 𝑓 𝑢 𝑑 , 𝑓 𝜎 𝑑 はそれぞれ
像において，GMMの１つのガウス分布の寄
𝑖
𝑖
与が他に比べて非常に大きい）
フィッシャー情報行列𝑭 𝜽 の対応す
るパラメータの対角成分とする

フィッシャーベクトル計算式のまとめ
1
𝑿
𝑔𝜽 = 𝑳𝜽
𝑇

𝜕𝐿 𝑿|𝜽
𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽
𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽
𝜕𝐿 𝑿|𝜽
,⋯,
,
,⋯,
,
,⋯,
𝜕𝜔2
𝜕𝜔 𝐾
𝜕𝜇1
𝜕𝜇 𝐾
𝜕𝜎1
𝜕𝜎 𝐾

1
𝑿
𝑔 𝜔 𝑖 &=
𝑇
𝑔 𝜇𝑿 𝑑 &=
𝑖

1
𝑇

1
𝑔 𝜎𝑿 𝑑 &=
𝑖
𝑇

𝑇

𝑇

𝑇

−

1
1
+
𝜔𝑖
𝜔1
1
−
2

𝜔𝑖
𝜎𝑖

𝑑 2

2𝜔 𝑖
𝜎𝑖

𝑑 2

1
2

𝑇

𝑡=1
𝑇

𝛾𝑡 𝑖
𝑡=1

−

1
2

𝑇

𝛾𝑡 𝑖
𝑡=1

35

𝛾𝑡 𝑖
𝛾𝑡 1
−
𝜔𝑖
𝜔1
𝜎𝑖

𝑑 2

=

𝜎𝑖

𝑑 3

−

1

1
1
=
+
𝜔1
𝑇 𝑇 𝜔𝑖
𝑇

1
𝑇

𝑇𝜔 𝑖

2

−

1
𝜎𝑖 𝑑

𝛾𝑡 𝑖

𝑇

𝑡=1

𝛾𝑡 𝑖
𝛾𝑡 1
−
𝜔𝑖
𝜔1

𝜎𝑖 𝑑

𝑡=1

=

1
2

𝑇

1
𝑇 2𝑇𝜔 𝑖

𝑇

𝛾𝑡 𝑖
𝑡=1

𝜎𝑖

𝑑 2

2

−1

𝑿
𝑔 𝜔 𝑖 &：各ガウス分布の重み（寄与）
𝑔 𝜇𝑿 𝑑 ：各ガウス分布の平均ベクトル

30

25

𝑖

20

𝑔 𝜎𝑿 𝑑 ：
𝑖

𝑥2

15

各ガウス分布の分散（大きさ）

10

フィッシャーベクトルの次元： (2𝑑 + 1)𝐾 − 1

5

0

0

5

10

15

𝑥1

20

25

Improving the Fisher Kernel for
Large-Scale Image Classification
F. Perronnin, S. Jorge, and T. Mensink, European Conference
on Computer Vision, 2010.

フィッシャーベクトルの課題
膨大な量の画像データを処理するために，計算量を可能な限り小さくしたい
1. コンパクトな画像特徴量表現：少ないVisual Word数
2. ユニバーサルなVisual Words（辞書）：辞書の学習データに依存しな
い認識精度

フィッシャーベクトルにより少ないVisual Wordsでユニ
バーサルな辞書の作成ができた (CVPR2007)
ただし，評価用データで辞書を学習した場合，Bag of Visual
Wordsと同程度の認識精度しか得られず，精度向上ができていない
フィッシャーベクトルを改良して，通常のBag of Visual Wordsより
高い精度を実現する
1. L2正規化
2. パワー正規化
3. 空間ピラミッド

L2正規化（1）
フィッシャーベクトル
𝑔 𝜽𝑿

1
𝑿
= 𝑳 𝜽 𝒔 𝑿|𝜽 = 𝑳 𝜽 𝑮 𝜃
𝑇
1
1
1
𝑿
𝑮 𝜃 = 𝒔 𝑿|𝜽 = 𝛻 𝜃 log 𝑝 𝑿|𝜽 = 𝛻 𝜃
𝑇
𝑇
𝑇

𝑇

𝑡=1

多くの画像から得られた局所特徴量の確率密度関数を𝑝 𝑿|𝜽 = 𝑢 𝜽 𝒙
とすると
𝑇

1
𝑿
𝑮 𝜃 = 𝛻𝜃
𝑇

log 𝑢 𝜽 𝒙 𝑡
𝑡=1

1枚の画像から得られる局所特徴量数𝑇が十分大きいと仮定すると，
𝑿
𝑮 𝜃 &= 𝛻 𝜃 𝐸 𝒙 log 𝑢 𝜽 𝒙

=
& 𝛻𝜃

１枚の画像に対する期待値

𝑝 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙
𝒙

1枚の画像から得られる局
所特徴量の確率密度関数

多くの画像から得られる局所特徴量の
確率密度関数 → 画像の背景と仮定

L2正規化（2）
1枚の画像から得られる局所特徴量の確率密度関数𝑝 𝒙 を背景𝑢 𝜽 𝒙 と対象物体
𝑞 𝒙 の確率密度関数の和で表す
𝑢𝜽 𝒙
𝑝 𝒙 = 𝜔𝑞 𝒙 + 1 − 𝜔 𝑢 𝜃 (𝒙)
𝑿
𝑮 𝜃 &= 𝛻 𝜃

𝑝 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙
𝒙

𝑞 𝒙

=
& 𝛻𝜃

𝜔𝑞 𝒙 + 1 − 𝜔 𝑢 𝜃 (𝒙) log 𝑢 𝜽 𝒙 𝑑𝒙
𝒙

=
& 𝜔𝛻 𝜃

𝑞 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 + 1 − 𝜔 𝛻 𝜃
𝒙

=
& 𝜔𝛻 𝜃
𝒙

𝑢 𝜃 (𝒙) log 𝑢 𝜽 𝒙 𝑑𝒙
𝒙

𝑞 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 + 1 − 𝜔 𝛻 𝜃 𝐸 𝑢 𝜃 log 𝑢 𝜽 𝒙

多くの画像から確率密度関数を最尤法で推定する場合，𝐸 𝑢 𝜃 log 𝑢 𝜽 𝒙 が
最大となるように推定するので，𝛻 𝜃 𝐸 𝑢 𝜃 log 𝑢 𝜽 𝒙 ≅ 0
𝑿
∴ & 𝑮 𝜃 ≅ 𝜔𝛻 𝜃

𝑞 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙

𝑿
𝑮𝜃

𝐾 𝑋, 𝑌

𝑿
𝑮𝜃
𝐾 𝑋, 𝑋 𝐾(𝑌, 𝑌)
対象物体の確率密度関数𝑞 𝒙 に依存する
ただし，背景と物体の混合比𝜔が残るので，正規化で排除する
𝒙

パワー正規化
問題点
• フィッシャーベクトルは非常にスパース（フィッシャーベクトルは高次
元ベクトルであり，各要素に0が多い．特にガウス分布の混合数が多いと
顕著）
• スパースなベクトル同士の距離を内積で評価すると精度が悪い
解決策
1. ベクトル同士の距離を内積ではなく，スパースなベクトルに対して精度
の良いものを使う → 計算コストが高い
2. ベクトルを出来る限りスパースではなくす

K=16
K=64
K=256
フィッシャーベクトルの第１要素の分布
GMMの混合数Kが増加するとスパースになりやすい

K=256
パワー正規化後
𝑓 𝑧 = 𝑠𝑖𝑔𝑛 𝑧 𝑧

𝛼

空間ピラミッド
• Bag of Visual Wordsにおいて，画像を分割し，大まかな位置情報を付与
すると精度がよくなることが知られている

フィッシャーベクトルの評価実験
評価用データセット
•
PASCAL VOC 2007 （約10,000画像 @ 20カテゴリ）
•
CalTech256 （約30,000画像 @ 256カテゴリ）
局所特徴量
•
パッチサイズ：32x32，グリッドサンプリング（間隔16画素），5スケール
•
128次元のSIFT特徴量，及び96次元のカラー特徴量（各パッチにおいて，4x4
に領域を分けてそれぞれの領域におけるRGBの平均と分散を並べた特徴量）
•
SIFTとカラー特徴量は主成分分析(PCA)により64次元に圧縮して利用
Gaussian Mixture Model (GMM)
•
GMMの混合数K=256に設定
•
GMMの学習には，最尤法(Maximum Likelihood Estimation)と標準的なEMア
ルゴリズムを使用
識別
•
線形SVMを使用
•
SIFT特徴量とカラー特徴量を組み合わせるときは，それぞれで識別を行い，
SVMのスコアを単純に平均して識別

評価指標
PASCAL VOC 2007データセット
• 20クラスのそれぞれに対して，各画像中にそのクラスの物体が存在する
か，それともしないかを判断
• 各クラスに対してPrecision/Recall曲線を計算（Precision: 物体が存在す
ると判断した画像中，実際に正解だった割合，Recall: 物体が存在する画
像中，物体が存在すると判断された画像の割合）
• Recallに対するPrecisionをグラフに描き，Recallに対するPrecisionの平
均値を計算

Average Precision (AP)
CalTech256データセット
• 各クラスから学習データを決められた画像数だけランダムに抽出
（ntrain=15, 30, 45, 60)
• SVMのパラメータは学習データ中のクラスバリデーションで決定
• 学習データ以外のデータをテストデータとして識別率を計算
• 学習データとテストデータの分け方を変えて5回繰り返して識別

平均識別率

PASCAL VOC 2007に対する実験結果(1)

改良の効果：パワー正規化 > L2正規化 > 空間ピラミッド

PASCAL VOC 2007に対する実験結果(2)

Multichannels+non-linear SVM
Bounding box
Many channels+soft-assignment
Many channels+Multiple Kernel Learning
[8]+sliding window

CalTech256に対する実験結果

5 Descriptors →

大規模学習データによる評価実験
データセット
•
2つの学習用データセット：ImageNet (270K画像@18カテゴリ），Flickr
（350K画像@18カテゴリ）
•
評価用データ：PASCAL VOC 2007 "test" set（5K画像@20カテゴリ）
局所特徴量/ Gaussian Mixture Model (GMM)
•
前の実験と同じ
識別
•
それぞれの学習用データセットで学習し，評価用データで評価した結果
•
各データセットでSVMを学習後，そのスコアを統合して識別した結果

大規模学習データによる実験結果

Multichannels
+non-linear SVM
+sliding window

まとめ
• 多変量解析に利用されるカーネル法を紹介し，カーネル関数の例として
フィッシャーカーネルを説明した．
• Bag of Visual Wordsの拡張として，フィッシャーカーネルに基づいた
フィッシャーベクトルを画像認識に適用した．ユニバーサルでコンパク
トな辞書で画像識別が可能である．

• L2正規化，パワー正規化，空間ピラミッドをフィッシャーベクトルに導
入することにより，複雑で高計算コストの手法と同等の画像識別精度が
実現可能であることを示した．高速な計算が可能なため，ImageNetなど

大規模データにも適用可能である．
• 下記の文献では，近年提案された画像識別手法を比較した結果，フィッ
シャーベクトルを利用した手法が高い精度を示すことが報告されている
K. Chatfield, V. Lempitsky, A. Vedaldi, and A. Zisserman, “The devil is in the details: an
evaluation of recent feature encoding methods,” British Machine Vision Conference, 2011.

Fisher Vectorによる画像認識

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Fisher Vectorによる画像認識

Similar a Fisher Vectorによる画像認識 (20)

Fisher Vectorによる画像認識