統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-

統計的学習手法による物体検出の高精度化と効率化
- 人検出の実用化に向けて -

2013年3月15日
情報処理学会CVIM研究会

藤吉弘亘 (Hironobu Fujiyoshi)
中部大学工学部情報工学科
E-mail : hf@cs.chubu.ac.jp
URL：http://www.vision.cs.chubu.ac.jp/
Facebook: facebook.com/hironobu.fujiyoshi
Twitter: @hf149

統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科藤吉弘亘

人検出の実用化に向けて

• 統計的学習手法を用いた物体検出
– 公開画像データベースによる評価
→必ずしも高い性能を獲得した手法が実用化に適しているとはいえない

• 実用化という観点から最適な手法
(1) 検出失敗の理由を明確に把握することが可能
(2) 少ない学習サンプルでシステムをチューニング可能
(3) 省メモリで高速な計算アルゴリズム


物体検出の高精度化：Joint特徴量による高精度化


人の形状特徴
• 頭部から肩にかけてのΩ形状や下半身の連続的なエッジ形状
• 頭, 肩, 胴体, 足などの左右対称性

第２世代のアプローチ第3世代のアプローチ

→単一のHOG特徴量だけでは人の形状を捉えきれない

特徴量間の共起を捉える特徴量の生成

• どのように特徴量間の共起を表現するか？
– Joint Haar-like [Mita et al., PAMI 08]

– 共起確率特徴 [山内, 山下, 藤吉 MIRU 08]

• どのように特徴量間の関連性を捉えるか？
– Shapelet [G.Mori CVPR 07]
– Joint-HOG [三井, 山内, 藤吉 SSII 08]

顔人顔/人/車
Joint Haar-like Shapelet Joint HOG


Joint-HOG特徴による人検出 [三井, 山内, 藤吉 SSII 08]

• 異なる二つの領域のHOG特徴量をAdaBoostにより組み合わせる

AdaBoost

弱識別器h 重みα

h1( , ) α1

＋判定結果

h2( , ) α2 人: H (x) > λ

＋
非人： otherwise
・
・
・
未知入力パターン HOG特徴量 x ＋

hT( , ) αT

H (x) = Σ ht(x)・αt

２段階AdaBoostによるJoint-HOG特徴の自動生成

セルの１段階目のAdaBoostで
全組み合わせ生成した特徴量
H1,2(C1, C2)
C1とC2のHOG 最終識別器
C1:
C1[v1, v2, ...v9] AdaBoost ・・・
C2[v1, v2, ...v9] C2: 弱識別器h

・・
・・ h1( , )

AdaBoost
・・
H7,11(C7, C11)
C7とC11のHOG h2( , )
C7:
C7[v1, v2, ...v9] AdaBoost ・・・
C11[v1, v2, ...v9] C11: ・
・・・
・・・
・・
Hi,j(Ci, Cj)
CiとCjのHOG
Ci:
hT( , )
Cj[v1, v2, ...v9] AdaBoost ・・・
Cj[v1, v2, ...v9] Cj:

Low-level: Mid-level:
HOG特徴POOL Joint HOG特徴POOL

→ 局所領域間での勾配方向の対称性、連続性を自動的に捉える

や上半身から下半身
２段階AdaBoostによる最終識別器
形状
• 最終識別器による判定
向のエッジ特徴を図 2 Joint 特徴量による 2 段階 Real AdaBoost．
t 特徴量 [5] が提案
st の弱識別器が複
り，共起性を表現す多重解像度の HOG 特徴量も利用できる [9]．次に，2 つの化結果
ている．両手法は，セル {m,n} の HOG 特徴量から共起確率特徴量を生成すにより
ングにより組み合る．その際に，共起確率特徴量は HOG 特徴量の全ての組徴量を
図 4
2段階目のAdaBoostの出力： Joint 特徴量による物体検出例．
ることができ，高精み合わせに対して求め，Real AdaBoost により最も良い組で表現
み合わせを弱識別器として自動的に選択する．この処理を弱識別
H 2nd (v) = h2nd Ht (v, {m, n})
1st
(2)
いて図 1(b) に示す T 回繰り返し，1 段階目の Real AdaBoost により次式で表を表す
{m,n}∈F
動的に捉える Joint される 2 つのセル {m,n} の Joint 特徴量である強識別器
T 図5
．本章では，１段階目のAdaBoostの出力：を学習する． ht (v, {m, n})
H 1st (v, {m, n})
= h2nd (3)
1st
Joint ても人
2 段階
t=1
ついて述べる．
{m,n}∈F
T

2 段階目の弱識別器 h2nd () は，2 つのセルの関係を捉えた
H 1st (v, {m, n}) = h1st (v, {m, n})
t (1) 効では
ング 1 段階目の H 1st () の出力となっていることから，異なるセる．2
t=1

築の流れを図 2 に上記の処理を全てのセルの組み合わせに対して行い，組
ルの low-level の特徴量から mid-level の特徴量を生成して徴量は

評価用データベース

• 人検出用画像データベース
- 学習用画像データ Positive : 2,053枚 Negative : 6,253枚
- 評価用画像データ Positive : 1,023枚 Negative : 1,233枚

• 車両検出用画像データベース
- 学習用画像データ Positive : 2,464枚 Negative : 2,415枚
- 評価用画像データ Positive : 1,899枚 Negative : 2,413枚


Joint-HOG特徴による検出性能

• 人検出と車両検出におけるJoint-HOGの効果

(a) 人検出 (b) 車両検出

DET(Detection Error Tradeoﬀ)による評価


ラスタスキャンによるJoint-HOGによる検出例

(a) 人検出 (b) 車両検出


自動生成されたJoint HOG特徴（人検出）

• 人の輪郭に沿った勾配方向の特徴量を自動選択
‒ 識別に有効なmid-levelな特徴量を自動生成

最終識別器

全学習用サンプルの 1段目のAdaBoostにより 2段目のAdaBoostにより
平均勾配画像選択されたHOG特徴選択されたHOG特徴


自動生成されたJoint HOG特徴（車両検出）

全学習用サンプルの 1段目のAdaBoostにより 2段目のAdaBoostにより
平均勾配画像選択されたHOG特徴選択されたHOG特徴

物体形状の対称性, 連続性, 異なる領域間の関係性を自動生成

1ラウンド２ラウンド 3ラウンド 15ラウンド

誤検出の解析

• 検出失敗例における各弱識別器の応答
2.0

1.0
弱識別器の応答

弱識別器の応答：

0

-1.0

入力画像
-2.0
1 10 20 30 40 50
弱識別器

ポジティブサンプルの分布
ネガティブサンプルの分布

ポジティブサンプルの頻度が高いネガティブサンプルの分布が不自然

特徴量の限界学習サンプルの分布を再構築


解析の容易さ

ピクセル差分特徴を利用した車両検出器を構築した際の弱識別器により選択された特徴


FPGAによるJoint-HOGのハードウェア化


ハードウェア化における着目点

• Joint-HOGの高速化
– パイプライン処理により低コストなFPGAで高速化を実現
• 検出対象の柔軟性
– 学習ソフトウェアを連携することで、検出対象を変更可能

Cyclone III FPGA

USBポートカメラリンクコネクタ

カメラ入力
USB2.0

Cyclone III EP3C120F780-8
Logic cells：119,088
Memory bit：3,981,312 bit

PCアプリ画像処理ボード RAM

統計的学習手法による物体認識の高精度化と効率化 / 中部大学工学部情報工学科藤吉弘亘 17

検出対象をリコンフィグ可能な汎用物体検出ビジョンセンサ
[矢澤, 藤吉 SSII 11]

• 学習ソフトウェアとFPGAハードウェアの連動
– Joint-HOGによる物体検出

連携
検出対象：人ソフトウェアAPI 物体検出ハードウェア

学習結果
ODEN-API ver.2
特徴量
による学習
パラメータ

学習データ

人検出を実現


検出対象をリコンフィグ可能な汎用物体検出ビジョンセンサ
[矢澤, 藤吉 SSII 11]

• 学習ソフトウェアとFPGAハードウェアの連動
– Joint-HOGによる物体検出

連携
検出対象：車両ソフトウェアAPI 物体検出ハードウェア

学習結果
ODEN-API ver.2
特徴量
による学習
パラメータ

学習データ

車両検出を実現

→汎用性の高い物体検出ハードウェアを実現

検出対象をリコンフィグ可能な物体検出ハードウェア

• リアルタイムに任意の物体を検出（20FPS VGA画像）

Cyclone III EP3C120F780-8
Logic cells：119,088
Memory bit：3,981,312 bit


物体検出の効率化：CGによる学習サンプルの自動生成


大量の良質な学習サンプルを必要

• 統計的学習手法による高精度な物体検出を実現するには
– 大量の学習サンプル：10,000枚以上（人の場合）
– 良質な学習サンプル：位置ずれ・誤ラベルなし

人画像（約3,000枚）平均勾配画像


学習サンプルの作成

10 hours later...

学習サンプルと異なる環境での問題

• 学習サンプルと異なるカメラ位置の環境では
– 見えが異なるため検出能力が低下
– 現場での再学習は不可能．．．

INRIA評価画像特定シーン画像
未検出


学習サンプルの自動生成：生成型学習 [草富, 山内, 藤吉 SSII 11]

• 特定シーンを考慮した生成型学習
– 学習サンプルを自動生成
– ポジティブサンプル：三次元人体モデルより生成
– ネガティブサンプル：ランダムに切り出して生成

生成モデル
ポジティブサンプル

撮影した映像

各フレームからランダムに選択
ネガティブサンプル


ポジティブサンプルの生成

• 人体シルエットの生成モデル

カメラパラメータ
・カメラ位置
x = 0.0m
y = 6.2m
z = 0.0m
・カメラ角度
θ = 21.0

・・

人クラスの画像生成


ネガティブサンプルの生成

• 背景画像からランダムで収集
- メリット：特定のシーンを背景として学習
- デメリット：人画像に背景ラベルを与える

背景クラスの画像生成

→誤ラベルを含んだ状態で学習すると識別器の性能低下を招く


MILBoostの導入 [Viola et al., NIPS 06]

• Multiple Instance LearningをBoostingに導入した学習アルゴリズム
- 誤って付与されたラベルを持つ学習サンプルの影響を抑制

ポジティブクラス

・・

Pos-‐Bag1 Pos-‐Bag2 Pos-‐Bag3 Pos-‐BagN

ネガティブクラス改良型MILBoost
Neg-‐Bag1

Neg-‐BagM
Neg-‐Bag2


実験：学習データセットの組み合わせ

ポジティブサンプルネガティブサンプル

INRIA-Pos
実環境-Neg
INRIA-Pos（手動）実環境-Neg（ランダム）

実環境-Pos
実環境-Neg
実環境-Pos（手動）実環境-Neg（ランダム）

生成-Pos
INRIA-Neg
CG生成-Pos（自動）実環境-Neg（ランダム）


実験結果：学習サンプルの自動生成の効果

INRIA-Pos+実環境-Neg
実環境-Pos+実環境-Neg

CG生成-Pos+実環境-Neg

→CG生成によるポジティブサンプルは実環境の画像サンプルと同等以上


実験：誤サンプルの影響の評価

• ネガティブサンプルにおける誤ラベルの影響を調査
- Real AdaBoostとMILBoostの比較

ネガティブクラス

誤ラベルの割合：０％


誤ラベルの割合：20％

・
・

誤ラベルの割合：40％


誤サンプルの影響の評価

Real Adaboost
改良型 MILBoost

ポジティブサンプルの含有率 [%]

→ネガティブサンプル中に人画像が含まれていても、識別器の学習に及ぼす悪影響を低減
含有率0%時においても少数の外れ値の影響を除去

学習サンプルの自動生成とMILBoostを用いた学習

従来手法

提案手法（自動生成+MILBoost）


物体検出の効率化：ハイブリッド型転移学習による学習の効率化


現場における再学習のコスト

• カメラの設置位置，人の姿勢，見えが変化
– サンプル採取：CGにより自動生成
– 再学習コスト：自動生成した学習サンプル(2,400枚)をその場で学習

再学習すると
約10時間

CG学習サンプル


転移学習(Transfer Learning)

• ある問題を効果的かつ、効率的に解くために、別の関連した問題のデータ
や学習結果を再利用すること

• CovBoost（共変量シフト） [Pang et al., IP 11]

– 事前学習で得た情報を活かしたBoostingベースの追加学習法
– 高速な学習：事前学習で既選択の特徴量のみを転移して使用
– 少量のサンプル：共変量を用いて事前シーンのサンプルも利用


CovBoostによる転移学習

• 事前学習の特徴を転移してBoostingにより識別器を構築

事前シーン事前学習結果

強識別器
元データ

Ha
選択された
特徴量
汎用データベース

Feature Shift
CovBoost
目標データ

共変量
Ht
強識別器
CGにより自動生成
転移された特徴量転移学習結果
特定シーン


Feature Shift：特徴の転移

• 事前学習で選択された特徴量の目標シーンへの転移
1. 転移候補特徴の元データにおける確率密度関数と、目標データの周辺における確率密度関数
を作成

2. 確率密度関数間のBhattacharyya距離を算出し、最大のものを転移特徴とする

3. 事前学習で選択された全ての特徴について、1. 2.より転移特徴プールを作成

尤度
勾配強度 0.7

尤度 0.9 MAX
勾配強度転移特徴
転移候補 0.6
尤度

勾配強度
尤度

元データ目標データ Bhattacharyya距離
勾配強度


CovBoostの学習
学習ラウンド：１

CovBoost

評価値
共変量評価 ε
h1( ), α1
共変量評価 ε
元データ

h2( ), α2
共変量評価 ε MIN

・・
共変量・・
・・

評価 ε
hT( ), αT

目標データ

・転移特徴量pool


CovBoostの学習
学習ラウンド：２

CovBoost

評価値
h1( ), α1
共変量評価 ε
元データ

h2( ), α2
共変量評価 ε

・・
共変量・・
・・

評価 ε
hT( ), αT

目標データ



CovBoostの学習
学習ラウンド：T

CovBoost

評価値
共変量評価 ε
h1( ), α1
元データ

h2( ), α2
共変量評価 ε

・・
共変量・・
・・

評価 ε
hT( ), αT

目標データ



CovBoost：共変量を用いたBoosting学習

• 学習誤差εが最小となるよう弱識別器を選択

n
X m
X
yi Ht (xi ) yj Ht (xj )
✏t = e + rj e
i=1 j=1
目標ドメインにおける誤差評価元ドメインの誤差評価

元ドメインの識別器

共変量：

目標ドメインの識別器

→目標ドメインと適合しない事前サンプルをスポイル


実験：転移学習の効果

学習手法学習サンプル数ポジティブサンプル例

事前学習 AdaBoost 2014枚

INRIA Person Dataset（俯角0度）

再学習 AdaBoost 2014枚

CG生成-Pos（俯角20度）

転移学習 CovBoost 800枚

CG生成-Pos（俯角20度）


実験結果：転移学習の効果

未検出率 [%]

事前学習（AdaBoost）
再学習（AdaBoost）
転移学習（CovBoost）

誤検出率 [%]

学習時間の比較
再学習：60分 →約1/10の時間で同等性能の識別器を構築
転移学習： 6分


元データと目標データの見えの変化が大きくなると…

• 特徴の転移が不可能なのでは？

元データ

目標データ

俯角20度

俯角40度


見えの変化が大きくなっても転移可能か？

未検出率 [%]

転移学習だけでは適応できない！新たな特徴を探索する必要あり！
目標ドメインの俯角：
50度
事前学習（AdaBoost）
40度
30度
20度

誤検出率 [%]

元データ目標データ

0度 20度 30度 40度 50度


ハイブリッド型転移学習

• 転移学習と全探索学習を切り替えながら識別器を構築

事前シーン事前学習結果

強識別器
元データ

Ha
学習効率

Feature Shift 強識別器
Ht
ス h1( )
共変量
イ
h2( )
転移特徴pool ッ
目標データ

チ h3( )
共変量ン・
全探索グ ht( )

特徴pool
特定シーンハイブリッド型
転移学習結果


学習誤差の推移

• 学習効率による転移学習と全探索を効果的に切り替える
学習誤差転移学習全探索

ハイブリッド転移学習

学習ラウンド [回]

→転移学習で上昇する逐次学習誤差を全探索で抑制

実験結果：ハイブリッド型転移学習の効果

18 90

16 転移学習 80
再学習
14 ハイブリッド型転移学習 70

12 60

学習時間 [ 分 ]
50
EER[%]

10

8 40
未検出率 [%]

6 30

4 20

2 10

0 事前学習（AdaBoost） 0
20 30
再学習（AdaBoost） 40 50

誤検出率 [%]

Equal Error Rate(EER)：誤検出率と未検出率が同値になった際の値

ハイブリッド型転移学習により選択された特徴量

• 再学習と同等の特徴がハイブリッド型転移学習により獲得
転移特徴

平均勾配画像ハイブリッド型再学習により
（俯角50 ）転移学習選択された特徴

全探索

統計的学習手法による物体検出の高精度化と効率化

• 物体検出の高精度化
– 特徴量を自動生成する生成型学習
– Joint特徴量：識別に有効な特徴量を自動生成
→新しい生成型学習のアプローチ

• 物体検出の効率化
– 学習サンプルを自動生成する生成型学習
– 人体三次元モデルからの学習サンプルの自動生成
– MILBoostによる誤ラベルの影響を抑制
→特定シーンに特化した生成型学習による高精度化と効率化を実現
– ハイブリッド型転移学習
– 特徴の転移と全探索のハイブリッドによる学習の高速化
→現場環境へ適応するための時間的コストを1/4に削減


人検出の実用化に向けて

• 実用化という観点から最適な手法

(1) 検出失敗の理由を明確に把握することが可能
→弱識別器の応答と選択したJoint特徴量を解析することで可能

(2) 少ない学習サンプルでシステムをチューニング可能
→CGにより自動生成したサンプルと転移学習の利用

(3) 省メモリで高速な計算アルゴリズム

→Joint-HOGを安価なFPGAで実現


今後の課題

• HOG(特徴抽出過程)の限界
– 能動学習によるオンラインチューニング
– Deep Learningの結果を用いた特徴量の再設計

DPM (state-of-the-art)による誤検出例

(Real-time Pedestrian Detection with Deformable Part Models, IV2012)
edestrian detections in testset. The ﬁrst and second row shows correct pedestrian detections in Qualitative detection results on the Caltech t
results on the Caltech various scenarios. The third Fig. 6. various scenarios. The third
es. row shows typical false positives.


参考文献

• [Mita et al., PAMI 08] T. Mita, T. Kaneko, B. Stenger, and O. Hori: "Discriminative Feature Co-
occurrence Selection for Object Detection", Pattern Analysis and Machine Intelligence, Vol.30, no.7,
pp.1257-1269(2008)

• [山内, 藤吉, 山下 MIRU 08] 山内悠嗣, 藤吉弘亘, 山下隆義: "Boostingに基づく共起表現による人検出", 画像
の認識・理解シンポジウム(MIRU), pp.180-187(2008)

• [G.Mori, CVPR 07] P. Sabzmeydani, and G. Mori: "Detecting Pedestrians by Learning Shapelet
Features",' Computer Vision and Pattern Recognition, pp.1-8(2007)

• [三井, 山内, 藤吉 SSII 08] 三井相和, 山内悠嗣, 藤吉弘亘: "Joint HOG特徴を用いた2段階AdaBoostによる人
検出", 画像センシングシンポジウム(SSII)(2008)

• [矢澤, 藤吉 SSII 11] 矢澤芳文, 吉見勤, 都筑輝泰, 土肥智美, 藤吉弘亘: "検出対象をリコンフィグ可能なJoint-
HOGによるFPGAハードウェア検出器", 画像センシングシンポジウム(SSII)(2011)

• [草富, 山内, 藤吉 SSII 11] 草富省吾, 山内悠嗣, 藤吉弘亘: "人検出のための学習サンプルの自動生成と
MILBoostを用いた人検出", 画像センシングシンポジウム(SSII)(2011)

• [Viola et al., NIPS 06] P. Viola, J. Platt, C. Zhang: "Multiple instance boosting for object detection",
Neural Information Processing Systems(2006)

• [Pang et al., IP 11] J. Pang, Q. Huang, S. Yan, S. Jiang, L. Qin: "Transferring Boosted Detectors
Towards Viewpoint and Scene Adaptiveness". Image Processing 20(5): pp.1388 -1400 (2011)

• [土屋, 藤吉 PRMU 13] 土屋成光, 山内悠嗣, 下隆義, 藤吉弘亘: "ハイブリッド型転移学習による物体検出にお
ける学習の効率化", 電子情報通信学会PRMU研究会技報(2013)


お問い合わせ先

藤吉研究室 Fujiyoshi Laboratory

藤吉弘亘（Hironobu Fujiyoshi）
中部大学工学部情報工学科
E-Mail: hf@cs.cchubu.ac.jp
URL: http://www.vision.cs.chubu.ac.jp/
TEL:0568-51-9096
FAX:0568-51-1540
〒487-8501 愛知県春日井市松本町1200


統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to 統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-

Similar to 統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて- (17)

More from Hironobu Fujiyoshi

More from Hironobu Fujiyoshi (6)

Recently uploaded

Recently uploaded (12)

統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-