SlideShare una empresa de Scribd logo
1 de 26
物体検出(顔、歩行者)の話
株式会社Preferred Infrastructure
阿部厳
自己紹介
 阿部厳 (あべたかし)
 Twitter: @tabe2314
 インターン→新入社員
 コンピュータビジョン
2
あらまし
 物体検出の基本的な枠組を紹介
 顔検出手法としてメジャーなViola-Jonesの手法を紹介
 Integral Channel Featuresによる歩行者検出紹介
3
物体検出について
4
物体検出とは?
 画像中から対象の物体を見つける(位置を特定)
 顔、歩行者、車両……
5
歩行者検出
物体検出どうやる?
 入力画像から決まったサイズの部分領域(ウィンドウ)を切り出し
て、それぞれを二値分類(対象物体であるか否か)
 ウィンドウを入力画像上でスライドさせて対象物体を探す
 いろんなスケールの物体を見つけるためにウィンドウか入力画像を
リサイズして同様の手順を繰り返す
 数万〜数十万回の分類が必要なので高速化のための工夫が必要
 ウィンドウからどんな特徴をとるか、どうやって分類するか
6
物体検出どうやる?
7
Viola-Jonesの物体検出手法
8
Viola-Jonesの物体検出 [Viola04]
 顔検出のエポックメイキングな手法として有名
 OpenCVにもすぐ使える実装有り
 主な構成要素
 Haar-like特徴
 AdaBoostによる特徴選択と学習
 カスケード型分類器による高速化
9
[Viola04] P. Viola and M. Jones. Robust real-time object detection. IJCV, 57(2):137–154, 2004.
Haar-like特徴 (1)
 正負の矩形領域の組み合わせパターン
 あるパターンを、ある位置に適用した
際の出力がひとつの特徴量
 顔を認識する際の手がかりを捉える
 例: 目の周りが暗い
 特徴ひとつひとつの識別力は弱い
 → たくさん組み合わせる
10
正領域輝度値合計–負領域輝度値合計
− + −
http://iplimage.com/blog/haarlike-features-face-detection/
ウィンドウ
Haar-like特徴 (2) 積分画像による高速化
 ナイーブに計算すると矩形領域の面積と同じ回数の加算が必要
 → 積分画像による高速化
 積分画像S: 画素値S(x, y)が元画像の矩形領域(0, 0)-(x, y)の画素値合
計となる画像
 事前計算しておくと任意の矩形領域内の合計を数回の加減算で計算
可能(下図)
11
AdaBoostによる特徴選択 (1)
 Haar-like特徴の候補は膨大
 ウィンドウのどこに、どのパターンを、どのスケールで適用するか
 顔かどうかを判断する手がかりになる特徴を選んで組み合わせたい
 → AdaBoost (with 決定株)で特徴選択
 決定株: 特徴1つを閾値処理して0/1分類
 AdaBoost
 Input: 正例(顔画像) と負例(非顔画像)
 基本的な考え:
 正しく分類できるHaar-like特徴(と決定株の閾値)を反復的に選ぶ
 反復の過程でサンプルに重み付けを行い、これまで選択した特徴で
間違うサンプルを正しく分類できる特徴が選択される
 選ばれた特徴の組み合わせで分類
12
AdaBoostによる特徴選択 (2)
 アルゴリズム詳しく (http://en.wikipedia.org/wiki/AdaBoost)
13
カスケード型分類器による高速化
 大抵の画像は全然顔っぽくない
 → 少数の特徴で顔じゃないとわかるはず → カスケード型分類器
 一列に分類器がつながったもの
 はじめは少数の特徴で、後半はたくさんの特徴で複雑な分類
 Negativeと分類された時点でReject(非顔とみなす)
14[Viola04]より
VJまとめ
 Haar-like特徴で濃淡のパターンをみる
 AdaBoostで特徴選択
 積分画像とカスケード型分類器で高速化
15
Integral Channel Featuresによる歩行者検出
16
歩行者検出についての一般的なこと
 顔検出実用化のメドがたった頃(Viola-Jones)から研究が活発に
 基本的な問題設定は顔検出と同じだけどより難しい問題
 姿勢変化が大きい、オクルージョンがおこりやすい、髪型や服装等
に多様性がある
 よく使われる特徴は、勾配方向のヒストグラム (Histograms of
Oriented Gradients, HoG) [Dalal05]
 網羅的なサーベイ
 http://www.vision.cs.chubu.ac.jp/
04/Tutorial_Survey/TS04.html
 http://vision.ucsd.edu/~pdollar/files/
papers/DollarPAMI12peds.pdf
17
[Dalal05] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005.
[http://people.seas.harvard.edu/~ely/faceparts/serial.html
Integral Channel Featuresによる歩行者検出 [Dollár09]
 Beyond Viola-Jones, Beyond HoG
 VJを非常にシンプルに拡張した、シンプルだけど強力な手法
 Haar-like特徴 →
 輝度だけでなく入力画像に色々な変換処理をかけて複数チャンネル
画像を生成
 各チャンネル画像に対してHaar-like特徴を単純化したものを計算
 パターンを使わず単純な矩形領域をみる
 特定方向の勾配を計算したチャンネルを加えればHoG同等のことが
できる
 積分画像を使うことは同じ
18
[Dollár09] P. Dollár, Z. Tu, P. Perona, and S. Belongie. Integral channel features. In BMVC, 2009.
画像変換処理
(a)輝度画像 (b)表色系を変換 (c)ガボールフィルタをたたみ込んで特定
方向の勾配画像 (d)DoGフィルタ (e)勾配強度 (f)エッジ検出
(g)直線のフィルタ(ガボールフィルタとほとんど同じ) (h)閾値処理
で二値化
 入力画像を同サイズの画像にマップする変換なら何でも
 対象物体に応じた情報をとれる
19
[Dollár09]より
Integral Channel Featuresによる歩行者検出 (2)
 AdaBoost → 同じ
 どのチャンネルの、ウィンドウのどこに、どんな矩形を適用するか
 深さ2の決定木を使うのが実験的には良い
 カスケード
 カスケード毎に独立に特徴を取っていて非効率
 → Soft cascade [Zhang07]
20
[Zhang07] C. Zhang and P. Viola. Multiple-instance pruning for learning efficient cascade
detectors. In NIPS, 2007.
[Zhang07]より
Integral Channel Featuresによる歩行者検出 (3)
 実験的には勾配方向(6方向)と勾配強度、LUV表色系の各チャン
ネルの計10チャンネルを使うのがよい
 AdaBoostで選択された特徴がどのチャンネルのどの領域をみるも
のが多かったかを可視化
21
[Dollár09]より
高速化: FPDW
 異なるスケールで検出するのが重い
 → [Dollár10] スケールを変換した際の特徴量の変化をシミュレート
すれば実際に画像をスケーリングしなくてもよい
 画像を2倍に拡大したとき → 領域内の値合計は単純に2倍になる
 画像を半分に縮小したとき
 エッジがつぶれるので単純に半分にはならない→実験的に係数をも
とめる
 GPU使えばリアルタイムで検出可能
 ステレオを使って100fpsでる手法も
22
[Dollár10] P. Dollár, S. Belongie, and P. Perona. The fastest pedestrian detector in the west. In BMVC, 2010.
Integral Channel Featuresまとめ
 様々なチャンネル画像に対してVJとほぼ同じ手法を適用する
 高速かつ単純で実装も複雑にならない
 チャンネルの選び方次第で様々な物体に適用できうる
 よい!
23
まとめ
24
まとめ
 Viola-Jonesの物体検出手法紹介
 Integral Channel Features紹介
 話さなかったこと
 Non-Maximum Suppression
25
26
画像に対して仕掛けていきたい

Más contenido relacionado

La actualidad más candente

局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出MPRG_Chubu_University
 
[DL輪読会]Whole-Body Human Pose Estimation in the Wild
[DL輪読会]Whole-Body Human Pose Estimation in the Wild[DL輪読会]Whole-Body Human Pose Estimation in the Wild
[DL輪読会]Whole-Body Human Pose Estimation in the WildDeep Learning JP
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields Deep Learning JP
 
Opencv object detection_takmin
Opencv object detection_takminOpencv object detection_takmin
Opencv object detection_takminTakuya Minagawa
 
物体検出フレームワークMMDetectionで快適な開発
物体検出フレームワークMMDetectionで快適な開発物体検出フレームワークMMDetectionで快適な開発
物体検出フレームワークMMDetectionで快適な開発Tatsuya Suzuki
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection modelWEBFARMER. ltd.
 
統計的学習手法よる人検出
統計的学習手法よる人検出統計的学習手法よる人検出
統計的学習手法よる人検出Hironobu Fujiyoshi
 
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss FunctionDeep Learning JP
 
[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with TransformersDeep Learning JP
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII
 
DeepPose: Human Pose Estimation via Deep Neural Networks
DeepPose: Human Pose Estimation via Deep Neural NetworksDeepPose: Human Pose Estimation via Deep Neural Networks
DeepPose: Human Pose Estimation via Deep Neural NetworksShunta Saito
 
最近(2020/09/13)のarxivの分布外検知の論文を紹介
最近(2020/09/13)のarxivの分布外検知の論文を紹介最近(2020/09/13)のarxivの分布外検知の論文を紹介
最近(2020/09/13)のarxivの分布外検知の論文を紹介ぱんいち すみもと
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual LocalizationHajime Taira
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
Triplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identificationTriplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identificationtancoro
 
20160724_cv_sfm_revisited
20160724_cv_sfm_revisited20160724_cv_sfm_revisited
20160724_cv_sfm_revisitedKyohei Unno
 
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -MPRG_Chubu_University
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...Shunsuke Ono
 
Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量についてla_flance
 

La actualidad más candente (20)

局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出
 
Yolo v1
Yolo v1Yolo v1
Yolo v1
 
[DL輪読会]Whole-Body Human Pose Estimation in the Wild
[DL輪読会]Whole-Body Human Pose Estimation in the Wild[DL輪読会]Whole-Body Human Pose Estimation in the Wild
[DL輪読会]Whole-Body Human Pose Estimation in the Wild
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 
Opencv object detection_takmin
Opencv object detection_takminOpencv object detection_takmin
Opencv object detection_takmin
 
物体検出フレームワークMMDetectionで快適な開発
物体検出フレームワークMMDetectionで快適な開発物体検出フレームワークMMDetectionで快適な開発
物体検出フレームワークMMDetectionで快適な開発
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection model
 
統計的学習手法よる人検出
統計的学習手法よる人検出統計的学習手法よる人検出
統計的学習手法よる人検出
 
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
 
[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
DeepPose: Human Pose Estimation via Deep Neural Networks
DeepPose: Human Pose Estimation via Deep Neural NetworksDeepPose: Human Pose Estimation via Deep Neural Networks
DeepPose: Human Pose Estimation via Deep Neural Networks
 
最近(2020/09/13)のarxivの分布外検知の論文を紹介
最近(2020/09/13)のarxivの分布外検知の論文を紹介最近(2020/09/13)のarxivの分布外検知の論文を紹介
最近(2020/09/13)のarxivの分布外検知の論文を紹介
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
Triplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identificationTriplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identification
 
20160724_cv_sfm_revisited
20160724_cv_sfm_revisited20160724_cv_sfm_revisited
20160724_cv_sfm_revisited
 
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
 
Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量について
 

物体検出の話Up用