SlideShare una empresa de Scribd logo
1 de 26
物体検出(顔、歩行者)の話
株式会社Preferred Infrastructure
阿部厳
自己紹介
 阿部厳 (あべたかし)
 Twitter: @tabe2314
 インターン→新入社員
 コンピュータビジョン
2
あらまし
 物体検出の基本的な枠組を紹介
 顔検出手法としてメジャーなViola-Jonesの手法を紹介
 Integral Channel Featuresによる歩行者検出紹介
3
物体検出について
4
物体検出とは?
 画像中から対象の物体を見つける(位置を特定)
 顔、歩行者、車両……
5
歩行者検出
物体検出どうやる?
 入力画像から決まったサイズの部分領域(ウィンドウ)を切り出し
て、それぞれを二値分類(対象物体であるか否か)
 ウィンドウを入力画像上でスライドさせて対象物体を探す
 いろんなスケールの物体を見つけるためにウィンドウか入力画像を
リサイズして同様の手順を繰り返す
 数万〜数十万回の分類が必要なので高速化のための工夫が必要
 ウィンドウからどんな特徴をとるか、どうやって分類するか
6
物体検出どうやる?
7
Viola-Jonesの物体検出手法
8
Viola-Jonesの物体検出 [Viola04]
 顔検出のエポックメイキングな手法として有名
 OpenCVにもすぐ使える実装有り
 主な構成要素
 Haar-like特徴
 AdaBoostによる特徴選択と学習
 カスケード型分類器による高速化
9
[Viola04] P. Viola and M. Jones. Robust real-time object detection. IJCV, 57(2):137–154, 2004.
Haar-like特徴 (1)
 正負の矩形領域の組み合わせパターン
 あるパターンを、ある位置に適用した
際の出力がひとつの特徴量
 顔を認識する際の手がかりを捉える
 例: 目の周りが暗い
 特徴ひとつひとつの識別力は弱い
 → たくさん組み合わせる
10
正領域輝度値合計–負領域輝度値合計
− + −
http://iplimage.com/blog/haarlike-features-face-detection/
ウィンドウ
Haar-like特徴 (2) 積分画像による高速化
 ナイーブに計算すると矩形領域の面積と同じ回数の加算が必要
 → 積分画像による高速化
 積分画像S: 画素値S(x, y)が元画像の矩形領域(0, 0)-(x, y)の画素値合
計となる画像
 事前計算しておくと任意の矩形領域内の合計を数回の加減算で計算
可能(下図)
11
AdaBoostによる特徴選択 (1)
 Haar-like特徴の候補は膨大
 ウィンドウのどこに、どのパターンを、どのスケールで適用するか
 顔かどうかを判断する手がかりになる特徴を選んで組み合わせたい
 → AdaBoost (with 決定株)で特徴選択
 決定株: 特徴1つを閾値処理して0/1分類
 AdaBoost
 Input: 正例(顔画像) と負例(非顔画像)
 基本的な考え:
 正しく分類できるHaar-like特徴(と決定株の閾値)を反復的に選ぶ
 反復の過程でサンプルに重み付けを行い、これまで選択した特徴で
間違うサンプルを正しく分類できる特徴が選択される
 選ばれた特徴の組み合わせで分類
12
AdaBoostによる特徴選択 (2)
 アルゴリズム詳しく (http://en.wikipedia.org/wiki/AdaBoost)
13
カスケード型分類器による高速化
 大抵の画像は全然顔っぽくない
 → 少数の特徴で顔じゃないとわかるはず → カスケード型分類器
 一列に分類器がつながったもの
 はじめは少数の特徴で、後半はたくさんの特徴で複雑な分類
 Negativeと分類された時点でReject(非顔とみなす)
14[Viola04]より
VJまとめ
 Haar-like特徴で濃淡のパターンをみる
 AdaBoostで特徴選択
 積分画像とカスケード型分類器で高速化
15
Integral Channel Featuresによる歩行者検出
16
歩行者検出についての一般的なこと
 顔検出実用化のメドがたった頃(Viola-Jones)から研究が活発に
 基本的な問題設定は顔検出と同じだけどより難しい問題
 姿勢変化が大きい、オクルージョンがおこりやすい、髪型や服装等
に多様性がある
 よく使われる特徴は、勾配方向のヒストグラム (Histograms of
Oriented Gradients, HoG) [Dalal05]
 網羅的なサーベイ
 http://www.vision.cs.chubu.ac.jp/
04/Tutorial_Survey/TS04.html
 http://vision.ucsd.edu/~pdollar/files/
papers/DollarPAMI12peds.pdf
17
[Dalal05] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005.
[http://people.seas.harvard.edu/~ely/faceparts/serial.html
Integral Channel Featuresによる歩行者検出 [Dollár09]
 Beyond Viola-Jones, Beyond HoG
 VJを非常にシンプルに拡張した、シンプルだけど強力な手法
 Haar-like特徴 →
 輝度だけでなく入力画像に色々な変換処理をかけて複数チャンネル
画像を生成
 各チャンネル画像に対してHaar-like特徴を単純化したものを計算
 パターンを使わず単純な矩形領域をみる
 特定方向の勾配を計算したチャンネルを加えればHoG同等のことが
できる
 積分画像を使うことは同じ
18
[Dollár09] P. Dollár, Z. Tu, P. Perona, and S. Belongie. Integral channel features. In BMVC, 2009.
画像変換処理
(a)輝度画像 (b)表色系を変換 (c)ガボールフィルタをたたみ込んで特定
方向の勾配画像 (d)DoGフィルタ (e)勾配強度 (f)エッジ検出
(g)直線のフィルタ(ガボールフィルタとほとんど同じ) (h)閾値処理
で二値化
 入力画像を同サイズの画像にマップする変換なら何でも
 対象物体に応じた情報をとれる
19
[Dollár09]より
Integral Channel Featuresによる歩行者検出 (2)
 AdaBoost → 同じ
 どのチャンネルの、ウィンドウのどこに、どんな矩形を適用するか
 深さ2の決定木を使うのが実験的には良い
 カスケード
 カスケード毎に独立に特徴を取っていて非効率
 → Soft cascade [Zhang07]
20
[Zhang07] C. Zhang and P. Viola. Multiple-instance pruning for learning efficient cascade
detectors. In NIPS, 2007.
[Zhang07]より
Integral Channel Featuresによる歩行者検出 (3)
 実験的には勾配方向(6方向)と勾配強度、LUV表色系の各チャン
ネルの計10チャンネルを使うのがよい
 AdaBoostで選択された特徴がどのチャンネルのどの領域をみるも
のが多かったかを可視化
21
[Dollár09]より
高速化: FPDW
 異なるスケールで検出するのが重い
 → [Dollár10] スケールを変換した際の特徴量の変化をシミュレート
すれば実際に画像をスケーリングしなくてもよい
 画像を2倍に拡大したとき → 領域内の値合計は単純に2倍になる
 画像を半分に縮小したとき
 エッジがつぶれるので単純に半分にはならない→実験的に係数をも
とめる
 GPU使えばリアルタイムで検出可能
 ステレオを使って100fpsでる手法も
22
[Dollár10] P. Dollár, S. Belongie, and P. Perona. The fastest pedestrian detector in the west. In BMVC, 2010.
Integral Channel Featuresまとめ
 様々なチャンネル画像に対してVJとほぼ同じ手法を適用する
 高速かつ単純で実装も複雑にならない
 チャンネルの選び方次第で様々な物体に適用できうる
 よい!
23
まとめ
24
まとめ
 Viola-Jonesの物体検出手法紹介
 Integral Channel Features紹介
 話さなかったこと
 Non-Maximum Suppression
25
26
画像に対して仕掛けていきたい

Más contenido relacionado

La actualidad más candente

[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...Deep Learning JP
 
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -MPRG_Chubu_University
 
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points[DL輪読会]Objects as Points
[DL輪読会]Objects as PointsDeep Learning JP
 
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...Yamato OKAMOTO
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明Seiichi Uchida
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19Deep Learning JP
 
物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑むHiroto Honda
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用Hiroyuki Masuda
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
[DL輪読会]Estimating Predictive Uncertainty via Prior NetworksDeep Learning JP
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representationTakuya Minagawa
 
ガイデットフィルタとその周辺
ガイデットフィルタとその周辺ガイデットフィルタとその周辺
ガイデットフィルタとその周辺Norishige Fukushima
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...harmonylab
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
 

La actualidad más candente (20)

[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
 
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
 
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
 
物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
画像処理基礎
画像処理基礎画像処理基礎
画像処理基礎
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
 
Deep sets
Deep setsDeep sets
Deep sets
 
正準相関分析
正準相関分析正準相関分析
正準相関分析
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
ガイデットフィルタとその周辺
ガイデットフィルタとその周辺ガイデットフィルタとその周辺
ガイデットフィルタとその周辺
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 

物体検出の話Up用