SlideShare una empresa de Scribd logo
1 de 47
Descargar para leer sin conexión
2011/07/16 名古屋CV・PRML勉強会
                    発表資料
                    takmin
本日紹介する論文
   A Coarse-to-fine approach for fast deformable
    object detection
       Marco Pedersoli, Andrea Vadaldi, Jordi Gonzalez
       CVPR2011

この論文の主張:
Deformable Part Modelと
いう物体検出手法を高速
化したぜ
Deformable Part Model
   とはなんぞや?
Histogram of Oriented Gradients (HOG)




   8×8ピクセルを一つのセルとする。
   セルごとに勾配方向のヒストグラムを作成
   各ヒストグラムをつなげたものを特徴量とする
   N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection”,
    CVPR, 2005
HOGによる物体検出
             :位置とスケール




                 p  ( x, y, l )
                        位置   スケール

               score( p)
                   F   ( p, H )
                  位置とスケールpから抽出
                  したHOG特徴量ベクトル
HOGによる物体検出

線型SVMによる学習と検出
Deformable Part Model
   物体のモデルをパーツの集合として表現
       パーツの相対位置は対象によって変化
   ここでは、以下の手法を解説
       P. Felzenswalb et al, “Object Detection with Discriminatively Trained
        Part Based Models”, PAMI, 32(9), 2010
Deformable Part Model

                        z   p0 ,, pn 
                        p0
                          ルート位置

                        p1 ,, pn
                             パーツ位置
評価関数
Bounding Boxの妥当性              各パーツ形状                  パーツ位置の歪み           定数項
                               の妥当性
                        n                       n
score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                       i 0                    i 1
                                各Boxの                     パーツ位置
                                HOG特徴                      歪み
                        フィルタ                    歪みパラ
                                                 メータ



                        d (dx, dy)  (dx, dy, dx 2 , dy 2 )

                         (dxi , dyi )  ( xi , yi )  (2( x0 , y0 )  vi )
                     パーツ位置歪み           パーツ位置           ルート位置
                                                                  標準的な
                                                                  パーツの
                                                                   位置
物体の検出

                        n                    n
score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                       i 0                 i 1


p0                                     Sliding Windowの各位置で以下の
                                       スコアを求め、高いところを検出す
                                       る。

                                     score( p0 )
                                          max score p0 ,, pn 
                                            p1 ,, pn


                                       各ルート位置でもっとも最適化された
                                       パーツ位置でのスコア
物体の検出

                           n                    n
  score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                          i 0                 i 1




                               n             n
                                                                    
      score p0   max   Fi   ( pi )   d i  d (dxi , dyi ) 
                    p1 ,, pn
                               i 0        i 1                    



                      各パーツは独立なので、それぞれについてスコアを最大化する。
                                  n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                                 i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
Deformable Part Modelの学習
   学習データはBounding Box + ラベル名
   各パーツのフィルタFと歪みパラメータdを求める。
Latent SVMによる学習
                                n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                               i 1




識別関数             f  ( x)  max   ( x, z )
                            zZ ( x )
Latent SVMによる学習
                                n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                               i 1




識別関数             f  ( x)  max   ( x, z )
                            zZ ( x )
Latent SVMによる学習
                                n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                               i 1




識別関数             f  ( x)  max   ( x, z )
                            zZ ( x )

                                             入力画像 パーツ位置   z   p0 ,, pn 
                            これを学習したい!


 f  ( x)    ( x) という形なら、SVMで解けるが、、、
                       残念ながら非凸関数
Latent SVMによる学習
   パーツ位置zを潜在変数として扱う

       Latent SVM (MI-SVM)

識別関数     f  ( x)  max   ( x, z )
                  zZ ( x )

                              学習画像 パーツ位置    z   p0 ,, pn 
                                   (潜在変数)


以下の繰り返しにより解く:
1.  を固定して f  (x) を最大化する z を求める
2. z を固定して  を最適化(通常のSVM)
やっと本題
Deformable Part Modelの計算コスト

 L   画像のピクセル数        c   パーツの近傍探索範囲
 P   パーツの数          D    フィルターの次元
 δ   セルのサイズ




               L        L 
             O P 2  D  2  
                            
                        c 
         処理する      特徴量マッチ   パーツ探索
         セルの数      ングのコスト    のコスト
Deformable Part Modelの計算コスト
 例:
 フィルターのサイズ: 6×6セル           D  6  6  31  1,116
 セルの次元: 31
                             L
 パーツ探索範囲: 6×6セル                  6  6  36
                             c
                             2



         L        L 
       O P 2  D  2  
                      
                  c 
       処理する   特徴量マッチ   パーツ探索
       セルの数   ングのコスト    のコスト
Deformable Part Modelの計算コスト
 例:
 フィルターのサイズ: 6×6セル             D  6  6  31  1,116
 セルの次元: 31
                               L
 パーツ探索範囲: 6×6セル                    6  6  36
                               c
                               2




         L               
       O P 2 1,116  36
                        
       処理する   特徴量マッチ   パーツ探索
       セルの数   ングのコスト    のコスト

  いかにマッチングにかかるコストを減らすか?
Coarse-to-Fineな推定
       粗い解像度で取得したフィルター情報を元に、密な解
        像度でのフィルターの計算範囲を絞る。
       極大点周辺のm×mセルのみ
オブジェクトモデル
   モデルは異なる解像度のHOGフィルタのパーツで構成
   各パーツフィルターは解像度が上がるごとに均等に分割
   階層間の制約(青ライン)+パーツ間の制約(赤ライン)
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                   ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                    親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                       位置の妥当性                                 位置の妥当性
                          (a)                      (bの青いライン)                               (bの赤の破線)
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                   ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                    親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                      位置の妥当性                                  位置の妥当性

     S Hi (y i ; x, w)  H (y i ; x)  M Hi (w)                                  x : 入力画像
                          HOG特徴         パーツのフィルタ
                                                                                 w : パラメータ
                                                                                 y i : パーツiの位置
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)       S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                    ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                     親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                       位置の妥当性                                  位置の妥当性

     S Hi (y i ; x, w)  H (y i ; x)  M Hi (w)                                   x : 入力画像
                            HOG特徴        パーツのフィルタ
                                                                                  w : パラメータ
    S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w)                             y i : パーツiの位置
                            親子パーツの相             歪みパラメータ
                              対位置




                        
     D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2         
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)       S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                    ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                     親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                       位置の妥当性                                  位置の妥当性

     S Hi (y i ; x, w)  H (y i ; x)  M Hi (w)                                   x : 入力画像
                            HOG特徴        パーツのフィルタ
                                                                                  w : パラメータ
    S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w)                             y i : パーツiの位置
                            親子パーツの相             歪みパラメータ
                              対位置

     S Pij (y i , y j ; w)  D(y i , y j )  M Pi (w; y i )
                            隣接パーツの相           歪みパラメータ
                              対位置

                        
     D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2         
検出のための評価関数                                                                                                NEW!
                  p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                   ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                    親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                      位置の妥当性                                  位置の妥当性



                             n                                     n
 score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                            i 0                                  i 1

  Felzenswalbらのモデルとの対応
検出のための評価関数
                p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
               i 1                     ( i , j )F                              ( i , j )P
                                                                                          隣接パーツの相対
                                                                                           位置の妥当性
                 おそらくこういう状況を防ぐための制約
検出のための評価関数
                p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
               i 1                     ( i , j )F                              ( i , j )P
                                                                                          隣接パーツの相対
                                                                                           位置の妥当性

  Coarse-to-Fineにしたために、オクルージョンやノイズに弱くなっ
  たため、加えた制約




         隣接パーツの評価あり                                             隣接パーツの評価なし
            学習結果                                                   学習結果
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算




                         ×4
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算




                             ×16
物体の検出
                p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
               i 1                     ( i , j )F                              ( i , j )P


    隣接パーツ間の制約が無い時は、モデルはツリー構造
        DPを用いてスコアが一意に求まる
    隣接パーツ間の制約がある時は、一つのパーツの位置を固定
     してしまう。




     iを固定して、jとiの位置からkの歪みを求める
学習
   latent structural SVMでパラメータを学習
       パーツ位置を潜在変数として扱う
       Vedaldiらのやり方*に従ったと書いてあるだけで、具体的にこ
        のモデルにどのようにlatent structural SVMを適用したのかの
        記述はない。
           (おそらく)以下の識別関数Sにおいて、カーネル関数をΦ同士の内
            積、損失関数をBounding Boxの重なり具合として、wを求めている。


               S y1; x   max w  (x, y i )
                                y i  p  y1



* A. Vedaldi and A. Zisserman. .Structured output regression for detection with partial
occulusion. In Proc NIPS, 2009
実験:INRIA Pedestrianデータセット




CF: Coarse-to-Fine
sib: 隣接パーツの制約

[9] P. Felzenszwalb, R. Girshick, and D. McAllester. Cascade object detection with
deformable par models. In CVPR, 2010
実験:INRIA Pedestrianデータセット
実験:Coarse-to-Fineの有無で性能比較
       INRIA Pedestrianデータの検出スコアの比較

CFあり                       CFあり




                    CF無し              CF無し
実験:PASCAL VOC 2007データセット
まとめ
   Coarse-to-Fineなアプローチを入れることでDeformable
    Part Modelによる検出を高速化した。
   性能(精度+速度)に関しては、ほぼ最新の手法(カス
    ケード型)と同等
   この2つの手法は組み合わせることで更なる高速化が可
    能

Más contenido relacionado

La actualidad más candente

最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦Tatsuya Matsushima
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識Hirokatsu Kataoka
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...Deep Learning JP
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )cvpaper. challenge
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Surveytmtm otm
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...Deep Learning JP
 
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashi
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashiコンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashi
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashiMasaki Hayashi
 
Reinforcement Learning(方策改善定理)
Reinforcement Learning(方策改善定理)Reinforcement Learning(方策改善定理)
Reinforcement Learning(方策改善定理)Masanori Yamada
 
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPsDeep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPsHakky St
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化Yusuke Uchida
 
ICLR2020の異常検知論文の紹介 (2019/11/23)
ICLR2020の異常検知論文の紹介 (2019/11/23)ICLR2020の異常検知論文の紹介 (2019/11/23)
ICLR2020の異常検知論文の紹介 (2019/11/23)ぱんいち すみもと
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video RecognitionDeep Learning JP
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points[DL輪読会]Objects as Points
[DL輪読会]Objects as PointsDeep Learning JP
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 

La actualidad más candente (20)

最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashi
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashiコンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashi
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashi
 
Reinforcement Learning(方策改善定理)
Reinforcement Learning(方策改善定理)Reinforcement Learning(方策改善定理)
Reinforcement Learning(方策改善定理)
 
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPsDeep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
ICLR2020の異常検知論文の紹介 (2019/11/23)
ICLR2020の異常検知論文の紹介 (2019/11/23)ICLR2020の異常検知論文の紹介 (2019/11/23)
ICLR2020の異常検知論文の紹介 (2019/11/23)
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 

Más de Takuya Minagawa

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureTakuya Minagawa
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイTakuya Minagawa
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsTakuya Minagawa
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfTakuya Minagawa
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事Takuya Minagawa
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)Takuya Minagawa
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)Takuya Minagawa
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representationTakuya Minagawa
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summaryTakuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation surveyTakuya Minagawa
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencvTakuya Minagawa
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection surveyTakuya Minagawa
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)Takuya Minagawa
 

Más de Takuya Minagawa (20)

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 
Visual slam
Visual slamVisual slam
Visual slam
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 

2011/07/16 NagoyaCV_takmin

  • 2. 本日紹介する論文  A Coarse-to-fine approach for fast deformable object detection  Marco Pedersoli, Andrea Vadaldi, Jordi Gonzalez  CVPR2011 この論文の主張: Deformable Part Modelと いう物体検出手法を高速 化したぜ
  • 3. Deformable Part Model とはなんぞや?
  • 4. Histogram of Oriented Gradients (HOG)  8×8ピクセルを一つのセルとする。  セルごとに勾配方向のヒストグラムを作成  各ヒストグラムをつなげたものを特徴量とする  N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection”, CVPR, 2005
  • 5. HOGによる物体検出 :位置とスケール p  ( x, y, l ) 位置 スケール score( p)  F   ( p, H ) 位置とスケールpから抽出 したHOG特徴量ベクトル
  • 7. Deformable Part Model  物体のモデルをパーツの集合として表現  パーツの相対位置は対象によって変化  ここでは、以下の手法を解説  P. Felzenswalb et al, “Object Detection with Discriminatively Trained Part Based Models”, PAMI, 32(9), 2010
  • 8. Deformable Part Model z   p0 ,, pn  p0 ルート位置 p1 ,, pn パーツ位置
  • 9. 評価関数 Bounding Boxの妥当性 各パーツ形状 パーツ位置の歪み 定数項 の妥当性 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1 各Boxの パーツ位置 HOG特徴 歪み フィルタ 歪みパラ メータ d (dx, dy)  (dx, dy, dx 2 , dy 2 ) (dxi , dyi )  ( xi , yi )  (2( x0 , y0 )  vi ) パーツ位置歪み パーツ位置 ルート位置 標準的な パーツの 位置
  • 10. 物体の検出 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1 p0 Sliding Windowの各位置で以下の スコアを求め、高いところを検出す る。 score( p0 )  max score p0 ,, pn  p1 ,, pn 各ルート位置でもっとも最適化された パーツ位置でのスコア
  • 11. 物体の検出 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1  n n  score p0   max   Fi   ( pi )   d i  d (dxi , dyi )  p1 ,, pn  i 0 i 1  各パーツは独立なので、それぞれについてスコアを最大化する。 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 12. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 13. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 14. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 15. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 16. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 17. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 18. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 19. Deformable Part Modelの学習  学習データはBounding Box + ラベル名  各パーツのフィルタFと歪みパラメータdを求める。
  • 20. Latent SVMによる学習 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1 識別関数 f  ( x)  max   ( x, z ) zZ ( x )
  • 21. Latent SVMによる学習 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1 識別関数 f  ( x)  max   ( x, z ) zZ ( x )
  • 22. Latent SVMによる学習 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1 識別関数 f  ( x)  max   ( x, z ) zZ ( x ) 入力画像 パーツ位置 z   p0 ,, pn  これを学習したい! f  ( x)    ( x) という形なら、SVMで解けるが、、、 残念ながら非凸関数
  • 23. Latent SVMによる学習  パーツ位置zを潜在変数として扱う Latent SVM (MI-SVM) 識別関数 f  ( x)  max   ( x, z ) zZ ( x ) 学習画像 パーツ位置 z   p0 ,, pn  (潜在変数) 以下の繰り返しにより解く: 1.  を固定して f  (x) を最大化する z を求める 2. z を固定して  を最適化(通常のSVM)
  • 25. Deformable Part Modelの計算コスト L 画像のピクセル数 c パーツの近傍探索範囲 P パーツの数 D フィルターの次元 δ セルのサイズ  L  L  O P 2  D  2         c  処理する 特徴量マッチ パーツ探索 セルの数 ングのコスト のコスト
  • 26. Deformable Part Modelの計算コスト 例: フィルターのサイズ: 6×6セル D  6  6  31  1,116 セルの次元: 31 L パーツ探索範囲: 6×6セル  6  6  36  c 2  L  L  O P 2  D  2         c  処理する 特徴量マッチ パーツ探索 セルの数 ングのコスト のコスト
  • 27. Deformable Part Modelの計算コスト 例: フィルターのサイズ: 6×6セル D  6  6  31  1,116 セルの次元: 31 L パーツ探索範囲: 6×6セル  6  6  36  c 2  L  O P 2 1,116  36    処理する 特徴量マッチ パーツ探索 セルの数 ングのコスト のコスト いかにマッチングにかかるコストを減らすか?
  • 28. Coarse-to-Fineな推定  粗い解像度で取得したフィルター情報を元に、密な解 像度でのフィルターの計算範囲を絞る。  極大点周辺のm×mセルのみ
  • 29. オブジェクトモデル  モデルは異なる解像度のHOGフィルタのパーツで構成  各パーツフィルターは解像度が上がるごとに均等に分割  階層間の制約(青ライン)+パーツ間の制約(赤ライン)
  • 30. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 (a) (bの青いライン) (bの赤の破線)
  • 31. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像 HOG特徴 パーツのフィルタ w : パラメータ y i : パーツiの位置
  • 32. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像 HOG特徴 パーツのフィルタ w : パラメータ S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w) y i : パーツiの位置 親子パーツの相 歪みパラメータ 対位置  D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2 
  • 33. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像 HOG特徴 パーツのフィルタ w : パラメータ S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w) y i : パーツiの位置 親子パーツの相 歪みパラメータ 対位置 S Pij (y i , y j ; w)  D(y i , y j )  M Pi (w; y i ) 隣接パーツの相 歪みパラメータ 対位置  D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2 
  • 34. 検出のための評価関数 NEW! p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1 Felzenswalbらのモデルとの対応
  • 35. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P 隣接パーツの相対 位置の妥当性 おそらくこういう状況を防ぐための制約
  • 36. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P 隣接パーツの相対 位置の妥当性 Coarse-to-Fineにしたために、オクルージョンやノイズに弱くなっ たため、加えた制約 隣接パーツの評価あり 隣接パーツの評価なし 学習結果 学習結果
  • 37. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算
  • 38. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算
  • 39. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算 ×4
  • 40. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算 ×16
  • 41. 物体の検出 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P  隣接パーツ間の制約が無い時は、モデルはツリー構造  DPを用いてスコアが一意に求まる  隣接パーツ間の制約がある時は、一つのパーツの位置を固定 してしまう。 iを固定して、jとiの位置からkの歪みを求める
  • 42. 学習  latent structural SVMでパラメータを学習  パーツ位置を潜在変数として扱う  Vedaldiらのやり方*に従ったと書いてあるだけで、具体的にこ のモデルにどのようにlatent structural SVMを適用したのかの 記述はない。  (おそらく)以下の識別関数Sにおいて、カーネル関数をΦ同士の内 積、損失関数をBounding Boxの重なり具合として、wを求めている。 S y1; x   max w  (x, y i ) y i  p y1 * A. Vedaldi and A. Zisserman. .Structured output regression for detection with partial occulusion. In Proc NIPS, 2009
  • 43. 実験:INRIA Pedestrianデータセット CF: Coarse-to-Fine sib: 隣接パーツの制約 [9] P. Felzenszwalb, R. Girshick, and D. McAllester. Cascade object detection with deformable par models. In CVPR, 2010
  • 45. 実験:Coarse-to-Fineの有無で性能比較 INRIA Pedestrianデータの検出スコアの比較 CFあり CFあり CF無し CF無し
  • 47. まとめ  Coarse-to-Fineなアプローチを入れることでDeformable Part Modelによる検出を高速化した。  性能(精度+速度)に関しては、ほぼ最新の手法(カス ケード型)と同等  この2つの手法は組み合わせることで更なる高速化が可 能