SlideShare una empresa de Scribd logo
1 de 27
Descargar para leer sin conexión
CVPR2011 Paper Digest
(1) Interactive building a discriminative
      vocabulary of nameable attributes
    (2) Recognition using visual phrases

             Akisato Kimura @ NTT CS Labs
                       Twitter ID: @_akisato
なぜこの2本を選んだのか?
   「画像を理解する」をどう問題に落とす?
       物体認識…?                                                        Person
                                                    Horse




        [ Full description ]
        A woman wearing a blue cloth and gray tights is riding on a galloping
        white horse at a beautiful sandy beach under a clear sky.

                    物体認識をしただけでは,
                   実は何も理解できていない!
                     (物体だけを認識する一般物体認識の終焉)
2                                                      CVPR2011祭り (July 31, 2011)
何が足りないのか? (1)
   物体などの属性が足りない
       でも画像だけで                           Sky: clear            Person: female
        全部できる気がしない                            Horse: white




        [ Full description ]                Beach: beautiful, sandy
        A woman wearing a blue cloth and gray tights is riding on a galloping
        white horse at a beautiful sandy beach under a clear sky.

           第1論文の主題: 属性辞書をインタラクティブに学習

3                                                      CVPR2011祭り (July 31, 2011)
何が足りないのか? (2)
   物体間の関係性が足りない
                                              A person is wearing clothes.




    [ Full description ]               A person is riding on a horse.
    A woman wearing a blue cloth and gray tights is riding on a white horse
    at a beautiful sandy beach under a clear sky.

    第2論文の主題: 物体とその関係性をクラスと見なす認識

4                                                  CVPR2011祭り (July 31, 2011)
Interactively building a
 discriminative vocabulary of
         nameable attributes

D. Parikh @ Toyota Technological Institute, Chicago
        K. Grauman @ University of Texas at Austin
やりたいこと
   物体・シーンの属性の辞書・モデルを
    インタラクティブに構築する




物体やシーンはそれぞれ
違うラベルが付いているけど,    何か名前があるかも!
何か傾向があるような気がする…   聞いてみよう!


6                 CVPR2011祭り (July 31, 2011)
アプローチ
    物体クラスとは異なる類似性を見つける



クラス分類を壊さないような
 2クラス識別面を見つける


                            ユーザに見せる画像を
                              適切に選択


           尤もらしい仮説だけを
             選択して提示
 7                      CVPR2011祭り (July 31, 2011)
類似性発見の方法
Mixture of Probabilistic PCAs    教師なし(物体も属性も関係なし)で
でモデル化,適切な仮説のみ選択                  最大マージンクラスタリング




   現在の属性辞書                 現在の属性辞書で
   (この図では1つだけど             分離しにくい物体クラスの
    いっぱいあってもOK)            集合を見つける by normalized cuts

   8                                     CVPR2011祭り (July 31, 2011)
提示する画像の選択

        識別面に直交する軸を等間隔に区切る

区切った領域内で,識別面の真ん中に   最大マージンクラスタリングで得られた
最も近いサンプルを選択         識別面 (=属性候補)




 9                       CVPR2011祭り (July 31, 2011)
ユーザに何を尋ねるか?




• この属性の名前は? (以降はもし属性に名前があれば回答)
• 左右,どちらに行くほどその特性が強くなるか?
• この画像列がその属性を表現するものとして,
  どの程度尤もらしいか (4段階評価)?
10                  CVPR2011祭り (July 31, 2011)
データセット
   Outdoor scene recognition (OSR)
       http://people.csail.mit.edu/torralba/code/spatialenvelope/
   Animals with attributes (AWA)
       http://attributes.kyb.tuebingen.mpg.de
   共通事項
       各データセットから8物体クラスを選択
       1画像1クラスとなるように加工された画像もある
       属性の種類は主旨(gist)と色に限定
       インタラクションはMechanical Turk経由

11                                               CVPR2011祭り (July 31, 2011)
クラス選択と仮説選択の効果
                      クラス選択

               クラスのランダム選択や
               クラス選択なしに比べ,
               意味ある仮説を適切に
                 選択できている



      仮説選択

仮説のランダム選択と
   比較して,
 意味ある仮説を
適切に選択できている

 12          CVPR2011祭り (July 31, 2011)
全体としての効果
   インタラクションを重ねれば,
    属性辞書は着実に構築されます.




   なので,当然,認識精度も少し向上します.




13                CVPR2011祭り (July 31, 2011)
Recognition
                  using visual phrases


M.A. Sadeghi @ Institute for Research in Fundamental Science
      A. Farhadi @ University of Illinois at Urbana-Champaign
やりたいこと
   物体とその関係性を認識する




     Person_nextto_bicycle   Person_drinking_bottle




     Person_riding_bicycle     Dog_lyingon_sofa

15                               CVPR2011祭り (July 31, 2011)
アプローチ
1.    関係性も物体同様,1つの「クラス」と見なす.
     なので,真に関係性を認識しているわけではない.
2.    クラス間の位置関係を考慮して,
      クラス別での認識結果を修正 (追加・削除)
          1

                        2




 16                 CVPR2011祭り (July 31, 2011)
各クラスのモデル
                                                                 粗めPCA-HOG
   Deformable part model
    [Felzenszwalb+ 2010]
         PASCAL VOC 標準ソフト採用
                                                  物体パーツごとの細かめPCA-HOG
             bicycle



                                              パーツ位置ずれ/変形に対するコスト




Felzenszwalb et al. “Object Detection with Discriminatively Trained Part Based
Models,”IEEE Trans. PAMI, Vol.32, No.9, 2010. http://people.cs.uchicago.edu/~pff/latent/
 17                                                        CVPR2011祭り (July 31, 2011)
各クラスの認識
                               粗めHOG   細かめHOG (解像度2倍)




Input image




              Model (person)




   18                                     CVPR2011祭り (July 31, 2011)
クラス別認識結果の統合
                           i番目のbounding boxを
                           最終結果に使うかどうか? i番目のbounding boxの
                                                クラス インデックス


person
            person



                           i番目使わない → all 0 のベクトル
  person             bag   i番目使う → i番目のbounding boxの特徴表現

                           クラス別に,位置関係・尤度・サイズ比等を考慮した
                           「何らか」の(9K+1)次元ベクトル (ダッテナニモカイテナイシ)

         識別軸 w でクラス判別を行う線形(structured)SVM
   19                                      CVPR2011祭り (July 31, 2011)
結果統合モデルの学習
    Structured SVMの設計




n番目の画像全体での                     仮説と正解とのハミング距離
bounding boxes の評価値
                      bounding boxの
                      使用/不使用に関する仮説


        仮説最適化と目的関数最大化の繰り返しで学習

  20                              CVPR2011祭り (July 31, 2011)
データセット                  http://vision.cs.uiuc.edu/phrasal/
    Bingでphraseを検索,以降は手動作業…
        25クラス = 8 objects + 17 phrases
        画像 2769枚 (822枚 = negative examples)
        各クラス 平均120枚のpositives
        5067 bounding boxes (phrases:1796, objects:3271)
   Dog jumping


Person drinking
         bottle

  Person lying
       on sofa

   21                                      CVPR2011祭り (July 31, 2011)
関係性認識の精度が良くなります
   精度が大きく向上した10 phrasesでのPR曲線




22                   CVPR2011祭り (July 31, 2011)
関係性認識の精度が良くなります




            多くのphrasesで
            baselineを大きく上回る性能




           どのような状況が得手/不得手
           か,があまり明らかでない



23         CVPR2011祭り (July 31, 2011)
物体認識の精度も少し良くなります
     Deformable part model [Felzenszwalb+ PAMI2010]
     (Baselineとなる物体検出器,page 10 参照)


      Structured learning for
      multi-class object layout [Desai+ ICCV2010]
      (scoring functionを使った物体関係モデルを用いた検出器)




24                             CVPR2011祭り (July 31, 2011)
物体認識の精度も良くなります




25         CVPR2011祭り (July 31, 2011)
さいごのまとめ




Akisato Kimura @ NTT CS Labs
          Twitter ID: @_akisato
それでもやっぱりまだ足りない…
 物体の動作が足りない → 第2論文でできたのはごく一部
 風景を系統的に理解できない
      → 物体・属性・関係性・動作の総合体,かなぁ
                                                           Beach = sky(upper) +
                                                      water(middle) + sand(lower)??




                                                            A horse is galloping.

   説明文自体を直接生成する
    Ushiku et al.”Automatic Sentence Generation from Images,” to appear, ACMMM2011

27                                                         CVPR2011祭り (July 31, 2011)

Más contenido relacionado

Similar a CVPR2011祭り 発表スライド

関西CVPRML勉強会 2011.9.23
関西CVPRML勉強会 2011.9.23関西CVPRML勉強会 2011.9.23
関西CVPRML勉強会 2011.9.23Akisato Kimura
 
オブジェクト指向入門1
オブジェクト指向入門1オブジェクト指向入門1
オブジェクト指向入門1Kenta Hattori
 
Casual learning machine learning with_excel_no6
Casual learning machine learning with_excel_no6Casual learning machine learning with_excel_no6
Casual learning machine learning with_excel_no6KazuhiroSato8
 
ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」Masaru Nagaku
 
Rm20140625 10key
Rm20140625 10keyRm20140625 10key
Rm20140625 10keyyouwatari
 

Similar a CVPR2011祭り 発表スライド (6)

関西CVPRML勉強会 2011.9.23
関西CVPRML勉強会 2011.9.23関西CVPRML勉強会 2011.9.23
関西CVPRML勉強会 2011.9.23
 
オブジェクト指向入門1
オブジェクト指向入門1オブジェクト指向入門1
オブジェクト指向入門1
 
Casual learning machine learning with_excel_no6
Casual learning machine learning with_excel_no6Casual learning machine learning with_excel_no6
Casual learning machine learning with_excel_no6
 
ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
Rm20140625 10key
Rm20140625 10keyRm20140625 10key
Rm20140625 10key
 

Más de Akisato Kimura

Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Akisato Kimura
 
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Akisato Kimura
 
多変量解析の一般化
多変量解析の一般化多変量解析の一般化
多変量解析の一般化Akisato Kimura
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてAkisato Kimura
 
NIPS2015 reading - Learning visual biases from human imagination
NIPS2015 reading - Learning visual biases from human imaginationNIPS2015 reading - Learning visual biases from human imagination
NIPS2015 reading - Learning visual biases from human imaginationAkisato Kimura
 
CVPR2015 reading "Global refinement of random forest"
CVPR2015 reading "Global refinement of random forest"CVPR2015 reading "Global refinement of random forest"
CVPR2015 reading "Global refinement of random forest"Akisato Kimura
 
CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)Akisato Kimura
 
Computational models of human visual attention driven by auditory cues
Computational models of human visual attention driven by auditory cuesComputational models of human visual attention driven by auditory cues
Computational models of human visual attention driven by auditory cuesAkisato Kimura
 
NIPS2014 reading - Top rank optimization in linear time
NIPS2014 reading - Top rank optimization in linear timeNIPS2014 reading - Top rank optimization in linear time
NIPS2014 reading - Top rank optimization in linear timeAkisato Kimura
 
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...Akisato Kimura
 
ICCV2013 reading: Learning to rank using privileged information
ICCV2013 reading: Learning to rank using privileged informationICCV2013 reading: Learning to rank using privileged information
ICCV2013 reading: Learning to rank using privileged informationAkisato Kimura
 
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...Akisato Kimura
 
IJCAI13 Paper review: Large-scale spectral clustering on graphs
IJCAI13 Paper review: Large-scale spectral clustering on graphsIJCAI13 Paper review: Large-scale spectral clustering on graphs
IJCAI13 Paper review: Large-scale spectral clustering on graphsAkisato Kimura
 
関西CVPR勉強会 2012.10.28
関西CVPR勉強会 2012.10.28関西CVPR勉強会 2012.10.28
関西CVPR勉強会 2012.10.28Akisato Kimura
 
関西CVPR勉強会 2012.7.29
関西CVPR勉強会 2012.7.29関西CVPR勉強会 2012.7.29
関西CVPR勉強会 2012.7.29Akisato Kimura
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)Akisato Kimura
 
関西CVPRML勉強会(特定物体認識) 2012.1.14
関西CVPRML勉強会(特定物体認識) 2012.1.14関西CVPRML勉強会(特定物体認識) 2012.1.14
関西CVPRML勉強会(特定物体認識) 2012.1.14Akisato Kimura
 
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -Akisato Kimura
 
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明Akisato Kimura
 

Más de Akisato Kimura (20)

Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
 
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
 
多変量解析の一般化
多変量解析の一般化多変量解析の一般化
多変量解析の一般化
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 
NIPS2015 reading - Learning visual biases from human imagination
NIPS2015 reading - Learning visual biases from human imaginationNIPS2015 reading - Learning visual biases from human imagination
NIPS2015 reading - Learning visual biases from human imagination
 
CVPR2015 reading "Global refinement of random forest"
CVPR2015 reading "Global refinement of random forest"CVPR2015 reading "Global refinement of random forest"
CVPR2015 reading "Global refinement of random forest"
 
CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)
 
Computational models of human visual attention driven by auditory cues
Computational models of human visual attention driven by auditory cuesComputational models of human visual attention driven by auditory cues
Computational models of human visual attention driven by auditory cues
 
NIPS2014 reading - Top rank optimization in linear time
NIPS2014 reading - Top rank optimization in linear timeNIPS2014 reading - Top rank optimization in linear time
NIPS2014 reading - Top rank optimization in linear time
 
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...
 
ICCV2013 reading: Learning to rank using privileged information
ICCV2013 reading: Learning to rank using privileged informationICCV2013 reading: Learning to rank using privileged information
ICCV2013 reading: Learning to rank using privileged information
 
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...
 
IJCAI13 Paper review: Large-scale spectral clustering on graphs
IJCAI13 Paper review: Large-scale spectral clustering on graphsIJCAI13 Paper review: Large-scale spectral clustering on graphs
IJCAI13 Paper review: Large-scale spectral clustering on graphs
 
関西CVPR勉強会 2012.10.28
関西CVPR勉強会 2012.10.28関西CVPR勉強会 2012.10.28
関西CVPR勉強会 2012.10.28
 
関西CVPR勉強会 2012.7.29
関西CVPR勉強会 2012.7.29関西CVPR勉強会 2012.7.29
関西CVPR勉強会 2012.7.29
 
ICWSM12 Brief Review
ICWSM12 Brief ReviewICWSM12 Brief Review
ICWSM12 Brief Review
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
 
関西CVPRML勉強会(特定物体認識) 2012.1.14
関西CVPRML勉強会(特定物体認識) 2012.1.14関西CVPRML勉強会(特定物体認識) 2012.1.14
関西CVPRML勉強会(特定物体認識) 2012.1.14
 
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
 
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
 

Último

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 

Último (8)

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 

CVPR2011祭り 発表スライド

  • 1. CVPR2011 Paper Digest (1) Interactive building a discriminative vocabulary of nameable attributes (2) Recognition using visual phrases Akisato Kimura @ NTT CS Labs Twitter ID: @_akisato
  • 2. なぜこの2本を選んだのか?  「画像を理解する」をどう問題に落とす?  物体認識…? Person Horse [ Full description ] A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky. 物体認識をしただけでは, 実は何も理解できていない! (物体だけを認識する一般物体認識の終焉) 2 CVPR2011祭り (July 31, 2011)
  • 3. 何が足りないのか? (1)  物体などの属性が足りない  でも画像だけで Sky: clear Person: female 全部できる気がしない Horse: white [ Full description ] Beach: beautiful, sandy A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky. 第1論文の主題: 属性辞書をインタラクティブに学習 3 CVPR2011祭り (July 31, 2011)
  • 4. 何が足りないのか? (2)  物体間の関係性が足りない A person is wearing clothes. [ Full description ] A person is riding on a horse. A woman wearing a blue cloth and gray tights is riding on a white horse at a beautiful sandy beach under a clear sky. 第2論文の主題: 物体とその関係性をクラスと見なす認識 4 CVPR2011祭り (July 31, 2011)
  • 5. Interactively building a discriminative vocabulary of nameable attributes D. Parikh @ Toyota Technological Institute, Chicago K. Grauman @ University of Texas at Austin
  • 6. やりたいこと  物体・シーンの属性の辞書・モデルを インタラクティブに構築する 物体やシーンはそれぞれ 違うラベルが付いているけど, 何か名前があるかも! 何か傾向があるような気がする… 聞いてみよう! 6 CVPR2011祭り (July 31, 2011)
  • 7. アプローチ  物体クラスとは異なる類似性を見つける クラス分類を壊さないような 2クラス識別面を見つける ユーザに見せる画像を 適切に選択 尤もらしい仮説だけを 選択して提示 7 CVPR2011祭り (July 31, 2011)
  • 8. 類似性発見の方法 Mixture of Probabilistic PCAs 教師なし(物体も属性も関係なし)で でモデル化,適切な仮説のみ選択 最大マージンクラスタリング 現在の属性辞書 現在の属性辞書で (この図では1つだけど 分離しにくい物体クラスの いっぱいあってもOK) 集合を見つける by normalized cuts 8 CVPR2011祭り (July 31, 2011)
  • 9. 提示する画像の選択 識別面に直交する軸を等間隔に区切る 区切った領域内で,識別面の真ん中に 最大マージンクラスタリングで得られた 最も近いサンプルを選択 識別面 (=属性候補) 9 CVPR2011祭り (July 31, 2011)
  • 10. ユーザに何を尋ねるか? • この属性の名前は? (以降はもし属性に名前があれば回答) • 左右,どちらに行くほどその特性が強くなるか? • この画像列がその属性を表現するものとして, どの程度尤もらしいか (4段階評価)? 10 CVPR2011祭り (July 31, 2011)
  • 11. データセット  Outdoor scene recognition (OSR)  http://people.csail.mit.edu/torralba/code/spatialenvelope/  Animals with attributes (AWA)  http://attributes.kyb.tuebingen.mpg.de  共通事項  各データセットから8物体クラスを選択  1画像1クラスとなるように加工された画像もある  属性の種類は主旨(gist)と色に限定  インタラクションはMechanical Turk経由 11 CVPR2011祭り (July 31, 2011)
  • 12. クラス選択と仮説選択の効果 クラス選択 クラスのランダム選択や クラス選択なしに比べ, 意味ある仮説を適切に 選択できている 仮説選択 仮説のランダム選択と 比較して, 意味ある仮説を 適切に選択できている 12 CVPR2011祭り (July 31, 2011)
  • 13. 全体としての効果  インタラクションを重ねれば, 属性辞書は着実に構築されます.  なので,当然,認識精度も少し向上します. 13 CVPR2011祭り (July 31, 2011)
  • 14. Recognition using visual phrases M.A. Sadeghi @ Institute for Research in Fundamental Science A. Farhadi @ University of Illinois at Urbana-Champaign
  • 15. やりたいこと  物体とその関係性を認識する Person_nextto_bicycle Person_drinking_bottle Person_riding_bicycle Dog_lyingon_sofa 15 CVPR2011祭り (July 31, 2011)
  • 16. アプローチ 1. 関係性も物体同様,1つの「クラス」と見なす.  なので,真に関係性を認識しているわけではない. 2. クラス間の位置関係を考慮して, クラス別での認識結果を修正 (追加・削除) 1 2 16 CVPR2011祭り (July 31, 2011)
  • 17. 各クラスのモデル 粗めPCA-HOG  Deformable part model [Felzenszwalb+ 2010]  PASCAL VOC 標準ソフト採用 物体パーツごとの細かめPCA-HOG bicycle パーツ位置ずれ/変形に対するコスト Felzenszwalb et al. “Object Detection with Discriminatively Trained Part Based Models,”IEEE Trans. PAMI, Vol.32, No.9, 2010. http://people.cs.uchicago.edu/~pff/latent/ 17 CVPR2011祭り (July 31, 2011)
  • 18. 各クラスの認識 粗めHOG 細かめHOG (解像度2倍) Input image Model (person) 18 CVPR2011祭り (July 31, 2011)
  • 19. クラス別認識結果の統合 i番目のbounding boxを 最終結果に使うかどうか? i番目のbounding boxの クラス インデックス person person i番目使わない → all 0 のベクトル person bag i番目使う → i番目のbounding boxの特徴表現 クラス別に,位置関係・尤度・サイズ比等を考慮した 「何らか」の(9K+1)次元ベクトル (ダッテナニモカイテナイシ) 識別軸 w でクラス判別を行う線形(structured)SVM 19 CVPR2011祭り (July 31, 2011)
  • 20. 結果統合モデルの学習  Structured SVMの設計 n番目の画像全体での 仮説と正解とのハミング距離 bounding boxes の評価値 bounding boxの 使用/不使用に関する仮説  仮説最適化と目的関数最大化の繰り返しで学習 20 CVPR2011祭り (July 31, 2011)
  • 21. データセット http://vision.cs.uiuc.edu/phrasal/  Bingでphraseを検索,以降は手動作業…  25クラス = 8 objects + 17 phrases  画像 2769枚 (822枚 = negative examples)  各クラス 平均120枚のpositives  5067 bounding boxes (phrases:1796, objects:3271) Dog jumping Person drinking bottle Person lying on sofa 21 CVPR2011祭り (July 31, 2011)
  • 22. 関係性認識の精度が良くなります  精度が大きく向上した10 phrasesでのPR曲線 22 CVPR2011祭り (July 31, 2011)
  • 23. 関係性認識の精度が良くなります 多くのphrasesで baselineを大きく上回る性能 どのような状況が得手/不得手 か,があまり明らかでない 23 CVPR2011祭り (July 31, 2011)
  • 24. 物体認識の精度も少し良くなります Deformable part model [Felzenszwalb+ PAMI2010] (Baselineとなる物体検出器,page 10 参照) Structured learning for multi-class object layout [Desai+ ICCV2010] (scoring functionを使った物体関係モデルを用いた検出器) 24 CVPR2011祭り (July 31, 2011)
  • 25. 物体認識の精度も良くなります 25 CVPR2011祭り (July 31, 2011)
  • 26. さいごのまとめ Akisato Kimura @ NTT CS Labs Twitter ID: @_akisato
  • 27. それでもやっぱりまだ足りない…  物体の動作が足りない → 第2論文でできたのはごく一部  風景を系統的に理解できない → 物体・属性・関係性・動作の総合体,かなぁ Beach = sky(upper) + water(middle) + sand(lower)?? A horse is galloping.  説明文自体を直接生成する Ushiku et al.”Automatic Sentence Generation from Images,” to appear, ACMMM2011 27 CVPR2011祭り (July 31, 2011)