SlideShare una empresa de Scribd logo
1 de 37
Descargar para leer sin conexión
第14回コンピュータビジョン勉強会
             発表資料
             tsubosaka
紹介する論文
   Hierarchical Semantic Indexing for Large Scale Image
    Retrieval
       Jia Deng, Alexander C. Berg and Li Fei-Fei
       ImageNet (http://www.image-net.org/) プロジェクトのメンバ
   論文の概要
       類似画像検索において、直接画像の類似度を計算するので
        はなく、一旦カテゴリに変換することにより精度を高くすること
        ができる
発表の内容
   既存の画像の類似度計算の手法と提案手法について
   カテゴリによる特徴量表現
   類似度検索のためのハッシュ法
   実験
   まとめ
類似画像検索
       クエリ画像
                      類
               特
                      似
               徴
                      度
               抽
                      計
               出
                      算
       DB画像



   紹介する論文では類似度計算の部分に焦点をあてる
類似度計算
   2つの画像から得られる特徴ベクトルを������, ������ ∈ ������������ とすると
    2つの画像の類似度はナイーブには内積計算によって行
    える
   ������������������ ������, ������ = ������ ������ ������
   しかし
       かならずしもすべての特徴ベクトルの要素が類似性に効いて
        くるとは限らない
       特徴ベクトルの要素間の関係が無視されている
類似度計算 (Learning-to-rank アプローチ)
   現在の類似度計算のstate-of-the-artな方法として
    OASIS (Online Algorithm for Scalable Image Similarity)
    がある (Gal Checchik+, JMLR 2010)
   2つの画像の類似度を行列������を使って
   ������������������ ������, ������ = ������ ������ ������������ とあらわす
   行列������は画像������に対して画像������が画像������よりも類似してい
    るという教師データを使って
       ������������������ ������, ������ > ������������������ ������, ������ + 1
       となるように学習する
   類似しているという情報は主に画像にアノテーションされ
    ているカテゴリ情報を使う
類似度計算 (Semantic アプローチ)
   画像を一旦与えられたカテゴリ体系の下でカテゴライズ
    を行い、その上で類似度を計算する
   類似度行列は”馬”カテゴリと”ロバ”カテゴリの類似度
    が”馬”カテゴリと”キーボード”カテゴリの類似度よりも高
    いといった事前情報から構成する
   特徴量空間だけで考えているとvisual word 1とvisual
    word 2の類似度が0.4というような結果は機械学習的手
    法に頼らざる得なかったが、一度カテゴリに落とすことに
    より人間の事前知識を類似度に使うことができる
   紹介論文ではこのアプローチを提案している
Semantic情報を使った検索の例
       Semantic情報を使わない場合、クエリと意味的に無関係
       なものが上位にでることがある




                          Semantic情報を使った場合、
                          形状が類似してなくても意味的
                          に類似した画像がとれる




                          紹介論文Figure 1より
Semantic情報を使ってできるかもしれないこと
   与えられたテキストをSemanticなカテゴリにマッピングす
    ることにより、テキストを使った類似画像検索が可能にな
    る
夢は広がる




Corpus-Guided Sentence Generation of Natural Images,
EMNLP 2011より
発表の内容
   既存の画像の類似度計算の手法と提案手法について
   カテゴリによる特徴量表現
   類似度検索のためのハッシュ法
   実験
   まとめ
タクソノミー
   平たくいうとカテゴリ体系が階層構造をなしているもの
       ex: /Sport,atheltics/Skating/Roller, /Sport,atheltics/racing




                from http://www.image-net.org/
タクソノミー上のカテゴリの近さ
   カテゴリ������とカテゴリ������の近さを最小共通先祖(least common
    ancestor) ������(������, ������)によって決める
       すなわち������ ������, ������ = ������(������ ������, ������ )
   最小共通先祖とは������と������の共通の親で高さ最少のもの
       /Sport/Skating/Rollerと/Sport/racingでは/Sport
       /Sport/Skating/Rollerと/Sport/Skating/Iceでは/Sport/Skating
   ������の定義はいくつか考えられるが、実験ではタクソノミーの高さか
    ら決める方法を採用
     高さはその下にあるリーフノードからの最長路と定義する
     ������ ������ = 1 − ������(������)/������∗ (������∗ はrootノードの高さ, ILSVRCデータセット
      においては19)
     これはILSVRCの評価方法と同じである
           カテゴリはすべてリーフノードにあることが前提のよう
高さ 2




       高さ 1           高さ 0




高さ 0           高さ 0
画像のカテゴリによる特徴量表現
   いまカテゴリの数を������とする
   画像������が与えられたとき画像を������ ������ ������ = ������ ∈ ������������ と変換
    する
   ここで������������ は画像������がカテゴリ������に所属する確率を表す

                        /animal/bird/turkey 85%
                        /animal/mammal 45%
                        ...
                        /structure/foutain 3%
                        ...
カテゴリへの分類
   各カテゴリごとに1-vs-allな分類器をlinear SVM(論文の
    実験ではLIBLINEARを使っている)を使って構成する
   分類器の出力は確率を表すようにシグモイド関数を使っ
    て[0,1]に変換する (Platt, In Advances in Large Margin
    Classifiers, 2000)
   この処理は各カテゴリごとに容易に並列化可能
発表の内容
   既存の画像の類似度計算の手法と提案手法について
   カテゴリによる特徴量表現
   類似度検索のためのハッシュ法
   実験
   まとめ
類似度検索
   クエリ画像������に対して、DB画像中の画像������の中で類似度
    ������ ������ ������������が大きいものを取り出す必要がある
   ������が対角でない場合、通常の転置インデックスによる方
    法は非効率となる
       例えば������の1次元目の成分が非ゼロのとき、������の1次元目だけ
        ではなく������1������ が非ゼロな次元についても考慮する必要があるた
        め
   論文では������が特殊な条件を満たすときに使えるLSHベー
    スの方法を提案した
       ������の要素が非負かつ対角要素が相対的に大きい場合
       ������が前述の階層構造を考慮した類似度で構成されてる場合
Hashable
   以下の議論では������, ������が������ − 1次元単体ΔK−1 上にあること
    を仮定する
       ������ ∈ Δ������−1 ≝ ������ ∈ ������������ , ������ ������������ = 1, 0 ≤ ������������ ≤ 1
       なお後で ������ ������������ = 1の部分はなくすことができる
   行列������ ∈ ������������×������ がhashableであるとは (Definition 1.2)
   ∃������������ > 0, ∀������ > 0 に対してハッシュ関数の族 ������ が存在して、
    任意の������, ������ ∈ Δ������−1 に対して
   0 ≤ ������ ������1 ������; ������, ������ = ������2 ������; ������, ������ − ������������ ������ ������ ������ ������ ≤ ������
   であることをいう(������1 , ������2 は������からの独立なサンプル)
   実質的には������ ������1 ������ = ������2 ������ = ������������������(������, ������)
Hashableの性質
   線形性
       ������1 , ������2 がHashableであれば������1 + ������2 もHashable (Lemma 1.11)
       ������がHashableであれば������������ (������ > 0)もHashable (Lemma 1.10)
   すべての要素が1の行列はHashable (Lemma 1.6)
   ������がHashableのとき、Sのzero padded extensionである������
    もHashable (Lemma 1.9)
       zero padded extentionとはSの要素の行及び列の置換におけ
        る同一性を除いて順序を替えずに拡大後の要素を0で埋めた
        物 (Definition 1.7)
    ex:
                     ������   0 ������
           ������   ������
                   → 0    0 0
           ������   ������
                     ������   0 ������
������1 + ������2 がHashableであることの証明
   ������1 , ������2 がHashableであれば������ = ������1 + ������2 もHashable
                  1           1                  1 1
   今z =                  +           , ������������ =              とする
                  ������������1       ������������2              ������ ������
                                                       ������������

   ハッシュ関数������(������; ������, ������)を次のように構成する
       Sample ������ ∈ 1,2 ∼ ������������������������������(������)
                                       ������
       return (������, ������������ (������; ������������ , ))
                                       2
   実際
                                                2                           ������          2                    ������
       ������ ������ ������; ������, ������ = ������ ������; ������, ������    ≤ ������1 ������������1 ������ ������ ������1 ������ +            +   ������2 (������������2 ������ ������ ������2 ������ + )
                                                                            2                                2
                                                  1 ������                   2     2
                                                                    ������(������1 +������2 )
                                           =         ������ ������������   +
                                                 ������ 2                     2
                                                  1 ������
                                           ≤         ������ ������������   + ������
                                                 ������ 2
Sの対角成分が大きいとき(1/2)
   ������が対称行列かつ非負で������������������ ≥ ������≠������ ������������������ のとき������はHashable
    (Lemma 1.4)
   ������ × (������ + 1)行列Θの要素を以下のように定義する




   ここで������ = ������������ ⋅ ������で������������ は������������,������+1 ≥ 0となるように定める
Sの対角成分が大きいとき(2/2)
   ������ ≥ 1/������なるNを一つ選ぶ
   ハッシュ関数������(������; ������, ������)を次のように構成する
   Sample ������ ∈ 1, … , ������ ∼ ������������������������������(������)
   Sample ������ ∈ 1, … , ������ + 1 ∼ ������������������������������(������������ )
   If ������ ≤ ������ , return *������, ������+
   else pick ������ from ������, … , ������ + ������ , return *������+
   特にSが単位行列の場合は������������������������������(������)に従って
    ������ ∈ 1, … , ������ をサンプリングするだけでよい
������に階層性がある場合
   与えられたrooted-tree G=(V,E)に対して、リーフノード集
    合Ω������ のノードi,j間の類似度がそのLCAの関数
    ������������������ = ������(������������������ )となっており、������が
       ������ ������ ≥ 0
       ノードqがノードpの子供の場合������ ������ ≥ ������(������)
   を満たすような関数であればSはHashable
Generally hashable
   Hashableの定義で ������, ������が������ − 1次元単体上になく、
    ������ ∈ ������������ , 0 ≤ ������������ ≤ 1を満たすというように条件を緩めたと
    きGenerally hashableという (Definition 1.14)
   そして次が成り立つ
   ������がHashableであればGenerally hashable (Lemma 1.15)
証明に関して
   なおこれらの証明はすべてSupplementary Materialに
    のっている
   http://vision.stanford.edu/documents/DengBergFei-
    Fei_CVPR2011_supp.pdf
発表の内容
   既存の画像の類似度計算の手法と提案手法について
   カテゴリによる特徴量表現
   類似度検索のためのハッシュ法
   実験
   まとめ
実験データ
   Caltech256とImageNetのsubsetであるILSVRCを利用
       Caltech256は既存の類似度学習手法との比較のために用い
       ILSVRCは大規模なデータによる性能を見るために用いる
   またILSVRCに関しては公開されているSIFTベースの
    1000種類のVisual word codebookからthree level SPMに
    より21000次元の特徴量を作成
       この特徴量を使ってLIBLINEARで各カテゴリごとの識別器を
        作成する
   Caltech 256についてはOASISの論文で利用されている
    特徴量を利用
ベースライン手法
   SPM: 生の特徴量をそのまま利用
   Hard-Assign: クエリを単一のクラスにカテゴライズして、
    DB画像の内そのクラスの確率が高い順にソート
   Cosine-Nocal: 分類器の出力をそのまま使い、コサイン
    類似度を計算
   Cosine-Flat: Cosine-Nocalと同じだが、出力が[0,1]にお
    さまるように補正
   Cosine-Hie: 類似度行列に階層性を使ったものを利用す
    るがDB画像のノルムが1になるように規格化
   B-Flat: 類似度行列に対角行列を採用
実験結果
   ILSVRCデータセットにおけるprecision-rank
実験結果から読み取れること
1.   SPMの精度が低い-> カテゴリ情報を使うことが重要
2.   B-Flatの方がHard-Assignよりも良い->確率的表現が
     効いている
3.   Cosine-NoCalの精度が低い->分類器のスケールを合
     わせることが重要
4.   コサイン類似度を使った結果はあまり良くない
5.   B-HieとB-Flatの結果を比較->階層構造を使うことが
     重要
他手法との比較
   OASISよりも提案手法の方が高い性能になっている
未知のカテゴリが存在する場合
   ILSVRCの1000カテゴリのうち、100カテゴリを選択
       それのみで識別器を構成した場合(seen in training)
       残り900カテゴリのみで識別器を構成(unseen in training)
       評価は100カテゴリのみで行う
       unseenでもSPMよりよかったといってるけどtop-10ぐらいが一番重要で
        は?
Indexing efficiency
   [Charikar, STOC, 2003]のコサイン類似度が近いものを求め
    るRandom Hyperplane LSHと比較
       比較を公正にするためflat retrievalなものだけ考える
       論文中では階層性を使ったハッシュ法については実験してない
       そもそもB-FlatとCosine-Flatの性能が違うから比較がfairじゃない?
                                     linear scan(B-Flat)




                                    linear scan(Cosine-Flat)
発表の内容
   既存の画像の類似度計算の手法と提案手法について
   カテゴリによる特徴量表現
   類似度検索のためのハッシュ法
   実験
   まとめ
まとめ
   類似画像検索に事前知識である階層性を使うことにより
    精度を高めることができた
   また階層性を使った類似検索においてハッシングを使っ
    た高速な検索方法について述べた
感想
   retrievalの評価にカテゴリ情報を使っているので、カテゴリ
    に一旦落とすと性能が高くなるというのは当然な気がする
       人手による評価などが必要な気がする
   ソーシャルタギングと合わせて何かできそう
   商用的なことを考えると大量の人手でのタグ付けでもコスト
    的に釣り合うかも
       cf: A Semantic Approach to Contextual Advertising (SIGIR 2007)
       表示ページから類似した広告を検索
       ページと広告の両方を商業用にメンテナンスされている6000カテ
        ゴリ(各カテゴリには平均で100個のクエリが登録されている)のタ
        クソノミーにマッピング

Más contenido relacionado

La actualidad más candente

東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 ClusteringHiroshi Ono
 
Granger因果による 時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による 時系列データの因果推定(因果フェス2015)Takashi J OZAKI
 
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜Takeshi Arabiki
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法Satoshi Hara
 
2値分類・多クラス分類
2値分類・多クラス分類2値分類・多クラス分類
2値分類・多クラス分類t dev
 
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1hirokazutanaka
 
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~んTokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~んsleepy_yoshi
 
正則化つき線形モデル(「入門機械学習第6章」より)
正則化つき線形モデル(「入門機械学習第6章」より)正則化つき線形モデル(「入門機械学習第6章」より)
正則化つき線形モデル(「入門機械学習第6章」より)Eric Sartre
 
東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2hirokazutanaka
 
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationDeep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationtakutori
 
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1hirokazutanaka
 
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2hirokazutanaka
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011Preferred Networks
 
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical SearchWSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Searchsleepy_yoshi
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-Tomoshige Nakamura
 

La actualidad más candente (20)

東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering
 
Granger因果による 時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による 時系列データの因果推定(因果フェス2015)
 
Rで学ぶロバスト推定
Rで学ぶロバスト推定Rで学ぶロバスト推定
Rで学ぶロバスト推定
 
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
 
外れ値
外れ値外れ値
外れ値
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
Tsulide
TsulideTsulide
Tsulide
 
2値分類・多クラス分類
2値分類・多クラス分類2値分類・多クラス分類
2値分類・多クラス分類
 
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
 
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~んTokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
 
正則化つき線形モデル(「入門機械学習第6章」より)
正則化つき線形モデル(「入門機械学習第6章」より)正則化つき線形モデル(「入門機械学習第6章」より)
正則化つき線形モデル(「入門機械学習第6章」より)
 
東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2
 
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationDeep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___information
 
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
 
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
 
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical SearchWSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
 
Python opt
Python optPython opt
Python opt
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-
 
20111107 cvim(shirasy)
20111107 cvim(shirasy)20111107 cvim(shirasy)
20111107 cvim(shirasy)
 

Similar a Cvpr2011 reading-tsubosaka

Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suharasleepy_yoshi
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suharasleepy_yoshi
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1hirokazutanaka
 
Equality in Scala (ScalaMatsuri 2020)
Equality in Scala (ScalaMatsuri 2020)Equality in Scala (ScalaMatsuri 2020)
Equality in Scala (ScalaMatsuri 2020)Eugene Yokota
 
Algorithm 速いアルゴリズムを書くための基礎
Algorithm 速いアルゴリズムを書くための基礎Algorithm 速いアルゴリズムを書くための基礎
Algorithm 速いアルゴリズムを書くための基礎Kenji Otsuka
 
Chapter 6: Computing on the language (R Language Definition)
Chapter 6: Computing on the language (R Language Definition)Chapter 6: Computing on the language (R Language Definition)
Chapter 6: Computing on the language (R Language Definition)Nagi Teramo
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度Seiichi Uchida
 
【Topotal輪読会】JavaScript で学ぶ関数型プログラミング 1 章
【Topotal輪読会】JavaScript で学ぶ関数型プログラミング 1 章【Topotal輪読会】JavaScript で学ぶ関数型プログラミング 1 章
【Topotal輪読会】JavaScript で学ぶ関数型プログラミング 1 章Narimichi Takamura
 
Deep Learning を実装する
Deep Learning を実装するDeep Learning を実装する
Deep Learning を実装するShuhei Iitsuka
 
Scala の関数型プログラミングを支える技術
Scala の関数型プログラミングを支える技術Scala の関数型プログラミングを支える技術
Scala の関数型プログラミングを支える技術Naoki Aoyama
 
Hive/Pigを使ったKDD'12 track2の広告クリック率予測
Hive/Pigを使ったKDD'12 track2の広告クリック率予測Hive/Pigを使ったKDD'12 track2の広告クリック率予測
Hive/Pigを使ったKDD'12 track2の広告クリック率予測Makoto Yui
 
Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2KazuhiroSato8
 
オブジェクト指向入門5
オブジェクト指向入門5オブジェクト指向入門5
オブジェクト指向入門5Kenta Hattori
 
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜Tomoki Yoshida
 
ji-3. 条件分岐と場合分け
ji-3. 条件分岐と場合分けji-3. 条件分岐と場合分け
ji-3. 条件分岐と場合分けkunihikokaneko1
 
SIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to RankSIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to Ranksleepy_yoshi
 

Similar a Cvpr2011 reading-tsubosaka (20)

Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
Equality in Scala (ScalaMatsuri 2020)
Equality in Scala (ScalaMatsuri 2020)Equality in Scala (ScalaMatsuri 2020)
Equality in Scala (ScalaMatsuri 2020)
 
Thinking in Cats
Thinking in CatsThinking in Cats
Thinking in Cats
 
Algorithm 速いアルゴリズムを書くための基礎
Algorithm 速いアルゴリズムを書くための基礎Algorithm 速いアルゴリズムを書くための基礎
Algorithm 速いアルゴリズムを書くための基礎
 
Chapter 6: Computing on the language (R Language Definition)
Chapter 6: Computing on the language (R Language Definition)Chapter 6: Computing on the language (R Language Definition)
Chapter 6: Computing on the language (R Language Definition)
 
NLPforml5
NLPforml5NLPforml5
NLPforml5
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
 
【Topotal輪読会】JavaScript で学ぶ関数型プログラミング 1 章
【Topotal輪読会】JavaScript で学ぶ関数型プログラミング 1 章【Topotal輪読会】JavaScript で学ぶ関数型プログラミング 1 章
【Topotal輪読会】JavaScript で学ぶ関数型プログラミング 1 章
 
Deep Learning を実装する
Deep Learning を実装するDeep Learning を実装する
Deep Learning を実装する
 
Scala の関数型プログラミングを支える技術
Scala の関数型プログラミングを支える技術Scala の関数型プログラミングを支える技術
Scala の関数型プログラミングを支える技術
 
Hive/Pigを使ったKDD'12 track2の広告クリック率予測
Hive/Pigを使ったKDD'12 track2の広告クリック率予測Hive/Pigを使ったKDD'12 track2の広告クリック率予測
Hive/Pigを使ったKDD'12 track2の広告クリック率予測
 
Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2
 
Haskell
HaskellHaskell
Haskell
 
オブジェクト指向入門5
オブジェクト指向入門5オブジェクト指向入門5
オブジェクト指向入門5
 
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
 
ji-3. 条件分岐と場合分け
ji-3. 条件分岐と場合分けji-3. 条件分岐と場合分け
ji-3. 条件分岐と場合分け
 
SIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to RankSIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to Rank
 
たのしい関数型
たのしい関数型たのしい関数型
たのしい関数型
 

Más de 正志 坪坂

KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossingKDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing正志 坪坂
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor modelWSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model正志 坪坂
 
Deeplearning勉強会20160220
Deeplearning勉強会20160220Deeplearning勉強会20160220
Deeplearning勉強会20160220正志 坪坂
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回正志 坪坂
 
Tokyowebmining ctr-predict
Tokyowebmining ctr-predictTokyowebmining ctr-predict
Tokyowebmining ctr-predict正志 坪坂
 
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計正志 坪坂
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining正志 坪坂
 
Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit正志 坪坂
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング正志 坪坂
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)正志 坪坂
 

Más de 正志 坪坂 (20)

Recsys2018 unbiased
Recsys2018 unbiasedRecsys2018 unbiased
Recsys2018 unbiased
 
WSDM2018Study
WSDM2018StudyWSDM2018Study
WSDM2018Study
 
Recsys2016勉強会
Recsys2016勉強会Recsys2016勉強会
Recsys2016勉強会
 
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossingKDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor modelWSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
 
Deeplearning勉強会20160220
Deeplearning勉強会20160220Deeplearning勉強会20160220
Deeplearning勉強会20160220
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
 
Recsys2015
Recsys2015Recsys2015
Recsys2015
 
KDD 2015読み会
KDD 2015読み会KDD 2015読み会
KDD 2015読み会
 
Recsys2014 recruit
Recsys2014 recruitRecsys2014 recruit
Recsys2014 recruit
 
EMNLP2014_reading
EMNLP2014_readingEMNLP2014_reading
EMNLP2014_reading
 
Tokyowebmining ctr-predict
Tokyowebmining ctr-predictTokyowebmining ctr-predict
Tokyowebmining ctr-predict
 
KDD2014_study
KDD2014_study KDD2014_study
KDD2014_study
 
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
 
Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
 
Tokyowebmining2012
Tokyowebmining2012Tokyowebmining2012
Tokyowebmining2012
 

Cvpr2011 reading-tsubosaka

  • 2. 紹介する論文  Hierarchical Semantic Indexing for Large Scale Image Retrieval  Jia Deng, Alexander C. Berg and Li Fei-Fei  ImageNet (http://www.image-net.org/) プロジェクトのメンバ  論文の概要  類似画像検索において、直接画像の類似度を計算するので はなく、一旦カテゴリに変換することにより精度を高くすること ができる
  • 3. 発表の内容  既存の画像の類似度計算の手法と提案手法について  カテゴリによる特徴量表現  類似度検索のためのハッシュ法  実験  まとめ
  • 4. 類似画像検索 クエリ画像 類 特 似 徴 度 抽 計 出 算 DB画像  紹介する論文では類似度計算の部分に焦点をあてる
  • 5. 類似度計算  2つの画像から得られる特徴ベクトルを������, ������ ∈ ������������ とすると 2つの画像の類似度はナイーブには内積計算によって行 える  ������������������ ������, ������ = ������ ������ ������  しかし  かならずしもすべての特徴ベクトルの要素が類似性に効いて くるとは限らない  特徴ベクトルの要素間の関係が無視されている
  • 6. 類似度計算 (Learning-to-rank アプローチ)  現在の類似度計算のstate-of-the-artな方法として OASIS (Online Algorithm for Scalable Image Similarity) がある (Gal Checchik+, JMLR 2010)  2つの画像の類似度を行列������を使って  ������������������ ������, ������ = ������ ������ ������������ とあらわす  行列������は画像������に対して画像������が画像������よりも類似してい るという教師データを使って  ������������������ ������, ������ > ������������������ ������, ������ + 1  となるように学習する  類似しているという情報は主に画像にアノテーションされ ているカテゴリ情報を使う
  • 7. 類似度計算 (Semantic アプローチ)  画像を一旦与えられたカテゴリ体系の下でカテゴライズ を行い、その上で類似度を計算する  類似度行列は”馬”カテゴリと”ロバ”カテゴリの類似度 が”馬”カテゴリと”キーボード”カテゴリの類似度よりも高 いといった事前情報から構成する  特徴量空間だけで考えているとvisual word 1とvisual word 2の類似度が0.4というような結果は機械学習的手 法に頼らざる得なかったが、一度カテゴリに落とすことに より人間の事前知識を類似度に使うことができる  紹介論文ではこのアプローチを提案している
  • 8. Semantic情報を使った検索の例 Semantic情報を使わない場合、クエリと意味的に無関係 なものが上位にでることがある Semantic情報を使った場合、 形状が類似してなくても意味的 に類似した画像がとれる 紹介論文Figure 1より
  • 9. Semantic情報を使ってできるかもしれないこと  与えられたテキストをSemanticなカテゴリにマッピングす ることにより、テキストを使った類似画像検索が可能にな る
  • 10. 夢は広がる Corpus-Guided Sentence Generation of Natural Images, EMNLP 2011より
  • 11. 発表の内容  既存の画像の類似度計算の手法と提案手法について  カテゴリによる特徴量表現  類似度検索のためのハッシュ法  実験  まとめ
  • 12. タクソノミー  平たくいうとカテゴリ体系が階層構造をなしているもの  ex: /Sport,atheltics/Skating/Roller, /Sport,atheltics/racing from http://www.image-net.org/
  • 13. タクソノミー上のカテゴリの近さ  カテゴリ������とカテゴリ������の近さを最小共通先祖(least common ancestor) ������(������, ������)によって決める  すなわち������ ������, ������ = ������(������ ������, ������ )  最小共通先祖とは������と������の共通の親で高さ最少のもの  /Sport/Skating/Rollerと/Sport/racingでは/Sport  /Sport/Skating/Rollerと/Sport/Skating/Iceでは/Sport/Skating  ������の定義はいくつか考えられるが、実験ではタクソノミーの高さか ら決める方法を採用  高さはその下にあるリーフノードからの最長路と定義する  ������ ������ = 1 − ������(������)/������∗ (������∗ はrootノードの高さ, ILSVRCデータセット においては19)  これはILSVRCの評価方法と同じである  カテゴリはすべてリーフノードにあることが前提のよう
  • 14. 高さ 2 高さ 1 高さ 0 高さ 0 高さ 0
  • 15. 画像のカテゴリによる特徴量表現  いまカテゴリの数を������とする  画像������が与えられたとき画像を������ ������ ������ = ������ ∈ ������������ と変換 する  ここで������������ は画像������がカテゴリ������に所属する確率を表す /animal/bird/turkey 85% /animal/mammal 45% ... /structure/foutain 3% ...
  • 16. カテゴリへの分類  各カテゴリごとに1-vs-allな分類器をlinear SVM(論文の 実験ではLIBLINEARを使っている)を使って構成する  分類器の出力は確率を表すようにシグモイド関数を使っ て[0,1]に変換する (Platt, In Advances in Large Margin Classifiers, 2000)  この処理は各カテゴリごとに容易に並列化可能
  • 17. 発表の内容  既存の画像の類似度計算の手法と提案手法について  カテゴリによる特徴量表現  類似度検索のためのハッシュ法  実験  まとめ
  • 18. 類似度検索  クエリ画像������に対して、DB画像中の画像������の中で類似度 ������ ������ ������������が大きいものを取り出す必要がある  ������が対角でない場合、通常の転置インデックスによる方 法は非効率となる  例えば������の1次元目の成分が非ゼロのとき、������の1次元目だけ ではなく������1������ が非ゼロな次元についても考慮する必要があるた め  論文では������が特殊な条件を満たすときに使えるLSHベー スの方法を提案した  ������の要素が非負かつ対角要素が相対的に大きい場合  ������が前述の階層構造を考慮した類似度で構成されてる場合
  • 19. Hashable  以下の議論では������, ������が������ − 1次元単体ΔK−1 上にあること を仮定する  ������ ∈ Δ������−1 ≝ ������ ∈ ������������ , ������ ������������ = 1, 0 ≤ ������������ ≤ 1  なお後で ������ ������������ = 1の部分はなくすことができる  行列������ ∈ ������������×������ がhashableであるとは (Definition 1.2)  ∃������������ > 0, ∀������ > 0 に対してハッシュ関数の族 ������ が存在して、 任意の������, ������ ∈ Δ������−1 に対して  0 ≤ ������ ������1 ������; ������, ������ = ������2 ������; ������, ������ − ������������ ������ ������ ������ ������ ≤ ������  であることをいう(������1 , ������2 は������からの独立なサンプル)  実質的には������ ������1 ������ = ������2 ������ = ������������������(������, ������)
  • 20. Hashableの性質  線形性  ������1 , ������2 がHashableであれば������1 + ������2 もHashable (Lemma 1.11)  ������がHashableであれば������������ (������ > 0)もHashable (Lemma 1.10)  すべての要素が1の行列はHashable (Lemma 1.6)  ������がHashableのとき、Sのzero padded extensionである������ もHashable (Lemma 1.9)  zero padded extentionとはSの要素の行及び列の置換におけ る同一性を除いて順序を替えずに拡大後の要素を0で埋めた 物 (Definition 1.7) ex: ������ 0 ������ ������ ������ → 0 0 0 ������ ������ ������ 0 ������
  • 21. ������1 + ������2 がHashableであることの証明  ������1 , ������2 がHashableであれば������ = ������1 + ������2 もHashable 1 1 1 1  今z = + , ������������ = とする ������������1 ������������2 ������ ������ ������������  ハッシュ関数������(������; ������, ������)を次のように構成する  Sample ������ ∈ 1,2 ∼ ������������������������������(������) ������  return (������, ������������ (������; ������������ , )) 2  実際 2 ������ 2 ������  ������ ������ ������; ������, ������ = ������ ������; ������, ������ ≤ ������1 ������������1 ������ ������ ������1 ������ + + ������2 (������������2 ������ ������ ������2 ������ + ) 2 2 1 ������ 2 2 ������(������1 +������2 )  = ������ ������������ + ������ 2 2 1 ������  ≤ ������ ������������ + ������ ������ 2
  • 22. Sの対角成分が大きいとき(1/2)  ������が対称行列かつ非負で������������������ ≥ ������≠������ ������������������ のとき������はHashable (Lemma 1.4)  ������ × (������ + 1)行列Θの要素を以下のように定義する  ここで������ = ������������ ⋅ ������で������������ は������������,������+1 ≥ 0となるように定める
  • 23. Sの対角成分が大きいとき(2/2)  ������ ≥ 1/������なるNを一つ選ぶ  ハッシュ関数������(������; ������, ������)を次のように構成する  Sample ������ ∈ 1, … , ������ ∼ ������������������������������(������)  Sample ������ ∈ 1, … , ������ + 1 ∼ ������������������������������(������������ )  If ������ ≤ ������ , return *������, ������+  else pick ������ from ������, … , ������ + ������ , return *������+  特にSが単位行列の場合は������������������������������(������)に従って ������ ∈ 1, … , ������ をサンプリングするだけでよい
  • 24. ������に階層性がある場合  与えられたrooted-tree G=(V,E)に対して、リーフノード集 合Ω������ のノードi,j間の類似度がそのLCAの関数 ������������������ = ������(������������������ )となっており、������が  ������ ������ ≥ 0  ノードqがノードpの子供の場合������ ������ ≥ ������(������)  を満たすような関数であればSはHashable
  • 25. Generally hashable  Hashableの定義で ������, ������が������ − 1次元単体上になく、 ������ ∈ ������������ , 0 ≤ ������������ ≤ 1を満たすというように条件を緩めたと きGenerally hashableという (Definition 1.14)  そして次が成り立つ  ������がHashableであればGenerally hashable (Lemma 1.15)
  • 26. 証明に関して  なおこれらの証明はすべてSupplementary Materialに のっている  http://vision.stanford.edu/documents/DengBergFei- Fei_CVPR2011_supp.pdf
  • 27. 発表の内容  既存の画像の類似度計算の手法と提案手法について  カテゴリによる特徴量表現  類似度検索のためのハッシュ法  実験  まとめ
  • 28. 実験データ  Caltech256とImageNetのsubsetであるILSVRCを利用  Caltech256は既存の類似度学習手法との比較のために用い  ILSVRCは大規模なデータによる性能を見るために用いる  またILSVRCに関しては公開されているSIFTベースの 1000種類のVisual word codebookからthree level SPMに より21000次元の特徴量を作成  この特徴量を使ってLIBLINEARで各カテゴリごとの識別器を 作成する  Caltech 256についてはOASISの論文で利用されている 特徴量を利用
  • 29. ベースライン手法  SPM: 生の特徴量をそのまま利用  Hard-Assign: クエリを単一のクラスにカテゴライズして、 DB画像の内そのクラスの確率が高い順にソート  Cosine-Nocal: 分類器の出力をそのまま使い、コサイン 類似度を計算  Cosine-Flat: Cosine-Nocalと同じだが、出力が[0,1]にお さまるように補正  Cosine-Hie: 類似度行列に階層性を使ったものを利用す るがDB画像のノルムが1になるように規格化  B-Flat: 類似度行列に対角行列を採用
  • 30. 実験結果  ILSVRCデータセットにおけるprecision-rank
  • 31. 実験結果から読み取れること 1. SPMの精度が低い-> カテゴリ情報を使うことが重要 2. B-Flatの方がHard-Assignよりも良い->確率的表現が 効いている 3. Cosine-NoCalの精度が低い->分類器のスケールを合 わせることが重要 4. コサイン類似度を使った結果はあまり良くない 5. B-HieとB-Flatの結果を比較->階層構造を使うことが 重要
  • 32. 他手法との比較  OASISよりも提案手法の方が高い性能になっている
  • 33. 未知のカテゴリが存在する場合  ILSVRCの1000カテゴリのうち、100カテゴリを選択  それのみで識別器を構成した場合(seen in training)  残り900カテゴリのみで識別器を構成(unseen in training)  評価は100カテゴリのみで行う  unseenでもSPMよりよかったといってるけどtop-10ぐらいが一番重要で は?
  • 34. Indexing efficiency  [Charikar, STOC, 2003]のコサイン類似度が近いものを求め るRandom Hyperplane LSHと比較  比較を公正にするためflat retrievalなものだけ考える  論文中では階層性を使ったハッシュ法については実験してない  そもそもB-FlatとCosine-Flatの性能が違うから比較がfairじゃない? linear scan(B-Flat) linear scan(Cosine-Flat)
  • 35. 発表の内容  既存の画像の類似度計算の手法と提案手法について  カテゴリによる特徴量表現  類似度検索のためのハッシュ法  実験  まとめ
  • 36. まとめ  類似画像検索に事前知識である階層性を使うことにより 精度を高めることができた  また階層性を使った類似検索においてハッシングを使っ た高速な検索方法について述べた
  • 37. 感想  retrievalの評価にカテゴリ情報を使っているので、カテゴリ に一旦落とすと性能が高くなるというのは当然な気がする  人手による評価などが必要な気がする  ソーシャルタギングと合わせて何かできそう  商用的なことを考えると大量の人手でのタグ付けでもコスト 的に釣り合うかも  cf: A Semantic Approach to Contextual Advertising (SIGIR 2007)  表示ページから類似した広告を検索  ページと広告の両方を商業用にメンテナンスされている6000カテ ゴリ(各カテゴリには平均で100個のクエリが登録されている)のタ クソノミーにマッピング