SlideShare una empresa de Scribd logo
1 de 26
Descargar para leer sin conexión
[改]

      [Zhu, Chen and Xing ICML2011]
Infinite SVM: a Dirichlet Process Mixture of
       Large-Margin Kernel Machines

               2011/07/16-19
      中谷秀洋 @ サイボウズ・ラボ株式会社
            @shuyo / id:n_shuyo
References
• [Blei & Jordan 06] Variational inference
  for Dirichlet process mixtures
• [Jaakkola, Meila & Jebara NIPS99]
  Maximum entropy discrimination
• [Kurihara, Welling & Teh IJCAI07]
  Collapsed variational Dirichlet process
  mixture models
• [Zhu & Xing JMLR09] Maximum entropy
  discrimination Markov networks
混合SVM
• データ空間は多様体をなす
 – ローカルにはシンプルな構造
• クラスタに分類、コンポーネントごとにSVM
 – シンプルな素性で済む
 – 一度に扱うデータ数が減る→計算量が減る
Infinite SVM (iSVM)
• 多クラス SVM を DPM で混合化
 – DPM=Dirichlet Process Mixture
   • データ点をクラスタリング
   • クラスタ数を自動決定
 – VBと「リスク関数+相対エントロピーの最小
   化」を交互に行うことで推論
iSVM のモデル (1)
• Xd∈RM: データ点, Yd∈{1,...,L}: ラベル
• Zd∈{1,2,...}: Xdのコンポーネント
 – Xdにどの識別器を使うか
iSVM のモデル (2)
• V, Z は Dirichlet Process に従う
                                 V~GEM(α)
                                 ηは後述


                                 点dが属する
                                 コンポーネント
iSVM のモデル (3)
• X は指数型分布族、γはその共役事前分布
iSVM のモデル (4)
                               Y には分布を
• ������ ∈ 1, ⋯ , ������ を使って識別関数を定義     入れない



  – f(y, x) : 素性ベクトル
• ηi:i番目の識別器のパラメータ
  – ηi~N(μ0,Σ0), β={μ0,Σ0}
予測ルール
• 識別関数は F を事後分布で周辺化
 – z, η の事後分布を q(z, η) とすると、入力 x
   に対する予測値 y* は
推論
• 識別関数と確率モデルが混じっているの
  で、単純な推論は出来ない
 – 変分ベイズ(VB)
 – リスク関数+相対エントロピーの最小化
• を交互に行うことで推論を行う
 – 収束は……保証されなさそうだなあ
推論 / VBパート (1)
                                                     [Blei & Jordan 06]

• 独立性を仮定して事後分布を推定
 – ������ ������, ������, ������, ������ =
      ������
      ������=1  ������ ������������ ������ ������ ������������
                       ������=1
                                 ������
                                 ������=1 ������   ������������   ������−1
                                                  ������=1 ������   ������������
 – DPMのトピック数をT(=20)に制限
• vとγは通常のVBでそのまま推論できる
• zとηはできない
 – Yに分布が入っていないから
推論 / VBパート (2)
• 例:q(v)の推論
                     1          ������                                  ������
 – ������ ������������ = Multi ������������ , ⋯ , ������������ , ������ ������ =                   ������ ������������ とすると、

 – ln ������(������) = ������������    ������,������,������   ������������ ������ ������, ������, ������, ������, ������
   = ln ������0 ������ +         ������ ������������������ [ln ������(������������ |������)]    + ������������������������������.
                                                           ������
   ln ������(������������ ) =   ln ������0 ������ + ������ ������ ln ������������ +            ������=������+1 ������
                                                                      ������   ln 1 − ������������ +������������������������������
 – ������0 ������������ = Beta 1, ������ とおくと、
                                                ������
     • ������ ������������ = Beta(1 + ������ ������ , ������ +                    ������
                                                ������=������+1 ������ )

• q(γ) も同様に計算できる。
(参考)Collapsed variational DPM
                          [Kurihara, Welling & Teh IJCAI07]
• DPMをVBで解くには、トピック数をTで切り詰める
  – 単純に ������ ������������ = 1 = 1、それ以降の確率は強制的に0
• Collapsed VB DPM [Kurihara+ 07]はvを積分消去す
  ることで、切り詰めによる誤差を抑えている?
推論 / リスク最小化パート (1)
                                       たぶんq(z)の
• q(z)とq(η)を推定する                        間違い




                  = ������������(������(������, ������, ������)||������ ������, ������, ������ ������ )から
                  ������, ������の寄与分を除いたもの




          = KL(q(η)||p0(η|β)) + KL(q(z,v)||p(z,v|α))
推論 / リスク最小化パート (2)


                = 0 (if y is correct)
                                         [Zhu & Xing 09]
                = 2 (otherwise)
      F(y,xd)
                       margin
                           ∆
                       ≥ ������������ (������) for all y


                yd
推論 / リスク最小化パート (3)
• これを解くと、


 – p0 ������ = ������ ������0 , Σ0 , ������ ������������ = ������ ������������ , Σ0 とすると


                     1          ������
 – ������ ������������ = Multi ������������ , ⋯ , ������������ についても解くと
Experiments (1)
• 人工データ




 – MNL = Multinominal Logit
 – dpMNL = DP mixture of MNL (Shahbaba+
   JMLR09)
Experiments (2)
• images of 13 type animals (SIFT特徴量)




                                            生SVMと
                                          あまり差がない

  – MMH = multiview method (Chen+ 2010)
  – kmeans+SVM = kmeans でクラスタリング+各クラス
    タにて linear SVM
     • 最高速&そこそこ精度がいいから、これでいいんじゃ(爆
[参考] Maximum Entropy
    Discrimination (MED) [Jaakkola+ 99]
• 識別関数 + large margin に確率モデルを入
  れるための一般的な枠組み
 – 確率的手法と組み合わせるなどの拡張性
 – 事前分布を入れられる
   • アプリケーションに合わせた調整やロバスト性

• iSVM は MED の extension” とあるが……
MED (1)
• 識別関数を以下のように定義


 – Θ={θ1,θ-1,b} : パラメータ
• Θに分布を入れて、L を周辺化したものを
  decision rule とする
MED (2)
• マージン ������


 – このままでは誤判定が許されない
• 各点ごとにマージン������ = {������������ }を考える
• ������������ に誤判定を低確率で許す分布を入れる
 – ������0 (������������ ) = ������������ −������   1−������������     低い確率で
                                       誤判定を許す
                                                    ������������
• decision rule をさらに周辺化                    0    1
MED (3)
• Minimum Relative Entropy(MRE)
  – 以下の制約の下、KL(P||P0) を最小化するΘ
    を見つける
MED (4)
• 定理:MRE の解は次の形になる


 – ただし λ はラグランジュ乗数であり、
   J(λ)=-log Z(λ) の unique maximum
MED (5)
• MED は SVM を special case として含む
 – 識別関数
                             1
   • たとえば ������ ������ ������������ ∝ exp( ������( ������ ������ ������ − ������))とおく
                             2

 – θ~N(0,1), b は無情報事前分布を入れる
 – このとき J(λ) は次のようになる
MED vs iSVM
• MED は……
  – 一般的な枠組み。SVM は special case
  – 相対エントロピーを最小化
  – マージンに分布を入れる
• iSVM は……
  – SVMの混合化(ノンパラベイズ)
  – VB と「リスク関数+相対エントロピーの最小化」を交互
    に
  – ソフトマージンはslack変数で
• iSVM は MED の拡張ではないと思う……
まとめというか感想
• コンポーネントに分割するのは筋が良い気がする
 – データは多様体をなす(ローカルにはシンプルな構造)
 – 分割により SVM の計算量も大幅に減らせる
• でも生SVMとあまり精度が変わらない
 – 近似のせい?   データのせい?   コンポーネント数?
• どうしていきなりノンパラベイズ?
 – 有限混合でもいいんでは?
 – ディリクレ分布で ARD 効かせるとか
   • VB 的近似も避けられるかもしれない

Más contenido relacionado

La actualidad más candente

20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1Kenta Oono
 
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会Kenyu Uehara
 
クラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシンクラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシンHiroshi Nakagawa
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半Ohsawa Goodfellow
 
誤差逆伝播法の計算(ディープラーニング)
誤差逆伝播法の計算(ディープラーニング)誤差逆伝播法の計算(ディープラーニング)
誤差逆伝播法の計算(ディープラーニング)t dev
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)Yukara Ikemiya
 
コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)Masaya Kaneko
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知Chika Inoshita
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰sleipnir002
 
はじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシンはじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシンNobuyukiTakayasu
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)Yasunori Ozaki
 
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~んTokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~んsleepy_yoshi
 
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう 「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう Junpei Tsuji
 

La actualidad más candente (18)

20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1
 
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
 
PRML 第14章
PRML 第14章PRML 第14章
PRML 第14章
 
クラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシンクラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシン
 
Prml 4.3.5
Prml 4.3.5Prml 4.3.5
Prml 4.3.5
 
PRML chapter7
PRML chapter7PRML chapter7
PRML chapter7
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
誤差逆伝播法の計算(ディープラーニング)
誤差逆伝播法の計算(ディープラーニング)誤差逆伝播法の計算(ディープラーニング)
誤差逆伝播法の計算(ディープラーニング)
 
Python opt
Python optPython opt
Python opt
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)
 
コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
 
はじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシンはじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシン
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~んTokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
 
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう 「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
 

Similar a Infinite SVM [改] - ICML 2011 読み会

MMDs 12.3 SVM
MMDs 12.3 SVMMMDs 12.3 SVM
MMDs 12.3 SVMmfumi
 
Deep Learning を実装する
Deep Learning を実装するDeep Learning を実装する
Deep Learning を実装するShuhei Iitsuka
 
お披露目会05/2010
お披露目会05/2010お披露目会05/2010
お披露目会05/2010JAVA DM
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習Masahiro Suzuki
 
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜Tomoki Yoshida
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knnsesejun
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage正志 坪坂
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011Preferred Networks
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knnsesejun
 
K040 確率分布とchi2分布
K040 確率分布とchi2分布K040 確率分布とchi2分布
K040 確率分布とchi2分布t2tarumi
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suharasleepy_yoshi
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suharasleepy_yoshi
 
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationDeep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationtakutori
 
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM) コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM) Takahiro (Poly) Horikawa
 
Rでマンデルブロ集合
Rでマンデルブロ集合Rでマンデルブロ集合
Rでマンデルブロ集合Yoshiteru Kamiyama
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1hirokazutanaka
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
 

Similar a Infinite SVM [改] - ICML 2011 読み会 (20)

MMDs 12.3 SVM
MMDs 12.3 SVMMMDs 12.3 SVM
MMDs 12.3 SVM
 
Deep Learning を実装する
Deep Learning を実装するDeep Learning を実装する
Deep Learning を実装する
 
お披露目会05/2010
お披露目会05/2010お披露目会05/2010
お披露目会05/2010
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knn
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
 
K040 確率分布とchi2分布
K040 確率分布とchi2分布K040 確率分布とchi2分布
K040 確率分布とchi2分布
 
Cv 14th
Cv 14thCv 14th
Cv 14th
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
 
NLPforml5
NLPforml5NLPforml5
NLPforml5
 
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationDeep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___information
 
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM) コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
 
Rでマンデルブロ集合
Rでマンデルブロ集合Rでマンデルブロ集合
Rでマンデルブロ集合
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 
PRML14.3 Boosting
PRML14.3 BoostingPRML14.3 Boosting
PRML14.3 Boosting
 

Más de Shuyo Nakatani

画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15Shuyo Nakatani
 
Generative adversarial networks
Generative adversarial networksGenerative adversarial networks
Generative adversarial networksShuyo Nakatani
 
無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)Shuyo Nakatani
 
Memory Networks (End-to-End Memory Networks の Chainer 実装)
Memory Networks (End-to-End Memory Networks の Chainer 実装)Memory Networks (End-to-End Memory Networks の Chainer 実装)
Memory Networks (End-to-End Memory Networks の Chainer 実装)Shuyo Nakatani
 
人工知能と機械学習の違いって?
人工知能と機械学習の違いって?人工知能と機械学習の違いって?
人工知能と機械学習の違いって?Shuyo Nakatani
 
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoRRとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoRShuyo Nakatani
 
ドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoRドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoRShuyo Nakatani
 
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...Shuyo Nakatani
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章Shuyo Nakatani
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章Shuyo Nakatani
 
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyoShuyo Nakatani
 
Zipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLPZipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLPShuyo Nakatani
 
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...Shuyo Nakatani
 
ソーシャルメディアの多言語判定 #SoC2014
ソーシャルメディアの多言語判定 #SoC2014ソーシャルメディアの多言語判定 #SoC2014
ソーシャルメディアの多言語判定 #SoC2014Shuyo Nakatani
 
猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測Shuyo Nakatani
 
アラビア語とペルシャ語の見分け方 #DSIRNLP 5
アラビア語とペルシャ語の見分け方 #DSIRNLP 5アラビア語とペルシャ語の見分け方 #DSIRNLP 5
アラビア語とペルシャ語の見分け方 #DSIRNLP 5Shuyo Nakatani
 
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013Shuyo Nakatani
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013Shuyo Nakatani
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門Shuyo Nakatani
 

Más de Shuyo Nakatani (20)

画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
 
Generative adversarial networks
Generative adversarial networksGenerative adversarial networks
Generative adversarial networks
 
無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)
 
Memory Networks (End-to-End Memory Networks の Chainer 実装)
Memory Networks (End-to-End Memory Networks の Chainer 実装)Memory Networks (End-to-End Memory Networks の Chainer 実装)
Memory Networks (End-to-End Memory Networks の Chainer 実装)
 
人工知能と機械学習の違いって?
人工知能と機械学習の違いって?人工知能と機械学習の違いって?
人工知能と機械学習の違いって?
 
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoRRとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
 
ドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoRドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoR
 
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
 
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo
 
Zipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLPZipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLP
 
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
 
ソーシャルメディアの多言語判定 #SoC2014
ソーシャルメディアの多言語判定 #SoC2014ソーシャルメディアの多言語判定 #SoC2014
ソーシャルメディアの多言語判定 #SoC2014
 
猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測
 
アラビア語とペルシャ語の見分け方 #DSIRNLP 5
アラビア語とペルシャ語の見分け方 #DSIRNLP 5アラビア語とペルシャ語の見分け方 #DSIRNLP 5
アラビア語とペルシャ語の見分け方 #DSIRNLP 5
 
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 

Infinite SVM [改] - ICML 2011 読み会

  • 1. [改] [Zhu, Chen and Xing ICML2011] Infinite SVM: a Dirichlet Process Mixture of Large-Margin Kernel Machines 2011/07/16-19 中谷秀洋 @ サイボウズ・ラボ株式会社 @shuyo / id:n_shuyo
  • 2. References • [Blei & Jordan 06] Variational inference for Dirichlet process mixtures • [Jaakkola, Meila & Jebara NIPS99] Maximum entropy discrimination • [Kurihara, Welling & Teh IJCAI07] Collapsed variational Dirichlet process mixture models • [Zhu & Xing JMLR09] Maximum entropy discrimination Markov networks
  • 3. 混合SVM • データ空間は多様体をなす – ローカルにはシンプルな構造 • クラスタに分類、コンポーネントごとにSVM – シンプルな素性で済む – 一度に扱うデータ数が減る→計算量が減る
  • 4. Infinite SVM (iSVM) • 多クラス SVM を DPM で混合化 – DPM=Dirichlet Process Mixture • データ点をクラスタリング • クラスタ数を自動決定 – VBと「リスク関数+相対エントロピーの最小 化」を交互に行うことで推論
  • 5. iSVM のモデル (1) • Xd∈RM: データ点, Yd∈{1,...,L}: ラベル • Zd∈{1,2,...}: Xdのコンポーネント – Xdにどの識別器を使うか
  • 6. iSVM のモデル (2) • V, Z は Dirichlet Process に従う V~GEM(α) ηは後述 点dが属する コンポーネント
  • 7. iSVM のモデル (3) • X は指数型分布族、γはその共役事前分布
  • 8. iSVM のモデル (4) Y には分布を • ������ ∈ 1, ⋯ , ������ を使って識別関数を定義 入れない – f(y, x) : 素性ベクトル • ηi:i番目の識別器のパラメータ – ηi~N(μ0,Σ0), β={μ0,Σ0}
  • 9. 予測ルール • 識別関数は F を事後分布で周辺化 – z, η の事後分布を q(z, η) とすると、入力 x に対する予測値 y* は
  • 10. 推論 • 識別関数と確率モデルが混じっているの で、単純な推論は出来ない – 変分ベイズ(VB) – リスク関数+相対エントロピーの最小化 • を交互に行うことで推論を行う – 収束は……保証されなさそうだなあ
  • 11. 推論 / VBパート (1) [Blei & Jordan 06] • 独立性を仮定して事後分布を推定 – ������ ������, ������, ������, ������ = ������ ������=1 ������ ������������ ������ ������ ������������ ������=1 ������ ������=1 ������ ������������ ������−1 ������=1 ������ ������������ – DPMのトピック数をT(=20)に制限 • vとγは通常のVBでそのまま推論できる • zとηはできない – Yに分布が入っていないから
  • 12. 推論 / VBパート (2) • 例:q(v)の推論 1 ������ ������ – ������ ������������ = Multi ������������ , ⋯ , ������������ , ������ ������ = ������ ������������ とすると、 – ln ������(������) = ������������ ������,������,������ ������������ ������ ������, ������, ������, ������, ������ = ln ������0 ������ + ������ ������������������ [ln ������(������������ |������)] + ������������������������������. ������ ln ������(������������ ) = ln ������0 ������ + ������ ������ ln ������������ + ������=������+1 ������ ������ ln 1 − ������������ +������������������������������ – ������0 ������������ = Beta 1, ������ とおくと、 ������ • ������ ������������ = Beta(1 + ������ ������ , ������ + ������ ������=������+1 ������ ) • q(γ) も同様に計算できる。
  • 13. (参考)Collapsed variational DPM [Kurihara, Welling & Teh IJCAI07] • DPMをVBで解くには、トピック数をTで切り詰める – 単純に ������ ������������ = 1 = 1、それ以降の確率は強制的に0 • Collapsed VB DPM [Kurihara+ 07]はvを積分消去す ることで、切り詰めによる誤差を抑えている?
  • 14. 推論 / リスク最小化パート (1) たぶんq(z)の • q(z)とq(η)を推定する 間違い = ������������(������(������, ������, ������)||������ ������, ������, ������ ������ )から ������, ������の寄与分を除いたもの = KL(q(η)||p0(η|β)) + KL(q(z,v)||p(z,v|α))
  • 15. 推論 / リスク最小化パート (2) = 0 (if y is correct) [Zhu & Xing 09] = 2 (otherwise) F(y,xd) margin ∆ ≥ ������������ (������) for all y yd
  • 16. 推論 / リスク最小化パート (3) • これを解くと、 – p0 ������ = ������ ������0 , Σ0 , ������ ������������ = ������ ������������ , Σ0 とすると 1 ������ – ������ ������������ = Multi ������������ , ⋯ , ������������ についても解くと
  • 17. Experiments (1) • 人工データ – MNL = Multinominal Logit – dpMNL = DP mixture of MNL (Shahbaba+ JMLR09)
  • 18. Experiments (2) • images of 13 type animals (SIFT特徴量) 生SVMと あまり差がない – MMH = multiview method (Chen+ 2010) – kmeans+SVM = kmeans でクラスタリング+各クラス タにて linear SVM • 最高速&そこそこ精度がいいから、これでいいんじゃ(爆
  • 19. [参考] Maximum Entropy Discrimination (MED) [Jaakkola+ 99] • 識別関数 + large margin に確率モデルを入 れるための一般的な枠組み – 確率的手法と組み合わせるなどの拡張性 – 事前分布を入れられる • アプリケーションに合わせた調整やロバスト性 • iSVM は MED の extension” とあるが……
  • 20. MED (1) • 識別関数を以下のように定義 – Θ={θ1,θ-1,b} : パラメータ • Θに分布を入れて、L を周辺化したものを decision rule とする
  • 21. MED (2) • マージン ������ – このままでは誤判定が許されない • 各点ごとにマージン������ = {������������ }を考える • ������������ に誤判定を低確率で許す分布を入れる – ������0 (������������ ) = ������������ −������ 1−������������ 低い確率で 誤判定を許す ������������ • decision rule をさらに周辺化 0 1
  • 22. MED (3) • Minimum Relative Entropy(MRE) – 以下の制約の下、KL(P||P0) を最小化するΘ を見つける
  • 23. MED (4) • 定理:MRE の解は次の形になる – ただし λ はラグランジュ乗数であり、 J(λ)=-log Z(λ) の unique maximum
  • 24. MED (5) • MED は SVM を special case として含む – 識別関数 1 • たとえば ������ ������ ������������ ∝ exp( ������( ������ ������ ������ − ������))とおく 2 – θ~N(0,1), b は無情報事前分布を入れる – このとき J(λ) は次のようになる
  • 25. MED vs iSVM • MED は…… – 一般的な枠組み。SVM は special case – 相対エントロピーを最小化 – マージンに分布を入れる • iSVM は…… – SVMの混合化(ノンパラベイズ) – VB と「リスク関数+相対エントロピーの最小化」を交互 に – ソフトマージンはslack変数で • iSVM は MED の拡張ではないと思う……
  • 26. まとめというか感想 • コンポーネントに分割するのは筋が良い気がする – データは多様体をなす(ローカルにはシンプルな構造) – 分割により SVM の計算量も大幅に減らせる • でも生SVMとあまり精度が変わらない – 近似のせい? データのせい? コンポーネント数? • どうしていきなりノンパラベイズ? – 有限混合でもいいんでは? – ディリクレ分布で ARD 効かせるとか • VB 的近似も避けられるかもしれない