SlideShare una empresa de Scribd logo
1 de 83
Descargar para leer sin conexión
PRML輪読会 2. 確率分布

2012.9.24    @americiumian
発表概要
   2.1   二値変数
   2.2   多値変数
   2.3   ガウス分布
   2.4   指数型分布族
   2.5   ノンパラメトリック法




                       2
この章の目的
   密度推定
       観測値の有限集合𝑥1 , … , 𝑥 𝑁 が与えられた時,確率変数𝑥
        の確率分布𝑝(𝑥)をモデル化すること
           このような確率分布は無限に存在しうる
       パラメトリック
           分布の形を仮定し,観測値に合わせてパラメータを調整する
            手法
       ノンパラメトリック
           分布の形を仮定せず,観測値によって分布を決める手法



                                          3
4   2.1 二値変数
    •   ベルヌーイ分布
    •   二項分布
    •   ベータ分布
ベルヌーイ分布 – 記号の定義
   二値確率変数 x ∈ {0,1}
       ex. コインを投げて,表なら 𝑥 = 1 裏なら 𝑥 = 0
   パラメータ μ
     𝑥 = 1となる確率
    0≦ 𝜇 ≦1

     𝑝 𝑥 = 1 𝜇) = 𝜇, 𝑝 𝑥 = 0   𝜇 =1− 𝜇
計算例:𝜇 = 0.7の時
歪んだコインがある.このコインが表となる確率は0.7,
裏となる確率は0.3である.この時,
           𝑝 𝑥 = 1 𝜇 = 0.7) = 0.7
           𝑝 𝑥 = 0 𝜇 = 0.7 = 0.3          5
ベルヌーイ分布
   ベルヌーイ分布
     Bern x 𝜇) = 𝜇 𝑥 (1 − 𝜇)1−𝑥 (2.2)
     確率𝜇で表が出るコインを一回投げ,表(裏)が出る確率

   特徴
       𝐸[𝑥] = 𝜇                                 (2.3)
       𝑣𝑎𝑟[𝑥] = 𝜇(1 − 𝜇)                        (2.4)

計算例:𝜇 = 0.7の時
歪んだコインがある.このコインが表となる確率は0.7,
裏となる確率は0.3である.この時,
   𝐵𝑒𝑟𝑛 𝑥 = 1 𝜇 = 0.7) = 0.71 (1 − 0.7)0 = 0.7
   𝐵𝑒𝑟𝑛 𝑥 = 0 𝜇 = 0.7 = 0.70 (1 − 0.7)1 = 0.3            6
複数回観測した時の尤度関数
   設定
    D = 𝑥1 , … , 𝑥 𝑁
     𝑥 𝑖 は,𝑝(𝑥 | 𝜇)から独立に得られたと仮定



   尤度関数
     𝑝 𝐷 𝜇) = 𝑛=1 𝑝 𝑥 𝑛 𝜇) = 𝑛=1 𝜇 𝑥 𝑛 (1 − 𝜇)1−𝑥 𝑛 (2.5)
               𝑁              𝑁

     𝜇が与えられた時,どのくらい,観測したデータが生起
     しやすいかを表す


                                                        7
パラメータ𝜇の値を最尤推定
   対数尤度
                         𝑁

        ln 𝑝(𝐷 | 𝜇) =         ln 𝑝 𝑥 𝑛   𝜇)
                        𝑛=1
                          𝑁

                   =          { 𝑥 𝑛 ln 𝜇 + 1 − 𝑥 𝑛 ln 1 − 𝜇 }      (2.6)
                        𝑛=1
                                               𝑁

                   = ln 𝜇 − ln 1 − 𝜇                𝑥 𝑛 + 𝑁 ln(1 − 𝜇)
                                              𝑛=1
              𝑁
       この式は, 𝑛=1 𝑥 𝑛 のみに依存しているため,この式は,
        この分布の下,このデータに対する十分統計量の例
                                                                        8
パラメータ𝜇の値を最尤推定
   最尤推定
       ln 𝑝 𝐷           𝜇) を𝜇で偏微分して0とおいて解く
                     1    𝑁
       𝜇   𝑀𝐿   =        𝑛=1   𝑥𝑛   (2.7)
                     𝑁
           サンプル平均と呼ばれる


   結果の違った見方
       データ集合中で,𝑥 = 1になる回数を𝑚とすると,
                𝑚       データ集合中での表の観測値の割合が
         𝜇 𝑀𝐿 =   (2.8)
                𝑁       表が出る確率となる
                                              9
二項分布
   記号の定義
       𝑚 : 大きさ𝑁のデータ集合のうち,𝑥 = 1となる観測値の数
   二項分布
                              𝑁
       𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) =       𝑚
                                  𝜇 𝑚 (1 − 𝜇) 𝑁−𝑚   (2.9)
        
            𝑁
                =
                      𝑁!                            (2.10)
            𝑚       𝑁−𝑚 !𝑚!

       確率𝜇で表が出るコインを𝑁回投げた時,
        表が出る回数𝑚の確率分布
   特徴
       𝐸[𝑚] = 𝑁𝜇                                   (2.11)
       𝑣𝑎𝑟[𝑚] = 𝑁𝜇(1 − 𝜇)                           (2.12)
                                                              10
二項分布




       11
ベータ分布
   ベルヌーイ分布のパラメータ𝜇の最尤推定
     3回表が出ると,以降ずっと表が出る?                                         𝑁
                                                        1
     過学習の問題                                𝜇   𝑀𝐿    =               𝑥𝑛
                                                        𝑁
                                                                𝑛=1


   ベイズ主義的に扱う
     事前分布𝑝(𝜇)を導入する必要性                  𝑁
                                                     𝑥 𝑛 (1 −
                          𝑝 𝐷   𝜇) =            𝜇               𝜇)1−𝑥 𝑛
     事後分布が事前分布と同様の
                                       𝑛=1
      形式となる事前分布を選びたい
           共役性
       𝜇と(1 − 𝜇) のべきに比例する事前分布を導入

                                                                      12
ベータ分布

                           Γ(a + b) 𝑎−1
         𝐵𝑒𝑡𝑎 𝜇    𝑎, 𝑏) =          𝜇   (1 − 𝜇) 𝑏−1 (2.13)
                           Γ a Γ(b)

   特徴
                  𝑎
       𝐸[𝜇] =                         (2.15)
                 𝑎+𝑏
                             𝑎𝑏
       𝑣𝑎𝑟[𝜇] =                       (2.16)
                       𝑎+𝑏 2 (𝑎+𝑏+1)
       𝑎, 𝑏は,𝜇の分布を決めるので,ハイパーパラメータと
        呼ばれる

                                                             13
ベータ分布




        14
事後分布を求める
   事前分布
                        Γ(a + b) 𝑎−1
      𝐵𝑒𝑡𝑎 𝜇    𝑎, 𝑏) =          𝜇 (1 − 𝜇) 𝑏−1
                        Γ a Γ(b)
   尤度関数
                          𝑁
      𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) =         𝜇 𝑚 (1 − 𝜇) 𝑙       (𝑙 = 𝑁 − 𝑚)
                          𝑚
   事後分布
                             Γ(m + a + b + l)     𝑚+𝑎−1
       𝑝 𝜇     𝑚, 𝑙, 𝑎, 𝑏) =        (1 − 𝜇) 𝑙+𝑏−1
                                              𝜇
                             Γ m + a Γ(b + l)
                                              (2.18)
     𝑥 = 1の観測値が𝑚個,𝑥 = 0の観測値が𝑙個あった時,
      事後分布を求めるには,𝑎を𝑚, 𝑏を𝑙だけ増やせばよい
     𝑎, 𝑏はそれぞれ,𝑥 = 1, 𝑥 = 0の有効観測数と解釈できる
                                                                15
逐次学習
   事後分布の特徴
       事後分布は,事前分布と形式が同じなので,
        事後分布を新たな事前分布として扱える
   逐次学習
       データがひとつづつ与えられ,データが与えられる度に
        パラメータを更新していく学習法
             𝑥1         𝑥2

    𝑝(𝜇)        𝑝(𝜇|𝑥1 )   𝑝(𝜇|𝑥1,2 )


                                        16
逐次学習の例

             x=1を1つ
𝑎=2          観測した時の
𝑏=2          尤度関数
β分布          (N=m=1の
              二項分布)



       𝑎=3
       𝑏=2
      β分布


                  17
逐次学習の長所・短所
   長所
       実時間での学習に利用できる
           毎観測値ごとに事後確率を算出するので,全てのデータが
            なくともよい
       大規模データ集合に有用
           観測値の処理が終わった後,そのデータはもう捨ててよい


   短所
       学習の早さと,正しい解への収束性のトレードオフ

                                         18
𝑥の予測分布
   これまでの議論
      𝑝(𝜇 | 𝐷)の推定
     観測データ集合𝐷から,パラメータ𝜇の確率分布を推定



   ここからの議論
     𝑝(𝑥 = 1 | 𝐷)の推定
     観測データ集合𝐷から,𝑥 = 1となる確率を推定




                                  19
𝑥の予測分布
                         1
        𝑝(𝑥 = 1 | 𝐷) =        𝑝 𝑥=1    𝜇)𝑝 𝜇    𝐷) 𝑑𝜇
                         0
                          1
                    =         𝜇𝑝 𝜇   𝐷) 𝑑𝜇
                         0
                    = 𝑬 𝜇
                        𝐷]                     (2.19)
                       𝑚+ 𝑎
                   =                           (2.20)
                     𝑚+ 𝑎+ 𝑙+ 𝑏
観測値のうち,𝑥 = 1に相当するものの割合
 𝑚, 𝑙がとても大きい時,最尤推定の結果と一致する
     このような特性は,多くの例で見られる
     有限のデータ集合では,事後平均は事前平均と
      μ の最尤推定量の間になる         →演習2.7 20
事後分布の特性
   事後分布(ベータ分布)の分散
                       𝑎𝑏
       𝑣𝑎𝑟 𝜇 =
                  𝑎+𝑏 2 𝑎+𝑏+1
     𝑎 → ∞や𝑏 → ∞の時,分散は0に近づく
     多くのデータを学習すればするほど,
      一般的に事後分布の不確実性は減少する?




                                21
平均・分散の不確実性
   事前平均と事後平均
            𝐸 𝜽 𝜽 = 𝐸 𝐷 [𝐸 𝜽 𝜽 | 𝐷 ]                          (2.21)
       𝜽の事後平均を,データを生成する分布上で平均すると,
        𝜽の事前平均に等しい

   事前分散と事後分散
        𝑣𝑎𝑟 𝜃 𝜃 = 𝐸 𝐷 [𝑣𝑎𝑟 𝜃 𝜃     𝐷]] + 𝑣𝑎𝑟 𝐷 [𝐸 𝐷 𝜃   𝐷]]   (2.24)
        事前分散         事後分散の平均              事後平均の分散
         の平均

       平均的には 事前分散 > 事後分散
           成り立たないデータセットもある
                                                                   22
23   2.2 多値変数
     •   多項分布
     •   ディリクレ分布
例えば
   サイコロを投げる
       6通りの状態がありうる

   1-of-K 符号化法
     K個の状態を取りうる離散変数を扱う際に用いられる
     要素の一つ𝑥 𝑘 のみが1で他が0
       𝐾
      𝑘=1 𝑥 𝑘 = 1を満たす


       ex. サイコロの目を観測値𝑥として,3が出た時
           𝑥 = (0,0,1,0,0,0) 𝑇

                                   24
歪んだサイコロ
   記号の定義
       𝜇 𝑘 ∶ 𝑥 𝑘 = 1となる確率

   正確なサイコロの場合
             1 1 1 1 1 1
       𝝁=( , , , , , )
             6 6 6 6 6 6


   シゴロ賽の場合
                   1 1 1
       𝝁 = (0,0,0, , , )
                   3 3 3


   ピンゾロ賽の場合
       𝝁 = (1,0,0,0,0,0)
                             25
多項分布
   𝑥の分布
                  𝐾
                               𝑥𝑘                   ベルヌーイ分布を2種類以上の
    𝑝 𝑥   𝜇) =         𝜇𝑘           (2.26)
                                                    出力に一般化したもの
                 𝑘=1
   観測値が複数あった場合
     𝑁個の独立な観測値𝑥1 … 𝑥 𝑁
     尤度関数
                       𝑁        𝐾                    𝐾                             𝐾

        𝑝 𝐷   𝜇) =                  𝜇𝑘   𝑥 𝑛𝑘   =         𝜇 𝑘(   𝑛   𝑥 𝑛𝑘 )   =         𝜇𝑘   𝑚𝑘

                      𝑛=1 𝑘=1                       𝑘=1                           𝑘=1             (2.29)
              𝑚𝑘 =              𝑥 𝑛𝑘  : この分布の十分統計量
                                                                                                    26
                           𝑛
𝝁の最尤推定
     制約付き対数尤度最大化
          ラグランジュの未定乗数法を用いる
      𝐾                      𝐾
                                             𝜇 𝑘 = 1 に代入して,
𝑓=         𝑚 𝑘 ln 𝜇 𝑘 + 𝜆         𝜇𝑘−1
                                         𝑘
     𝑘=1                    𝑘=1                      𝑚𝑘
             𝜕𝑓      𝑚𝑘                            −    =1
                  =     + 𝜆                          𝜆
             𝜕𝜇 𝑘    𝜇𝑘                      𝑘
             𝜕𝑓                              −         𝑚𝑘 = 𝜆
                  = 0 より,
             𝜕𝜇 𝑘                                  𝑘
                        𝑚𝑘                          𝜆 = −𝑁
              𝜇𝑘 =−                                       𝑚𝑘
                        𝜆                        𝜇 𝑘 𝑀𝐿 =
                                                           𝑁    27
多項分布
                                               𝐾
                                     𝑁                   𝑚𝑘
    𝑀𝑢𝑙𝑡 𝑚1 , … 𝑚 𝐾   𝝁, 𝑁) =                       𝜇𝑘        (2.34)
                                𝑚1 𝑚2 … 𝑚 𝐾
                                              𝑘=1
                           𝑁               𝑁!
           ただし,                   =
                      𝑚1 𝑚2 … 𝑚 𝐾   𝑚1 ! 𝑚2 ! … 𝑚 𝐾 !
                           𝐾

                                𝑚𝑘 = 𝑁
                          𝑘=1

   パラメータ𝜇と観測値の総数𝑁が与えられた条件の下,
    𝑚1 … 𝑚 𝐾 の同時確率


                                                                       28
ディリクレ分布
   多項分布の𝜇 𝑘 についての事前分布
       共役分布の形は以下の通り
                       𝐾
                                    𝛼 𝑘 −1                               (2.37)
         𝑝 𝝁   𝜶) ∝            𝜇𝑘
                      𝑘=1
    ただし,0 ≦ 𝜇 𝑘 ≦ 1, 𝑘 𝜇 𝑘 = 1
    ハイパーパラメータ 𝜶 = (𝛼1 , … , 𝛼 𝐾 ) 𝑇

   ディリクレ分布
                                                      𝐾
                                        Γ(𝛼0 )
               𝐷𝑖𝑟 𝝁           𝜶) =                        𝜇𝑘   𝛼 𝑘 −1   (2.38)
                                    Γ 𝛼1 … Γ(𝛼 𝐾 )
                                                     𝑘=1
        ただし,𝛼0 =           𝑘   𝛼𝑘
                                                                                  29
共役性の確認
   事前分布
                                          𝐾
                        Γ(𝛼0 )                          𝛼 𝑘 −1
      𝑝 𝝁      𝜶) =                                𝜇𝑘                  (2.38)
                    Γ 𝛼1 … Γ(𝛼 𝐾 )
                                         𝑘=1

   尤度関数
                                     𝐾
                           𝑁
       𝑝 𝐷     𝝁) =
                      𝑚1 𝑚2 … 𝑚 𝐾
                                              𝜇𝑘   𝑚𝑘
                                                                       (2.34)
                                    𝑘=1

   事後分布
    𝑝 𝝁      𝐷, 𝜶) = 𝐷𝑖𝑟 𝝁    𝜶 + 𝒎)
                                              𝐾
             Γ(𝛼0 + 𝑁)
    =                                               𝜇𝑘   𝛼 𝑘 +𝑚 𝑘 −1   (2.41)
      Γ 𝛼1 + 𝑚1 … Γ(𝛼 𝐾 + 𝑚 𝐾 )                                                 30
                                          𝑘=1
31   2.4 指数型分布族
     •   最尤推定と十分統計量
     •   共役事前分布
     •   無情報事前分布
指数型分布族とは
                    𝒙上の指数型分布族 ∶
              𝑝 𝒙   𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }
       𝜼:分布の自然パラメータ
       𝒙 : ベクトル or スカラー,離散 or 連続
       𝒖 𝒙 ∶ 𝒙の任意の関数
       𝑔 𝜼 ∶ 正規化係数. 𝑔 𝜼 ℎ 𝒙 exp{𝜼 𝑇 𝒖 𝒙 } 𝑑𝒙 = 1
   指数型分布族の例
       ベルヌーイ分布
       多項分布                本当に指数型分布族なのか確かめる
                            →指数型分布族の形式で書けるか調べる
       ガウス分布

                                                    32
ベルヌーイ分布は指数型分布族?(1/2)

                  𝒙上の指数型分布族 ∶
            𝑝 𝒙   𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }
  𝑝(𝑥 | 𝜇) = Bern x   𝜇) = 𝜇 𝑥 (1 − 𝜇)1−𝑥

𝑝(𝑥 | 𝜇) = exp{𝑥 log 𝜇 + 1 − 𝑥 log 1 − 𝜇 }   右辺の対数の指数をとる
                              𝜇
        = 1 − 𝜇 exp log           𝑥
                           1− 𝜇

                        𝜇
            ∴ 𝜂 = log                   指数型分布族の式と係数比較
                      1− 𝜇
                      1
             𝜇=                                μについて解く
                1 + exp(−𝜂)                              33
                  → ロジスティックシグモイド関数 𝜎(𝜂)
ベルヌーイ分布は指数型分布族?(2/2)

           𝒙上の指数型分布族 ∶
     𝑝 𝒙   𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }
                                 𝜇
   𝑝(𝑥 | 𝜇) = 1 − 𝜇 exp log             𝑥
                              1− 𝜇
          𝑝(𝑥 | 𝜂) = 𝜎(−𝜂)exp 𝜂𝑥

              ∴ 𝑢(𝑥) = 𝑥
                ℎ(𝑥) = 1
                𝑔(𝜂) = 𝜎(−𝜂)

  より,ベルヌーイ分布は指数型分布族.
                                            34
多項分布は指数型分布族?(1/8)
                        𝒙上の指数型分布族 ∶
                  𝑝 𝒙   𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }
                                                  𝑀
カテゴリカル分布
                                                             𝑥𝑘
                   𝑝(𝒙 | 𝜇) = 𝑚𝑢𝑙𝑡 𝐱      𝜇) =          𝜇𝑘
                                                 𝑘=1
                          𝑀                         𝑀
                                    𝑥𝑘
            = exp ln           𝜇𝑘        = exp           𝑥 𝑘 ln 𝜇 𝑘
                         𝑘=1                      𝑘=1
 ここで 𝜂 𝑘 = ln 𝜇 𝑘 , 𝜼 = (𝜂1 , 𝜂2 , … , 𝜂 𝑀 ) 𝑇 と定義すると,
                                  𝑢(𝒙) = 𝒙
                                ℎ(𝒙) = 1
                                  𝑔(𝜼) = 1

           𝑀                                                          35
 ただし,      𝑘=1   𝜇 𝑘 = 1より,ηは独立ではない
多項分布は指数型分布族?(2/8)
   前スライドのまとめ
     多項分布を指数型分布族の形に書き表すことができた
     しかし,𝜂は独立ではない



   なので
         𝑀
        𝑘=1   𝜇 𝑘 = 1を用いて,𝜇 𝑀 を 𝜇 𝑘 (𝑘 = 1,2, … 𝑀 − 1)で
      表し, 𝜇 𝑀 を消去する
     他にも以下の制約がある
                       𝑀−1

        0 ≦ 𝜇 𝑘 ≦ 1,         𝜇𝑘 ≦1
                                                       36
                       𝑘=1
多項分布は指数型分布族?(3/8)
        𝑀

exp          𝑥 𝑘 ln 𝜇 𝑘                             pp.73 上の式より,
      𝑘=1                                                  𝑀
         𝑀−1                                                     𝑥𝑘 = 1
                                                           𝑘=1
= exp             𝑥 𝑘 ln 𝜇 𝑘 + 𝑥 𝑀 ln 𝜇   𝑀
            𝑘=1
            𝑀−1                        𝑀−1                 𝑀−1

= exp             𝑥 𝑘 ln 𝜇 𝑘 + 1 −            𝑥 𝑘 ln 1 −            𝜇𝑘
            𝑘=1                        𝑘=1                 𝑘=1
            𝑀−1                                          𝑀−1
                                𝜇𝑘
= exp             𝑥 𝑘 ln         𝑀−1          + ln 1 −         𝜇𝑘
                           1−   𝑗=1    𝜇𝑗
            𝑘=1                                          𝑘=1

                                                                          37
多項分布は指数型分布族?(4/8)
                                 𝒙上の指数型分布族 ∶
                      𝑝 𝒙        𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }
      𝑀−1                                                  𝑀−1
                             𝜇𝑘
exp         𝑥 𝑘 ln                𝑀−1        + ln 1 −             𝜇𝑘
                      1−         𝑗=1    𝜇𝑗
      𝑘=1                                                  𝑘=1
           𝑀−1                    𝑀−1
                                                      𝜇𝑘
= 1−             𝜇 𝑘 exp                𝑥 𝑘 ln         𝑀−1
                                                 1−   𝑗=1    𝜇𝑗
           𝑘=1                    𝑘=1
よって,
                                                             𝑀−1
                     𝜇𝑘
𝜂 𝑘 = ln              𝑀−1                             1−           𝜇 𝑘 を求めるため,
            1−       𝑗=1    𝜇𝑗
                                                             𝑘=1
                                                           𝜇 𝑘 = ⋯ の形にする         38
多項分布は指数型分布族?(5/8)

                   𝜇𝑘
𝜂 𝑘 = ln            𝑀−1
           1−      𝑗=1       𝜇𝑗

                        𝜇𝑘
exp(𝜂 𝑘 ) =              𝑀−1
                                                     両辺の指数をとる
              1−        𝑗=1 𝜇 𝑗
                            𝑀−1

𝜇 𝑘 = exp(𝜂 𝑘 ) 1 −                𝜇𝑗
                             𝑗=1


𝑀−1                 𝑀−1            𝑀−1

      𝜇𝑘 = 1−                𝜇𝑗          exp(𝜂 𝑘 )   k=1からM-1まで足し合わせる
𝑘=1                 𝑗=1            𝑘=1
                                                                        39
多項分布は指数型分布族?(6/8)

𝑀−1               𝑀−1
                  𝑘=1 exp(𝜂 𝑘 )
      𝜇𝑘 =          𝑀−1
                                    赤字について解く
             1+     𝑘=1 exp(𝜂 𝑘 )
𝑘=1
                         𝑀−1

𝜇 𝑘 = exp(𝜂 𝑘 ) 1 −            𝜇 𝑗 に代入して,
                         𝑗=1


         exp(𝜂 𝑘 )
𝜇𝑘 =      𝑀−1
     1 + 𝑘=1 exp(𝜂 𝑘 )

この式を,ソフトマックス関数,正規化指数関数と呼ぶ.

                                               40
多項分布は指数型分布族?(7/8)
                        𝑀−1                 𝑀−1
                                                                𝜇𝑘
𝑝(𝑥 | 𝜇) = 1 −                𝜇 𝑘 exp             𝑥 𝑘 ln         𝑀−1        ,
                                                           1−   𝑗=1    𝜇𝑗
                        𝑘=1                 𝑘=1
                  𝜇𝑘
𝜂 𝑘 = ln               𝑀−1      ,
        1−         𝜇𝑗 𝑗=1
         exp(𝜂 𝑘 )
𝜇𝑘 =      𝑀−1
     1 + 𝑘=1 exp(𝜂 𝑘 )
           𝑀−1                           𝑀−1
                                         𝑘=1 exp 𝜂 𝑘
⇒ 1−             𝜇𝑘     =1−                𝑀−1              より,
                                    1+     𝑘=1 exp 𝜂 𝑘
           𝑘=1
                                           −1
                        𝑀−1

𝑝 𝒙   𝜼) = 1 +                exp(𝜂 𝑘 )         exp 𝜼 𝑇 𝒙
                        𝑘=1                                                     41
多項分布は指数型分布族?(8/8)
               𝒙上の指数型分布族 ∶
       𝑝 𝒙     𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }

                                          −1
                        𝑀−1

     𝑝 𝒙     𝜼) = 1 +         exp(𝜂 𝑘 )         exp 𝜼 𝑇 𝒙
                        𝑘=1
                                                𝑇
               𝜼 = 𝜂1 , 𝜂2 , … , 𝜂 𝑀−1 , 0
                       𝑢(𝒙) = 𝒙
                    ℎ(𝒙) = 1
                                                    −1
                              𝑀−1

             𝑔(𝜼) =     1+          exp(𝜂 𝑘 )
                              𝑘=1
とすると,多項分布は指数型分布族のひとつ                                        42
ガウス分布は指数型分布族?(1/3)

                         𝒙上の指数型分布族 ∶
                 𝑝 𝒙     𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }
                      1             (𝑥 − 𝜇)2
    𝑝 𝑥 𝜇, 𝜎) =               exp −
                  (2𝜋𝜎 2 )1/2         2𝜎 2
         1                 1 2      𝜇      𝜇2
    =             exp − 2 𝑥 + 2 𝑥 − 2
      (2𝜋𝜎 2 )1/2         2𝜎       𝜎      2𝜎

                                                𝑇
        1    1        𝜇2            𝜇/𝜎 2            𝑥
    =           exp − 2 exp
      (2𝜋)1/2 𝜎      2𝜎            −1/2𝜎 2          𝑥2



         1                          𝜂1    𝜇/𝜎 2                    𝑥
ℎ(𝑥) =             𝑔 𝜼        𝜼=       =                 𝒖(𝑥) =
       (2𝜋)1/2                      𝜂2   −1/2𝜎 2                  𝑥2   43
ガウス分布は指数型分布族?(2/3)

      𝜂1    𝜇/𝜎 2
𝜼=       =        2
                    より,
      𝜂2   −1/2𝜎
1
  = (−2𝜂2 )1/2
𝜎
        2
                𝜂1
𝜇 = 𝜂1 𝜎 = −
               2𝜂2

よって,
1       𝜇2
  exp − 2
𝜎      2𝜎
                    𝜂1 2 1
= (−2𝜂2 )1/2 exp −         (−2𝜂2 )
                   4𝜂2 2 2
                   𝜂1 2
= (−2𝜂2 )1/2 exp −                   ← 𝜂で表された!
                   4𝜂2
                                                 44
ガウス分布は指数型分布族?(3/3)

                   𝒙上の指数型分布族 ∶
            𝑝 𝒙    𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }
                                                         𝑇
             1                      𝜂1 2        𝜇/𝜎 2         𝑥
𝑝 𝑥   𝜼) =         (−2𝜂2 )1/2 exp −      exp                      より
           (2𝜋)1/2                  4𝜂2        −1/2𝜎 2       𝑥2

       1
ℎ 𝑥 =
      2𝜋 1/2
                         𝜂1 2
𝑔 𝜂 = (−2𝜂2 )1/2 exp −
                        4𝜂2
     𝜂1       𝜇/𝜎 2               𝑥
𝜼=      =           2
                      , 𝒖 𝑥 =      2
                                     とすると,
     𝜂2    −1/2𝜎                 𝑥

ガウス分布は指数型分布族のひとつ                                                       45
𝜼の値を最尤推定

正規化条件より,
𝑔 𝜼     ℎ 𝒙 exp{𝜼 𝑇 𝒖 𝒙 } 𝑑𝒙 = 1

𝜼について,両辺の勾配を求めて,                               (fg)’=f’g+fg’

𝛻𝑔 𝜼     ℎ 𝒙 exp{𝜼 𝑇 𝒖 𝒙 } 𝑑𝒙 + 𝑔 𝜼    ℎ 𝒙 exp 𝜼 𝑇 𝒖 𝒙   𝒖 𝒙 𝑑𝒙 = 0

  𝛻𝑔 𝜼
−      = 𝑔 𝜼       ℎ 𝒙 exp 𝜼 𝑇 𝒖 𝒙    𝒖 𝒙 𝑑𝒙 = 𝐸 𝒖 𝒙
  𝑔 𝜼
𝐸 𝒖 𝒙    = − 𝛻ln 𝑔 𝜼

 𝑢(𝑥)の期待値は,𝑔(𝜂)のみに依存
 (𝑢(𝑥)の𝑛次モーメントは𝑔(𝜂)の𝑛階微分で求められる)                                  46
𝜼の値を最尤推定

独立に同分布に従うデータ集合𝑋 = {𝒙1 , 𝒙2 , … , 𝒙 𝑁 }に対する尤度関数は
                        𝑁                                     𝑁
                                                𝑁 exp
𝑝 𝑿      𝜼) =                ℎ 𝒙𝑛         𝑔 𝜼           𝜼𝑇         𝒖 𝒙𝑛
                       𝑛=1                                   𝑛=1
両辺の対数をとって,
                        𝑁                                           𝑁

ln 𝑝 𝑿     𝜼) =              ln ℎ 𝒙 𝑛 + 𝑁 ln 𝑔(𝜼) + 𝜼 𝑇                  𝒖 𝒙𝑛
                       𝑛=1                                         𝑛=1
(𝜂についての勾配) = 0より,
                              𝑁

𝑁𝛻 ln 𝑔(𝜼       𝑀𝐿 )   +           𝒖 𝒙𝑛 =0
                             𝑛=1
                                   𝑁
                         1
−𝛻 ln 𝑔 𝜼       𝑀𝐿     =                𝒖 𝒙𝑛       → この式を解けば𝜼                   𝑀𝐿 が得られる   47
                         𝑁
                                  𝑛=1
十分統計量
                             𝑁
                        1
−𝛻 ln 𝑔 𝜼        𝑀𝐿   =           𝒖 𝒙𝑛
                        𝑁
                            𝑛=1
𝜼   𝑀𝐿 は     𝑛   𝒖 𝒙 𝑛 のみに依存している

→       𝑛   𝒖 𝒙 𝑛 を,𝑝(𝑥 | 𝜂)の十分統計量と呼ぶ

   十分統計量の例
       ベルヌーイ分布
            𝑢 𝑥 = 𝑥より, 𝑥 𝑛 の総和
       ガウス分布
           𝑢 𝑥 = (𝑥, 𝑥 2 ) 𝑇 より, 𝑥 𝑛 の総和, 𝑥 𝑛 2 の総和
                                                       48
指数型分布族の共役事前分布
   共役事前分布
        尤度関数と掛けて事後分布を求めると,その関数形が同じ
         になるような事前分布.
    指数型分布族
                    𝑁                                      𝑁
                                           𝑁
    𝑝 𝑿     𝜼) =         ℎ 𝒙𝑛    𝑔 𝜼           exp   𝜼𝑇         𝒖 𝒙𝑛
                   𝑛=1                                    𝑛=1
    に対する共役事前分布は,

                                      𝜈
    𝑝 𝜼     𝝌, 𝜈) = 𝑓 𝝌, 𝜈 𝑔 𝜂            exp 𝜈𝜼 𝑇 𝝌

                                                      𝑁
                                𝜈+𝑁
    ∵ 𝑝 𝜼     𝑿, 𝝌, 𝜈) ∝ 𝑔 𝜂          exp       𝜼𝑇         𝒖(𝒙 𝑛 ) + 𝑣𝝌
                                                                          50
                                                     𝑛=1
これまで出てきた共役事前分布

確率分布                  共役事前分布
ベルヌーイ分布(二項分布)         ベータ分布
多項分布                  ディリクレ分布
ガウス分布の平均(分散は既知)       ガウス分布
ガウス分布の精度(平均は既知)       ガンマ分布
ガウス分布の分散(平均は既知)       逆ガンマ分布
ガウス分布(平均・精度が未知)       ガウス-ガンマ分布
多変量ガウス分布の平均(共分散は既知)   ガウス分布
多変量ガウス分布の精度(平均は既知)    ウィッシャート分布
多変量ガウス分布の共分散(平均は既知)   逆ウィッシャート分布
多変量ガウス分布(平均・精度が未知)    ガウス-ウィッシャート分布
                                      51
無情報事前分布
   概要
     その事前分布を用いて得られる事後分布に,
      その事前分布ができるだけ影響しないような事前分布
     事前分布に対する知見がない時に用いられる

   単純に考えると...
       離散変数の時
           K個の状態をとりうるなら,各状態を1/𝐾で取ればよい
       連続変数の時
           分布𝑝 𝑥   𝜆)について, 𝑝(𝜆) = 𝑐𝑜𝑛𝑠𝑡.とすればよい?


                                                   52
無情報事前分布 - 𝑝(𝜆)=𝑐𝑜𝑛𝑠𝑡.?
   𝑝(𝜆)=𝑐𝑜𝑛𝑠𝑡.という事前分布の問題点
       𝜆の定義域が有界でないため, 𝜆上での積分が発散する
           変則事前分布(不完全事前分布)と呼ばれる


       非線形な変数変換が上手く行えない
           ex. 𝑝 𝜆 𝜆 が定数だとする.
                    𝜆 = 𝜂 2 と変数変換を行うと,
                                𝑑𝜆
                    𝑝𝜂 𝜂 = 𝑝𝜆 𝜆    = 𝑝 𝜆 𝜂 2 2𝜂 ∝ 𝜂
                                𝑑𝜂
                   η上の密度は定数とはならない.
    事後分布が適切(正規化されている)という条件下であれば
    使われることも多い                                         53
無情報事前分布 - 𝑝(𝜆)=𝑐𝑜𝑛𝑠𝑡.?
    最尤推定ではこの問題は生じない
        尤度関数𝑝(𝑥 | 𝜆)は𝜆について単純な式だから(? )

例
データ𝑥 𝑖 が,平均𝜇で分散𝜎 2 の正規分布𝑁 𝑥; 𝜇, 𝜎 2 から生じるとする.
σ2 を既知とし,平均𝜇を推定する.
事前分布に𝑝(𝜇) = 𝑐𝑜𝑛𝑠𝑡. の分布を考える.


この時,事後分布は,
p(μ | D)∝p(D | μ)*const.
より,事後確率が最大となるμの解は最尤推定解に一致.
よって,事前確率は推定に影響を与えない.                       54
無情報事前分布の例1
   平行移動不変性を持つ事前分布
           平行移動不変性とは
             𝑝 𝑥 𝜇) = 𝑓(𝑥 − 𝜇)
                       位置パラメータ
           xを定数分移動しても,同じ形式が保たれる
   求めてみよう
    𝐴 ≦ 𝜇 ≦ 𝐵に入る確率と𝐴 − 𝑐 ≦ 𝜇 ≦ 𝐵 − 𝑐に入る確率が等しいので,
        𝐵              𝐵−𝑐                  𝐵
            𝑝 𝜇 𝑑𝜇 =         𝑝 𝜇 𝑑𝜇 =           𝑝 𝜇 − 𝑐 𝑑𝜇
    𝐴                  𝐴−𝑐              𝐴


    この式が任意のA,Bについて成立するため,
    𝑝(𝜇) = 𝑝(𝜇 − 𝑐)                                          55
    よって,𝑝(𝜇)は定数
無情報事前分布の例1
   位置パラメータの例
     ガウス分布の平均𝜇
     μ の共役事前分布はガウス分布𝑁 𝑥  𝜇0 , 𝜎0 )
     σ0 → ∞の極限をとれば,無情報事前分布になる



   事前分布が事後分布に影響を与えていないか
        𝜎2           𝑁𝜎0 2            𝜎0 → ∞
μ𝑁=           𝜇 +
       2+ 𝜎 2 0       2 + 𝜎2
                             𝜇   𝑀𝐿            μ𝑁= 𝜇
    𝑁𝜎     0      𝑁𝜎0                                  𝑀𝐿

                                      𝜎0 → ∞   1       𝑁
                   1      1   𝑁                     = 2
                      2
                        = 2+ 2                 𝜎𝑁 2   𝜎
                   𝜎𝑁    𝜎0  𝜎
                                                            56
無情報事前分布の例2
   尺度不変性を持つ事前分布
       尺度不変性とは
                1  𝑥
        𝑝 𝑥 𝜎) = 𝑓
                𝜎  𝜎
                尺度パラメータ
       xを定数倍だけ拡大縮小しても,同じ形式が保たれる
   求めてみよう
    𝐴 ≦ 𝜎 ≦ 𝐵に入る確率と𝐴/𝑐 ≦ 𝜎 ≦ 𝐵/𝑐に入る確率が等しいので,
       𝐵           𝐵/𝑐            𝐵
                                    1   𝜎
         𝑝 𝜎 𝑑𝜎 =      𝑝 𝜎 𝑑𝜎 =       𝑝   𝑑𝜎
     𝐴            𝐴/𝑐           𝐴   𝑐   𝑐
    この式が任意のA,Bについて成り立つので,
         1  𝜎                                  57
    𝑝 𝜎 = 𝑝
         𝑐  𝑐
無情報事前分布の例 2-2
   求めてみよう(続き)
    したがって,𝑝(𝜎) ∝ 1/𝜎

   特徴
    変則事前分布となる
     𝑝 ln 𝜎 = 𝑐𝑜𝑛𝑠𝑡.
                  1                𝑎
           p σ ∝ より,𝑝 𝜎 =             𝑎は定数 とおき,
                  σ                𝜎
                                         𝑑𝜎
            t= ln 𝜎と変数変換をすると,            𝑑𝑡
                                              = 𝜎より,
                        𝑑𝜎     𝑎
            𝑝 𝑡 = 𝑝 𝜎        = 𝜎 σ=const.
                        𝑑𝑡
            ∴𝑝 ln 𝜎 = 𝑐𝑜𝑛𝑠𝑡.

                                                       58
無情報事前分布の例1
   尺度パラメータの例
       𝜇を考慮済みのガウス分布の標準偏差σ
         𝑁(𝑥 | 𝜇, σ2 ) ∝ σ−1 exp {−(𝑥 /𝜎)2 }           (𝑥 = 𝑥 − 𝜇)
       精度𝜆 = 1/𝜎 2 を考え,密度を変換すると
                       1        1
                  𝑝 𝜎 ∝ ⇒ 𝑝 𝜆 ∝
                       𝜎        𝜆
   事前分布が事後分布に影響を与えていないか
                            𝑎0 = 0, 𝑏0 = 0         𝑁
               𝑁
    𝑎 𝑁 = 𝑎0 +                                 𝑎𝑁=
               2                                   2

              𝑁             𝑎0 = 0, 𝑏0 = 0          𝑁
    𝑏 𝑁 = 𝑏0 + 𝜎 𝑀𝐿 2                          𝑏 𝑁 = 𝜎 𝑀𝐿 2
              2                                     2                59
計算の補足
                  1       1
             𝑝 𝜎 ∝ ⇒ 𝑝 𝜆 ∝ の証明
                  𝜎        𝜆
                                    2
             1           𝑥− 𝜇
 𝑝 𝜎 =           1 exp −  2𝜎 2
         2𝜋𝜎 2   2
 𝜆 = 1/𝜎 2 とおくと,
      −1/2 ,
               𝑑𝜎   1 −3
 𝜎= 𝜆             =− 𝜆 2
               𝑑𝜆   2
 したがって,
           1
          𝜆2           𝜆 𝑥− 𝜇   2         1 −3/2
 𝑝 𝜆 =         1 exp −                  −   𝜆
                          2               2
        2𝜋     2
       1
 𝑝 𝜆 ∝                                             60
       𝜆
61   2.5 ノンパラメトリック法
     •   ヒストグラム密度推定法
     •   カーネル密度推定法
     •   最近傍法
ノンパラメトリック法

      パラメトリック : 少数のパラメータから
                確率変数の分布の形状を決める
    ノンパラメトリック : 分布の形状が制限されず,
                データによって形状が決まる

   パラメトリックなアプローチ
                      仮定した分布が適切でない場合
       確率分布の形状を仮定    予測性能が悪くなりうる

   ノンパラメトリックなアプローチ
                      分布の形状について
       確率密度関数の形が
        データに依存して決まる   わずかな仮定しかない

                                   62
ヒストグラム密度推定法
         記号の定義
           𝑥 ∶    連続変数
           ∆𝑖 ∶   𝑖番目の幅
           𝑛𝑖 ∶   𝑖番目の観測値の数
           𝑁 ∶    観測値の総数


         確率密度
                      𝑛𝑖
             𝑝𝑖 =
                     𝑁∆ 𝑖


                               63
ヒストグラム密度推定法
   ∆の値による推定の変化
       ∆は適切な値に設定しないと分布の特徴を捉えきれない




                               64
ヒストグラム密度推定法
   利点
     一度ヒストグラムを求めると,元データを廃棄できる
      →大規模データに有利
     データが逐次的に与えられた時に容易に適用できる

   欠点
     推定した密度が区間の縁で不連続になる
     次元数が増えると,指数的に区間の総数が増え,計算
      規模が増大する(次元の呪い)

ヒストグラム法は1次元か2次元のデータの可視化には役に立つが
他のほとんどの密度推定の応用問題には適さない
                                 65
ヒストグラム密度推定法
   ヒストグラム密度推定法から分かること
       特定の位置の確率密度を推定するにはその点の近傍の
        データ点も考慮すべき
         近傍の特性は区間によって定義されている
         区間の幅→平滑化パラメータ



       平滑化パラメータの値は,大きすぎず,小さすぎず適切な
        値にすべき
           cf. 多項式曲線フィッティングのモデル複雑度の選択


                                         66
近傍を考慮した密度推定
   目的
       ある𝐷次元のユークリッド空間中の未知の確率密度𝑝 𝑥 から,
        観測値の集合が得られている.この集合から𝑝(𝑥)を推定
xを含むある小さな領域Rに割り当てられた確率Pは

𝑃=          𝑝 𝒙 𝑑𝒙
        𝑅
p(x)から得られたN個の観測値からなるデータ集合を集める
各データ点が領域R中にある確率はP
→R内の点の総数Kは二項分布に従う
                  𝑁!
Bin K N, P) =            𝑃 𝐾 (1 − 𝑃) 𝑁−𝐾
              𝐾! 𝑁 − 𝐾 !
                                           67
近傍を考慮した密度推定

𝐸[𝐾/𝑁] = 𝑃
𝑣𝑎𝑟[𝐾/𝑁] = 𝑃(1 − 𝑃)/𝑁
Nが大きい時,𝑣𝑎𝑟 𝐾/𝑁 ≒ 0より,
𝐾 ≅ 𝑁𝑃
また,Rが,確率密度p(x)がこの領域内でほぼ一定とみなせるほど
十分に小さいと仮定できる時,
P≅ 𝑝 𝒙 𝑉     (ただし,𝑉は𝑅の体積)
よって,
       𝐾       領域Rは近似的に密度が一定とみなせるほど小さく
𝑝(𝑥) =
       𝑁𝑉      二項分布が鋭く尖るほど十分な量のKが存在する
                                     68
近傍を考慮した密度推定

                    𝐾
             𝑝(𝑥) =
                    𝑁𝑉

Vを固定し,Kを推定               Kを固定し,Vを推定



カーネル密度推定法                K近傍法



  Nが大きくなる時Vが縮小し,Kが大きくなるなら,
  N→∞で,どちらも真の確率密度に収束する                69
カーネル密度推定法
   記号の定義
       𝑥   ∶ 確率密度を求めたいデータ点
       𝑅   ∶ 𝑥を中心とした超立方体
                           1
                1, 𝑢 𝑖 ≦     ,   𝑖 = 1,2, … 𝐷の時
       𝑘 𝑢 =              2
                0,それ以外の時
         カーネル関数の一例
         Parzen窓と呼ばれる
         𝑘((𝒙 − 𝒙 𝑛 )/ℎ)は,xを中心とする一変がhの立方体の内部に,
          データ点𝒙 𝑛 があれば1, そうでなければ0となる関数


                                                  70
カーネル密度推定法

立方体内部の総点数は                         結果の解釈
      𝑁                              1.求めたいデータ点の近傍
             𝒙− 𝒙𝑛
𝐾=         𝑘                          (超立方体の範囲)にある
              ℎ
     𝑛=1                              データ点の数を考慮
      𝐾
𝑝 𝑥 =    , 𝑉 = ℎ 𝐷 より,
      𝑁𝑉
                                     2.
                                       各データ点の近傍に,
推定確率密度は                               求めたいデータ点を含む
             𝐷
       1           1    𝒙− 𝒙𝑛         データ点の数を考慮
𝑝(𝑥) =              𝐷 𝑘
       𝑁          ℎ      ℎ
            𝑛=1


                                                    71
カーネル密度推定法
   Parzen窓の問題点
       立方体の”縁”で確率密度が不連続となってしまう
   解決策
       ガウスカーネルを使う
                                         2
                            𝑥 𝑖 − 𝑥𝑗
        𝑘 𝑥 𝑖, 𝑥𝑗   = exp −
                               2ℎ2
       確率密度モデルは以下の通り
                      𝑁                                2
               1             1              𝑥 𝑖 − 𝑥𝑗
        𝑝(𝑥) =                        exp −
               𝑁           2𝜋ℎ2   1/2          2𝜎 2
                     𝑛=1

                                                           72
カーネル密度推定法
   ℎの値による推定の変化
       小さくしすぎるとノイズが多くなり,大きくしすぎると過剰
        に平滑化されてしまう




                                      73
カーネル密度推定法
   カーネル関数
       カーネル関数は,以下の条件を満たす任意の関数
        𝑘(𝒖) ≧ 0
          𝑘 𝒖 𝑑𝒖 = 1


   カーネル密度推定法の利点・欠点
     訓練段階では単に訓練集合を保存しておけばよい
     密度の評価にかかる計算コストがデータ集合の大きさ
      に比例

                                 74
最近傍法
   カーネル密度推定法の問題点
       カーネル幅(密度推定の粒度)を決めるパラメータℎが
        すべてのカーネルで一定となっている
         ℎが大きいと,全体的に平滑化される
         ℎが小さいと,全体的にノイズの多い推定




   解決策
       データ空間内の位置に応じてℎを変える
        =最近傍法

                                    75
K近傍法

                𝐾    Kを固定し,Vを推定
         𝑝(𝑥) =                   K近傍法
                𝑁𝑉

   K近傍法
       𝑝(𝑥)を推定したい点xを中心とした小球を考え,その
        半径を,𝐾個のデータ点を含むようになるまで広げる.
                              𝐾
       この時の体積を𝑉とし, 𝑝(𝑥) =       から密度推定
                              𝑁𝑉




                                          76
K近傍法
   Kの値による推定の変化
       小さくしすぎるとノイズが多くなり,大きくしすぎると過剰
        に平滑化されてしまう




                                      77
K近傍法を用いたクラス分類
   目的
       クラス𝐶 𝑘 中に𝑁 𝑘 個の点があり,点の総数は𝑁である
        データ集合に対し,新たな点𝑥を分類する
   分類方針
     𝑥を中心として,クラスを考えずに𝐾個の点を含む球を
      見つける
     各クラスについてベイズの定理を適用し,各クラスに
      属する事後確率を求める
     事後確率が最大のクラスに割り当てる



                                        78
K近傍法を用いたクラス分類

𝑥を中心とし,𝐾個の点を含む球が,体積𝑉であり,
クラスC 𝑘 に属する点をそれぞれ𝐾 𝑘 個含んでいたとする


この時,各クラスの密度,クラス条件のない密度,
クラスの事前分布の推定値はそれぞれ
               𝐾𝑘
𝑝 𝒙 𝐶 𝑘) =
              𝑁𝑘 𝑉
          𝐾
𝑝(𝒙) =
          𝑁𝑉
           𝑁𝑘
𝑝(𝐶 𝑘 ) =                        79
            𝑁
K近傍法を用いたクラス分類

ベイズの定理より,
           𝑝 𝑥 𝐶 𝑘 )𝑝(𝐶 𝑘 )    𝐾 𝑘 𝑁 𝑘 𝑁𝑉   𝐾𝑘
𝑝 𝐶 𝑘 𝑥) =                  =             =
               𝑝(𝒙)           𝑁𝑘 𝑉 𝑁 𝐾      𝐾
誤分類の確率を最小にする ⇒ 事後確率を最大化する

   分類手順
     1. 訓練データ集合から𝐾近傍の点集合を選ぶ
     2. この集合の中で最も多数派にクラスを割り当てる.
         ただし,同順位だった場合はランダム

   𝐾 = 1の時を最近傍則という
                                                 80
K近傍法を用いたクラス分類




http://www.nag-j.co.jp/nagdmc/knn.htmから引用   81
K近傍法の例
   Kの値を変えて分類
       Kによって平滑化の度合いが調整されている




                               82
その他の特徴
   最近傍則の特徴
     𝑁 → ∞の極限で,誤分類率は,真のクラス分布を
      用いた最適な分類器で達成可能な最小誤分類率の,
      たかだか2倍にしかならない
     単純だけど意外とすごい



   K近傍法・カーネル密度推定法共通の特徴
       データ集合全体を保持しなくてはならない
           データ集合が大きいと膨大な計算量
       探索用の木構造の構築で対処可
                                 83
参考サイト
   朱鷺の杜Wiki
       http://ibisforest.org/index.php?FrontPage
   Bishopさんのサイト
       http://research.microsoft.com/en-
        us/um/people/cmbishop/PRML/
   prml_note@wiki
       http://www43.atwiki.jp/prml_note/pages/1.html
   十分統計量について
       http://www012.upp.so-
        net.ne.jp/doi/math/anova/sufficientstatistic.pdf
                                                           85

Más contenido relacionado

La actualidad más candente

PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2matsuolab
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半Ohsawa Goodfellow
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3matsuolab
 
Prml 2_3_8
Prml 2_3_8Prml 2_3_8
Prml 2_3_8brownbro
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7sleepy_yoshi
 
PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)tetsuro ito
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章Takushi Miki
 
PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28kurotaki_weblab
 
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)Itaru Otomaru
 
PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似KokiTakamiya
 
PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布Yuki Soma
 
PRML読書会#4資料+補足
PRML読書会#4資料+補足PRML読書会#4資料+補足
PRML読書会#4資料+補足Hiromasa Ohashi
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6禎晃 山崎
 
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう 「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう Junpei Tsuji
 
PRML 2.3 ガウス分布
PRML 2.3 ガウス分布PRML 2.3 ガウス分布
PRML 2.3 ガウス分布KokiTakamiya
 
Prml4.4 ラプラス近似~ベイズロジスティック回帰
Prml4.4 ラプラス近似~ベイズロジスティック回帰Prml4.4 ラプラス近似~ベイズロジスティック回帰
Prml4.4 ラプラス近似~ベイズロジスティック回帰Yuki Matsubara
 

La actualidad más candente (20)

PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
Prml 2_3_8
Prml 2_3_8Prml 2_3_8
Prml 2_3_8
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
 
Prml
PrmlPrml
Prml
 
PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28
 
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
 
PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似
 
PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布
 
PRML読書会#4資料+補足
PRML読書会#4資料+補足PRML読書会#4資料+補足
PRML読書会#4資料+補足
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6
 
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう 「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
 
PRML 2.3 ガウス分布
PRML 2.3 ガウス分布PRML 2.3 ガウス分布
PRML 2.3 ガウス分布
 
Prml4.4 ラプラス近似~ベイズロジスティック回帰
Prml4.4 ラプラス近似~ベイズロジスティック回帰Prml4.4 ラプラス近似~ベイズロジスティック回帰
Prml4.4 ラプラス近似~ベイズロジスティック回帰
 

Similar a Prml2.1 2.2,2.4-2.5

混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)Takao Yamanaka
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
データ解析10 因子分析の基礎
データ解析10 因子分析の基礎データ解析10 因子分析の基礎
データ解析10 因子分析の基礎Hirotaka Hachiya
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へZansa
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングtakutori
 
PRML chap.10 latter half
PRML chap.10 latter halfPRML chap.10 latter half
PRML chap.10 latter halfNarihira Takuya
 
ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学ssuserf4860b
 
基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)TeranishiKeisuke
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章Shuyo Nakatani
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章hakusai
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎Hirotaka Hachiya
 
ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ssuserf4860b
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習Shota Ishikawa
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image AnalysisYuki Shimada
 

Similar a Prml2.1 2.2,2.4-2.5 (20)

混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
Prml1.2.4
Prml1.2.4Prml1.2.4
Prml1.2.4
 
PRML 2.3.1-2.3.2
PRML 2.3.1-2.3.2PRML 2.3.1-2.3.2
PRML 2.3.1-2.3.2
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
データ解析10 因子分析の基礎
データ解析10 因子分析の基礎データ解析10 因子分析の基礎
データ解析10 因子分析の基礎
 
PRML 8.4-8.4.3
PRML 8.4-8.4.3 PRML 8.4-8.4.3
PRML 8.4-8.4.3
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
PRML chap.10 latter half
PRML chap.10 latter halfPRML chap.10 latter half
PRML chap.10 latter half
 
ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学
 
基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章
 
PRML 2.3節
PRML 2.3節PRML 2.3節
PRML 2.3節
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
 
ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image Analysis
 
Assignment1-3
Assignment1-3Assignment1-3
Assignment1-3
 

Prml2.1 2.2,2.4-2.5

  • 2. 発表概要  2.1 二値変数  2.2 多値変数  2.3 ガウス分布  2.4 指数型分布族  2.5 ノンパラメトリック法 2
  • 3. この章の目的  密度推定  観測値の有限集合𝑥1 , … , 𝑥 𝑁 が与えられた時,確率変数𝑥 の確率分布𝑝(𝑥)をモデル化すること  このような確率分布は無限に存在しうる  パラメトリック  分布の形を仮定し,観測値に合わせてパラメータを調整する 手法  ノンパラメトリック  分布の形を仮定せず,観測値によって分布を決める手法 3
  • 4. 4 2.1 二値変数 • ベルヌーイ分布 • 二項分布 • ベータ分布
  • 5. ベルヌーイ分布 – 記号の定義  二値確率変数 x ∈ {0,1}  ex. コインを投げて,表なら 𝑥 = 1 裏なら 𝑥 = 0  パラメータ μ  𝑥 = 1となる確率 0≦ 𝜇 ≦1  𝑝 𝑥 = 1 𝜇) = 𝜇, 𝑝 𝑥 = 0 𝜇 =1− 𝜇 計算例:𝜇 = 0.7の時 歪んだコインがある.このコインが表となる確率は0.7, 裏となる確率は0.3である.この時, 𝑝 𝑥 = 1 𝜇 = 0.7) = 0.7 𝑝 𝑥 = 0 𝜇 = 0.7 = 0.3 5
  • 6. ベルヌーイ分布  ベルヌーイ分布  Bern x 𝜇) = 𝜇 𝑥 (1 − 𝜇)1−𝑥 (2.2)  確率𝜇で表が出るコインを一回投げ,表(裏)が出る確率  特徴  𝐸[𝑥] = 𝜇 (2.3)  𝑣𝑎𝑟[𝑥] = 𝜇(1 − 𝜇) (2.4) 計算例:𝜇 = 0.7の時 歪んだコインがある.このコインが表となる確率は0.7, 裏となる確率は0.3である.この時, 𝐵𝑒𝑟𝑛 𝑥 = 1 𝜇 = 0.7) = 0.71 (1 − 0.7)0 = 0.7 𝐵𝑒𝑟𝑛 𝑥 = 0 𝜇 = 0.7 = 0.70 (1 − 0.7)1 = 0.3 6
  • 7. 複数回観測した時の尤度関数  設定 D = 𝑥1 , … , 𝑥 𝑁  𝑥 𝑖 は,𝑝(𝑥 | 𝜇)から独立に得られたと仮定  尤度関数  𝑝 𝐷 𝜇) = 𝑛=1 𝑝 𝑥 𝑛 𝜇) = 𝑛=1 𝜇 𝑥 𝑛 (1 − 𝜇)1−𝑥 𝑛 (2.5) 𝑁 𝑁  𝜇が与えられた時,どのくらい,観測したデータが生起 しやすいかを表す 7
  • 8. パラメータ𝜇の値を最尤推定  対数尤度 𝑁 ln 𝑝(𝐷 | 𝜇) = ln 𝑝 𝑥 𝑛 𝜇) 𝑛=1 𝑁 = { 𝑥 𝑛 ln 𝜇 + 1 − 𝑥 𝑛 ln 1 − 𝜇 } (2.6) 𝑛=1 𝑁 = ln 𝜇 − ln 1 − 𝜇 𝑥 𝑛 + 𝑁 ln(1 − 𝜇) 𝑛=1 𝑁  この式は, 𝑛=1 𝑥 𝑛 のみに依存しているため,この式は, この分布の下,このデータに対する十分統計量の例 8
  • 9. パラメータ𝜇の値を最尤推定  最尤推定  ln 𝑝 𝐷 𝜇) を𝜇で偏微分して0とおいて解く 1 𝑁  𝜇 𝑀𝐿 = 𝑛=1 𝑥𝑛 (2.7) 𝑁  サンプル平均と呼ばれる  結果の違った見方  データ集合中で,𝑥 = 1になる回数を𝑚とすると, 𝑚 データ集合中での表の観測値の割合が 𝜇 𝑀𝐿 = (2.8) 𝑁 表が出る確率となる 9
  • 10. 二項分布  記号の定義  𝑚 : 大きさ𝑁のデータ集合のうち,𝑥 = 1となる観測値の数  二項分布 𝑁  𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝑚 𝜇 𝑚 (1 − 𝜇) 𝑁−𝑚 (2.9)  𝑁 = 𝑁! (2.10) 𝑚 𝑁−𝑚 !𝑚!  確率𝜇で表が出るコインを𝑁回投げた時, 表が出る回数𝑚の確率分布  特徴  𝐸[𝑚] = 𝑁𝜇 (2.11)  𝑣𝑎𝑟[𝑚] = 𝑁𝜇(1 − 𝜇) (2.12) 10
  • 12. ベータ分布  ベルヌーイ分布のパラメータ𝜇の最尤推定  3回表が出ると,以降ずっと表が出る? 𝑁 1  過学習の問題 𝜇 𝑀𝐿 = 𝑥𝑛 𝑁 𝑛=1  ベイズ主義的に扱う  事前分布𝑝(𝜇)を導入する必要性 𝑁 𝑥 𝑛 (1 − 𝑝 𝐷 𝜇) = 𝜇 𝜇)1−𝑥 𝑛  事後分布が事前分布と同様の 𝑛=1 形式となる事前分布を選びたい  共役性  𝜇と(1 − 𝜇) のべきに比例する事前分布を導入 12
  • 13. ベータ分布 Γ(a + b) 𝑎−1 𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) = 𝜇 (1 − 𝜇) 𝑏−1 (2.13) Γ a Γ(b)  特徴 𝑎  𝐸[𝜇] = (2.15) 𝑎+𝑏 𝑎𝑏  𝑣𝑎𝑟[𝜇] = (2.16) 𝑎+𝑏 2 (𝑎+𝑏+1)  𝑎, 𝑏は,𝜇の分布を決めるので,ハイパーパラメータと 呼ばれる 13
  • 15. 事後分布を求める  事前分布 Γ(a + b) 𝑎−1 𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) = 𝜇 (1 − 𝜇) 𝑏−1 Γ a Γ(b)  尤度関数 𝑁 𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝜇 𝑚 (1 − 𝜇) 𝑙 (𝑙 = 𝑁 − 𝑚) 𝑚  事後分布 Γ(m + a + b + l) 𝑚+𝑎−1 𝑝 𝜇 𝑚, 𝑙, 𝑎, 𝑏) = (1 − 𝜇) 𝑙+𝑏−1 𝜇 Γ m + a Γ(b + l) (2.18)  𝑥 = 1の観測値が𝑚個,𝑥 = 0の観測値が𝑙個あった時, 事後分布を求めるには,𝑎を𝑚, 𝑏を𝑙だけ増やせばよい  𝑎, 𝑏はそれぞれ,𝑥 = 1, 𝑥 = 0の有効観測数と解釈できる 15
  • 16. 逐次学習  事後分布の特徴  事後分布は,事前分布と形式が同じなので, 事後分布を新たな事前分布として扱える  逐次学習  データがひとつづつ与えられ,データが与えられる度に パラメータを更新していく学習法 𝑥1 𝑥2 𝑝(𝜇) 𝑝(𝜇|𝑥1 ) 𝑝(𝜇|𝑥1,2 ) 16
  • 17. 逐次学習の例 x=1を1つ 𝑎=2 観測した時の 𝑏=2 尤度関数 β分布 (N=m=1の 二項分布) 𝑎=3 𝑏=2 β分布 17
  • 18. 逐次学習の長所・短所  長所  実時間での学習に利用できる  毎観測値ごとに事後確率を算出するので,全てのデータが なくともよい  大規模データ集合に有用  観測値の処理が終わった後,そのデータはもう捨ててよい  短所  学習の早さと,正しい解への収束性のトレードオフ 18
  • 19. 𝑥の予測分布  これまでの議論  𝑝(𝜇 | 𝐷)の推定  観測データ集合𝐷から,パラメータ𝜇の確率分布を推定  ここからの議論  𝑝(𝑥 = 1 | 𝐷)の推定  観測データ集合𝐷から,𝑥 = 1となる確率を推定 19
  • 20. 𝑥の予測分布 1 𝑝(𝑥 = 1 | 𝐷) = 𝑝 𝑥=1 𝜇)𝑝 𝜇 𝐷) 𝑑𝜇 0 1 = 𝜇𝑝 𝜇 𝐷) 𝑑𝜇 0 = 𝑬 𝜇 𝐷] (2.19) 𝑚+ 𝑎 = (2.20) 𝑚+ 𝑎+ 𝑙+ 𝑏 観測値のうち,𝑥 = 1に相当するものの割合  𝑚, 𝑙がとても大きい時,最尤推定の結果と一致する  このような特性は,多くの例で見られる  有限のデータ集合では,事後平均は事前平均と μ の最尤推定量の間になる →演習2.7 20
  • 21. 事後分布の特性  事後分布(ベータ分布)の分散 𝑎𝑏  𝑣𝑎𝑟 𝜇 = 𝑎+𝑏 2 𝑎+𝑏+1  𝑎 → ∞や𝑏 → ∞の時,分散は0に近づく  多くのデータを学習すればするほど, 一般的に事後分布の不確実性は減少する? 21
  • 22. 平均・分散の不確実性  事前平均と事後平均 𝐸 𝜽 𝜽 = 𝐸 𝐷 [𝐸 𝜽 𝜽 | 𝐷 ] (2.21)  𝜽の事後平均を,データを生成する分布上で平均すると, 𝜽の事前平均に等しい  事前分散と事後分散 𝑣𝑎𝑟 𝜃 𝜃 = 𝐸 𝐷 [𝑣𝑎𝑟 𝜃 𝜃 𝐷]] + 𝑣𝑎𝑟 𝐷 [𝐸 𝐷 𝜃 𝐷]] (2.24) 事前分散 事後分散の平均 事後平均の分散 の平均  平均的には 事前分散 > 事後分散  成り立たないデータセットもある 22
  • 23. 23 2.2 多値変数 • 多項分布 • ディリクレ分布
  • 24. 例えば  サイコロを投げる  6通りの状態がありうる  1-of-K 符号化法  K個の状態を取りうる離散変数を扱う際に用いられる  要素の一つ𝑥 𝑘 のみが1で他が0 𝐾  𝑘=1 𝑥 𝑘 = 1を満たす  ex. サイコロの目を観測値𝑥として,3が出た時  𝑥 = (0,0,1,0,0,0) 𝑇 24
  • 25. 歪んだサイコロ  記号の定義  𝜇 𝑘 ∶ 𝑥 𝑘 = 1となる確率  正確なサイコロの場合 1 1 1 1 1 1  𝝁=( , , , , , ) 6 6 6 6 6 6  シゴロ賽の場合 1 1 1  𝝁 = (0,0,0, , , ) 3 3 3  ピンゾロ賽の場合  𝝁 = (1,0,0,0,0,0) 25
  • 26. 多項分布  𝑥の分布 𝐾 𝑥𝑘 ベルヌーイ分布を2種類以上の 𝑝 𝑥 𝜇) = 𝜇𝑘 (2.26) 出力に一般化したもの 𝑘=1  観測値が複数あった場合  𝑁個の独立な観測値𝑥1 … 𝑥 𝑁  尤度関数 𝑁 𝐾 𝐾 𝐾 𝑝 𝐷 𝜇) = 𝜇𝑘 𝑥 𝑛𝑘 = 𝜇 𝑘( 𝑛 𝑥 𝑛𝑘 ) = 𝜇𝑘 𝑚𝑘 𝑛=1 𝑘=1 𝑘=1 𝑘=1 (2.29) 𝑚𝑘 = 𝑥 𝑛𝑘  : この分布の十分統計量 26 𝑛
  • 27. 𝝁の最尤推定  制約付き対数尤度最大化  ラグランジュの未定乗数法を用いる 𝐾 𝐾 𝜇 𝑘 = 1 に代入して, 𝑓= 𝑚 𝑘 ln 𝜇 𝑘 + 𝜆 𝜇𝑘−1 𝑘 𝑘=1 𝑘=1 𝑚𝑘 𝜕𝑓 𝑚𝑘 − =1 = + 𝜆 𝜆 𝜕𝜇 𝑘 𝜇𝑘 𝑘 𝜕𝑓 − 𝑚𝑘 = 𝜆 = 0 より, 𝜕𝜇 𝑘 𝑘 𝑚𝑘 𝜆 = −𝑁 𝜇𝑘 =− 𝑚𝑘 𝜆 𝜇 𝑘 𝑀𝐿 = 𝑁 27
  • 28. 多項分布 𝐾 𝑁 𝑚𝑘 𝑀𝑢𝑙𝑡 𝑚1 , … 𝑚 𝐾 𝝁, 𝑁) = 𝜇𝑘 (2.34) 𝑚1 𝑚2 … 𝑚 𝐾 𝑘=1 𝑁 𝑁! ただし, = 𝑚1 𝑚2 … 𝑚 𝐾 𝑚1 ! 𝑚2 ! … 𝑚 𝐾 ! 𝐾 𝑚𝑘 = 𝑁 𝑘=1  パラメータ𝜇と観測値の総数𝑁が与えられた条件の下, 𝑚1 … 𝑚 𝐾 の同時確率 28
  • 29. ディリクレ分布  多項分布の𝜇 𝑘 についての事前分布  共役分布の形は以下の通り 𝐾 𝛼 𝑘 −1 (2.37) 𝑝 𝝁 𝜶) ∝ 𝜇𝑘 𝑘=1 ただし,0 ≦ 𝜇 𝑘 ≦ 1, 𝑘 𝜇 𝑘 = 1 ハイパーパラメータ 𝜶 = (𝛼1 , … , 𝛼 𝐾 ) 𝑇  ディリクレ分布 𝐾 Γ(𝛼0 ) 𝐷𝑖𝑟 𝝁 𝜶) = 𝜇𝑘 𝛼 𝑘 −1 (2.38) Γ 𝛼1 … Γ(𝛼 𝐾 ) 𝑘=1 ただし,𝛼0 = 𝑘 𝛼𝑘 29
  • 30. 共役性の確認  事前分布 𝐾 Γ(𝛼0 ) 𝛼 𝑘 −1 𝑝 𝝁 𝜶) = 𝜇𝑘 (2.38) Γ 𝛼1 … Γ(𝛼 𝐾 ) 𝑘=1  尤度関数 𝐾 𝑁 𝑝 𝐷 𝝁) = 𝑚1 𝑚2 … 𝑚 𝐾 𝜇𝑘 𝑚𝑘 (2.34) 𝑘=1  事後分布 𝑝 𝝁 𝐷, 𝜶) = 𝐷𝑖𝑟 𝝁 𝜶 + 𝒎) 𝐾 Γ(𝛼0 + 𝑁) = 𝜇𝑘 𝛼 𝑘 +𝑚 𝑘 −1 (2.41) Γ 𝛼1 + 𝑚1 … Γ(𝛼 𝐾 + 𝑚 𝐾 ) 30 𝑘=1
  • 31. 31 2.4 指数型分布族 • 最尤推定と十分統計量 • 共役事前分布 • 無情報事前分布
  • 32. 指数型分布族とは 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }  𝜼:分布の自然パラメータ  𝒙 : ベクトル or スカラー,離散 or 連続  𝒖 𝒙 ∶ 𝒙の任意の関数  𝑔 𝜼 ∶ 正規化係数. 𝑔 𝜼 ℎ 𝒙 exp{𝜼 𝑇 𝒖 𝒙 } 𝑑𝒙 = 1  指数型分布族の例  ベルヌーイ分布  多項分布 本当に指数型分布族なのか確かめる →指数型分布族の形式で書けるか調べる  ガウス分布 32
  • 33. ベルヌーイ分布は指数型分布族?(1/2) 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 } 𝑝(𝑥 | 𝜇) = Bern x 𝜇) = 𝜇 𝑥 (1 − 𝜇)1−𝑥 𝑝(𝑥 | 𝜇) = exp{𝑥 log 𝜇 + 1 − 𝑥 log 1 − 𝜇 } 右辺の対数の指数をとる 𝜇   = 1 − 𝜇 exp log 𝑥 1− 𝜇 𝜇 ∴ 𝜂 = log 指数型分布族の式と係数比較 1− 𝜇 1 𝜇= μについて解く 1 + exp(−𝜂) 33 → ロジスティックシグモイド関数 𝜎(𝜂)
  • 34. ベルヌーイ分布は指数型分布族?(2/2) 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 } 𝜇 𝑝(𝑥 | 𝜇) = 1 − 𝜇 exp log 𝑥 1− 𝜇 𝑝(𝑥 | 𝜂) = 𝜎(−𝜂)exp 𝜂𝑥 ∴ 𝑢(𝑥) = 𝑥   ℎ(𝑥) = 1      𝑔(𝜂) = 𝜎(−𝜂) より,ベルヌーイ分布は指数型分布族. 34
  • 35. 多項分布は指数型分布族?(1/8) 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 } 𝑀 カテゴリカル分布 𝑥𝑘 𝑝(𝒙 | 𝜇) = 𝑚𝑢𝑙𝑡 𝐱 𝜇) = 𝜇𝑘 𝑘=1 𝑀 𝑀 𝑥𝑘 = exp ln 𝜇𝑘 = exp 𝑥 𝑘 ln 𝜇 𝑘 𝑘=1 𝑘=1 ここで 𝜂 𝑘 = ln 𝜇 𝑘 , 𝜼 = (𝜂1 , 𝜂2 , … , 𝜂 𝑀 ) 𝑇 と定義すると, 𝑢(𝒙) = 𝒙 ℎ(𝒙) = 1 𝑔(𝜼) = 1 𝑀 35 ただし, 𝑘=1 𝜇 𝑘 = 1より,ηは独立ではない
  • 36. 多項分布は指数型分布族?(2/8)  前スライドのまとめ  多項分布を指数型分布族の形に書き表すことができた  しかし,𝜂は独立ではない  なので 𝑀  𝑘=1 𝜇 𝑘 = 1を用いて,𝜇 𝑀 を 𝜇 𝑘 (𝑘 = 1,2, … 𝑀 − 1)で 表し, 𝜇 𝑀 を消去する  他にも以下の制約がある 𝑀−1 0 ≦ 𝜇 𝑘 ≦ 1, 𝜇𝑘 ≦1 36 𝑘=1
  • 37. 多項分布は指数型分布族?(3/8) 𝑀 exp 𝑥 𝑘 ln 𝜇 𝑘 pp.73 上の式より, 𝑘=1 𝑀 𝑀−1 𝑥𝑘 = 1 𝑘=1 = exp 𝑥 𝑘 ln 𝜇 𝑘 + 𝑥 𝑀 ln 𝜇 𝑀 𝑘=1 𝑀−1 𝑀−1 𝑀−1 = exp 𝑥 𝑘 ln 𝜇 𝑘 + 1 − 𝑥 𝑘 ln 1 − 𝜇𝑘 𝑘=1 𝑘=1 𝑘=1 𝑀−1 𝑀−1 𝜇𝑘 = exp 𝑥 𝑘 ln 𝑀−1 + ln 1 − 𝜇𝑘 1− 𝑗=1 𝜇𝑗 𝑘=1 𝑘=1 37
  • 38. 多項分布は指数型分布族?(4/8) 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 } 𝑀−1 𝑀−1 𝜇𝑘 exp 𝑥 𝑘 ln 𝑀−1 + ln 1 − 𝜇𝑘 1− 𝑗=1 𝜇𝑗 𝑘=1 𝑘=1 𝑀−1 𝑀−1 𝜇𝑘 = 1− 𝜇 𝑘 exp 𝑥 𝑘 ln 𝑀−1 1− 𝑗=1 𝜇𝑗 𝑘=1 𝑘=1 よって, 𝑀−1 𝜇𝑘 𝜂 𝑘 = ln 𝑀−1 1− 𝜇 𝑘 を求めるため, 1− 𝑗=1 𝜇𝑗 𝑘=1 𝜇 𝑘 = ⋯ の形にする 38
  • 39. 多項分布は指数型分布族?(5/8) 𝜇𝑘 𝜂 𝑘 = ln 𝑀−1 1− 𝑗=1 𝜇𝑗 𝜇𝑘 exp(𝜂 𝑘 ) = 𝑀−1 両辺の指数をとる 1− 𝑗=1 𝜇 𝑗 𝑀−1 𝜇 𝑘 = exp(𝜂 𝑘 ) 1 − 𝜇𝑗 𝑗=1 𝑀−1 𝑀−1 𝑀−1 𝜇𝑘 = 1− 𝜇𝑗 exp(𝜂 𝑘 ) k=1からM-1まで足し合わせる 𝑘=1 𝑗=1 𝑘=1 39
  • 40. 多項分布は指数型分布族?(6/8) 𝑀−1 𝑀−1 𝑘=1 exp(𝜂 𝑘 ) 𝜇𝑘 = 𝑀−1 赤字について解く 1+ 𝑘=1 exp(𝜂 𝑘 ) 𝑘=1 𝑀−1 𝜇 𝑘 = exp(𝜂 𝑘 ) 1 − 𝜇 𝑗 に代入して, 𝑗=1 exp(𝜂 𝑘 ) 𝜇𝑘 = 𝑀−1 1 + 𝑘=1 exp(𝜂 𝑘 ) この式を,ソフトマックス関数,正規化指数関数と呼ぶ. 40
  • 41. 多項分布は指数型分布族?(7/8) 𝑀−1 𝑀−1 𝜇𝑘 𝑝(𝑥 | 𝜇) = 1 − 𝜇 𝑘 exp 𝑥 𝑘 ln 𝑀−1 , 1− 𝑗=1 𝜇𝑗 𝑘=1 𝑘=1 𝜇𝑘 𝜂 𝑘 = ln 𝑀−1 , 1− 𝜇𝑗 𝑗=1 exp(𝜂 𝑘 ) 𝜇𝑘 = 𝑀−1 1 + 𝑘=1 exp(𝜂 𝑘 ) 𝑀−1 𝑀−1 𝑘=1 exp 𝜂 𝑘 ⇒ 1− 𝜇𝑘 =1− 𝑀−1 より, 1+ 𝑘=1 exp 𝜂 𝑘 𝑘=1 −1 𝑀−1 𝑝 𝒙 𝜼) = 1 + exp(𝜂 𝑘 ) exp 𝜼 𝑇 𝒙 𝑘=1 41
  • 42. 多項分布は指数型分布族?(8/8) 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 } −1 𝑀−1 𝑝 𝒙 𝜼) = 1 + exp(𝜂 𝑘 ) exp 𝜼 𝑇 𝒙 𝑘=1 𝑇 𝜼 = 𝜂1 , 𝜂2 , … , 𝜂 𝑀−1 , 0 𝑢(𝒙) = 𝒙 ℎ(𝒙) = 1 −1 𝑀−1 𝑔(𝜼) = 1+ exp(𝜂 𝑘 ) 𝑘=1 とすると,多項分布は指数型分布族のひとつ 42
  • 43. ガウス分布は指数型分布族?(1/3) 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 } 1 (𝑥 − 𝜇)2 𝑝 𝑥 𝜇, 𝜎) = exp − (2𝜋𝜎 2 )1/2 2𝜎 2 1 1 2 𝜇 𝜇2 = exp − 2 𝑥 + 2 𝑥 − 2 (2𝜋𝜎 2 )1/2 2𝜎 𝜎 2𝜎 𝑇 1 1 𝜇2 𝜇/𝜎 2 𝑥 = exp − 2 exp (2𝜋)1/2 𝜎 2𝜎 −1/2𝜎 2 𝑥2 1 𝜂1 𝜇/𝜎 2 𝑥 ℎ(𝑥) = 𝑔 𝜼 𝜼= = 𝒖(𝑥) = (2𝜋)1/2 𝜂2 −1/2𝜎 2 𝑥2 43
  • 44. ガウス分布は指数型分布族?(2/3) 𝜂1 𝜇/𝜎 2 𝜼= = 2 より, 𝜂2 −1/2𝜎 1 = (−2𝜂2 )1/2 𝜎 2 𝜂1 𝜇 = 𝜂1 𝜎 = − 2𝜂2 よって, 1 𝜇2 exp − 2 𝜎 2𝜎 𝜂1 2 1 = (−2𝜂2 )1/2 exp − (−2𝜂2 ) 4𝜂2 2 2 𝜂1 2 = (−2𝜂2 )1/2 exp − ← 𝜂で表された! 4𝜂2 44
  • 45. ガウス分布は指数型分布族?(3/3) 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 } 𝑇 1 𝜂1 2 𝜇/𝜎 2 𝑥 𝑝 𝑥 𝜼) = (−2𝜂2 )1/2 exp − exp より (2𝜋)1/2 4𝜂2 −1/2𝜎 2 𝑥2 1 ℎ 𝑥 = 2𝜋 1/2 𝜂1 2 𝑔 𝜂 = (−2𝜂2 )1/2 exp − 4𝜂2 𝜂1 𝜇/𝜎 2 𝑥 𝜼= = 2 , 𝒖 𝑥 = 2 とすると, 𝜂2 −1/2𝜎 𝑥 ガウス分布は指数型分布族のひとつ 45
  • 46. 𝜼の値を最尤推定 正規化条件より, 𝑔 𝜼 ℎ 𝒙 exp{𝜼 𝑇 𝒖 𝒙 } 𝑑𝒙 = 1 𝜼について,両辺の勾配を求めて, (fg)’=f’g+fg’ 𝛻𝑔 𝜼 ℎ 𝒙 exp{𝜼 𝑇 𝒖 𝒙 } 𝑑𝒙 + 𝑔 𝜼 ℎ 𝒙 exp 𝜼 𝑇 𝒖 𝒙 𝒖 𝒙 𝑑𝒙 = 0 𝛻𝑔 𝜼 − = 𝑔 𝜼 ℎ 𝒙 exp 𝜼 𝑇 𝒖 𝒙 𝒖 𝒙 𝑑𝒙 = 𝐸 𝒖 𝒙 𝑔 𝜼 𝐸 𝒖 𝒙 = − 𝛻ln 𝑔 𝜼 𝑢(𝑥)の期待値は,𝑔(𝜂)のみに依存 (𝑢(𝑥)の𝑛次モーメントは𝑔(𝜂)の𝑛階微分で求められる) 46
  • 47. 𝜼の値を最尤推定 独立に同分布に従うデータ集合𝑋 = {𝒙1 , 𝒙2 , … , 𝒙 𝑁 }に対する尤度関数は 𝑁 𝑁 𝑁 exp 𝑝 𝑿 𝜼) = ℎ 𝒙𝑛 𝑔 𝜼 𝜼𝑇 𝒖 𝒙𝑛 𝑛=1 𝑛=1 両辺の対数をとって, 𝑁 𝑁 ln 𝑝 𝑿 𝜼) = ln ℎ 𝒙 𝑛 + 𝑁 ln 𝑔(𝜼) + 𝜼 𝑇 𝒖 𝒙𝑛 𝑛=1 𝑛=1 (𝜂についての勾配) = 0より, 𝑁 𝑁𝛻 ln 𝑔(𝜼 𝑀𝐿 ) + 𝒖 𝒙𝑛 =0 𝑛=1 𝑁 1 −𝛻 ln 𝑔 𝜼 𝑀𝐿 = 𝒖 𝒙𝑛 → この式を解けば𝜼 𝑀𝐿 が得られる 47 𝑁 𝑛=1
  • 48. 十分統計量 𝑁 1 −𝛻 ln 𝑔 𝜼 𝑀𝐿 = 𝒖 𝒙𝑛 𝑁 𝑛=1 𝜼 𝑀𝐿 は 𝑛 𝒖 𝒙 𝑛 のみに依存している → 𝑛 𝒖 𝒙 𝑛 を,𝑝(𝑥 | 𝜂)の十分統計量と呼ぶ  十分統計量の例  ベルヌーイ分布  𝑢 𝑥 = 𝑥より, 𝑥 𝑛 の総和  ガウス分布  𝑢 𝑥 = (𝑥, 𝑥 2 ) 𝑇 より, 𝑥 𝑛 の総和, 𝑥 𝑛 2 の総和 48
  • 49. 指数型分布族の共役事前分布  共役事前分布  尤度関数と掛けて事後分布を求めると,その関数形が同じ になるような事前分布. 指数型分布族 𝑁 𝑁 𝑁 𝑝 𝑿 𝜼) = ℎ 𝒙𝑛 𝑔 𝜼 exp 𝜼𝑇 𝒖 𝒙𝑛 𝑛=1 𝑛=1 に対する共役事前分布は, 𝜈 𝑝 𝜼 𝝌, 𝜈) = 𝑓 𝝌, 𝜈 𝑔 𝜂 exp 𝜈𝜼 𝑇 𝝌 𝑁 𝜈+𝑁 ∵ 𝑝 𝜼 𝑿, 𝝌, 𝜈) ∝ 𝑔 𝜂 exp 𝜼𝑇 𝒖(𝒙 𝑛 ) + 𝑣𝝌 50 𝑛=1
  • 50. これまで出てきた共役事前分布 確率分布 共役事前分布 ベルヌーイ分布(二項分布) ベータ分布 多項分布 ディリクレ分布 ガウス分布の平均(分散は既知) ガウス分布 ガウス分布の精度(平均は既知) ガンマ分布 ガウス分布の分散(平均は既知) 逆ガンマ分布 ガウス分布(平均・精度が未知) ガウス-ガンマ分布 多変量ガウス分布の平均(共分散は既知) ガウス分布 多変量ガウス分布の精度(平均は既知) ウィッシャート分布 多変量ガウス分布の共分散(平均は既知) 逆ウィッシャート分布 多変量ガウス分布(平均・精度が未知) ガウス-ウィッシャート分布 51
  • 51. 無情報事前分布  概要  その事前分布を用いて得られる事後分布に, その事前分布ができるだけ影響しないような事前分布  事前分布に対する知見がない時に用いられる  単純に考えると...  離散変数の時  K個の状態をとりうるなら,各状態を1/𝐾で取ればよい  連続変数の時  分布𝑝 𝑥 𝜆)について, 𝑝(𝜆) = 𝑐𝑜𝑛𝑠𝑡.とすればよい? 52
  • 52. 無情報事前分布 - 𝑝(𝜆)=𝑐𝑜𝑛𝑠𝑡.?  𝑝(𝜆)=𝑐𝑜𝑛𝑠𝑡.という事前分布の問題点  𝜆の定義域が有界でないため, 𝜆上での積分が発散する  変則事前分布(不完全事前分布)と呼ばれる  非線形な変数変換が上手く行えない  ex. 𝑝 𝜆 𝜆 が定数だとする. 𝜆 = 𝜂 2 と変数変換を行うと, 𝑑𝜆 𝑝𝜂 𝜂 = 𝑝𝜆 𝜆 = 𝑝 𝜆 𝜂 2 2𝜂 ∝ 𝜂 𝑑𝜂 η上の密度は定数とはならない. 事後分布が適切(正規化されている)という条件下であれば 使われることも多い 53
  • 53. 無情報事前分布 - 𝑝(𝜆)=𝑐𝑜𝑛𝑠𝑡.?  最尤推定ではこの問題は生じない  尤度関数𝑝(𝑥 | 𝜆)は𝜆について単純な式だから(? ) 例 データ𝑥 𝑖 が,平均𝜇で分散𝜎 2 の正規分布𝑁 𝑥; 𝜇, 𝜎 2 から生じるとする. σ2 を既知とし,平均𝜇を推定する. 事前分布に𝑝(𝜇) = 𝑐𝑜𝑛𝑠𝑡. の分布を考える. この時,事後分布は, p(μ | D)∝p(D | μ)*const. より,事後確率が最大となるμの解は最尤推定解に一致. よって,事前確率は推定に影響を与えない. 54
  • 54. 無情報事前分布の例1  平行移動不変性を持つ事前分布  平行移動不変性とは 𝑝 𝑥 𝜇) = 𝑓(𝑥 − 𝜇) 位置パラメータ  xを定数分移動しても,同じ形式が保たれる  求めてみよう 𝐴 ≦ 𝜇 ≦ 𝐵に入る確率と𝐴 − 𝑐 ≦ 𝜇 ≦ 𝐵 − 𝑐に入る確率が等しいので, 𝐵 𝐵−𝑐 𝐵 𝑝 𝜇 𝑑𝜇 = 𝑝 𝜇 𝑑𝜇 = 𝑝 𝜇 − 𝑐 𝑑𝜇 𝐴 𝐴−𝑐 𝐴 この式が任意のA,Bについて成立するため, 𝑝(𝜇) = 𝑝(𝜇 − 𝑐) 55 よって,𝑝(𝜇)は定数
  • 55. 無情報事前分布の例1  位置パラメータの例  ガウス分布の平均𝜇  μ の共役事前分布はガウス分布𝑁 𝑥 𝜇0 , 𝜎0 )  σ0 → ∞の極限をとれば,無情報事前分布になる  事前分布が事後分布に影響を与えていないか 𝜎2 𝑁𝜎0 2 𝜎0 → ∞ μ𝑁= 𝜇 + 2+ 𝜎 2 0 2 + 𝜎2 𝜇 𝑀𝐿 μ𝑁= 𝜇 𝑁𝜎 0 𝑁𝜎0 𝑀𝐿 𝜎0 → ∞ 1 𝑁 1 1 𝑁 = 2 2 = 2+ 2 𝜎𝑁 2 𝜎 𝜎𝑁 𝜎0 𝜎 56
  • 56. 無情報事前分布の例2  尺度不変性を持つ事前分布  尺度不変性とは 1 𝑥 𝑝 𝑥 𝜎) = 𝑓 𝜎 𝜎 尺度パラメータ  xを定数倍だけ拡大縮小しても,同じ形式が保たれる  求めてみよう 𝐴 ≦ 𝜎 ≦ 𝐵に入る確率と𝐴/𝑐 ≦ 𝜎 ≦ 𝐵/𝑐に入る確率が等しいので, 𝐵 𝐵/𝑐 𝐵 1 𝜎 𝑝 𝜎 𝑑𝜎 = 𝑝 𝜎 𝑑𝜎 = 𝑝 𝑑𝜎 𝐴 𝐴/𝑐 𝐴 𝑐 𝑐 この式が任意のA,Bについて成り立つので, 1 𝜎 57 𝑝 𝜎 = 𝑝 𝑐 𝑐
  • 57. 無情報事前分布の例 2-2  求めてみよう(続き) したがって,𝑝(𝜎) ∝ 1/𝜎  特徴 変則事前分布となる  𝑝 ln 𝜎 = 𝑐𝑜𝑛𝑠𝑡. 1 𝑎  p σ ∝ より,𝑝 𝜎 = 𝑎は定数 とおき, σ 𝜎 𝑑𝜎 t= ln 𝜎と変数変換をすると, 𝑑𝑡 = 𝜎より, 𝑑𝜎 𝑎 𝑝 𝑡 = 𝑝 𝜎 = 𝜎 σ=const. 𝑑𝑡 ∴𝑝 ln 𝜎 = 𝑐𝑜𝑛𝑠𝑡. 58
  • 58. 無情報事前分布の例1  尺度パラメータの例  𝜇を考慮済みのガウス分布の標準偏差σ 𝑁(𝑥 | 𝜇, σ2 ) ∝ σ−1 exp {−(𝑥 /𝜎)2 } (𝑥 = 𝑥 − 𝜇)  精度𝜆 = 1/𝜎 2 を考え,密度を変換すると 1 1 𝑝 𝜎 ∝ ⇒ 𝑝 𝜆 ∝ 𝜎 𝜆  事前分布が事後分布に影響を与えていないか 𝑎0 = 0, 𝑏0 = 0 𝑁 𝑁 𝑎 𝑁 = 𝑎0 + 𝑎𝑁= 2 2 𝑁 𝑎0 = 0, 𝑏0 = 0 𝑁 𝑏 𝑁 = 𝑏0 + 𝜎 𝑀𝐿 2 𝑏 𝑁 = 𝜎 𝑀𝐿 2 2 2 59
  • 59. 計算の補足 1 1 𝑝 𝜎 ∝ ⇒ 𝑝 𝜆 ∝ の証明 𝜎 𝜆 2 1 𝑥− 𝜇 𝑝 𝜎 = 1 exp − 2𝜎 2 2𝜋𝜎 2 2 𝜆 = 1/𝜎 2 とおくと, −1/2 , 𝑑𝜎 1 −3 𝜎= 𝜆 =− 𝜆 2 𝑑𝜆 2 したがって, 1 𝜆2 𝜆 𝑥− 𝜇 2 1 −3/2 𝑝 𝜆 = 1 exp − − 𝜆 2 2 2𝜋 2 1 𝑝 𝜆 ∝ 60 𝜆
  • 60. 61 2.5 ノンパラメトリック法 • ヒストグラム密度推定法 • カーネル密度推定法 • 最近傍法
  • 61. ノンパラメトリック法 パラメトリック : 少数のパラメータから 確率変数の分布の形状を決める ノンパラメトリック : 分布の形状が制限されず, データによって形状が決まる  パラメトリックなアプローチ 仮定した分布が適切でない場合  確率分布の形状を仮定 予測性能が悪くなりうる  ノンパラメトリックなアプローチ 分布の形状について  確率密度関数の形が データに依存して決まる わずかな仮定しかない 62
  • 62. ヒストグラム密度推定法  記号の定義  𝑥 ∶ 連続変数  ∆𝑖 ∶ 𝑖番目の幅  𝑛𝑖 ∶ 𝑖番目の観測値の数  𝑁 ∶ 観測値の総数  確率密度 𝑛𝑖  𝑝𝑖 = 𝑁∆ 𝑖 63
  • 63. ヒストグラム密度推定法  ∆の値による推定の変化  ∆は適切な値に設定しないと分布の特徴を捉えきれない 64
  • 64. ヒストグラム密度推定法  利点  一度ヒストグラムを求めると,元データを廃棄できる →大規模データに有利  データが逐次的に与えられた時に容易に適用できる  欠点  推定した密度が区間の縁で不連続になる  次元数が増えると,指数的に区間の総数が増え,計算 規模が増大する(次元の呪い) ヒストグラム法は1次元か2次元のデータの可視化には役に立つが 他のほとんどの密度推定の応用問題には適さない 65
  • 65. ヒストグラム密度推定法  ヒストグラム密度推定法から分かること  特定の位置の確率密度を推定するにはその点の近傍の データ点も考慮すべき  近傍の特性は区間によって定義されている  区間の幅→平滑化パラメータ  平滑化パラメータの値は,大きすぎず,小さすぎず適切な 値にすべき  cf. 多項式曲線フィッティングのモデル複雑度の選択 66
  • 66. 近傍を考慮した密度推定  目的  ある𝐷次元のユークリッド空間中の未知の確率密度𝑝 𝑥 から, 観測値の集合が得られている.この集合から𝑝(𝑥)を推定 xを含むある小さな領域Rに割り当てられた確率Pは 𝑃= 𝑝 𝒙 𝑑𝒙 𝑅 p(x)から得られたN個の観測値からなるデータ集合を集める 各データ点が領域R中にある確率はP →R内の点の総数Kは二項分布に従う 𝑁! Bin K N, P) = 𝑃 𝐾 (1 − 𝑃) 𝑁−𝐾 𝐾! 𝑁 − 𝐾 ! 67
  • 67. 近傍を考慮した密度推定 𝐸[𝐾/𝑁] = 𝑃 𝑣𝑎𝑟[𝐾/𝑁] = 𝑃(1 − 𝑃)/𝑁 Nが大きい時,𝑣𝑎𝑟 𝐾/𝑁 ≒ 0より, 𝐾 ≅ 𝑁𝑃 また,Rが,確率密度p(x)がこの領域内でほぼ一定とみなせるほど 十分に小さいと仮定できる時, P≅ 𝑝 𝒙 𝑉 (ただし,𝑉は𝑅の体積) よって, 𝐾 領域Rは近似的に密度が一定とみなせるほど小さく 𝑝(𝑥) = 𝑁𝑉 二項分布が鋭く尖るほど十分な量のKが存在する 68
  • 68. 近傍を考慮した密度推定 𝐾 𝑝(𝑥) = 𝑁𝑉 Vを固定し,Kを推定 Kを固定し,Vを推定 カーネル密度推定法 K近傍法 Nが大きくなる時Vが縮小し,Kが大きくなるなら, N→∞で,どちらも真の確率密度に収束する 69
  • 69. カーネル密度推定法  記号の定義  𝑥 ∶ 確率密度を求めたいデータ点  𝑅 ∶ 𝑥を中心とした超立方体 1 1, 𝑢 𝑖 ≦ , 𝑖 = 1,2, … 𝐷の時  𝑘 𝑢 = 2 0,それ以外の時  カーネル関数の一例  Parzen窓と呼ばれる  𝑘((𝒙 − 𝒙 𝑛 )/ℎ)は,xを中心とする一変がhの立方体の内部に, データ点𝒙 𝑛 があれば1, そうでなければ0となる関数 70
  • 70. カーネル密度推定法 立方体内部の総点数は  結果の解釈 𝑁  1.求めたいデータ点の近傍 𝒙− 𝒙𝑛 𝐾= 𝑘 (超立方体の範囲)にある ℎ 𝑛=1 データ点の数を考慮 𝐾 𝑝 𝑥 = , 𝑉 = ℎ 𝐷 より, 𝑁𝑉  2. 各データ点の近傍に, 推定確率密度は 求めたいデータ点を含む 𝐷 1 1 𝒙− 𝒙𝑛 データ点の数を考慮 𝑝(𝑥) = 𝐷 𝑘 𝑁 ℎ ℎ 𝑛=1 71
  • 71. カーネル密度推定法  Parzen窓の問題点  立方体の”縁”で確率密度が不連続となってしまう  解決策  ガウスカーネルを使う 2 𝑥 𝑖 − 𝑥𝑗 𝑘 𝑥 𝑖, 𝑥𝑗 = exp − 2ℎ2  確率密度モデルは以下の通り 𝑁 2 1 1 𝑥 𝑖 − 𝑥𝑗 𝑝(𝑥) = exp − 𝑁 2𝜋ℎ2 1/2 2𝜎 2 𝑛=1 72
  • 72. カーネル密度推定法  ℎの値による推定の変化  小さくしすぎるとノイズが多くなり,大きくしすぎると過剰 に平滑化されてしまう 73
  • 73. カーネル密度推定法  カーネル関数  カーネル関数は,以下の条件を満たす任意の関数 𝑘(𝒖) ≧ 0 𝑘 𝒖 𝑑𝒖 = 1  カーネル密度推定法の利点・欠点  訓練段階では単に訓練集合を保存しておけばよい  密度の評価にかかる計算コストがデータ集合の大きさ に比例 74
  • 74. 最近傍法  カーネル密度推定法の問題点  カーネル幅(密度推定の粒度)を決めるパラメータℎが すべてのカーネルで一定となっている  ℎが大きいと,全体的に平滑化される  ℎが小さいと,全体的にノイズの多い推定  解決策  データ空間内の位置に応じてℎを変える =最近傍法 75
  • 75. K近傍法 𝐾 Kを固定し,Vを推定 𝑝(𝑥) = K近傍法 𝑁𝑉  K近傍法  𝑝(𝑥)を推定したい点xを中心とした小球を考え,その 半径を,𝐾個のデータ点を含むようになるまで広げる. 𝐾  この時の体積を𝑉とし, 𝑝(𝑥) = から密度推定 𝑁𝑉 76
  • 76. K近傍法  Kの値による推定の変化  小さくしすぎるとノイズが多くなり,大きくしすぎると過剰 に平滑化されてしまう 77
  • 77. K近傍法を用いたクラス分類  目的  クラス𝐶 𝑘 中に𝑁 𝑘 個の点があり,点の総数は𝑁である データ集合に対し,新たな点𝑥を分類する  分類方針  𝑥を中心として,クラスを考えずに𝐾個の点を含む球を 見つける  各クラスについてベイズの定理を適用し,各クラスに 属する事後確率を求める  事後確率が最大のクラスに割り当てる 78
  • 78. K近傍法を用いたクラス分類 𝑥を中心とし,𝐾個の点を含む球が,体積𝑉であり, クラスC 𝑘 に属する点をそれぞれ𝐾 𝑘 個含んでいたとする この時,各クラスの密度,クラス条件のない密度, クラスの事前分布の推定値はそれぞれ 𝐾𝑘 𝑝 𝒙 𝐶 𝑘) = 𝑁𝑘 𝑉 𝐾 𝑝(𝒙) = 𝑁𝑉 𝑁𝑘 𝑝(𝐶 𝑘 ) = 79 𝑁
  • 79. K近傍法を用いたクラス分類 ベイズの定理より, 𝑝 𝑥 𝐶 𝑘 )𝑝(𝐶 𝑘 ) 𝐾 𝑘 𝑁 𝑘 𝑁𝑉 𝐾𝑘 𝑝 𝐶 𝑘 𝑥) = = = 𝑝(𝒙) 𝑁𝑘 𝑉 𝑁 𝐾 𝐾 誤分類の確率を最小にする ⇒ 事後確率を最大化する  分類手順  1. 訓練データ集合から𝐾近傍の点集合を選ぶ  2. この集合の中で最も多数派にクラスを割り当てる. ただし,同順位だった場合はランダム  𝐾 = 1の時を最近傍則という 80
  • 81. K近傍法の例  Kの値を変えて分類  Kによって平滑化の度合いが調整されている 82
  • 82. その他の特徴  最近傍則の特徴  𝑁 → ∞の極限で,誤分類率は,真のクラス分布を 用いた最適な分類器で達成可能な最小誤分類率の, たかだか2倍にしかならない  単純だけど意外とすごい  K近傍法・カーネル密度推定法共通の特徴  データ集合全体を保持しなくてはならない  データ集合が大きいと膨大な計算量  探索用の木構造の構築で対処可 83
  • 83. 参考サイト  朱鷺の杜Wiki  http://ibisforest.org/index.php?FrontPage  Bishopさんのサイト  http://research.microsoft.com/en- us/um/people/cmbishop/PRML/  prml_note@wiki  http://www43.atwiki.jp/prml_note/pages/1.html  十分統計量について  http://www012.upp.so- net.ne.jp/doi/math/anova/sufficientstatistic.pdf 85