SlideShare una empresa de Scribd logo
1 de 8
KL情報量
エントロピー
• N個の物体をi番目の瓶にni個入れる方法は
𝑊 =
𝑁!
𝑖 𝑛𝑖!
通りとなる。
• エントロピーHは、これのログを取ったもので定義されるので、
𝐻 =
1
𝑁
ln 𝑊 =
1
𝑁
ln 𝑁! −
1
𝑁
𝑖
ln 𝑛𝑖!
スターリングの公式(ln 𝑁! = 𝑁 ln 𝑁 − 𝑁)より
𝐻 = −
𝑖
𝑛𝑖
𝑁
ln
𝑛𝑖
𝑁
= −
𝑖
𝑝𝑖 ln 𝑝𝑖
• 変数が連続な場合は以下のように書ける
𝐻(𝑥) = − 𝑝 𝑥 ln 𝑝 𝑥 𝑑𝑥
KL情報量
• データを発生させた真の分布を𝑝 𝑥 、データから推定される統
計モデルを𝑞(𝑥|𝜃)とする
• エントロピーの差は以下のようになる
𝐼 = − 𝑝 𝑥 ln 𝑞 𝑥|𝜃 𝑑𝑥 − (− 𝑝 𝑥 ln 𝑝 𝑥 𝑑𝑥)
変形したものをKL情報量と言う
𝐾𝐿(𝑝| 𝑞 = − 𝑝 𝑥 ln
𝑞 𝑥|𝜃
𝑝 𝑥
𝑑𝑥 = −𝐸 𝑝[ln
𝑞 𝑥|𝜃
𝑝 𝑥
]
KL情報量の性質
• 以下の性質を持つため、KL情報量が小さいほど、真の確率分布
𝑝 𝑥 が𝑞(𝑥|𝜃)に近くなる
𝐾𝐿(𝑞| 𝑝 ≥ 0 𝐾𝐿(𝑞| 𝑝 = 0 ⟺ 𝑝(𝑥) = 𝑞 𝑥 𝜃
対数尤度と平均対数尤度
• データを発生させた真の分布を𝑝 𝑥 、データから推定される統
計モデルを𝑞(𝑥|𝜃)とする
• 𝐸[ln 𝑝 𝑥 ] = 𝑝 𝑥 ln 𝑝 𝑥 𝑑𝑥で、推定量にかかわらず一定。こ
れを平均対数尤度という。
• 平均対数尤度の推定量は、𝐸 𝑝 ln 𝑞 𝑥|𝜃 = 𝑝 𝑥 ln 𝑞 𝑥|𝜃 𝑑𝑥
情報量基準1
• 離散分布で、𝑝 𝑥 =
1
𝑛
とすると、𝐸 𝑝 ln 𝑞 𝑥|𝜃 =
1
𝑛 𝑖
𝑛
ln 𝑞(𝑥𝑖|𝜃)
• 最大対数尤度は、最尤推定値の対数尤度。以下で表される
𝑙 𝜃 =
𝑖
𝑛
ln 𝑞(𝑥𝑖| 𝜃(𝒙)) = ln 𝑞(𝒙| 𝜃 𝒙 )
• 以上より、平均対数尤度の推定量が𝐸 𝑝 ln 𝑞 𝑥|𝜃 =
𝑙 𝜃
𝑛
• モデルに使用したデータを使用して平均対数尤度を推定してい
るので、推定のバイアスが生じる。これは、以下の通り。
ln 𝑞 𝒙 𝜃 𝒙 −
1
𝑛
𝐸 𝑝 ln 𝑞 𝒚| 𝜃(𝒚)
情報量基準2
• バイアスの期待値は以下の通り
bias p = 𝐸 𝑝 ln 𝑞 𝒙 𝜃 𝒙 −
1
𝑛
𝐸 𝑝 ln 𝑞 𝒚| 𝜃(𝒚)
• よって、以下を用いることで、偏りのない推定量を求めること
ができる。
𝐼𝐶 = 𝐸 𝑝 ln 𝑞 𝑥|𝜃 =
𝑙 𝜃
𝑛
− 𝑏𝑖𝑎𝑠(𝑝)
• ICを情報量基準という。
交差エントロピー
• 情報理論では、 𝑝 𝑥 ln 𝑞 𝑥|𝜃 𝑑𝑥を交差エントロピーと呼ぶ

Más contenido relacionado

Más de Hiroki Iida

Fundations of information geometry chap0
Fundations of information geometry chap0Fundations of information geometry chap0
Fundations of information geometry chap0Hiroki Iida
 
Introduction to search_and_recommend_algolithm
Introduction to search_and_recommend_algolithmIntroduction to search_and_recommend_algolithm
Introduction to search_and_recommend_algolithmHiroki Iida
 
Ai for marketing
Ai for marketingAi for marketing
Ai for marketingHiroki Iida
 
Graph and network_chap14
Graph and network_chap14Graph and network_chap14
Graph and network_chap14Hiroki Iida
 
Introduction to baysian_inference
Introduction to baysian_inferenceIntroduction to baysian_inference
Introduction to baysian_inferenceHiroki Iida
 
色々な確率分布とその応用
色々な確率分布とその応用色々な確率分布とその応用
色々な確率分布とその応用Hiroki Iida
 
レトリバ勉強会資料:深層学習による自然言語処理2章
レトリバ勉強会資料:深層学習による自然言語処理2章レトリバ勉強会資料:深層学習による自然言語処理2章
レトリバ勉強会資料:深層学習による自然言語処理2章Hiroki Iida
 
テクノロジーと組織と発展
テクノロジーと組織と発展テクノロジーと組織と発展
テクノロジーと組織と発展Hiroki Iida
 

Más de Hiroki Iida (9)

Fundations of information geometry chap0
Fundations of information geometry chap0Fundations of information geometry chap0
Fundations of information geometry chap0
 
Introduction to search_and_recommend_algolithm
Introduction to search_and_recommend_algolithmIntroduction to search_and_recommend_algolithm
Introduction to search_and_recommend_algolithm
 
Ai for marketing
Ai for marketingAi for marketing
Ai for marketing
 
Graph and network_chap14
Graph and network_chap14Graph and network_chap14
Graph and network_chap14
 
Introduction to baysian_inference
Introduction to baysian_inferenceIntroduction to baysian_inference
Introduction to baysian_inference
 
内燃機関
内燃機関内燃機関
内燃機関
 
色々な確率分布とその応用
色々な確率分布とその応用色々な確率分布とその応用
色々な確率分布とその応用
 
レトリバ勉強会資料:深層学習による自然言語処理2章
レトリバ勉強会資料:深層学習による自然言語処理2章レトリバ勉強会資料:深層学習による自然言語処理2章
レトリバ勉強会資料:深層学習による自然言語処理2章
 
テクノロジーと組織と発展
テクノロジーと組織と発展テクノロジーと組織と発展
テクノロジーと組織と発展
 

Kl entropy

  • 2. エントロピー • N個の物体をi番目の瓶にni個入れる方法は 𝑊 = 𝑁! 𝑖 𝑛𝑖! 通りとなる。 • エントロピーHは、これのログを取ったもので定義されるので、 𝐻 = 1 𝑁 ln 𝑊 = 1 𝑁 ln 𝑁! − 1 𝑁 𝑖 ln 𝑛𝑖! スターリングの公式(ln 𝑁! = 𝑁 ln 𝑁 − 𝑁)より 𝐻 = − 𝑖 𝑛𝑖 𝑁 ln 𝑛𝑖 𝑁 = − 𝑖 𝑝𝑖 ln 𝑝𝑖 • 変数が連続な場合は以下のように書ける 𝐻(𝑥) = − 𝑝 𝑥 ln 𝑝 𝑥 𝑑𝑥
  • 3. KL情報量 • データを発生させた真の分布を𝑝 𝑥 、データから推定される統 計モデルを𝑞(𝑥|𝜃)とする • エントロピーの差は以下のようになる 𝐼 = − 𝑝 𝑥 ln 𝑞 𝑥|𝜃 𝑑𝑥 − (− 𝑝 𝑥 ln 𝑝 𝑥 𝑑𝑥) 変形したものをKL情報量と言う 𝐾𝐿(𝑝| 𝑞 = − 𝑝 𝑥 ln 𝑞 𝑥|𝜃 𝑝 𝑥 𝑑𝑥 = −𝐸 𝑝[ln 𝑞 𝑥|𝜃 𝑝 𝑥 ]
  • 4. KL情報量の性質 • 以下の性質を持つため、KL情報量が小さいほど、真の確率分布 𝑝 𝑥 が𝑞(𝑥|𝜃)に近くなる 𝐾𝐿(𝑞| 𝑝 ≥ 0 𝐾𝐿(𝑞| 𝑝 = 0 ⟺ 𝑝(𝑥) = 𝑞 𝑥 𝜃
  • 5. 対数尤度と平均対数尤度 • データを発生させた真の分布を𝑝 𝑥 、データから推定される統 計モデルを𝑞(𝑥|𝜃)とする • 𝐸[ln 𝑝 𝑥 ] = 𝑝 𝑥 ln 𝑝 𝑥 𝑑𝑥で、推定量にかかわらず一定。こ れを平均対数尤度という。 • 平均対数尤度の推定量は、𝐸 𝑝 ln 𝑞 𝑥|𝜃 = 𝑝 𝑥 ln 𝑞 𝑥|𝜃 𝑑𝑥
  • 6. 情報量基準1 • 離散分布で、𝑝 𝑥 = 1 𝑛 とすると、𝐸 𝑝 ln 𝑞 𝑥|𝜃 = 1 𝑛 𝑖 𝑛 ln 𝑞(𝑥𝑖|𝜃) • 最大対数尤度は、最尤推定値の対数尤度。以下で表される 𝑙 𝜃 = 𝑖 𝑛 ln 𝑞(𝑥𝑖| 𝜃(𝒙)) = ln 𝑞(𝒙| 𝜃 𝒙 ) • 以上より、平均対数尤度の推定量が𝐸 𝑝 ln 𝑞 𝑥|𝜃 = 𝑙 𝜃 𝑛 • モデルに使用したデータを使用して平均対数尤度を推定してい るので、推定のバイアスが生じる。これは、以下の通り。 ln 𝑞 𝒙 𝜃 𝒙 − 1 𝑛 𝐸 𝑝 ln 𝑞 𝒚| 𝜃(𝒚)
  • 7. 情報量基準2 • バイアスの期待値は以下の通り bias p = 𝐸 𝑝 ln 𝑞 𝒙 𝜃 𝒙 − 1 𝑛 𝐸 𝑝 ln 𝑞 𝒚| 𝜃(𝒚) • よって、以下を用いることで、偏りのない推定量を求めること ができる。 𝐼𝐶 = 𝐸 𝑝 ln 𝑞 𝑥|𝜃 = 𝑙 𝜃 𝑛 − 𝑏𝑖𝑎𝑠(𝑝) • ICを情報量基準という。
  • 8. 交差エントロピー • 情報理論では、 𝑝 𝑥 ln 𝑞 𝑥|𝜃 𝑑𝑥を交差エントロピーと呼ぶ