ITエンジニアのための機械学習理論入門8.1ベイズ推定

8.1 ベイズ推定モデルとベイズの定理
第8章ベイズ推定:
データを元に「確信」
を高める方法
注意：今回かなり割愛してますがそれでも数式多いです。。

パラメトリックモデルおさらい
パラメーターを含むモデル（数式）
を設定する
パラメーターを評価する基準を定める
最良の評価を与えるパラメーターを
決定する

パラメーターを評価する方法
最小二乗法
 誤差を定義して誤差を最小にするよう
にする方法
 最尤推定法
 トレーニングセットが得られる確率で
ある尤度関数を定め、これを最大にす
るようにする方法

ベイズ推定は？
最小二乗法とも最尤推定法とも違う。
パラメーターそのものについても
「それぞれの値をとる確率」を定義
する、という新しい方法。

最尤推定法と
ベイズ推定法を
比較してみる

最尤推定法
 真のモデル(真値)があって、そのモデル
から発生したデータを手に入れている。
という前提。

最尤推定法
 真のモデル(真値)があって、そのモデル
から発生したデータを手に入れている。
という前提。
 真値は一つであり
データは取り方に
よって、確率的に
変化する。

最尤推定法
 例えばコイントス
 真値は0.5だけど、たまには0.3
だったり0.7だったりする。
 何度もサンプルをとって平均すれ
ば0.5に近づいていくはず。
 データは確率的だけど、真のモデ
ルからは手元のデータが最も得ら
れやすいはず、と考える。

最尤推定法
 コインを100回投げたら50回表、
50回裏だった。
 このデータが最もありえるモデル
はなんだろうか？と考える。
 このモデルの尤もらしさが尤度で、
尤度を最大にするのが最尤推定法
という。

ベイズ推定法
 ベイズ推定は、真値を確率分布として
考える。

ベイズ推定法
 ベイズ推定は、真値を確率分布として
考える。
 コイントスの例で
言えば、0.5が最も
確率が高く、0や
1に近づくほど
ありえなさそう。
という感じ。

ベイズ推定法
 データを得る前の真値の分布を「事前分布」
データを得て更新された分布を「事後分布」
と呼ぶ。

ベイズ推定法
 少しずつデータを得て、事後分布をどんど
ん更新していくことができる。
 この更新をするのに使用するのが、
「ベイズの定理」
トーマス・ベイズ

簡単な問題を考えてみる
 箱の中に「黒」「白」「大」「小」の
ボールが入っていて、その中からランダム
にボールが出てくるおもちゃがある。

簡単な問題を考えてみる
 Q1. 出たボールが「黒」の確率。
 Q2. 出たボールが「大」と分かっている
場合、それが「黒」の確率。
 Q3. 出たボールが「大きな黒」の確率。

Q1.
出たボールが「黒」の確率。
 全部で12個、そのうち黒は7個なので

Q2.
出たボールが「大」と分かっている
場合、それが「黒」の確率。
 大きいボールは全部で４個、
その中で黒いボールは１個なので

Q3.
出たボールが「大きな黒」の確率。
 全部で12個、そのうち大きい黒は1個
なので

Q2. の場合
というのは、言葉で表すと
と言える。

Q3. の場合
というのは、言葉で表すと
と言える。

ということは
＝
つまり

ということは
＝
つまり
一般化すると
となる。

さらにこれは
こうなる

さらにこれは
こうなる
ベイズの定理

もう一つ別の観点から
黒の全ての
パターンを足すと
黒の確率になる。
一般化すると
全てのYについて
足しあわせる。
前ページの
一般化した式を
代入する。
ベイズの定理
に代入する。

ベイズの定理の特徴
 左辺は「Xである時のYの確率」
 右辺は逆に「Yである時のXの確率」
 このように「条件と結果」を入れ替えた
関係を計算するのが特徴となる。

別の問題を考えてみる
 ピロリ菌感染問題。
 太郎さんの年代の感染率は1%
 ピロリ菌検査の精度は95%
 太郎さんは陽性だった。
 この時感染している
確率は何%か？

ベイズの定理を適用すると
 P(感染|陽性) = ???? (問われている事)

図で見てみる
偽陰性
真陽性
真陰性
偽陽性
感染非感染

陽性全体
真陽性
偽陽性
感染非感染

問われている、陽性の時の感染
真陽性
感染非感染

つまり図式するとこうなる
偽陽性
感染
真陽性
真陽性
感染
非感染

つまり図式するとこうなる
偽陽性
感染
真陽性
真陽性
感染
非感染
非感染(0.99) x 偽陽性(0.05)
感染(0.01) x 真陽性(0.95)
 分子は「感染であり陽性」
 分母は「陽性」すべて

ベイズ推定による
正規分布の決定
〜パラメーター推定〜

3.2 単純化した例による解説

3.2 単純化した例による解説
この散らばりが何かの分布

何かの正規分布
平均 μ ←これを推定する
分散σ2
N個の観測値tの散らばり

3.2 単純化した例による解説より
 平均μ、標準偏差σの正規分布の場合
ある特定のデータtnが得られる確率は
となり、トレーニングセット全体が観測
される確率は全ての掛けあわせなので
となる。

あれ？この記号…
 これは先ほどの例と同じく、
「μであるときのtの確率」を表している。
 であれば、ベイズの定理(8.15)に当てはめて
みる。

μを求めたいのでP(μ|t)とする
 分母は「あらゆるYについて足し合わせる」
という意味のΣがあった。
 いま求めるμは正規分布として連続する数
なので、和の代わりに積分を用いる。

そもそもP(μ)ってなに？
 P(μ)は、観測データを取得する前のμの確率。
 観測データが無いと、μの値が何かは一切
わからず、グラフは一様分布のようになる。
 この学習前の分布を事前分布という。

じゃあP(μ|t)は？
 観測データを取得し学習した後のμの確率。
 観測データが多ければ多いほど、μの分布は
小さくなり、一つの値に近づいていく。
 この学習後の分布を事後分布という。

P(μ|t)って結局何なの？
 数学徒の小部屋の計算をすると、P(μ|t)は
平均μN、分散βN
-1となる。

計算後のμの事後分布P(μ|t)
 分散がβN
-1となることから、
標準偏差はとなる。

分散の値を紐とく
 分散βN
-1を計算すると、となる。
 これは、トレーニングセットのデータ数Nが
大きくなるほど分散が小さくなり、分布の
幅が狭くなるということ。
 N→∞の極限では、分散は0になり、μの値は
一つに定まる。
＝最尤推定法と同じ結果になる。

データ数Nによる分散の違い
 事前分布P(μ)は、平均μ0=-1、分散σ0
2=1

ベイズ推定による
正規分布の決定
〜観測値の分布の推定〜

次の値は何か？が知りたい。
 いままで見てきたP(μ|t)は、観測データtの
値が得られた時の平均μの確率。
 でも本当に知りたいのは次に得られるで
あろう観測データtの値。
 観測データは、平均μ、分散σ2の正規分布
から得られるという前提だった。

平均μは1つに決まっていない
 いまベイズ推定では平均μは事後分布として
P(μ|t)で与えられている。
 この場合「さまざまなμに対する正規分布
N(t | μ, σ2)をそれぞれの確率P(μ | t)の
重みで足し合わせる」という事をする。

具体的には
さまざまなμの確率

具体的には
そのμの時のtの正規分布

具体的には
計算するとこうなる
分散σ2 ちょっと大きくなる

分散の増分βN
-1
 本来β-1が分散としてこのデータの真のモデ
ルで定義されている。
 ただしβN
-1 の分だけ増えている。
 これはデータ数Nが少ない時に確信が持てな
いので分散を大きくし、Nが増えると確信が
持てるようになって分散が小さくなる。

βN
-1はデータ数が多くなれば消える

データ数Nによる確率分布
 事前分布P(μ)は、平均μ0=-1、分散σ0
2=1

まとめ
 ベイズ推定はパラメーター自体にその値をと
る確率という概念を入れたもの。
 最尤推定法と異なり、真値は分布で考える。
 十分にデータが多い場合は最尤推定法の結果
と同じになる。
 データセットから平均の分散を求め、その
平均の分布から改めて観測データが得られる
確率を求めるという事をする。

ITエンジニアのための機械学習理論入門8.1ベイズ推定

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Más de Daisuke Shimada

Más de Daisuke Shimada (7)

Último

Último (11)

ITエンジニアのための機械学習理論入門8.1ベイズ推定