ベイズ入門
- 2. 自己紹介
氏名: 塩田 圭(しおだ け
い)
学籍: 慶應義塾大学大学院
理工学研究科開放環境科学
専攻修士2年
所属: 同 櫻井研究室(島田
君と同じ)
研究テーマ: 機械学習を利用
した外国為替相場の変動に対
する早期警戒手法の提案
趣味: 旅行、散歩、コーヒー
- 4. これまで学んできた統計学
母集団の一部分である
サンプルを調べて、母集
団の性質を推定する方
法論
母集団
(大量の)無作為標本が
対象かつサンプルは変
化するもの
母平均
サンプルで求めた統計 母分散
量(変動するもの) などなど
標本平均
で母集団の統計量 サンプル 標本分散
(ただ一つ)を推定 などなど
- 5. ベイズ統計学
母数 サンプル
母数 サンプル 母集団
母数 サンプル
統計学の一流派
未知母数は確率的に変化する
サンプルは与えられたものとして、そのとき未知母数が
どのような値を取るかを推定する
一回限りの事象にも適応可能
- 6. ベイズ統計学の特徴、長所
特徴 長所
ベイズの定理での操作の一貫性
必ずベイズの定理を使う
モデルさえ決めればすべての情
主観確率 報が利用できる
データ以外の情報も可能
事前情報の利用 漠然とした事前分布も可能
未知量は確率的に変動 未知量について直接確率を求め
られる
観測されたものは事実と データや情報の蓄積を事前に利
して固定 用
かく乱母数の処理が容易
推測は条件付き 母数に制約があってもよい
例外処理は認めない 擬でない事前分布のもとでは常
に許容される
- 7. キーワード&概念図
損失関数
最
小
化
尤度
主観確率
事後分布
事前分布
ベイズの定理
- 8. 確率の考え方
確率
確からしさの尺度
確率の公理を満たしていれば解釈は問題ではない
客観説(頻度説)
実験を行って、あることが起こった回数の%(相対頻度)を求
めたもの
非常に多くの回数の実験が必要(無限回の極限として定義さ
れる)
主観説
ある人の確信の度合いを数値化したもの
人によって異なり、比較不能
実験できない事象についても適用可能
- 9. 客観確率と主観確率
客観確率 主観確率
コイントス コイントス
投げた回数:1000 ある人:表も裏も同等に出
表の回数:513 る
0.523
投げた回数:10000 別の人:表の方が出やす
表の回数:4935 い
0.4935
その極限として 人によって違う
0.5
ベイス統計では主観確率を採用
- 10. 条件付き確率
ある事象Cが与えられたときに、事象Aが起こる確率:
くだけた説明をすると、
ある出来事が起きた、あるいは、ある情報が分かっているときに、
ある事象が発生する確率
さいころの例:
2が出る確率:
偶数が出る確率:
偶数の目が出たと分かっているときに、それが2である確率:
- 11. ベイズの定理
あるデータDが与えられたとき、
ある仮説Hの確からしさの変化を
表わしたもの
50%
もともと仮説Hの確からしさは決
裏ばかり。。
められるが、新しい情報データD
が得られたときには仮説Hの確
からしさは変更されるべきである
新しく得られたヒントを使って、状
況認識をどのように更新するか、
を示している 30%
- 12. 事前確率
例:がん検診
ある人ががん検診で「疑いあり」と言われてしまった!!
がん検診を受ける前と後で、ある人ががんである確率がどのように変わるか?
検査前:
その人ががんであるかどうかについての情報は何もない
世間一般で、ある人ががんである確率を採用
- 13. 尤度
がん検診の精度についてのモデル
対象:健康な人、がんの人
出力:+(陽性)、-(陰性)
健康な人を検査をしたときの結果:
がんの人を検査をしたときの結果:
今回は+の尤度だけ注目すればいいのだろうか?
- 14. 確率と尤度
確率(和が1になる)
まだ結果が分かっていないときに、ある事象が実現する確か
らしさを表わしたもの
まだ検査をしていない健康な人に対して、+と判断することの
確からしさ
尤度(和が1になるとは限らない=確率ではない)
結果が分かっているときに、その結果を引き起こす条件の
もっともらしさを表わしたもの
検査結果が+と分かったときに、検査を受けた人が健康であ
るとすることのもっともらしさ
- 15. 全確率の公式
事象Aの確率を分割して求める
をもれなく、だぶりなく網羅する
事象
同時に起こり得ない事象(背反事
B1
A
B2 B3
象)を合わせた確率は足し算する
(和の法則)
ポジティブになる確率を求める
- 16. 事後確率
ベイズの定理を使って計算
事前確率と事後確率の比較
3% 7%
大したことはない。しかし、事前確率がもっと高かったら?
- 17. 統計的決定
ベイズの定理を用いて、新しい情報を組み込みながら現
状把握することができるようになった
がん検診で+が出たとき、
健康である確率:97% 93%
がんである確率:3% 7%
分かるのはあくまで確率分布(可能性)に過ぎない
次にどうするべきかは教えてくれない
どんな方策でも自由に選択することができる
統計的に合理的な決定方法とは?
- 18. 損失関数
合理的な決定(推定)
ある基準を決めて、複数の方策の中から一つを選ぶ
最良の選択とそれ以外の違い:無駄、損、失敗、正確さ
推定の誤りに対してペナルティを設ける=損失関数
損失関数を最小化するものを選択すればよい
絶対損失 平方損失 0-1型単純損失
- 19. 期待損失最小化
損失関数の値は変動する
得られたデータによって
確率的に変動する母数や仮説によって
平均して損失関数を最小化するものを選ぶべきだ(期待
損失最小化)
データ に対して最適な決定をする関数
データについて平均:
確率変動する母数についても平均:
ここを最小化するdを求める
- 20. 例題
重量比の異なる2枚のコイン
偏り大、小
一枚だけテーブルに置いてある
何回か投げた結果を見て、どちらのコインか推定する
試行一回当たり 回投げる
データとしては、その試行での表の回数( 回)
- 21. モデル
それぞれのコインの確率分布
コイン1 表 裏 コイン2 表 裏
確率 50% 50% 確率 25% 75%
仮説
:コイン1である
:コイン2である
コイントスのモデル(二項分布を仮定)
- 22. 期待損失最小化による判別ルールの導出
損失関数: 損失関数 仮説1を採用 仮説2を採用
(コイン1) (コイン2)
0-1型
本当はコイン1 0 1
当たり・はずれ
本当はコイン2 1 0
期待損失
判別ルール
期待損失を比較して、小さい方を採用(期待損失最小化)
- 23. 一回目の試行
試行の結果 事後確率
:表、表、裏
事前分布
どちらのコインが選ばれ
たか情報がないため、同
程度の確からしさと仮定
尤度比の比較
尤度
- 24. 二回目の試行
試行の結果 事後確率
:裏、裏、裏
事前分布
一回目の試行での事
後確率を利用
尤度比の比較
尤度
- 25. 事前情報あり
試行の結果 事後確率
:表、表、裏
事前分布
どうも偏りの大きいコインら
しいという噂がある
尤度比の比較
尤度
- 26. まとめ
ベイズ統計
未知母数はすべて確率変動すると仮定
主観確率を採用
ベイズの定理による確率更新によって、状況の変化を表現
事前分布、尤度の設定の仕方によって、結果が大きく異なる
モデル設定の自由度の高さと情報更新の表現力の高さが評
価されてデータ分析や自動判別等に利用されている。
統計的決定
取りうる選択肢と最もよい決定との差に課すペナルティを損失
関数で表現
期待損失を最小化する選択が最適とする
損失関数も自由に設定でき、やり方によって結果が異なる