Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

ベイズ統計の基礎

34.508 visualizaciones

Publicado el

臨床疫学研究における報告の質向上のための統計学の研究会(http://blue.zero.jp/yokumura/workshop.html)にて,ベイズ統計学の基礎について発表しました

Publicado en: Ciencias
  • Follow the link, new dating source: ❤❤❤ http://bit.ly/2F90ZZC ❤❤❤
       Responder 
    ¿Estás seguro?    No
    Tu mensaje aparecerá aquí
  • Dating for everyone is here: ❤❤❤ http://bit.ly/2F90ZZC ❤❤❤
       Responder 
    ¿Estás seguro?    No
    Tu mensaje aparecerá aquí
  • Hello! Get Your Professional Job-Winning Resume Here - Check our website! https://vk.cc/818RFv
       Responder 
    ¿Estás seguro?    No
    Tu mensaje aparecerá aquí

ベイズ統計の基礎

  1. 1. ベイズ統計の基礎 専修大学人間科学部心理学科 国里愛彦 1
  2. 2. 目次 1. ベイズ統計とは? 2. ベイズ統計のメリット 3. Stanでベイズ統計やってみよう! 4. ベイズ統計での報告の注意事項 2
  3. 3. 目次 1. ベイズ統計とは? 2. ベイズ統計のメリット 3. Stanでベイズ統計やってみよう! 4. ベイズ統計での報告の注意事項 3
  4. 4. ベイズ統計とは? • ベイズ統計学とは,ベイズの定理(Bayes’s theorem)に基づく統計学 • 重要なのは,Bの下でのAの確率P(A|B)から, Aの下でのBの確率P(B|A)を求めることができ る点(確率が逆転している) P(B | A) = P(A | B)P(B) P(A) 4
  5. 5. ベイズって誰? • トーマス・ベイズ(1702-1761)は,英国 の数学者・長老派の牧師(温泉リゾートで 有名なタンブリッジ・ウェルズの小さな教会)。 • 牧師業の合間に書いた論文「確率の考え 方におけるある問題の解法に関する考 察」が,ベイズ統計の源流となる論文 (元々遺稿だったのを親戚のプライス牧師が発 見し補筆して発表。そこには現在のベイズの定 理はないが,そこで提示された問題をラプラス が解いたのがベイズの定理のスタート)。 5
  6. 6. ベイズの前に,統計解析とは? • 直接的に観察することはで きないが,何らかのパラ メータ(θ)が存在し, データ(yi)が生成される。 • 手元にあるデータから,そ のデータを生成したパラ メータを推測するのがデー タ解析になる。 y9 y6 y7 y5y4 y2 y10 y3 y8 y1 θ 6
  7. 7. ベイズの定理とデータ解析 𝑦𝑖が得られた下で のθの確率 = θの下で𝑦𝑖が得 られる確率 θの確率× 𝑦𝑖が得られる確率 𝑃(𝜃|𝑦𝑖) = 𝑃 𝑦𝑖 𝜃 𝑃(𝜃) 𝑃(𝑦𝑖) • データ(𝑦𝑖)が得られた下でパラメータ(θ)を知り たい場合,ベイズの定理の右辺を解く。 事後確率 (Posterior probability) 尤度 (Likelihood) 事前確率 (Prior probability) 正規化係数 (Normalizing constant) 7
  8. 8. HIV問題でベイズを理解する (以下に出る数値はあくまで例です) HIV患者がこのHIV検査で陽性になる確率(感度)も非患者 が陰性になる確率(特異度)も99%とする。 8
  9. 9. そうだ,ベイズ定理で整理しよう! 上記を計算すると, 9.016%になる。事前確率の P(真陽性)が小さいと検査陽性でも実際に陽性で ある可能性は低くなる。 𝑃(真陽性|検査陽性) = 𝑃 検査陽性 真陽性 𝑃(真陽性) 𝑃(検査陽性) HIV患者が検査で陽性反 応を示す確率は99% 保健所で検査する 人でHIVの方は0.1% HIV患者かつ検査陽性(0.1%*99%) + 非患者かつ検査陽性(99.9%*1%)=1.098% 9
  10. 10. ある保健所では検査をうけるHIVの 方が多いとすると(0.1%→1%) 事前確率の変化(0.1%→1%)によって,検査陽 性時の真陽性の事後確率が変化(9%から50%)。 𝑃(真陽性|検査陽性) = 𝑃 検査陽性 真陽性 𝑃(真陽性) 𝑃(検査陽性) HIV患者が検査で陽性反 応を示す確率は99% 保健所で検査する 人でHIVの方は1% HIV患者かつ検査陽性(1%*99%) + 非患者かつ検査陽性(99%*1%)=1.98% 計算する と50% 10
  11. 11. ベイズ更新 • 事後確率を導いた後で,新たにデータが手 に入った場合,過去に得た事後確率を新た なデータの事前確率として使える。 →ベイズ更新(Bayesian updating) • 「今日の事後分布は,明日の事前分布」 (Lindley, 2000) • 迷惑メールフィルタなどは,ベイズ更新し てスパム推定の精度を上げている。 11
  12. 12. ベイズ更新 • 臨床試験において,データが追加された 時にも,ベイズ更新を使うことができる。 𝑃(𝜃|𝑦𝑖) = 𝑃 𝑦𝑖 𝜃 𝑃(𝜃) 𝑃(𝑦𝑖) 𝑃(𝜃|𝑛𝑒𝑤 𝑦𝑖) = 𝑃 𝑛𝑒𝑤 𝑦𝑖 𝜃 𝑃(𝜃) 𝑃(𝑛𝑒𝑤 𝑦𝑖) 事後確率 尤度 事前確率 ベイズ更新 事前確率 12
  13. 13. HIV検査問題でベイズ更新 • その後4回検査を受けて,2回目陰性,3〜5 回目は陽性だった場合・・・ 1回目は,事前確 率(H=0.01, L=0.001) の影響を強く受け るが,ベイズ更新 を繰り返すと結論 は収束してくる 13
  14. 14. 確率から確率分布へ f(𝜃|𝑦𝑖) = f 𝑦𝑖 𝜃 f(𝜃) f(𝑦𝑖 ) 事後分布 (Posterior distribution) 尤度 (Likelihood) 事前分布 (Prior distribution) f(𝜃|𝑦𝑖) ∝ f 𝑦𝑖 𝜃 f(𝜃) 規格化係数 (Normalizing constant) • θを含まない規格化係数を除いた表現 14
  15. 15. 尤度 • 尤度f(𝑦𝑖 |θ)は,パラメータ(θ)を色々な値に動 かした時に,手元のデータが得られる尤もら しさの分布になる。 • 尤度が最大になるθを探す方法を最尤法と呼 び,頻度論でよく用いれる。 • 最尤法は,過学習しやすい,パラメータの多 い複雑なモデルでは推定が局所最適解に落ち やすいなどのデメリットがある。 →事前分布やMCMC法を用いたベイズ統計学を 使用する。 事後分布∝尤度*事前分布 15
  16. 16. 事前分布と事後分布 • 事前分布は,データ(𝑦𝑖)を観察す る前のパラメータ(θ)の分布。 • 事後分布は,データ(𝑦𝑖)を観察し た下でのパラメータ(θ)の分布。 • 事後分布は,事前分布の影響をう ける(下図の事後分布は,データ は同じだが,事前分布が異なる) →事前分布の選択が主観的である と批判 θ 事後分布∝尤度*事前分布 16
  17. 17. 事前分布の設定 • 臨床家の意見や先行研究から事前分 布を設定する ① 無情報事前分布:一様分布など平 坦な分布を使う(事後分布は尤度 に従う) ② 懐疑的事前分布:研究仮説につい て保守的な事前分布(大きな治療 効果は生じないなど) ③ 楽観的事前分布:研究仮説に対し て好ましい方向の事前分布 ④ 臨床的事前分布:臨床家の意見や 知見からある程度客観性を担保で きるもの 17
  18. 18. 事後分布の要約統計量 • 点推定値は,事後分布の平均値であるEAP推 定値(expected a posteriori) ,中央値であるMED推 定値(posterior median) ,最頻値であるMAP推定 値(maximum a posteriori)がある。 • 区間推定は,a%信用区間 (Credible Interval, 確 信区間・ベイズ区間とも)を使う(事後分布 の両端(100-a)/2を切り取る)。 • 信用区間は,「パラメータθが,AからBの区 間に95%の確率で存在する」と解釈され,直 感的に理解しやすい(信頼区間は違う)。18
  19. 19. 事後予測分布 • データ𝑦𝑖を観測した下での,新しいデー タnew 𝑦𝑖の分布 →事後分布f(θ| 𝑦𝑖)で重み付けして,確率モ デルf(new 𝑦𝑖 |θ)を足し合わせる。 →MCMCの事後分布のサンプルをデータ生 成モデルにいれて乱数を発生させること を繰り返す。 • 予測分布から得た予測区間をベイズ予測 区間を呼ぶ。 f 𝑛𝑒𝑤 𝑦𝑖 𝑦 = f 𝑛𝑒𝑤 𝑦𝑖 𝜃 f 𝜃 𝑦𝑖 𝑑𝜃 19
  20. 20. 目次 1. ベイズ統計とは? 2. ベイズ統計のメリット 3. Stanでベイズ統計やってみよう! 4. ベイズ統計での報告の注意事項 20
  21. 21. 頻度論の特徴 • パラメータ(θ)は定数,デー タ(y)は確率変数と考える。 →パラメータは未知の定数な ので,それを確率的に扱うこ とはできない(「母平均が0 である確率は80%」とか言え ない)。 y9 y6 y7 y5y4 y2 y10 y3 y8 y1 θ • 帰無仮説検定や信頼区間は,解釈を誤ること がある(帰無仮説の確率は知り得ない)。 21
  22. 22. ベイズ統計の特徴 • パラメータ(θ)は確率変数, データ(y)は定数と考える。 →信用区間や仮説の確率など がわかりやすい。 →ベイズ更新が便利 →事後分布の情報が豊か y9 y6 y7 y5y4 y2 y10 y3 y8 y1 θ • 事前分布が主観的&計算が大変 →無情報事前分布の利用&MCMCの使用(複雑 なモデルも推定可能に) 22
  23. 23. 臨床試験のデザインや解析に ベイズ統計を使うメリット • 過去の研究などの事前情報を組み込むこ とで,今回の臨床試験から得られる情報 を増やすことができる。 • データの変動性が小さいことなどが,事 前情報でわかっているならサンプルサイ ズを小さくできる。 • 適応型デザインを使うことでデータを蓄 積しながら中止についての判断ができる ので,結果としてサンプルサイズが小さ くなる。 FDA(2010) Guidance for the Use of Bayesian Statistics in Medical Device Clinical Trials 23
  24. 24. 臨床試験のデザインや解析に ベイズ統計を使うメリット • 適切な事前の計画があるのが前提だが, 試験の途中で好ましくない群を中止した り,割付方法を変更することもできる。 • 頻度論では近似値だったり実装できない ことも,正確に解析できる • 欠測値を柔軟に扱うことができたり,サ ブグループ解析などで階層モデルを作っ た上で多重性の調整をしたりできる。 FDA(2010) Guidance for the Use of Bayesian Statistics in Medical Device Clinical Trials 24
  25. 25. ベイズを活用した臨床試験 (エボラへのZMappの有効性試験) • 2014~2016年にかけて西アフリカでエボラのア ウトブレイクが生じた(約11000名の死者)。 • 動物実験では,3 種類のモノクローナル抗体の 混合の ZMapp が有効とされる。 →エボラウィルス病に対するZMappの有効性を 検証する適応型無作為化比較試験を行った。 • リベリア,シエラレオネ,ギニア,アメリカに おいて72名の患者が登録され,36名が標準治 療に,36名が標準治療+ZMapp投与を受けた。 • 主要エンドポイントは,28日後の死亡率 The PREVAIL II Writing Group, for the Multi-National PREVAIL II Study Team (2016) N Engl J Med 375:1448-56. 25
  26. 26. エボラへのZMappの有効性試験 • エボラでは,治療供給不足,流行終息に伴う患者減少, 新たな有望な薬剤が利用可能になるなどが生じる。 →本試験も,2015年3月に開始,流行終息で11月に終了 →状況に応じた柔軟な臨床試験に(ベイズを利用)。 • 事前分布は,群間には差がない&大きな効果より小さ な効果が多いという懐疑的事前分布を設定した。 • 28日死亡率の群間での絶対差は,-14%(95%信用区間 は-34% ~ 6%)。ZMappが優れる事後確率は,91.2%(事 前設定した97.5%を下回った) →ZMappが有益に思えたが事前設定した有効性の基準 を越えるものではなかった。 The PREVAIL II Writing Group, for the Multi-National PREVAIL II Study Team (2016) N Engl J Med 375:1448-56. 26
  27. 27. 目次 1. ベイズ統計とは? 2. ベイズ統計のメリット 3. Stanでベイズ統計やってみよう! 4. ベイズ統計での報告の注意事項 27
  28. 28. どうやってベイズ統計をする? ※BUGS/WinBUGS,OpenBUGS, JAGSなどもあるが,開発が終わっ ていたり,Stanに比べると開発速 度も計算速度も遅い。 • ベイズ統計学では積分を用いるが, 解くこ とが難しいことも多い。 →素人的に言えば,積分は面積を求めるこ となので,マルコフ連鎖モンテカルロ (MCMC)法を用いる。 • 今回は,Stan(Rの場合は,RStan)を使って ベイズ統計を体験してみる。 28
  29. 29. モンテ・カルロ法 -川崎市の面積はどのくらい?- 1. たくさんの点を地図上にランダムにうつ。 2. 川崎市に入っている点(赤)を数える。 3. 全体の面積×[赤い点/(赤い点+青い点)] • 解析的に解けないもの も乱数を発生させるこ とで,評価可能になる。 • このような方法をモン テ・カルロ法と言う。 29
  30. 30. Hamiltonian Monte Carlo(HMC)法 • Stanでは,HMCを実装したNUTS(No-U-Turn Sampler) を使用する。 事後分布と独立した標準正規分布の同時分布から乱数発生 ①初期値θ1を決める ②標準正規分布から乱数ptを発生 ③リープフロッグ法で遷移させ, 候補となるθaとpaを準備 ④特定の確率で候補を受け入れ, さもなくば,θはそのまま ※事前に決めたサンプリング回数まで ②〜④を繰り返す。 詳細は,豊田秀樹編著『基礎からのベイズ統計学:ハミルトニアンモンテカルロ法によ る実践的入門』 30
  31. 31. スタニスワフ・ウラムとモン テカルロ法&Stan • 原爆・水爆の開発にも関わった数学者スタニス ワフ・ウラムは,1945年にウィルス性脳炎に なった(一時的に失語も生じた)。 • トランプで一人遊びをしていた(成功する場合 の確率を計算する必要がある)時,全ての可能 な組み合わせを計算するより,その推移を実験 して,どんな割合で成功するかだけに注目する ほうが実際的と気づく。 →モンテカルロ法へ発展 →Stanの名前の由来 『数学のスーパースターたち―ウラ ムの自伝的回想』,1979,東京図書 31
  32. 32. Stanを使ってみよう! • RStanのGithubページ(日本語化されている)があ るので,そこの手順に従って,インストールする。 https://github.com/stan-dev/rstan/wiki/RStan-Getting- Started-(Japanese) • 以降のデモに関しては,研究会ではHTMLファイル とRmarkdownファイルを配布しています。ご関心 のある方は,国里までご連絡くだされば,配布い たします。 32
  33. 33. データの説明(疾患Aに対する 新規治療薬Bの有効性評価) • 60名の患者を,通常治療(tAU)と新規治療薬Bを 追加した治療(tNEW)の2群に1:1で割り付ける臨 床試験を実施。 • プライマリーアウトカムは,治療一ヶ月後の症 状評価尺度得点とする(得点範囲は,1 ~ 100点 で,症状が重いほど得点が高い)。新規治療は コストが高く,通常治療よりも6点以上低い必 要がある。 • 仮想データは,正規分布から乱数発生させて作 成(tAU~Normal(50, 8); tNEW~Normal(40, 10)) 33
  34. 34. データの視覚化 34
  35. 35. data{ int NtAU; int NtNEW; real StAU[NtAU]; real StNEW[NtNEW]; } parameters { vector<lower = 0, upper = 100> [2] mu; vector<lower = 0, upper = 100> [2] sigma; } model { StAU ~ normal(mu[1],sigma[1]); StNEW ~ normal(mu[2],sigma[2]); } Stanコードの最小単位は,data{}, parameters{},model{}の3つ data{}では,データ型やベクトル 数などを指定し,データを定義 parameters{}では,推定したいパラメー タを指定(適宜,範囲も指定する) model{}では,データがパラメータとモ デルからどのように生成されるか指定 事前分布を指定してい ない場合,パラメータ の範囲の一様分布が指 定される。 35
  36. 36. Stanコードの実行 # Stanの設定(並列化) rstan_options(auto_write=TRUE) options(mc.cores = parallel::detectCores()) # サンプリング fit1 <- stan(model_code = model1, seed = 1234, data = stanData1, warmup = 300, iter = 1000, chains = 4, thin = 2) 先程のStanコード をmodel1に入れ て指定 MCMCサンプリングで, 不安定な初期300個を削除 4つのチェインから1000サ ンプルを持ってくる。サン プルは2つに1つを使用36
  37. 37. 収束判定 • サンプリングが終 わったら,MCMC チェーンが収束した かチェックする。 • bayesplotパッケージ が便利 • トレースプロットをみて,複数の連鎖 がちゃんと混ざり合っているか,ドリ フトを起こしてないか確認(左図) • サンプル間の自己相関が高くなってな いか確認(右図) 37
  38. 38. 収束判定 • Rhat(1.1以下が望ましい)を確認する。 • 有効サンプルサイズを総サンプルサイズで割った もの(0.1以上が望ましい)を確認する。 38
  39. 39. 各群の平均の事後分布 • 事後分布をプロット(中央値と95%信用区間)。 記述統計の平均値を中心に分布しています。 39
  40. 40. 平均の差の事後分布 • 得られたMCMCサンプルを用いて,平均値の差 (MutAU-MutNEW)の事後分布を算出しました。 • 平均の差が0以上 の確率は,1 • 平均の差が6以上 (新規治療として 意味のある差)の 確率は,0.98 →事後分布を使って, 柔軟な仮説の検討が できる 40
  41. 41. 事後予測分布 • MCMCサンプルを用いて,今後,新たなデータが得 られた場合の予測分布を算出することができる。 • 新規治療は,や や標準偏差が大 きいが多くの患 者にとって利益 が期待できそう。 41
  42. 42. ベイズ更新 • 得られた事後分布を次の臨床試験(120名を各 群60名ずつに無作為割付)の事前分布に指定し てみる(ベイズ更新)。 • 残念ながら,今度の 試験では,新規治療 薬の方が効果が低い という結果に・・・ →先程の事後分布とは 反対方向・・・ 42
  43. 43. ベイズ更新 • ベイズ更新すると,事前分布の影響を強くうけ て,平均が0付近の分布になった。 • 無情報的事前分布 の場合は,新規治 療群の方が劣性に なっている。 →事前分布の設定は 慎重に →ベイズ更新を繰り 返せば,結論は収束 していく。 43
  44. 44. 目次 1. ベイズ統計とは? 2. ベイズ統計のメリット 3. Stanでベイズ統計やってみよう! 4. ベイズ統計での報告の注意事項 44
  45. 45. 必須報告事項 • ベイズ統計の報告で,以下の3つが大切 ①データ,モデル,事前分布を明確に記載 ②事後分布の計算方法と妥当性を確認 ③事後分布の解釈 ※事後予測チェック 『Doing Bayesian Data Analysis, Second Edition: A Tutorial with R, JAGS, and Stan』Ch25 45
  46. 46. そもそもベイズ統計を使う意 義を説明する • 雑誌のエディターも査読者も帰無仮説検定にな じんでいるが,ベイズ統計にはなじんでない →なぜベイズ統計を使うのか説明をする • ベイズ統計はデータに合わせてモデルを作れる, 帰無仮説検定にあるような想定(分散の等質性、 ノイズが正規分布)が不要,帰無仮説検定より も事後分布から得られる情報が多いなどの理由 からベイズ統計の意義を主張できる。 『Doing Bayesian Data Analysis, Second Edition: A Tutorial with R, JAGS, and Stan』Ch25 46
  47. 47. データ構造,モデル,事前分 布を明確に記述する。 • 意味のあるパラメータを報告するために, データ構造について要約し(何が応答変 数か,何が説明変数か),モデルについ て記述する。 • 事前分布が適切であり,結果をあらかじ め方向づけるものではないと読者に納得 してもらうように報告する。 • 事前分布は、少なくとも少しは情報のあ るものがよい。同じ方法を使った先行研 究がある場合に,それを無視すべきでは ない。 『Doing Bayesian Data Analysis, Second Edition: A Tutorial with R, JAGS, and Stan』Ch25 47
  48. 48. グラフィカルモデルのすすめ • 階層モデルなどの複雑なモデ ルは,モデルの記述が大変な ので,グラフィカルモデル (プレート表現)を使うとわ かりやすいです(プレートは forを表す)。 連続的 離散的 潜在 顕在 決定論的 (生成量) 『実践 ベイズモデリング -解析技法と認知モデル- 』(朝倉書店,2017年,P189) θi pij yij bj 𝑏𝑗~𝑁𝑜𝑟𝑚𝑎𝑙 0, 2 𝜃𝑖~𝑁𝑜𝑟𝑚𝑎𝑙 0, 1 𝑝𝑖𝑗 = 1 1 + exp(𝜃𝑖ー𝑏𝑗) 𝑦𝑖𝑗~𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 𝑝𝑖𝑗 i=1…N j=1…I 48
  49. 49. 事後分布の妥当性を示し,事 後分布を要約する • 連鎖が収束したかをRhatやグラフで示す • パラメータが多いと要約も大変なので,理論や結果 に基づいて何を報告するのか選択する(ヒストグラ ムは事後分布の情報をよく示すが,適宜,要約統計 量も使う) • 複数の事前分布を使って分析し,事後分布から得ら れる結論は変わらないことを示す(感度分析) • 事後予測分布からデータを作って,実際のデータと 同じ傾向を示すか確認する(事後予測チェック) 『Doing Bayesian Data Analysis, Second Edition: A Tutorial with R, JAGS, and Stan』Ch25 49
  50. 50. 推薦図書 『StanとRでベイズ統計モデリング』(共立出版, 2016) 『基礎からのベイズ統計学: ハミルトニアンモンテカルロ法 による実践的入門』(朝倉書店,2015年) 『はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉 の統計学―』(朝倉書店,2016年) 『実践 ベイズモデリング -解析技法と認知モデル- 』(朝倉 書店,2017年) 『Doing Bayesian Data Analysis, Second Edition: A Tutorial with R, JAGS, and Stan』(Academic Press,2014 そろそろ邦訳版?) 『Guidance for the Use of Bayesian Statistics in Medical Device Clinical Trials』(FDA, 2010) 50
  51. 51. JustGiving 統計学で検索! http://justgiving.jp/p/886 REQUIRE研究会は、臨床疫学系の研究者が、統計学の継続学習をする場です。こうした取り組みは、公的研究費や民間財団からの支援を受けることは難しい状況です。しかし、運営費を確保するた めに参加費や年会費を高く設定することは、大学院生の参加を妨げ、かつ「参加者が講師」というスタンスを貫くために採用したくないと考えています。継続的に健全な研究会を運用可能な仕組みにするため、どうか、ご支援を頂けると幸いです。

×