Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.
PRML輪読会 2017
第1章 序論
東京⼤学⼤学院⼯学系研究科
技術経営戦略学専攻
松尾研究室
M1 中川 ⼤海
構成
1.1 多項式曲線フィッティング
1.2 確率論
1.3 モデル選択
1.4 次元の呪い
1.5 決定理論
1.6 情報理論
2
1.1 多項式曲線フィッティング
• 訓練集合:N個の⼊⼒値 XNと対応するN個の⽬標値TN
• 訓練集合から新たな⼊⼒ x の⽬標変数 t を予測することが⽬標
• 以下のような多項式で予測することを考える
– パラメータ w に対して線形:...
1.1 多項式曲線フィッティング
• 変数が増えるとデータに含まれるノイズの影響が強くなる
– 係数の値が⼤きくなる
4
1.1 多項式曲線フィッティング
• データが少ないと過学習が起こりやすい
• データが少なくても正則化によって過学習を抑えられる
– 正則化をかけすぎると係数が⼩さくなりすぎる
5
1.2 確率論
6
確率の基本法則
引⽤: https://www.slideshare.net/takushimiki/prml-52113785
1.2.1 確率密度
7
確率密度関数
累積分布関数
引⽤: https://www.slideshare.net/takushimiki/prml-52113785
1.2.1 確率密度
• 確率密度はヤコビ⾏列により特殊な変換を⾏う
• 確率密度の最⼤値は変数の選び⽅に依存する
8
引⽤: https://www.slideshare.net/alembert2000/prml-at-1
1.2.1 確率密度
9引⽤: https://drive.google.com/drive/folders/0Bz9yuvZCp4qSZXB1MUpQSG9KQWs
1.2.2 期待値と分散
• 離散分布の期待値
• 連続分布の期待値
• 離散/連続を問わず、有限個のN個の点から近似できる
– サンプリングを⾏う時などに⽤いる(11章)
• 分散と共分散
10
1.2.4 ガウス分布
• 単⼀の実数変数 x に対するガウス分布
• 期待値
• ⼆次モーメント(⼆乗の期待値)
• 分散
11
1.2.4 ガウス分布
• ガウス分布から⽣成されたi.i.dなN個の点から分布のパラメータを推定する
• データ集合の確率:尤度関数
– パラメータを固定とした時に観測されたデータがどれくらい起こりやすいか?
– 周辺確率の積で求まる
– 尤...
1.2.4 ガウス分布
• 𝜇	と 𝜎	を最尤推定する(各変数について最⼤化する)
– ガウス分布では両者を分離して最⼤化を⾏える
– 標本平均と標本分散が得られる
• 最尤推定の問題点:分散が過⼩評価される=バイアス
– サンプル数が⼤きくな...
1.2.5 曲線フィッティング再訪
• 曲線フィッテイングの尤度関数
• 対数尤度
• 対数尤度の最⼤化=負の対数尤度の最⼩化
– ノイズがガウス分布に従うという仮定の元では、⼆乗和誤差の最⼩化=尤度の最⼤化
14
1.2.5 曲線フィッティング再訪
• 最尤推定によってパラメータが求まり得られる予測分布
• これにパラメータ w に関する事前分布を導⼊する
– 頻度論的なアプローチからベイズ的なアプローチへ
• w の事後分布は尤度関数と事前分布の積に⽐...
1.2.6 ベイズ曲線フィッティング
• 事後分布を組み込むだけでは点推定にとどまる
• 加法・乗法定理を⽭盾なく適⽤して、wの全ての値に関して積分する
– 完全なベイズアプローチに
• 予測分布
– 新たな点 x に関する⽬標値 t を を ...
1.3 モデル選択
• モデルの汎化性能を上げるには?
• 交差検証
– 訓練データをs分割
– 訓練時間はs倍になる
– パラメータが増えると指数関数的に訓練回数が増えうる
• ⼀回の訓練だけで複数の超パラメータとモデルタイプを⽐較したい
–...
1.4 次元の呪い
• 学習アルゴリズムの設計
• マス⽬に分割してみる
– ⼊⼒空間の次元数の増加に対してマス⽬が指数関数的に増加
• 多項式曲線フィッティング
– 係数の数がべき乗に増加
• 幾何的直感が⼀致しないなど、様々な困難が伴う=次...
1.5 決定理論
• 訓練データ集合 → 同時分布:推定(難しい)
• 同時分布 → 基準に基づき最適な⾏動:決定(簡単)
• どのような基準で決定するか? → 誤識別率の最⼩化
– 事後確率が最⼤のクラスに分類するのが最適
• 誤り率の定式化...
1.5.2 期待損失の最⼩化
• 識別率だけ上がればよいのか?
– ex) 癌患者を健康と誤診するほうが問題...
– 損失関数を定めて期待損失を最⼩化する必要がある
• 期待損失
– 同時確率で定義される
– 共通因⼦を除くと事後確率
• 棄...
1.5.4 推論と決定
21
⽣成モデル
• 同時分布を推論する
• 出⼒の分布だけでなく⼊⼒の分布もモデル化
• 新規性検出などのメリット
• 訓練コストが⾼い
識別モデル
識別関数
• 事後確率のみ推論して決定理論でクラス割当
• 出⼒の分...
1.5.4 推論と決定
• 事後確率を求めるメリット
– 損失⾏列の変更や棄却オプションなどへの柔軟性
– 訓練データの修正などの情報による事前確率の補正
– 複数のモジュールの結合
22
1.5.5 回帰のための損失関数
• 損失関数が⼆乗誤差の場合の期待損失
• 最適解は条件付き平均になる
• 変形した損失関数
23
回帰関数
解が条件付き平均の時に最⼩
=最適解
⽬標データが持つノイズ
=損失関数の最⼩値
1.6 情報理論
• 離散確率変数xを観測した時の情報量
– 確率が低い事象が起こったときほど⼤きくなる
– 互いに独⽴な確率変数の情報量は単独の場合の和になる
– 底2:ビット、底e:ナット
• 情報量の平均:エントロピー
• 離散分布
– ...
1.6.1 相対エントロピーと相互情報量
• 真の分布 p(x) を q(x) で近似したい
• q(x)でxの値を特定するのに追加で必要な情報量は
• KLダイバージェンス(相対エントロピー)
– (p(x)のエントロピー) – (q(x)の...
1.6.1 相対エントロピーと相互情報量
• 凸関数
– 関数 f(x) は全ての弦が関数に乗っているか、それよりも上にある
• 関数の値 ≦ 弦上の値
– 数学的帰納法によりイェンセンの不等式に変換
– を確率分布と⾒なすと
– 連続変数に対...
1.6.1 相対エントロピーと相互情報量
• データを⽣成している未知の分布 p(x) をモデル化したい場合
– パラメータ θ をもつパラメトリックな分布 q(x) で近似してみる
– θ は KL(p||q) を θ について最⼩化すること...
1.6.1 相対エントロピーと相互情報量
• xとyが独⽴に近いかどうか?
• p(x,y)とp(x)p(y)のKLダイバージェンス(相互情報量)で求まる
• y(x)を知ることでx(y)に関する不確実性がどのように減少するかを表す
28
参考資料
• パターン認識と機械学習 上
– C.M. ビショップ (著), 元⽥ 浩 (監訳), 栗⽥ 多喜夫 (監訳), 樋⼝ 知之 (監訳), 松本 裕治 (監訳), 村⽥ 昇 (監訳)
• PRML読み会#1 (三⽊, SlideSha...
Próxima SlideShare
Cargando en…5
×

PRML輪読#1

9.947 visualizaciones

Publicado el

東京大学松尾研究室におけるPRMLの輪読資料です。

Publicado en: Educación
  • Hello! Get Your Professional Job-Winning Resume Here - Check our website! https://vk.cc/818RFv
       Responder 
    ¿Estás seguro?    No
    Tu mensaje aparecerá aquí
  • Hi there! Essay Help For Students | Discount 10% for your first order! - Check our website! https://vk.cc/80SakO
       Responder 
    ¿Estás seguro?    No
    Tu mensaje aparecerá aquí

PRML輪読#1

  1. 1. PRML輪読会 2017 第1章 序論 東京⼤学⼤学院⼯学系研究科 技術経営戦略学専攻 松尾研究室 M1 中川 ⼤海
  2. 2. 構成 1.1 多項式曲線フィッティング 1.2 確率論 1.3 モデル選択 1.4 次元の呪い 1.5 決定理論 1.6 情報理論 2
  3. 3. 1.1 多項式曲線フィッティング • 訓練集合:N個の⼊⼒値 XNと対応するN個の⽬標値TN • 訓練集合から新たな⼊⼒ x の⽬標変数 t を予測することが⽬標 • 以下のような多項式で予測することを考える – パラメータ w に対して線形:線形モデル – M はモデルのパラメータ • パラメータを固定した時の関数 y(x, w) と訓練集合の値のズレを最⼩化す るパラメータを選ぶことで関数を推定 – ⼆乗和誤差関数 3
  4. 4. 1.1 多項式曲線フィッティング • 変数が増えるとデータに含まれるノイズの影響が強くなる – 係数の値が⼤きくなる 4
  5. 5. 1.1 多項式曲線フィッティング • データが少ないと過学習が起こりやすい • データが少なくても正則化によって過学習を抑えられる – 正則化をかけすぎると係数が⼩さくなりすぎる 5
  6. 6. 1.2 確率論 6 確率の基本法則 引⽤: https://www.slideshare.net/takushimiki/prml-52113785
  7. 7. 1.2.1 確率密度 7 確率密度関数 累積分布関数 引⽤: https://www.slideshare.net/takushimiki/prml-52113785
  8. 8. 1.2.1 確率密度 • 確率密度はヤコビ⾏列により特殊な変換を⾏う • 確率密度の最⼤値は変数の選び⽅に依存する 8 引⽤: https://www.slideshare.net/alembert2000/prml-at-1
  9. 9. 1.2.1 確率密度 9引⽤: https://drive.google.com/drive/folders/0Bz9yuvZCp4qSZXB1MUpQSG9KQWs
  10. 10. 1.2.2 期待値と分散 • 離散分布の期待値 • 連続分布の期待値 • 離散/連続を問わず、有限個のN個の点から近似できる – サンプリングを⾏う時などに⽤いる(11章) • 分散と共分散 10
  11. 11. 1.2.4 ガウス分布 • 単⼀の実数変数 x に対するガウス分布 • 期待値 • ⼆次モーメント(⼆乗の期待値) • 分散 11
  12. 12. 1.2.4 ガウス分布 • ガウス分布から⽣成されたi.i.dなN個の点から分布のパラメータを推定する • データ集合の確率:尤度関数 – パラメータを固定とした時に観測されたデータがどれくらい起こりやすいか? – 周辺確率の積で求まる – 尤度関数の最⼤化:最尤推定 • 対数尤度を⽤いる – 積を和に変換できる – ⼩さな確率値の積のアンダーフローを防げる – 対数は単調増加なので 対数最⼤化=元の関数最⼤化 12
  13. 13. 1.2.4 ガウス分布 • 𝜇 と 𝜎 を最尤推定する(各変数について最⼤化する) – ガウス分布では両者を分離して最⼤化を⾏える – 標本平均と標本分散が得られる • 最尤推定の問題点:分散が過⼩評価される=バイアス – サンプル数が⼤きくなれば影響は減るが、これが過学習の根本 13
  14. 14. 1.2.5 曲線フィッティング再訪 • 曲線フィッテイングの尤度関数 • 対数尤度 • 対数尤度の最⼤化=負の対数尤度の最⼩化 – ノイズがガウス分布に従うという仮定の元では、⼆乗和誤差の最⼩化=尤度の最⼤化 14
  15. 15. 1.2.5 曲線フィッティング再訪 • 最尤推定によってパラメータが求まり得られる予測分布 • これにパラメータ w に関する事前分布を導⼊する – 頻度論的なアプローチからベイズ的なアプローチへ • w の事後分布は尤度関数と事前分布の積に⽐例 • これにより事後分布を最⼤化する w が求められる – 最⼤事後確率推定(MAP推定) 15
  16. 16. 1.2.6 ベイズ曲線フィッティング • 事後分布を組み込むだけでは点推定にとどまる • 加法・乗法定理を⽭盾なく適⽤して、wの全ての値に関して積分する – 完全なベイズアプローチに • 予測分布 – 新たな点 x に関する⽬標値 t を を w に対して周辺化し求める • 予測平均 • 予測分散 • 分散⾏列 • 基底 16 ⽬標変数のノイズによる不確実性 パラメータwに対する不確実性
  17. 17. 1.3 モデル選択 • モデルの汎化性能を上げるには? • 交差検証 – 訓練データをs分割 – 訓練時間はs倍になる – パラメータが増えると指数関数的に訓練回数が増えうる • ⼀回の訓練だけで複数の超パラメータとモデルタイプを⽐較したい – 訓練データのみに依存し過学習バイアスを持たない性能尺度が必要 • 情報量基準(4章) – AIC, BICなど – モデルのパラメータの不確実性は考慮していない – 過度に単純なモデルを選びやすい • より⾃然で理にかなうのがベイズアプローチ(3章) 17
  18. 18. 1.4 次元の呪い • 学習アルゴリズムの設計 • マス⽬に分割してみる – ⼊⼒空間の次元数の増加に対してマス⽬が指数関数的に増加 • 多項式曲線フィッティング – 係数の数がべき乗に増加 • 幾何的直感が⼀致しないなど、様々な困難が伴う=次元の呪い • 実⽤では、意外と⾼次元空間でもなんとかなる – 実データは実際には低次元領域に存在する – ⽬標変数の重要な変化が⽣じる⽅向はそこまで多くない – ⼊⼒空間上の⼩さな変化は⽬標変数に⼩さな変化しか与えない 18
  19. 19. 1.5 決定理論 • 訓練データ集合 → 同時分布:推定(難しい) • 同時分布 → 基準に基づき最適な⾏動:決定(簡単) • どのような基準で決定するか? → 誤識別率の最⼩化 – 事後確率が最⼤のクラスに分類するのが最適 • 誤り率の定式化(2クラス) • より⾼次だと正解率を定式化するほうが易しい 19
  20. 20. 1.5.2 期待損失の最⼩化 • 識別率だけ上がればよいのか? – ex) 癌患者を健康と誤診するほうが問題... – 損失関数を定めて期待損失を最⼩化する必要がある • 期待損失 – 同時確率で定義される – 共通因⼦を除くと事後確率 • 棄却オプションという選択肢もある – 事後確率が閾値θ以下なら決定を避ける 20 k を j と識別した際の損失(k = j なら0)
  21. 21. 1.5.4 推論と決定 21 ⽣成モデル • 同時分布を推論する • 出⼒の分布だけでなく⼊⼒の分布もモデル化 • 新規性検出などのメリット • 訓練コストが⾼い 識別モデル 識別関数 • 事後確率のみ推論して決定理論でクラス割当 • 出⼒の分布をモデル化 • 訓練コスト節約 • ⼊⼒を直接ラベルに写像する関数を学習 • 確率は⽤いない 難 易
  22. 22. 1.5.4 推論と決定 • 事後確率を求めるメリット – 損失⾏列の変更や棄却オプションなどへの柔軟性 – 訓練データの修正などの情報による事前確率の補正 – 複数のモジュールの結合 22
  23. 23. 1.5.5 回帰のための損失関数 • 損失関数が⼆乗誤差の場合の期待損失 • 最適解は条件付き平均になる • 変形した損失関数 23 回帰関数 解が条件付き平均の時に最⼩ =最適解 ⽬標データが持つノイズ =損失関数の最⼩値
  24. 24. 1.6 情報理論 • 離散確率変数xを観測した時の情報量 – 確率が低い事象が起こったときほど⼤きくなる – 互いに独⽴な確率変数の情報量は単独の場合の和になる – 底2:ビット、底e:ナット • 情報量の平均:エントロピー • 離散分布 – ⼀様分布で最⼤ • 連続分布 – ガウス分布で最⼤ – 分散が⼤きくなるに連れてエントロピーも増⼤ 24 lnΔ異なる =Δ→0で発散 =連続変数を厳密に定義するには無限のビット数が必要
  25. 25. 1.6.1 相対エントロピーと相互情報量 • 真の分布 p(x) を q(x) で近似したい • q(x)でxの値を特定するのに追加で必要な情報量は • KLダイバージェンス(相対エントロピー) – (p(x)のエントロピー) – (q(x)のエントロピー) – 分布間の距離のようなもの(⾮対称) • であり、0になるのは p(x) = q(x) – 凸関数であるため成り⽴つ 25
  26. 26. 1.6.1 相対エントロピーと相互情報量 • 凸関数 – 関数 f(x) は全ての弦が関数に乗っているか、それよりも上にある • 関数の値 ≦ 弦上の値 – 数学的帰納法によりイェンセンの不等式に変換 – を確率分布と⾒なすと – 連続変数に対しては – KLダイバージェンスに適⽤すると 26 http://qiita.com/kenmatsu4/items/26d098a4048f84bf85fb
  27. 27. 1.6.1 相対エントロピーと相互情報量 • データを⽣成している未知の分布 p(x) をモデル化したい場合 – パラメータ θ をもつパラメトリックな分布 q(x) で近似してみる – θ は KL(p||q) を θ について最⼩化することで求まる • p(x)を知らないからKLが計算できない – p(x) をサンプリングによって近似する • KLの最⼩化=尤度最⼤化(最尤法) 27 θ と独⽴な項 θ の負の対数尤度 • xとyが独⽴に近いかどうか? • p(x,y)とp(x)p(y)のKLダイバージェンス(相互情報量)で求まる
  28. 28. 1.6.1 相対エントロピーと相互情報量 • xとyが独⽴に近いかどうか? • p(x,y)とp(x)p(y)のKLダイバージェンス(相互情報量)で求まる • y(x)を知ることでx(y)に関する不確実性がどのように減少するかを表す 28
  29. 29. 参考資料 • パターン認識と機械学習 上 – C.M. ビショップ (著), 元⽥ 浩 (監訳), 栗⽥ 多喜夫 (監訳), 樋⼝ 知之 (監訳), 松本 裕治 (監訳), 村⽥ 昇 (監訳) • PRML読み会#1 (三⽊, SlideShare) – https://www.slideshare.net/takushimiki/prml-52113785 • PRML 上巻勉強会 第1章 序論 (⼤澤, SlideShare) – https://www.slideshare.net/alembert2000/prml-at-1 • 演習問題解答 – https://drive.google.com/drive/folders/0Bz9yuvZCp4qSZXB1MUpQSG9KQWs • イェンセン(Jensen)の不等式の直感的理解 (Qiita) – http://qiita.com/kenmatsu4/items/26d098a4048f84bf85fb 29

×