More Related Content
More from hagino 3000 (20)
スパース性に基づく機械学習 2章 データからの学習
- 1. 1章 & 2章
はじめに & データからの学習
機械学習プロフェッショナルシリーズ輪読会
~スパース性に基づく機械学習*1~
2016-2-10
@hagino3000 (Takashi Nishibayashi)
- 3. 1章 はじめに
• スパース性とは
• まばらである事
• 多くの変数のうち殆どがゼロでごく一部だけが非ゼロ
• ゲノムの個人差からの予測ケース
• featureが膨大
• 現実的な仮定を置いて、少ないサンプルで推定したい
• 組み合わせ爆発を防いで現実的な計算量で推定したい
- 9. データから学習するとは
• 訓練データ (xi, yi)i が何らかの規則に従って生成さ
れている時に、データを生成する規則をなるべくよ
く模倣し、再現する事
• (xi, yi) が同時確率P(x,y)から独立同一に生成されて
いるという状況を考えるのが統計的機械学習
• 訓練データには無い、新しく書かれた数字を識別で
きるようになることを汎化すると言う
Section 2.1
- 18. 期待誤差
• 未知の確率分布 P(x, y) に関する期待値なので、直
接評価できない
• 期待誤差と呼び、訓練データで計算できる経験誤差
とは区別
• 直接計算できない → 訓練データで近似する
Section 9.1
- 27. 過剰適合を防ぐ
Section 2.2
• 10次の多項式で当てはめると誤差ゼロ
• 真の関数だけでなく、ノイズにも適合してしまった
• モデルを制約するには
• 多項式などの独立な基底関数の和として関数fを表現し、
その基底関数の数を小さくおさえる
• 関数fの何らかのノルムを抑える
• モデルを小さくしすぎると、モデル化したい関数も表現で
きなくなる → 過少適合
• モデルの小ささに由来する誤差 → バイアス or 近似誤差
- 28. バイアス - バリアンス分解
Section 2.2
期待二乗誤差の訓練データに関する期待値を定義
この時、平均期待二乗誤差は次の3項に分解できる
wの推定量と
wの平均の差 → 分散 wの平均と誤差を最小化する
wの差 → バイアス
選択した基底での最小の誤差
- 34. モデル選択
Section 2.4
• モデルの持つパラメータを決定したい
• 訓練データに対してはCを大きくすれば当てはまりは良く
なってしまう → 訓練データは使えない
• 検証(validation)データを使う
• データを訓練用と検証用に分ける
• 検証データに対する誤差を最小化する
• 交差確認(cross validation)
• 訓練データをK個に分割し、K-1個で学習し、残りで誤差を
評価する
Kをデータと同じまで増やすとLeave-one-out