Prml6

PRML 6章
カーネル法入門
M2 Arata Honda
Mathematical Informatics Lab, NAIST
Nov, 2th ,2016 1

なんでカーネル法？
ハワイ二ヶ月で勉強した
カーネル法を知るといろいろお得
SVMの理解ができる
ガウス過程が理解できる
いろいろ応用が利く
2

カーネル法の応用研究
パターン認識
文字認識、音声認識など
Web上のサービス
大量テキスト、自然言語処理、XML
バイオインフォマティクス
DNAやアミノ酸配列から情報抽出
3

カーネル法のモチベーション
高次元な特徴次元に写像することで線形分離可能
高次元な特徴ベクトルの計算を間接的におこなう
4

はじめに(3章線形回帰モデルの復習)
 与えられた入力変数から未知の変数を予測(回帰問題)
 入力に非線形な処理(基底関数の導入)でモデルの表現力を上げる
 基底関数はいろんなものがある(3章序章)
 基底関数に対して線形なパラメータｗを扱うので”線形回帰モデル”
5
：基底関数

線形回帰モデルの解
 目標変数tとの二乗誤差が最小になるパラメータwの解を求める
 パラメータwについて微分=0をすればいい(二乗は必ず凸なので)
6
：正規方程式

過学習のくだり
7
1章にて多項式フィッティングの過学習が紹介
訓練データにすべ
て対応してるが真
の函数(緑線)は捉
えられてない

罰則項をつけて過学習を防ぐ(正則化)
8
罰則項
 パラメータwについて微分=0をすればいい(二乗は必ず凸なので)
 λは逆行列のランクを満たす役割をもつ
 λを大きくするとwは0に近づいていく
 罰則項が2乗の時はridge回帰、1乗の時はlasso回帰→スパース回帰へ

リプレゼンターの定理
9
 今日のメインキーワード
 損失関数がの関数として表現できるとする
 この損失関数に二乗正則化項を加えて最適化する問題において
その最適解はで張られる空間に存在する

どゆこと？
10
この最適解というのはとなるという定理

証明は簡単
11
 対偶をとる→最適解wはで張られる空間に存在しない
 ただしはすべてのに直交
↑が0になれば最小

リプレゼンターの定理で何がうれしいの？
12
 特徴ベクトルの次元に関わらずαの次元が自由度となる
 訓練データの次元数で最適化が可能(次元削減効果)
 αについて解いてもいい、wについて解いてもいい
 wについての問題をαに置き換えた→双対問題という(PRML6.1)

リプレゼンターの定理の書き換え
13
 カーネル函数
 最適解

カーネル回帰
14
 学習も回帰もαとカーネル函数kで行われる
 パラメータ数(αの次元)= サンプル数
 φの次元数がいくらでも動く(φが式に含まれていないため)

カーネルトリック
15
 特徴ベクトルφを用いてカーネル函数kを定義
 カーネル函数の値だけ定義すれば特徴ベクトルはもはや出ない
 特定のカーネル函数を使い特徴ベクトルφの内積の計算量を抑える
＝カーネルトリック

カーネルトリックってなにがいいの？①
16
 上にあるベクトルを何らかの特徴空間に移す写像
 この特徴空間でのの内積は
 カーネルは特徴空間を知らずに特徴空間上の内積計算ができる

カーネルトリックってなにがいいの？②
17
 カーネル函数を多項式カーネルで考える
 とする
 6次元の特徴ベクトルの内積を計算していることに相当する
 写像して、内積を計算するという計算コストを削減している
は式には出
てこない

カーネル函数の例①：ガウスカーネル
18
 最も使われるカーネル、サンプルの類似度を計算
 無限次元の特徴ベクトルφを用いていることと等価
無限次元のカーネルトリック

なんで無限次元？
19
テイラー展開

無限次元だけど
20
特徴ベクトルが無限次元だけども
パラメータ数＝サンプル数なので高々有限

いろいろあるよ、カーネル函数
21
 一般化された多項式カーネル：離散特徴でよく使われる(連続でも〇)
 集合が対象のカーネル
 生成モデルから構成したカーネル
 シグモイドカーネル ↑生成モデル

付録：どうやってカーネルは構成するの？(PRML6.2)
22
 特徴空間への写像を考えて構成(基底関数の内積をとってみる)
 カーネル函数を直接定義：有効であることを示す必要あり
写像
= ⋮
任意の 𝐱 𝒏 に対して、要素が𝒌 𝐱 𝒏, 𝐱 𝒎 で与えら
れるグラム行列𝐊が半正定値であること
𝑛次元の任意のベクトル𝐲に対して
𝐲T
𝐊𝐲 ≥ 0
が成り立つこと

ここまでのまとめ
23
 リプレゼンター定理から、二次正則化の最適解wは特徴ベクトルの
線形和で表される
 wについてといてもいいし、αについてといてもいい(場合分け必須)
 無限次元のカーネルトリック
 カーネル函数の構築の仕方

6.3 RBFネットワーク
24
線形基底関数モデル(3章)では、基底関数の形は議論していない
→RBF(動径基底関数)がよく使われる
中心(μ)からの動径に依存
 函数補間(目的変数の値を正確に表現できる関数を求めること)で導入
 入力変数にノイズが含まれる場合の補間にも使われる
入力に関するノイズが確率分布に従うとする
w_nは最小二乗法で求める
：二乗誤差関数

変分法を使う
25
と置いて変分法をする
：Nadaraya-Watsonモデル
正規化されている

基底関数の正規化
26
 基底関数を正規化することで、予測値を適切に設定可能
 重みが小さくなり、予測値も小さくなることを防ぐ(バイアスの影響)
 ガウス基底関数(3つ)、右はそれを正規化したもの
 すべての基底関数が小さい値をとる領域(青丸)を防ぐ

6.3.1 Nadaraya-Watson model
27
訓練集合をとして、同時分布の推定にParzen推定
回帰関数y(x)は変分法から以下の式で与えられる
tに関する平均=0とすると
：点(x,t)がありうる確率を訓練集合から求める

Nadaraya-Watson modelはこれ。
別名：カーネル回帰
28
𝑦 𝐱 = 𝑘 𝐱, 𝐱 𝑛 𝑡 𝑛
𝑛
新入力とデータ点の類似度
データ点の目標値

Prml6

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Prml6

Similar a Prml6 (8)

Más de Arata Honda

Más de Arata Honda (10)

Prml6