クラシックな機械学習の入門 4. 学習データと予測性能

4. 学習データと予測性能
Bias2 - Variance - Noise 分解
過学習
損失関数と Bias,Variance, Noise
K-Nearest Neighbor法への応用
bias2とvarianceの間のトレードオフの
線形回帰への応用
クラシックな機械学習の入門
by 中川裕志（東京大学）

過学習：over-fitting
教師データによる学習の目的は未知のデータ
の正確な分類や識別
過学習(over-fitting)
教師データに追従しようとすればするほど、複雑な
モデル（＝パラメタ数の多い）になり、教師データへ
の過剰な適応が起こりやすい。
このことを数学的に整理してみるのが目的。

 xが与えられたときの結果：tの推定値＝y(x)
 損失関数: L(t,y(x)) ex. (y(x)-t)2
 損失の期待値：E[L]を最小化する t の推定値=E[t|x]
この導出は次の次のページを参考にしてください
 E[L]を計算してみると（次のページ参照）
第1項は予測値と学習データからの期待値の差の2乗、第2項
は雑音(noise)
xxxxxxx dtd),()]|[(d)(])|[)((][ 22
tpttEptEyLE  
損失関数と Bias,Variance, Noise

参考：E[L]の計算
      
           
     
 
     
     
      
 
 
           
     
        xxxxxx
xxxxx
xxxxxx
x
x
x
xxxx
xxxxx
xxxx
xx
xxxx
xxxxxx
xxxx
dd),(|d|)(
dd),(|)()(
0|||)(
d
),(
||)(
d),(d),(||)(
d),(||)(
|)(
d),(||)(
2/1
|||)(2|)(
||)()(
22
22
22
22






















ttpttExptEy
ttptEytyE
ptEptEtEy
pt
p
tp
tptEtEy
tttpttptEtEy
ttpttEtEy
ttEy
ttpttEtEy
t
ttEttEtEytEy
ttEtEytyL
よって
の関数ではないのでは
で周辺化する倍を第２項の

参考：E[L]を最小化するt の推定値=E[t|x]の導出
         
 
 
         
     
 
 
 
 
   xx
x
x
x
x
x
xxxxx
xxxx
xx
x
x
x
xxxxxx
|d|d
,d,
)(
d,)(d,)(
0d,)(2d,)(
)()(
)(
)(
dd,)(dd,),(
2
2
tEtttpt
p
tp
t
p
tttp
y
tttppyttpy
ttptyttpty
yy
LE
yLE
yLE
ttptyttptyLLE














おくからので、定数とみなしては微分の対象ではないただし、
おけばよいで変分（微分）し０とを簡単でこの場合は
を求めるには変分法。を最小化する関数

 E[t|x]はxによって決まる。E[L]は次式でした。
 第２項
（）内の左の項は、観測値として与えられたxに対して
E[L]を最小化するtの予測値だから、（）内の右の項すな
わち真のt との差は、観測における誤差と考えられる。
y(x)の作り方で解決できないノイズ
xxxxxxx dtd),()]|[(d)(])|[)((][ 22
tpttEptEyLE  

は、データ点の観測に伴う誤差あるいはノイズの効果を示し、真の
データ点は、大体のような範囲にある。このノイズの項が既
に述べた次の式：
xxx dtd),()]|[( 2
tpttE 

 E[L]の第1項と教師データ集合：Dから機械学習で
得た y(x；D)の関係について考えてみよう。
 母集団のモデルとしてp(x,t)を想定する。このモデ
ルからDという教師データ集合が繰り返し取り出さ
れる状況を考えてみる。
 Dからの機械学習の結果のy(x；D)の統計的性質
は、同じサイズのDを多数回、母集団モデルp(t,x)
から取り出して、その上で期待値をとったED[y(x；
D)]によって評価する。
 E[L]の第1項はy(x:D)とtの最適予測E[t|x:D]を用
いると次の式
xxxxxxx dd),()]|[(d)(])|[)((][ 22
ttpttEptEyLE  
   xxxx d)(]):|[):(( 2
pDtEDyED

]):|[)]:([)])(:([):((2
]):|[)]:([()]):([):((
]):|[)]:([)]:([):((]):|[):((
22
22
DtEDyEDyEDy
DtEDyEDyEDy
DtEDyEDyEDyDtEDy
DD
DD
DD
xxxx
xxxx
xxxxxx



この式をED[]すると、第3項は消え
]]):|[)]:([[(])]):([):([(
]]):|[):([(
22
2
DtEDyEEDyEDyE
DtEDyE
DDDD
D
xxxx
xx


第1項はvariance 第2項はbias2
variance： y(x)の機械学習による推定値が、教師データ集合に
よって変動する度合いの期待値：教師データに依存しすぎるモデ
ルになって新規データの予測誤差が悪化する度合い
bias2：y(x)の機械学習による推定値が、損失の期待値：E[L]を
最小化するtからずれる度合いの期待値：モデルを記述が単純に
なるとき予測誤差が悪化する度合い。

以上により損失の期待値：E[L]=bias2+variance+noise
dtd),:()]:|[(
d)(])]):([):([(
d)(]):|[)]:([(
][
2
2
2
xxx
xxxx
xxxx
tDptDtE
pDyEDyE
pDtEDyE
LE
DD
D
 



bias2
variance
noise
bias2とvarianceの間には次のページに示すようなトレード
オフがある。

小 正則化項の重みλ 大
予測誤差
bias2
variance
variance+bias2
noise
新規データに対する誤差：
variance+ bias2+ noise

小 正則化項の重みλ 大
 Ｌ２正則化の場合
観測データに大きく異存小 λ 大正則化項（事前分布）に大きく依存
 Ｌ１正則化の場合：重みがゼロ化される次元をみると
ゼロの次元が少なく複雑 小 λ 大ゼロの次元が多く単純
variance+bias2
予測誤差
bias2
variance noise
新規データに対する誤差：
variance+ bias2+ noise

bias2とvarianceの間のトレードオフをK-Nearest Neighbor法
と線形回帰で具体的に見てみよう。
K-Nearest Neighbor法
２クラスへの分類問題で考える。
教師データはクラス：とクラス：と判定された相当数
があるとする。
未知のデータxがクラス／である確率は
xに近いほうからK個の教師データ点のうちでクラス／
であるものの割合
至ってシンプルだがかなり強力。

下の図のような教師データの配置で考える

K=1の場合：クラス青，赤の確率が等しい境界線は以下のようにかなり複
雑。相当多くのパラメターを使わないと記述できない。教師データ数に強く
依存。
は新規に到着した分類すべきデータ
の点は本来赤い点かもしれないが、青だと判断される。
の点は本来青い点かもしれないが、赤だ
と判断される。

K=３の場合のクラス間の境界
境界線はだいぶ滑らか。K=1の場合より境界を決
めるパラメターは多い
この点は本来赤かもしれないが青と
判断される
この青の近辺のデータは本当に青かもしれな
いが、新規データとしては頻出しない

K=13以上だと、どんな新規データでも赤と判定される。

K=1だと非常に複雑な境界線であり、個々の教師データに
強く依存した結果をだすため、過学習をしやすい。 varianceが
大きい。
Kが大きくなると、境界線は平滑化される方向に進む。教師
データを適当な数使って結果を出すので、過学習を起こしにく
い。
Kが非常に大きくなると、境界線はますます滑らか（＝いい
加減？）になり、あるところから個別の教師データの影響が無
視され、モデルとして大域のデータに依存し、個別データに対
する精密さを欠くため、新規データを正確に分類できなくなっ
てくる。 bias2 が大きい。
以上のから、 bias2とvarianceの間には次ページの図のよ
うな関係が見てとれる。

K=１３K=３K=１
境界線が単純境界線が複雑
Error rate
bias2
variance
新規データの予測誤差
＝bias2+variance+noise
最適なK

bias2とvarianceの間のトレードオフを
線形回帰で具体的に見てみよう。
まず線形モデルのパラメタ－w推定の復習から
と考える。はノイズで　　　　
ただし、
),0(
),,,,(,),,,1(
,
2
T
101
0


N
wwwxx
xwy
K
T
K
ii
K
i
 
 
wx
wx

と考える。はノイズで　　　　　　　　　　　　　
ただし、
),0(
),,,,(,),,,1(,
2
T
101
0


N
wwwxxxwy K
T
Ki
K
i
i   
wxwx
入力ベクトル：x から出力：y を得る関数がxの線形関数
（wとxの内積）にノイズが加算された場合を再掲
得られたN個の観測データの組（y,X）に対して2乗誤差を最
小化するようにwを推定しを得る。
  )0(ˆ
),0(),...,1(
1
1
T1T
1
2
1
1
1111
　　
のは　　　　　　　　
　
yXXXwεXwy
ε
x
x
X














































N
i
NNKN
K
T
N
T
y
y
iidNNi
xx
xx









wˆ

 
   
    )2(,d|d|,
d|,]|[
)1(d|]|)([
)1(,
)0(dd),()]|)([(
d)(])|)([)((][
00000000
000000
000000
00
0000
2
000
00
2
000
0
0
0
000
lossyypyyp
yypyE
lossyypyyE
lossy
lossyypyyE
xpyEyLE
y
y
y
yy
　　
　
を使うと　だったが、
　　　　　　　
wxxxwx
xwxx
xxx
wx
xxxx
xxxxx














ここで、前にやった損失の期待値 E(L) を思いだそう
ただし、新規の未知データy0,x0は以下の通り
 
 
測に伴う雑音新規の未知データの観　　　　
　　　　
項　　第
 
  
  
    
2
0000
2
0000
2
00
0000
2
00
0000
2
0000
2
00,00
ddyd),,(
ddyd),,(),,(
ddyd),,(),(2
ddyd),,(),(dd),(),(][


yxyx
yxyxwxwx
yxyxwx
yxyxwxyxyxwxxx
yp
yp
ypy
ypypyLE Dy

          wεXwXXXyXXXw 
 T1TT1T
ˆ DDD EEE
次に
すなわち観測データ（あるいは計画行列）（y,X）＝Dを多数作っ
て学習データとする部分について考える。
Xに対して繰り返しyを観測することでDを動かした場合の
期待値：ED[..]を求めてみよう。
重みwの期待値: のD動かした場合の期待値wˆ  wˆDE
     yxyxwxxx ddd),,(),(1][ 0000
2
00,00
yypyLE Dy 項の第
  ?ˆcov wD
レポート課題１：共分散
行列を求めよＸはＤにおいては定数な
ので、(XTX)-1XTも定数と
見なせることに注意

 
 
 
 
 
0bias
]),,[(]),[(
biasvariance)10(
)0(
):(
,ˆ,)]:([
ˆ
)]:([
)10(
]),)]:([[(])]):([):([(
]),):([(
ddd),,(),(1][
2
2
00,00
2
0
T1T
0,00
2
T1T
0
0
000
2
00,00
2
00,00
2
00,00
0000
2
00,00







   


　　　　　　　　　　　　　　　　　
　　　　
より　　解に対する正規方程式の
に対する予測だから、はある
　
　　　
になる。値はているので、この期待　観測だけを繰り返し
のは同一でが、を動かしての期待値だは　
　　
項の第
wxwxwxyXXXx
yXXXx
x
wxwx
w
Xx
wxxxx
wxx
yxyxwxx
x
xx
x
x
Dxy
T
Dy
T
DD
D
D
DDyDDy
Dy
Dy
EE
loss
D
DDy
EDxyE
E
yDDyE
loss
DyEEDyEDyE
DyE
yypyLE
レポート課題２：bias2が0にならない状況を考察せよ

 
 
 と近似できるとする。
明変数からなりは十分大きく多様な説
　
　　
項の第
T
000
T
2
0
T1T
0,00
2
00,00
2
00,00
2
00,00
0000
2
00,00
]),[()10(ofvariance
)10(]),)]:([[(])]):([):([(
]),):([(
ddd),,(),(1][
xxXX
X
wxyXXXx
wxxxx
wxx
yxyxwxx
x
x
xx
x
x
EN
Eloss
lossDyEEDyEDyE
DyE
yypyLE
T
Dy
DDyDDy
Dy
Dy




   

レポート課題３:variance of (loss 10)を求めよ
レポート課題４:この場合variance of (loss 10)
の近似式を求めよ

過学習：over-fittingと
bias2-variance分解
 bias2-variance分解は過学習現象を扱う数学的概念として便利
 教師データによる学習の目的は未知のデータの正確な分類や
識別
 過学習(over-fitting)
学習するモデルを複雑な（＝パラメタ数の多い）ものにすると
過学習が起こりやすい。
モデルの良さ（＝（対数）尤度あるいは2乗誤差などの損失－
１）を最大化し、かつ簡単なモデルであるほど良い
モデルの簡単さを表すのは線形回帰における正規化項（正
則化項とも呼ぶ）。cf.情報量基準（ＡＩＣ，ＢＩＣ）、MDL

クラシックな機械学習の入門 4. 学習データと予測性能

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a クラシックな機械学習の入門 4. 学習データと予測性能

Similar a クラシックな機械学習の入門 4. 学習データと予測性能 (20)

Más de Hiroshi Nakagawa

Más de Hiroshi Nakagawa (20)

クラシックな機械学習の入門 4. 学習データと予測性能