Más contenido relacionado La actualidad más candente (20) Similar a クラシックな機械学習の入門 4. 学習データと予測性能 (20) Más de Hiroshi Nakagawa (20) クラシックな機械学習の入門 4. 学習データと予測性能1. 4. 学習データと予測性能
Bias2 - Variance - Noise 分解
過学習
損失関数と Bias,Variance, Noise
K-Nearest Neighbor法への応用
bias2とvarianceの間のトレードオフの
線形回帰への応用
クラシックな機械学習の入門
by 中川裕志(東京大学)
3. xが与えられたときの結果:tの推定値=y(x)
損失関数: L(t,y(x)) ex. (y(x)-t)2
損失の期待値:E[L]を最小化する t の推定値=E[t|x]
この導出は次の次のページを参考にしてください
E[L]を計算してみると(次のページ参照)
第1項は予測値と学習データからの期待値の差の2乗、第2項
は雑音(noise)
xxxxxxx dtd),()]|[(d)(])|[)((][ 22
tpttEptEyLE
損失関数と Bias,Variance, Noise
4. 参考:E[L]の計算
xxxxxx
xxxxx
xxxxxx
x
x
x
xxxx
xxxxx
xxxx
xx
xxxx
xxxxxx
xxxx
dd),(|d|)(
dd),(|)()(
0|||)(
d
),(
||)(
d),(d),(||)(
d),(||)(
|)(
d),(||)(
2/1
|||)(2|)(
||)()(
22
22
22
22
ttpttExptEy
ttptEytyE
ptEptEtEy
pt
p
tp
tptEtEy
tttpttptEtEy
ttpttEtEy
ttEy
ttpttEtEy
t
ttEttEtEytEy
ttEtEytyL
よって
の関数ではないのでは
で周辺化する倍を第2項の
5. 参考:E[L]を最小化するt の推定値=E[t|x]の導出
xx
x
x
x
x
x
xxxxx
xxxx
xx
x
x
x
xxxxxx
|d|d
,d,
)(
d,)(d,)(
0d,)(2d,)(
)()(
)(
)(
dd,)(dd,),(
2
2
tEtttpt
p
tp
t
p
tttp
y
tttppyttpy
ttptyttpty
yy
LE
yLE
yLE
ttptyttptyLLE
おくからので、定数とみなしては微分の対象ではないただし、
おけばよいで変分(微分)し0とを簡単でこの場合は
を求めるには変分法。を最小化する関数
8. E[L]の第1項と教師データ集合:Dから機械学習で
得た y(x;D)の関係について考えてみよう。
母集団のモデルとしてp(x,t)を想定する。このモデ
ルからDという教師データ集合が繰り返し取り出さ
れる状況を考えてみる。
Dからの機械学習の結果のy(x;D)の統計的性質
は、同じサイズのDを多数回、母集団モデルp(t,x)
から取り出して、その上で期待値をとったED[y(x;
D)]によって評価する。
E[L]の第1項はy(x:D)とtの最適予測E[t|x:D]を用
いると次の式
xxxxxxx dd),()]|[(d)(])|[)((][ 22
ttpttEptEyLE
xxxx d)(]):|[):(( 2
pDtEDyED
12. 小 正則化項の重みλ 大
L2正則化の場合
観測データに大きく異存小 λ 大正則化項(事前分布)に大きく依存
L1正則化の場合:重みがゼロ化される次元をみると
ゼロの次元が少なく複雑 小 λ 大ゼロの次元が多く単純
variance+bias2
予測誤差
bias2
variance noise
新規データに対する誤差:
variance+ bias2+ noise
20. bias2とvarianceの間のトレードオフを
線形回帰で具体的に見てみよう。
まず線形モデルのパラメタ-w推定の復習から
と考える。はノイズで
ただし、
),0(
),,,,(,),,,1(
,
2
T
101
0
N
wwwxx
xwy
K
T
K
ii
K
i
wx
wx
21. と考える。はノイズで
ただし、
),0(
),,,,(,),,,1(,
2
T
101
0
N
wwwxxxwy K
T
Ki
K
i
i
wxwx
入力ベクトル:x から出力:y を得る関数がxの線形関数
(wとxの内積)にノイズが加算された場合を再掲
得られたN個の観測データ の組(y,X)に対して2乗誤差を最
小化するようにwを推定し を得る。
)0(ˆ
),0(),...,1(
1
1
T1T
1
2
1
1
1111
のは
yXXXwεXwy
ε
x
x
X
N
i
NNKN
K
T
N
T
y
y
iidNNi
xx
xx
wˆ
22.
)2(,d|d|,
d|,]|[
)1(d|]|)([
)1(,
)0(dd),()]|)([(
d)(])|)([)((][
00000000
000000
000000
00
0000
2
000
00
2
000
0
0
0
000
lossyypyyp
yypyE
lossyypyyE
lossy
lossyypyyE
xpyEyLE
y
y
y
yy
を使うと だったが、
wxxxwx
xwxx
xxx
wx
xxxx
xxxxx
ここで、前にやった損失の期待値 E(L) を思いだそう
ただし、新規の未知データy0,x0は以下の通り
測に伴う雑音新規の未知データの観
項 第
2
0000
2
0000
2
00
0000
2
00
0000
2
0000
2
00,00
ddyd),,(
ddyd),,(),,(
ddyd),,(),(2
ddyd),,(),(dd),(),(][
yxyx
yxyxwxwx
yxyxwx
yxyxwxyxyxwxxx
yp
yp
ypy
ypypyLE Dy
23. wεXwXXXyXXXw
T1TT1T
ˆ DDD EEE
次に
すなわち観測データ(あるいは計画行列) (y,X)=Dを多数作っ
て学習データとする部分について考える。
Xに対して繰り返しyを観測することでDを動かした場合の
期待 値:ED[..]を求めてみよう。
重みwの期待値: のD動かした場合の期待値wˆ wˆDE
yxyxwxxx ddd),,(),(1][ 0000
2
00,00
yypyLE Dy 項の第
?ˆcov wD
レポート課題1:共分散
行列を求めよ XはDにおいては定数な
ので、(XTX)-1XTも定数と
見なせることに注意
24.
0bias
]),,[(]),[(
biasvariance)10(
)0(
):(
,ˆ,)]:([
ˆ
)]:([
)10(
]),)]:([[(])]):([):([(
]),):([(
ddd),,(),(1][
2
2
00,00
2
0
T1T
0,00
2
T1T
0
0
000
2
00,00
2
00,00
2
00,00
0000
2
00,00
より 解に対する正規方程式の
に対する予測だから、はある
になる。値はているので、この期待 観測だけを繰り返し
のは同一でが、を動かしての期待値だは
項の第
wxwxwxyXXXx
yXXXx
x
wxwx
w
Xx
wxxxx
wxx
yxyxwxx
x
xx
x
x
Dxy
T
Dy
T
DD
D
D
DDyDDy
Dy
Dy
EE
loss
D
DDy
EDxyE
E
yDDyE
loss
DyEEDyEDyE
DyE
yypyLE
レポート課題2:bias2が0にならない状況を考察せよ
25.
と近似できるとする。
明変数からなりは十分大きく多様な説
項の第
T
000
T
2
0
T1T
0,00
2
00,00
2
00,00
2
00,00
0000
2
00,00
]),[()10(ofvariance
)10(]),)]:([[(])]):([):([(
]),):([(
ddd),,(),(1][
xxXX
X
wxyXXXx
wxxxx
wxx
yxyxwxx
x
x
xx
x
x
EN
Eloss
lossDyEEDyEDyE
DyE
yypyLE
T
Dy
DDyDDy
Dy
Dy
レポート課題3:variance of (loss 10)を求めよ
レポート課題4:この場合variance of (loss 10)
の近似式を求めよ