Deep learning _linear_algebra___probablity___information
1. Linear Algebra Probability Theory Information Theory
Deep Learning
Linear Algebra Probability Information
⾕⼝泰地
⽴命館⼤学理⼯学部数理科学科四回⽣
2019-04-28
1 / 40
2. Linear Algebra Probability Theory Information Theory
Overflow
Linear Algebra
序論
固有値と特異値
ムーンアペンローズ⼀般逆⾏列
Principal Components Analsis(PCA)
Probability Theory
準備
基本的な確率分布
Information Theory
エントロピー
KL-ダイバージェンス
2 / 40
3. Linear Algebra Probability Theory Information Theory
序論
テンソル
テンソルは多次元配列として定義されることが多いが、これでは本来期待さ
れる基底のの取り⽅によらないことが定義から明らかではない。よって⼀般
的には以下のように定義される。
Def:テンソル
ベクトル空間V に対して、(p,q)-型テンソルTは
T : V ∗
× ... × V ∗
× V × ... × V → R
で、各変数に対し線形な多重線形汎関数である。
ただし、V ∗
はV の双対空間であり、V ∗
× ... × V ∗
はV ∗
のp個の直
積、V × ... × V はV のq個の直積である。
3 / 40
4. Linear Algebra Probability Theory Information Theory
序論
テンソル
ここで、V の基底{ej}とV ∗
の双対基底{ϵi
}にたいしてテンソルを施すと、
T
i1,..,ip
j1,...,jq
= T(ϵi1
, ..., ϵip
, ej1 , ..., ejq )
により、その成分として、(p + q)−次元配列が得られる。
4 / 40
5. Linear Algebra Probability Theory Information Theory
序論
Frobenius norm(フロベニウスノルム)
今後、、Mm,n(K)を体K上のm × n⾏列全体の集合とし、GLn(K)を体K上
の正則なn × n⾏列の集合とする。
Def:フロベニウスノルム
∥ · ∥F : Mn,m(K) → Rを任意のA ∈ Mn,m(K)に対して次のように定義する。
∥A∥F =
√∑
i,j
A2
i,j
これは⾏列のTraceを使うと、以下のように定義することもできる。
∥A∥F =
√
Tr(AAT )
5 / 40
6. Linear Algebra Probability Theory Information Theory
固有値と特異値
固有値分解
固有値や固有ベクトルの定義は省略する。また、この章ではK = Rとして考
える。
Thm:固有値分解
A ∈ Mn,n(R)に対し、Aの固有値λ1, λ2, ..., λnがすべて異なる時、⾏列Aを
A = V diag(λ)V −1
と分解することができる。ただし、V は各列に固有ベクトルを並べたもので
あり、λは固有値を並べたベクトルである。さらに、diag(λ)はベクトルλを
対⾓成分に持つ⾏列である。
V (λi) = {v ∈ Rn
|Av = λiv}とすると、Rn
= V (λ1) ⊕ ... ⊕ V (λn)とできる
ことから、f-不変なn個の⼀次元部分空間に分解しているとみることができ
ることを意味する。
6 / 40
7. Linear Algebra Probability Theory Information Theory
固有値と特異値
特異値
Thm:特異値分解定理
A ∈ Mm,n(R), U ∈ Mm,m(R), V ∈ Mn,n(R)とする。
この時、
A = UDV T
とすることができる。 ただし、 Dは特異値を対⾓成分に並べた⾏列(埋まら
ない対⾓成分は0)で、U, V は直⾏⾏列である。
Uの各列を左特異ベクトル、V の各列を右特異ベクトルという。 左特異ベク
トルはAAT
の固有ベクトルであり、右特異ベクトルはAT
Aの固有ベクトル
である。通常、U, V は⼀意に定まらない。(⼀つの特異値に対して、特異ベ
クトルが⼀つとは限らないため)
7 / 40
8. Linear Algebra Probability Theory Information Theory
固有値と特異値
Proof. 最初にm nと仮定する。AT
Aの固有ベクトルを{u1, u2, ..., un},固
有値をλ1, λ2, ..., λnとする。 AT
Aは正定置対象⾏列であるので、固有値は必
ず正で、⼆次形式は⾮負の値をとる。これは以下のように証明される。固有
ベクトル、固有値の定義より、∀i ∈ {1, 2, ..., n},
AT
Aui = λiui
が満たされる。さらに、ここから両辺uiで内積をとると、
(ui, AT
Aui) = (ui, λiui) = λi
任意のxについて、
(x, AT
Ax) = (Ax, Ax) = ∥Ax∥2
≥ 0
よって、AT
Aは正定置対象⾏列である。
8 / 40
9. Linear Algebra Probability Theory Information Theory
固有値と特異値
次に、λi 0, (i = 1, 2, ..., r)となる固有値とλr+1, λr+2, ..., λn = 0となる固
有値で分ける。
vi for i = 1, 2, ..., rについて、
vi =
1
√
λi
Aui
とするとvi, vjはi ̸= jの時、直交する。(n m) よって、v1, v2, ..., vrはm次
元ベクトル空間のr次元部分空間の正規直交基底になっている。よっ
て、v1, ..., vmがm次元ベクトル空間の正規直交基底になるよう
にvr+1, vr+2, ..., vmを加えることができる。 次
に、V = [v1, v2, ..., vm],U = [u1, u2, ..., un]と定義する。
ここで、V T
AUという⾏列を考える。この⾏列の(i,j)成分はvT
i Aujであ
る。
i = r + 1, r + 2, ..., nであれば、固有値は0なので、
∥Aui∥2
= (Aui, Aui) = (ui, AT
Aui) = λi∥ui∥2
= 0
9 / 40
10. Linear Algebra Probability Theory Information Theory
固有値と特異値
よって、Aui = 0となる。 i, j = 1, 2, ..., rの場合、
vT
i Auj = (
1
√
λi
Aui)T
Auj =
1
√
λi
uT
i AT
Auj =
λi
√
λi
uT
i uj =
√
λiδi,j
ここで、δi,jはクロネッカーのデルタ。
i = r + 1, r + 2, ..., mかつj = 1, 2, ..., rの場合、
vT
i Auj = vT
i
√
λjvj =
√
λj(vi, vj) = 0
m nの時は、AAT
の固有ベクトルをv1, ..., vmと置いて、u1, ..., unを作
り、同様に計算すればよい。
10 / 40
11. Linear Algebra Probability Theory Information Theory
ムーンアペンローズ⼀般逆⾏列
⼀般逆⾏列
Def:⼀般逆⾏列
A ∈ Mm,n(C)に対して、次の四つの条件を満たすn × m⾏列A+
がただ⼀つ
定まる
▶ AA+
A = A
▶ A+
AA+
= A+
▶ (AA+
)∗
= AA+
▶ (A+
A)∗
= A+
A
ただし、A∗
はAの随伴⾏列を表す。
これは逆⾏列の⼀般化になっている。
11 / 40
12. Linear Algebra Probability Theory Information Theory
ムーンアペンローズ⼀般逆⾏列
ムーンアペンローズ⼀般逆⾏列
Def:ムーンアペンローズ⼀般逆⾏列
A ∈ Mn,mのムーンアペンローズ⼀般逆⾏列とは
A+
= lim
α↓0
(AT
A + αI)−1
AT
)
コンピューターに計算させるときは、アルゴリズム上定義より以下のような
計算を⾏う。
A+
= V D+
UT
ここで、U, D, V は特異値分解によって、得られる⾏列である。
Aが⾏より列のほうが多い時、疑似逆⾏列を⽤いて、線形⽅程式を解くと、
数ある解のうちの⼀つの解を得ることができる。さらにその解は、∥x∥2
を最
⼩にする解となる。列よりも⾏のほうが⼤きいとき、疑似逆⾏列を⽤いて、
線形⽅程式を解くと、∥Ax − y∥を最⼩にする解が得られる。これはまさに
最⼩⼆乗法の解である。
12 / 40
13. Linear Algebra Probability Theory Information Theory
ムーンアペンローズ⼀般逆⾏列
実際にこれが⼀般逆⾏列の定義を満たしているか確認する。
Proof.
A ∈ M(m, n) = UDV T
に対して、A = V D+
UT
と置くと、
▶ AA+
A = UDV T
V D+
UT
UDV T
= UDD+
DV T
= UDV T
▶ A+
AA+
= V D+
UT
UDV T
V D+
UT
= V D+
DD+
UT
= V D+
UT
▶ (AA+
)T
= (UDV T
V D+
UT
)T
= UD+
V T
V DUU
▶ (A+
A)T
= (V D+
UT
UDV T
) = V D+
UT
UDV T
13 / 40
14. Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
機械学習の⽐較的簡単な例を⽰す。
問題設定
データポイント{x(1)
, x(2)
, ..., x(n)
} ⊂ Rn
を持っているとする。このデータ
を⾮可逆圧縮したい。つまり、次元圧縮がしたい。しかし、データの情報を
失うことにもなるので、当然制度が落ちる可能性がある。制度をできるだけ
落とさないような、次元圧縮を考える。
この問題を以下のように書き換える。
PCAの問題設定
データポイントxi ∈ Rn
をci ∈ Rl
に対応させるようなfとxi ≈ g(f(xi))とな
るようなg(c) = Dcを求めたい。
ただし、問題を簡単にするためにDの各列ベクトルは互いに直⾏しているも
のとする。
14 / 40
15. Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
Input dataxに対して、最適なc∗
を対応させたい。よって、以下の⼆つの問
題に帰着する。
▶ Inputxに対してどのようなc ∈ Rl
を対応させるfがよいのか
▶ Dは具体的にどのような形か。
⼀つ⽬は、xi ≈ g(f(xi))としたかったので、、xとg(c∗
)のノルムを最初に
させるようなc∗
を求めるればよい。
よって、⼀つ⽬の問題設定は以下のように数式で表すことができる。
PCA:fを求める
c∗
∈ arg min
c∈Rl
∥x − Dc∥2
subject to DDT
= I
15 / 40
16. Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
∥x − g(c)∥2
= (x − g(c))T
(x − g(c))
= xT
x − 2xT
g(c) + g(c)T
g(c)
c∗
∈ arg min
c∈Rl
−2xT
g(c) + g(c)T
g(c)
= arg min
c∈Rl
−2xT
Dc + (Dc)T
(Dc)
= arg min
c∈Rl
−2xT
Dc + cT
DT
Dc
= arg min
c∈Rl
−2xT
Dc + cT
c
∇(−2xT
Dc + cT
c) = 0
−2DT
x + 2c = 0
c = DT
x
16 / 40
17. Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
PCA:最適なf
encoding function,f : Rn
→ Rl
を
∀x ∈ Rn
, f(x) = DT
x
次にどのようなDが良いのか考える。ここで、r : Rn
→ Rn
を次のように定
義する。
∀x ∈ Rn
, r(x) = g(f(x)) = DDT
x
再び、x(i)
とr(x(i)
)をすべてのiで近づけるようなD∗
を求める。
17 / 40
18. Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
すなわち、以下のような問題を考える。
PCA:Dを求める
D∗
∈ arg min
∑
i
∥x(i)
− r(x(i)
)∥2
sbject to DT
D = Il
これは多少めんどくさい。。。
18 / 40
19. Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
制約条件DT
D = Inの元、
D∗
∈ arg min
∑
i
∥x(i)
− DDT
x(i)
∥
= arg min ∥X − DDT
X∥2
F
= arg min Trace((X − DDT
X)T
(X − DDT
X))
= arg min Trace((XT
− XT
DDT
)(X − DDT
X))
= arg min Trace(XT
X − XT
DDT
X − XT
DDT
X + XT
DDT
DDT
X)
= arg min −Trace(XT
DDT
X) − Trace(XT
DDT
X)
+ Trace(XT
DDT
DDT
X)
= arg min −2Trace(XT
DDT
X) + Trace(XT
DDT
X)
= arg min −Trace(XT
DDT
X)
= arg max Trace(XT
DDT
X)
= arg max Trace(DT
XXT
D)
19 / 40
20. Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
XXT
を固有値分解して、
arg max Trace(DT
XXT
D)
= arg max Trace(DT
V
∑∑∑
V T
D)
= arg max Trace((V T
D)T
∑∑∑
V T
D)
Dの各列ベクトルをv1, v2, .., vmの⼀次結合で表す。
∀i ∈ {1, 2, .., m}, ∃ ai1, ..., ain ∈ R, di = ai1v1 + ai2v2 + ... + ainvn
20 / 40
21. Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
V T
D =
vT
1 d1 vT
! d2
... vT
1 dm
· · · · · · · · · · · ·
vT
md1 vT
md2
... vT
mdm
よって、これの(i,j)成分はvT
dj = vT
i (aj1v1 + aj2v2 + ... + ajmvm) = aji 以
上より、
Trace((V T
D)T
∑∑∑
V T
D) =
∑
i1
λi1 a2
1,i1
+
∑
i2
λi2 a2
2,i2
+ ... +
∑
im
λim a2
m,im
各シグマの項を最⼤にするようにすればよい。
21 / 40
22. Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
固有値分解をするとき、対応する固有値が⼤きい順になるように固有ベクト
ルを並べたとする。制約条件DT
D = Iより、dT
1 d1 = 1,これをa2
1について
整理し、⼀つ⽬のシグマに代⼊すると、それは
= arg max λ1a2
1 + ... + λ2a2
m
= arg max λ1(1 − a2
2 − a2
3 − ... − a2
m)a2
1 + λ2a2
2 + ... + λma2
m
= arg max λ1 + (λ2 − λ1)a2
2 + ... + (λn − λ1)a2
m
よって、(λi − λ1) ≤ 0より、最⼤値はλ1。よって、その時、
a1 = 1, a2 = 0, ..., am = 0
よって、
d1 = v1
となることがわかる。以下、同様にすることでd1 = v1, ..., dl = vlがわか
る。よって以下の解が導かれる。
22 / 40
23. Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
PCA:最適なD
PCAの問題において最適なDはXT
Xの固有値の⼤きいものからl個えらび、
それに対応する固有ベクトルを並べたも⾏列が最適解である。
23 / 40
24. Linear Algebra Probability Theory Information Theory
準備
確率空間
標本空間をΩ(濃度は適所判断)として、その要素を根源事
象、σ − algebraをFと書き、その要素を事象、P : F → [0, 1]を確率測度とす
る。
Def:確率空間
(Ω, F, P)を確率空間という。
Def:確率変数
X : Ω → RがF−可測関数の時、確率変数という。
Def:確率分布
確率変数Xの確率分布PX : B(R) → [0, 1]を
PX (A) = P({ω ∈ Ω|X(ω) ∈ A}), for A ∈ B(R)
と定義する。
24 / 40
25. Linear Algebra Probability Theory Information Theory
準備
Def:確率分布関数
Xを確率変数、PX をXの確率分布とするとき、FX : R → [0, 1]を
FX (x) = P({ω ∈ Ω|X(ω) x}) = PX ((−∞, x]) for x ∈ R
Def:密度関数
確率変数Xの分布PX が絶対連続の時、(つまりルベーグ測度に絶対連続の時)
PX (A) =
∫
A
fX (x)dx
を満たすfX (可測関数)が存在し(by ラドン=ニコディムの定理)、これをXの
確率密度関数という。
25 / 40
26. Linear Algebra Probability Theory Information Theory
基本的な確率分布
Probability
ここでは、測度論的確率空間などは定義しないが、確率変数Xが標本空間か
らRへの可測関数であることなどは、察してほしい。また、確率密度関数
や、期待値、分散についても普段使っているものである。
Def:ベルヌーイ分布
ϕ ∈ [0, 1], k ∈ {0, 1}として、
P(X = k) = ϕk
(1 − ϕ)1−k
で定まる確率分布をベルヌーイ分布という。
確率変数Xがベルヌーイ分布に従うことをX ∼ B(ϕ)と書く。
期待値、分散は
E[x] = ϕ
VAR[x] = ϕ(1 − ϕ)
26 / 40
27. Linear Algebra Probability Theory Information Theory
基本的な確率分布
Defガウス分布
x ∈ R、標準偏差σ ∈ R+ := {x ∈ R|x 0},平均µ ∈ Rに対し、確率密度関数
が
f(x) =
1
√
2πσ
exp(−
(x − µ)2
2σ2
)
で与えられる確率分布をガウス分布という。
確率変数Xがガウス分布に従うことをX ∼ N(µ, σ)とかく。
平均、分散は
E[X] = µ
VAR[X] = σ2
27 / 40
28. Linear Algebra Probability Theory Information Theory
基本的な確率分布
Def:多変量標準ガウス分布
x ∈ Rn
に対して、
f(x) =
1
( 2
√
2π)n
exp(−
xT
x
2
)
平均、分散は
E[X] = 0
VAR[X] = In
28 / 40
29. Linear Algebra Probability Theory Information Theory
基本的な確率分布
多変量ガウス分布の確率変数xをアフィン変換することで得られる確率分布
を定める。
Def:多変量ガウス分布
A ∈ GLn(R), µ ∈ Rn
,AAT
= Σに対して、z := Ax + µは
g(z) =
1
( 2
√
2π)n
√
|Σ|
exp(−
1
2
(z − µ)T
(Σ)−1
(z − µ))
という分布に従う。これを多変量ガウス分布という。
確率変数Xが多変量正規分布に従う時、X ∼ N(µ, Σ)とかく。
平均と分散は
E[Z] = µ
VAR[Z] = AAT
= Σ
さらに、Σ = BBT
とコレスキー分解して、X = B−1
(Z − µ)と変換する
と、Xは多変量ガウス分布に従う。
29 / 40
30. Linear Algebra Probability Theory Information Theory
基本的な確率分布
Def:指数分布
λ ∈ R, x 0とする。確率密度関数に
p(x; λ) = λ exp(−λx)
を持つ確率変数Xは指数分布に従うといい、X ∼ E(λ)とかく。
平均と分散は
E[X] =
1
λ
VAR[X] =
1
λ2
30 / 40
31. Linear Algebra Probability Theory Information Theory
基本的な確率分布
Def:ラプラス分布
µ, γ ∈ Rについて、確率密度関数に
Laplace(x; µ, γ) =
1
2γ
exp −
|x − µ|
γ
を持つ確率変数Xはラプラス分布に従うといい、 X ∼ LAP(µ, γ)と書く。
平均と分散は
E[X] = µ
VAR[X] = 2γ2
31 / 40
32. Linear Algebra Probability Theory Information Theory
基本的な確率分布
Def:ディラックのデルタ関数
x, µ ∈ Rについて、確率密度関数に
p(x) = δ(x − µ)
を持つ確率変数をディラックのデルタ分布に従うという。
ただし、 ∫
R
δ(x − µ)f(x)dx = f(µ)
を満たす。
この密度関数はしばしば、x = 0の⼀点のみで∞をとり、積分すると1になる
連続関数として使われるが、実際はこれは関数ではなく超関数と呼ばれるも
のである。
32 / 40
33. Linear Algebra Probability Theory Information Theory
基本的な確率分布
確率分布Pにはk個の確率分布が隠れていることがある。つまりi番⽬のクラ
スの確率分布がp(x|C = i)で与えられているとする。この分布に重
みp(C = i)をつける。
Def:混合分布
p(x) =
k∑
i=1
p(C = i)p(x|C = i)
33 / 40
34. Linear Algebra Probability Theory Information Theory
基本的な確率分布
Def:sigmoid function(シグモイド関数)
以下のような関数をlogistic sigmoid関数という。
σ(x) =
1
1 + exp(−x)
34 / 40
35. Linear Algebra Probability Theory Information Theory
基本的な確率分布
Def:softplus funtion
ζ(x) = log(1 + exp(x))
をsoftplus functionという。
Thm:sigmoid functionの性質
▶ d
dx
σ(x) = σ(x)(1 − σ(x))
▶ 1 − σ(x) = σ(−x)
▶ log σ(x) = −ζ(−x)
▶ d
dx
ζ(x) = exp(x)
1+exp(x)
▶ logit関数:σ(x)の逆関数はy = log( x
1−x
)
▶ ζ(x)の逆関数:y = log(1 − exp(x))
▶ ζ(x) − ζ(−x) = x
35 / 40
36. Linear Algebra Probability Theory Information Theory
エントロピー
Information Theory
定義 (⾃⼰エントロピー)
E ∈ Fに対して、Eが起こる確率をP(E)とする。この時、⾃⼰エントロ
ピーI : F → Rを
I(E) = − log(P(E))
と定義する。ただし、確率が0の時は⾃⼰エントロピーも0と定義する。
⾃⼰エントロピーは以下の⼆つの性質を持っている。
E1, E2 ∈ Fに対して、
▶ P(E1) ≤ P(E2) =⇒ I(E1) ≥ I(E2)
▶ P(E1 ∩ E2) = P(E1)P(E2) =⇒ I(E1 ∩ E2) = I(E1) + I(E2)
36 / 40
37. Linear Algebra Probability Theory Information Theory
エントロピー
定義 (確率変数のシャノン情報量(平均エントロピー))
無限集合Ω上の確率変数Xの確率密度関数をpとする。この時Xのシャノン情
報量H(X) ∈ Rを
H(X) = −
∫ ∞
−∞
p(x) log p(x)dx
と定義する。Ωが有限集合の場合は、
∑
を使って定義する。
分布の不確実性を表す値。
▶ デルタ分布のシャノン情報量は−∞
▶ 離散確率変数のシャノン情報量を最⼤化するのは⼀様分布
37 / 40
39. Linear Algebra Probability Theory Information Theory
KL-ダイバージェンス
定義 (クロスエントロピー)
確率分布P, Qのクロスエントロピーを
H(P, Q) = H(P) + DKL(P∥Q)
と定義する。
▶ クロスエントロピー最⼩化とKL-ダイバージェンス最⼩化は等価
定義 (平均対数損失)
確率密度関数p(x)に対する確率密度関数q(x|θ)の平均損失関数を
L(θ) = −
∫ ∞
−∞
p(x) log p(x)dx +
∫ ∞
−∞
p(x) log
p(x)
q(x|θ)
dx
▶ 第⼀項はpのシャノン情報量、第⼆項はp, qのKL-ダイバージェンス
39 / 40
40. Linear Algebra Probability Theory Information Theory
KL-ダイバージェンス
参考⽂献
[1] Ian Goodfellow and Yoshua Bengio and Aaron Courville,DEEP LEARNING
40 / 40