SlideShare a Scribd company logo
1 of 40
Download to read offline
Linear Algebra Probability Theory Information Theory
  
Deep Learning
Linear Algebra Probability Information
⾕⼝泰地
⽴命館⼤学理⼯学部数理科学科四回⽣
2019-04-28
1 / 40
Linear Algebra Probability Theory Information Theory
Overflow
Linear Algebra
序論
固有値と特異値
ムーンアペンローズ⼀般逆⾏列
Principal Components Analsis(PCA)
Probability Theory
準備
基本的な確率分布
Information Theory
エントロピー
KL-ダイバージェンス
2 / 40
Linear Algebra Probability Theory Information Theory
序論
テンソル
テンソルは多次元配列として定義されることが多いが、これでは本来期待さ
れる基底のの取り⽅によらないことが定義から明らかではない。よって⼀般
的には以下のように定義される。
Def:テンソル
ベクトル空間V に対して、(p,q)-型テンソルTは
T : V ∗
× ... × V ∗
× V × ... × V → R
で、各変数に対し線形な多重線形汎関数である。
ただし、V ∗
はV の双対空間であり、V ∗
× ... × V ∗
はV ∗
のp個の直
積、V × ... × V はV のq個の直積である。
3 / 40
Linear Algebra Probability Theory Information Theory
序論
テンソル
ここで、V の基底{ej}とV ∗
の双対基底{ϵi
}にたいしてテンソルを施すと、
T
i1,..,ip
j1,...,jq
= T(ϵi1
, ..., ϵip
, ej1 , ..., ejq )
により、その成分として、(p + q)−次元配列が得られる。
4 / 40
Linear Algebra Probability Theory Information Theory
序論
Frobenius norm(フロベニウスノルム)
今後、、Mm,n(K)を体K上のm × n⾏列全体の集合とし、GLn(K)を体K上
の正則なn × n⾏列の集合とする。
Def:フロベニウスノルム
∥ · ∥F : Mn,m(K) → Rを任意のA ∈ Mn,m(K)に対して次のように定義する。
∥A∥F =
√∑
i,j
A2
i,j
これは⾏列のTraceを使うと、以下のように定義することもできる。
∥A∥F =
√
Tr(AAT )
5 / 40
Linear Algebra Probability Theory Information Theory
固有値と特異値
固有値分解
固有値や固有ベクトルの定義は省略する。また、この章ではK = Rとして考
える。
Thm:固有値分解
A ∈ Mn,n(R)に対し、Aの固有値λ1, λ2, ..., λnがすべて異なる時、⾏列Aを
A = V diag(λ)V −1
と分解することができる。ただし、V は各列に固有ベクトルを並べたもので
あり、λは固有値を並べたベクトルである。さらに、diag(λ)はベクトルλを
対⾓成分に持つ⾏列である。
V (λi) = {v ∈ Rn
|Av = λiv}とすると、Rn
= V (λ1) ⊕ ... ⊕ V (λn)とできる
ことから、f-不変なn個の⼀次元部分空間に分解しているとみることができ
ることを意味する。
6 / 40
Linear Algebra Probability Theory Information Theory
固有値と特異値
特異値
Thm:特異値分解定理
A ∈ Mm,n(R), U ∈ Mm,m(R), V ∈ Mn,n(R)とする。
この時、
A = UDV T
とすることができる。 ただし、 Dは特異値を対⾓成分に並べた⾏列(埋まら
ない対⾓成分は0)で、U, V は直⾏⾏列である。
Uの各列を左特異ベクトル、V の各列を右特異ベクトルという。 左特異ベク
トルはAAT
の固有ベクトルであり、右特異ベクトルはAT
Aの固有ベクトル
である。通常、U, V は⼀意に定まらない。(⼀つの特異値に対して、特異ベ
クトルが⼀つとは限らないため)
7 / 40
Linear Algebra Probability Theory Information Theory
固有値と特異値
Proof. 最初にm  nと仮定する。AT
Aの固有ベクトルを{u1, u2, ..., un},固
有値をλ1, λ2, ..., λnとする。 AT
Aは正定置対象⾏列であるので、固有値は必
ず正で、⼆次形式は⾮負の値をとる。これは以下のように証明される。固有
ベクトル、固有値の定義より、∀i ∈ {1, 2, ..., n},
AT
Aui = λiui
が満たされる。さらに、ここから両辺uiで内積をとると、
(ui, AT
Aui) = (ui, λiui) = λi
任意のxについて、
(x, AT
Ax) = (Ax, Ax) = ∥Ax∥2
≥ 0
よって、AT
Aは正定置対象⾏列である。
8 / 40
Linear Algebra Probability Theory Information Theory
固有値と特異値
次に、λi  0, (i = 1, 2, ..., r)となる固有値とλr+1, λr+2, ..., λn = 0となる固
有値で分ける。
vi for i = 1, 2, ..., rについて、
vi =
1
√
λi
Aui
とするとvi, vjはi ̸= jの時、直交する。(n  m) よって、v1, v2, ..., vrはm次
元ベクトル空間のr次元部分空間の正規直交基底になっている。よっ
て、v1, ..., vmがm次元ベクトル空間の正規直交基底になるよう
にvr+1, vr+2, ..., vmを加えることができる。 次
に、V = [v1, v2, ..., vm],U = [u1, u2, ..., un]と定義する。
ここで、V T
AUという⾏列を考える。この⾏列の(i,j)成分はvT
i Aujであ
る。
i = r + 1, r + 2, ..., nであれば、固有値は0なので、
∥Aui∥2
= (Aui, Aui) = (ui, AT
Aui) = λi∥ui∥2
= 0
9 / 40
Linear Algebra Probability Theory Information Theory
固有値と特異値
よって、Aui = 0となる。  i, j = 1, 2, ..., rの場合、
vT
i Auj = (
1
√
λi
Aui)T
Auj =
1
√
λi
uT
i AT
Auj =
λi
√
λi
uT
i uj =
√
λiδi,j
ここで、δi,jはクロネッカーのデルタ。
i = r + 1, r + 2, ..., mかつj = 1, 2, ..., rの場合、
vT
i Auj = vT
i
√
λjvj =
√
λj(vi, vj) = 0
m  nの時は、AAT
の固有ベクトルをv1, ..., vmと置いて、u1, ..., unを作
り、同様に計算すればよい。
10 / 40
Linear Algebra Probability Theory Information Theory
ムーンアペンローズ⼀般逆⾏列
⼀般逆⾏列
Def:⼀般逆⾏列
A ∈ Mm,n(C)に対して、次の四つの条件を満たすn × m⾏列A+
がただ⼀つ
定まる
▶ AA+
A = A
▶ A+
AA+
= A+
▶ (AA+
)∗
= AA+
▶ (A+
A)∗
= A+
A
ただし、A∗
はAの随伴⾏列を表す。
これは逆⾏列の⼀般化になっている。
11 / 40
Linear Algebra Probability Theory Information Theory
ムーンアペンローズ⼀般逆⾏列
ムーンアペンローズ⼀般逆⾏列
Def:ムーンアペンローズ⼀般逆⾏列
A ∈ Mn,mのムーンアペンローズ⼀般逆⾏列とは
A+
= lim
α↓0
(AT
A + αI)−1
AT
)
コンピューターに計算させるときは、アルゴリズム上定義より以下のような
計算を⾏う。
A+
= V D+
UT
ここで、U, D, V は特異値分解によって、得られる⾏列である。
Aが⾏より列のほうが多い時、疑似逆⾏列を⽤いて、線形⽅程式を解くと、
数ある解のうちの⼀つの解を得ることができる。さらにその解は、∥x∥2
を最
⼩にする解となる。列よりも⾏のほうが⼤きいとき、疑似逆⾏列を⽤いて、
線形⽅程式を解くと、∥Ax − y∥を最⼩にする解が得られる。これはまさに
最⼩⼆乗法の解である。
12 / 40
Linear Algebra Probability Theory Information Theory
ムーンアペンローズ⼀般逆⾏列
実際にこれが⼀般逆⾏列の定義を満たしているか確認する。
Proof.
A ∈ M(m, n) = UDV T
に対して、A = V D+
UT
と置くと、
▶ AA+
A = UDV T
V D+
UT
UDV T
= UDD+
DV T
= UDV T
▶ A+
AA+
= V D+
UT
UDV T
V D+
UT
= V D+
DD+
UT
= V D+
UT
▶ (AA+
)T
= (UDV T
V D+
UT
)T
= UD+
V T
V DUU
▶ (A+
A)T
= (V D+
UT
UDV T
) = V D+
UT
UDV T
13 / 40
Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
機械学習の⽐較的簡単な例を⽰す。
問題設定
データポイント{x(1)
, x(2)
, ..., x(n)
} ⊂ Rn
を持っているとする。このデータ
を⾮可逆圧縮したい。つまり、次元圧縮がしたい。しかし、データの情報を
失うことにもなるので、当然制度が落ちる可能性がある。制度をできるだけ
落とさないような、次元圧縮を考える。
この問題を以下のように書き換える。
PCAの問題設定
データポイントxi ∈ Rn
をci ∈ Rl
に対応させるようなfとxi ≈ g(f(xi))とな
るようなg(c) = Dcを求めたい。
ただし、問題を簡単にするためにDの各列ベクトルは互いに直⾏しているも
のとする。
14 / 40
Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
Input dataxに対して、最適なc∗
を対応させたい。よって、以下の⼆つの問
題に帰着する。
▶ Inputxに対してどのようなc ∈ Rl
を対応させるfがよいのか
▶ Dは具体的にどのような形か。
⼀つ⽬は、xi ≈ g(f(xi))としたかったので、、xとg(c∗
)のノルムを最初に
させるようなc∗
を求めるればよい。
よって、⼀つ⽬の問題設定は以下のように数式で表すことができる。
PCA:fを求める
c∗
∈ arg min
c∈Rl
∥x − Dc∥2
subject to DDT
= I
15 / 40
Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
∥x − g(c)∥2
= (x − g(c))T
(x − g(c))
= xT
x − 2xT
g(c) + g(c)T
g(c)
c∗
∈ arg min
c∈Rl
−2xT
g(c) + g(c)T
g(c)
= arg min
c∈Rl
−2xT
Dc + (Dc)T
(Dc)
= arg min
c∈Rl
−2xT
Dc + cT
DT
Dc
= arg min
c∈Rl
−2xT
Dc + cT
c
∇(−2xT
Dc + cT
c) = 0
−2DT
x + 2c = 0
c = DT
x
16 / 40
Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
PCA:最適なf
encoding function,f : Rn
→ Rl
を
∀x ∈ Rn
, f(x) = DT
x
次にどのようなDが良いのか考える。ここで、r : Rn
→ Rn
を次のように定
義する。
∀x ∈ Rn
, r(x) = g(f(x)) = DDT
x
再び、x(i)
とr(x(i)
)をすべてのiで近づけるようなD∗
を求める。
17 / 40
Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
すなわち、以下のような問題を考える。
PCA:Dを求める
D∗
∈ arg min
∑
i
∥x(i)
− r(x(i)
)∥2
sbject to DT
D = Il
これは多少めんどくさい。。。
18 / 40
Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
制約条件DT
D = Inの元、
D∗
∈ arg min
∑
i
∥x(i)
− DDT
x(i)
∥
= arg min ∥X − DDT
X∥2
F
= arg min Trace((X − DDT
X)T
(X − DDT
X))
= arg min Trace((XT
− XT
DDT
)(X − DDT
X))
= arg min Trace(XT
X − XT
DDT
X − XT
DDT
X + XT
DDT
DDT
X)
= arg min −Trace(XT
DDT
X) − Trace(XT
DDT
X)
+ Trace(XT
DDT
DDT
X)
= arg min −2Trace(XT
DDT
X) + Trace(XT
DDT
X)
= arg min −Trace(XT
DDT
X)
= arg max Trace(XT
DDT
X)
= arg max Trace(DT
XXT
D)
19 / 40
Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
XXT
を固有値分解して、
arg max Trace(DT
XXT
D)
= arg max Trace(DT
V
∑∑∑
V T
D)
= arg max Trace((V T
D)T
∑∑∑
V T
D)
Dの各列ベクトルをv1, v2, .., vmの⼀次結合で表す。
∀i ∈ {1, 2, .., m}, ∃ ai1, ..., ain ∈ R, di = ai1v1 + ai2v2 + ... + ainvn
20 / 40
Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
V T
D =





vT
1 d1 vT
! d2
... vT
1 dm
· · · · · · · · · · · ·
vT
md1 vT
md2
... vT
mdm





よって、これの(i,j)成分はvT
dj = vT
i (aj1v1 + aj2v2 + ... + ajmvm) = aji 以
上より、
Trace((V T
D)T
∑∑∑
V T
D) =
∑
i1
λi1 a2
1,i1
+
∑
i2
λi2 a2
2,i2
+ ... +
∑
im
λim a2
m,im
各シグマの項を最⼤にするようにすればよい。
21 / 40
Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
固有値分解をするとき、対応する固有値が⼤きい順になるように固有ベクト
ルを並べたとする。制約条件DT
D = Iより、dT
1 d1 = 1,これをa2
1について
整理し、⼀つ⽬のシグマに代⼊すると、それは
= arg max λ1a2
1 + ... + λ2a2
m
= arg max λ1(1 − a2
2 − a2
3 − ... − a2
m)a2
1 + λ2a2
2 + ... + λma2
m
= arg max λ1 + (λ2 − λ1)a2
2 + ... + (λn − λ1)a2
m
よって、(λi − λ1) ≤ 0より、最⼤値はλ1。よって、その時、
a1 = 1, a2 = 0, ..., am = 0
よって、
d1 = v1
となることがわかる。以下、同様にすることでd1 = v1, ..., dl = vlがわか
る。よって以下の解が導かれる。
22 / 40
Linear Algebra Probability Theory Information Theory
Principal Components Analsis(PCA)
PCA:最適なD
PCAの問題において最適なDはXT
Xの固有値の⼤きいものからl個えらび、
それに対応する固有ベクトルを並べたも⾏列が最適解である。
23 / 40
Linear Algebra Probability Theory Information Theory
準備
確率空間
標本空間をΩ(濃度は適所判断)として、その要素を根源事
象、σ − algebraをFと書き、その要素を事象、P : F → [0, 1]を確率測度とす
る。
Def:確率空間
(Ω, F, P)を確率空間という。
Def:確率変数
X : Ω → RがF−可測関数の時、確率変数という。
Def:確率分布
確率変数Xの確率分布PX : B(R) → [0, 1]を
PX (A) = P({ω ∈ Ω|X(ω) ∈ A}), for A ∈ B(R)
と定義する。
24 / 40
Linear Algebra Probability Theory Information Theory
準備
Def:確率分布関数
Xを確率変数、PX をXの確率分布とするとき、FX : R → [0, 1]を
FX (x) = P({ω ∈ Ω|X(ω)  x}) = PX ((−∞, x]) for x ∈ R
Def:密度関数
確率変数Xの分布PX が絶対連続の時、(つまりルベーグ測度に絶対連続の時)
PX (A) =
∫
A
fX (x)dx
を満たすfX (可測関数)が存在し(by ラドン=ニコディムの定理)、これをXの
確率密度関数という。
25 / 40
Linear Algebra Probability Theory Information Theory
基本的な確率分布
Probability
ここでは、測度論的確率空間などは定義しないが、確率変数Xが標本空間か
らRへの可測関数であることなどは、察してほしい。また、確率密度関数
や、期待値、分散についても普段使っているものである。
Def:ベルヌーイ分布
ϕ ∈ [0, 1], k ∈ {0, 1}として、
P(X = k) = ϕk
(1 − ϕ)1−k
で定まる確率分布をベルヌーイ分布という。
確率変数Xがベルヌーイ分布に従うことをX ∼ B(ϕ)と書く。
期待値、分散は
E[x] = ϕ
VAR[x] = ϕ(1 − ϕ)
26 / 40
Linear Algebra Probability Theory Information Theory
基本的な確率分布
Defガウス分布
x ∈ R、標準偏差σ ∈ R+ := {x ∈ R|x  0},平均µ ∈ Rに対し、確率密度関数
が
f(x) =
1
√
2πσ
exp(−
(x − µ)2
2σ2
)
で与えられる確率分布をガウス分布という。
確率変数Xがガウス分布に従うことをX ∼ N(µ, σ)とかく。
平均、分散は
E[X] = µ
VAR[X] = σ2
27 / 40
Linear Algebra Probability Theory Information Theory
基本的な確率分布
Def:多変量標準ガウス分布
x ∈ Rn
に対して、
f(x) =
1
( 2
√
2π)n
exp(−
xT
x
2
)
平均、分散は
E[X] = 0
VAR[X] = In
28 / 40
Linear Algebra Probability Theory Information Theory
基本的な確率分布
多変量ガウス分布の確率変数xをアフィン変換することで得られる確率分布
を定める。
Def:多変量ガウス分布
A ∈ GLn(R), µ ∈ Rn
,AAT
= Σに対して、z := Ax + µは
g(z) =
1
( 2
√
2π)n
√
|Σ|
exp(−
1
2
(z − µ)T
(Σ)−1
(z − µ))
という分布に従う。これを多変量ガウス分布という。
確率変数Xが多変量正規分布に従う時、X ∼ N(µ, Σ)とかく。
平均と分散は
E[Z] = µ
VAR[Z] = AAT
= Σ
さらに、Σ = BBT
とコレスキー分解して、X = B−1
(Z − µ)と変換する
と、Xは多変量ガウス分布に従う。
29 / 40
Linear Algebra Probability Theory Information Theory
基本的な確率分布
Def:指数分布
λ ∈ R, x  0とする。確率密度関数に
p(x; λ) = λ exp(−λx)
を持つ確率変数Xは指数分布に従うといい、X ∼ E(λ)とかく。
平均と分散は
E[X] =
1
λ
VAR[X] =
1
λ2
30 / 40
Linear Algebra Probability Theory Information Theory
基本的な確率分布
Def:ラプラス分布
µ, γ ∈ Rについて、確率密度関数に
Laplace(x; µ, γ) =
1
2γ
exp −
|x − µ|
γ
を持つ確率変数Xはラプラス分布に従うといい、 X ∼ LAP(µ, γ)と書く。
平均と分散は
E[X] = µ
VAR[X] = 2γ2
31 / 40
Linear Algebra Probability Theory Information Theory
基本的な確率分布
Def:ディラックのデルタ関数
x, µ ∈ Rについて、確率密度関数に
p(x) = δ(x − µ)
を持つ確率変数をディラックのデルタ分布に従うという。
ただし、 ∫
R
δ(x − µ)f(x)dx = f(µ)
を満たす。
この密度関数はしばしば、x = 0の⼀点のみで∞をとり、積分すると1になる
連続関数として使われるが、実際はこれは関数ではなく超関数と呼ばれるも
のである。
32 / 40
Linear Algebra Probability Theory Information Theory
基本的な確率分布
確率分布Pにはk個の確率分布が隠れていることがある。つまりi番⽬のクラ
スの確率分布がp(x|C = i)で与えられているとする。この分布に重
みp(C = i)をつける。
Def:混合分布
p(x) =
k∑
i=1
p(C = i)p(x|C = i)
33 / 40
Linear Algebra Probability Theory Information Theory
基本的な確率分布
Def:sigmoid function(シグモイド関数)
以下のような関数をlogistic sigmoid関数という。
σ(x) =
1
1 + exp(−x)
34 / 40
Linear Algebra Probability Theory Information Theory
基本的な確率分布
Def:softplus funtion
ζ(x) = log(1 + exp(x))
をsoftplus functionという。
Thm:sigmoid functionの性質
▶ d
dx
σ(x) = σ(x)(1 − σ(x))
▶ 1 − σ(x) = σ(−x)
▶ log σ(x) = −ζ(−x)
▶ d
dx
ζ(x) = exp(x)
1+exp(x)
▶ logit関数:σ(x)の逆関数はy = log( x
1−x
)
▶ ζ(x)の逆関数:y = log(1 − exp(x))
▶ ζ(x) − ζ(−x) = x
35 / 40
Linear Algebra Probability Theory Information Theory
エントロピー
Information Theory
定義 (⾃⼰エントロピー)
E ∈ Fに対して、Eが起こる確率をP(E)とする。この時、⾃⼰エントロ
ピーI : F → Rを
I(E) = − log(P(E))
と定義する。ただし、確率が0の時は⾃⼰エントロピーも0と定義する。
⾃⼰エントロピーは以下の⼆つの性質を持っている。
E1, E2 ∈ Fに対して、
▶ P(E1) ≤ P(E2) =⇒ I(E1) ≥ I(E2)
▶ P(E1 ∩ E2) = P(E1)P(E2) =⇒ I(E1 ∩ E2) = I(E1) + I(E2)
36 / 40
Linear Algebra Probability Theory Information Theory
エントロピー
定義 (確率変数のシャノン情報量(平均エントロピー))
無限集合Ω上の確率変数Xの確率密度関数をpとする。この時Xのシャノン情
報量H(X) ∈ Rを
H(X) = −
∫ ∞
−∞
p(x) log p(x)dx
と定義する。Ωが有限集合の場合は、
∑
を使って定義する。
分布の不確実性を表す値。
▶ デルタ分布のシャノン情報量は−∞
▶ 離散確率変数のシャノン情報量を最⼤化するのは⼀様分布
37 / 40
Linear Algebra Probability Theory Information Theory
KL-ダイバージェンス
定義 (KL-ダイバージェンス)
B(R)上の確率密度関数p, qに対して、
DKL[p∥q] = −
∫ ∞
−∞
p(x) log
p(x)
q(x)
dx
をKL-ダイバージェンスという。
Ωが有限集合の場合は
∑
を使って定義する。
⼆つの分布間の違いを図る尺度である。
▶ ギブスの不等式
DKL[p∥q]  0, Proof : E[−log p(x)
q(x)
] ≥ log
∫
q(x)dx = 0
▶ DKL[p∥q] ̸= D[q∥p]
▶ DKL[p∥q] = 0 ⇐⇒ p = q
▶ minθ DKL[p(x)∥q(x|θ)]と最尤推定は等価
38 / 40
Linear Algebra Probability Theory Information Theory
KL-ダイバージェンス
定義 (クロスエントロピー)
確率分布P, Qのクロスエントロピーを
H(P, Q) = H(P) + DKL(P∥Q)
と定義する。
▶ クロスエントロピー最⼩化とKL-ダイバージェンス最⼩化は等価
定義 (平均対数損失)
確率密度関数p(x)に対する確率密度関数q(x|θ)の平均損失関数を
L(θ) = −
∫ ∞
−∞
p(x) log p(x)dx +
∫ ∞
−∞
p(x) log
p(x)
q(x|θ)
dx
▶ 第⼀項はpのシャノン情報量、第⼆項はp, qのKL-ダイバージェンス
39 / 40
Linear Algebra Probability Theory Information Theory
KL-ダイバージェンス
参考⽂献
[1] Ian Goodfellow and Yoshua Bengio and Aaron Courville,DEEP LEARNING
40 / 40

More Related Content

What's hot

卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-
Tomoshige Nakamura
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
ryotat
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysis
Tatsuki SHIMIZU
 

What's hot (20)

Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレート
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-
 
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
 
分布 isseing333
分布 isseing333分布 isseing333
分布 isseing333
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
 
2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)
 
Introduction to Categorical Programming (Revised)
Introduction to Categorical Programming (Revised)Introduction to Categorical Programming (Revised)
Introduction to Categorical Programming (Revised)
 
Prml sec6
Prml sec6Prml sec6
Prml sec6
 
演習発表 Sari v.1.1
演習発表 Sari v.1.1演習発表 Sari v.1.1
演習発表 Sari v.1.1
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
 
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第7回 2階線形微分方程式(1) (2014. 11. 6)
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第7回 2階線形微分方程式(1) (2014. 11. 6)2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第7回 2階線形微分方程式(1) (2014. 11. 6)
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第7回 2階線形微分方程式(1) (2014. 11. 6)
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysis
 
Introduction to Categorical Programming
Introduction to Categorical ProgrammingIntroduction to Categorical Programming
Introduction to Categorical Programming
 
Shunsuke Horii
Shunsuke HoriiShunsuke Horii
Shunsuke Horii
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
2015年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2015. 10. 29)
2015年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2015. 10. 29) 2015年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2015. 10. 29)
2015年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2015. 10. 29)
 
20140512_水曜セミナードラフトv1
20140512_水曜セミナードラフトv120140512_水曜セミナードラフトv1
20140512_水曜セミナードラフトv1
 
Prml 4.3.5
Prml 4.3.5Prml 4.3.5
Prml 4.3.5
 
2015年度秋学期 応用数学(解析) 第8回 2階線形微分方程式(2) (2015. 11. 19)
2015年度秋学期 応用数学(解析) 第8回 2階線形微分方程式(2) (2015. 11. 19)2015年度秋学期 応用数学(解析) 第8回 2階線形微分方程式(2) (2015. 11. 19)
2015年度秋学期 応用数学(解析) 第8回 2階線形微分方程式(2) (2015. 11. 19)
 

Similar to Deep learning _linear_algebra___probablity___information

公開鍵暗号7: 楕円曲線の数理
公開鍵暗号7: 楕円曲線の数理公開鍵暗号7: 楕円曲線の数理
公開鍵暗号7: 楕円曲線の数理
Joe Suzuki
 
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0
Koji Sekiguchi
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
Miyoshi Yuya
 

Similar to Deep learning _linear_algebra___probablity___information (20)

NLPforml5
NLPforml5NLPforml5
NLPforml5
 
topology of musical data
topology of musical datatopology of musical data
topology of musical data
 
Prml9
Prml9Prml9
Prml9
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
Topic model
Topic modelTopic model
Topic model
 
Rのoptim関数でロバスト回帰(LMSとLAV)
Rのoptim関数でロバスト回帰(LMSとLAV)Rのoptim関数でロバスト回帰(LMSとLAV)
Rのoptim関数でロバスト回帰(LMSとLAV)
 
公開鍵暗号7: 楕円曲線の数理
公開鍵暗号7: 楕円曲線の数理公開鍵暗号7: 楕円曲線の数理
公開鍵暗号7: 楕円曲線の数理
 
2014年度秋学期 応用数学(解析) 第1回 イントロダクション (2014. 9. 25)
2014年度秋学期 応用数学(解析) 第1回 イントロダクション (2014. 9. 25)2014年度秋学期 応用数学(解析) 第1回 イントロダクション (2014. 9. 25)
2014年度秋学期 応用数学(解析) 第1回 イントロダクション (2014. 9. 25)
 
linhyp.pdf
linhyp.pdflinhyp.pdf
linhyp.pdf
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
 
PRML セミナー
PRML セミナーPRML セミナー
PRML セミナー
 
複素数・四元数と図形の回転
複素数・四元数と図形の回転複素数・四元数と図形の回転
複素数・四元数と図形の回転
 
PRML 10.4 - 10.6
PRML 10.4 - 10.6PRML 10.4 - 10.6
PRML 10.4 - 10.6
 
PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現
 
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
 
Newtsulideprint
NewtsulideprintNewtsulideprint
Newtsulideprint
 
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第5回 微分方程式とは,変数分離形 (2014. 10. 23)
 
Deep Learning を実装する
Deep Learning を実装するDeep Learning を実装する
Deep Learning を実装する
 

More from takutori (9)

slackの会話ネットワークの分析、及びチャネル内活性化指標の提案
slackの会話ネットワークの分析、及びチャネル内活性化指標の提案slackの会話ネットワークの分析、及びチャネル内活性化指標の提案
slackの会話ネットワークの分析、及びチャネル内活性化指標の提案
 
Slack data Analysis
Slack data AnalysisSlack data Analysis
Slack data Analysis
 
T-sne
T-sneT-sne
T-sne
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
Dijkstra
DijkstraDijkstra
Dijkstra
 
Heap
HeapHeap
Heap
 
T-sne
T-sneT-sne
T-sne
 
Kernel
KernelKernel
Kernel
 
Bayes
BayesBayes
Bayes
 

Deep learning _linear_algebra___probablity___information

  • 1. Linear Algebra Probability Theory Information Theory Deep Learning Linear Algebra Probability Information ⾕⼝泰地 ⽴命館⼤学理⼯学部数理科学科四回⽣ 2019-04-28 1 / 40
  • 2. Linear Algebra Probability Theory Information Theory Overflow Linear Algebra 序論 固有値と特異値 ムーンアペンローズ⼀般逆⾏列 Principal Components Analsis(PCA) Probability Theory 準備 基本的な確率分布 Information Theory エントロピー KL-ダイバージェンス 2 / 40
  • 3. Linear Algebra Probability Theory Information Theory 序論 テンソル テンソルは多次元配列として定義されることが多いが、これでは本来期待さ れる基底のの取り⽅によらないことが定義から明らかではない。よって⼀般 的には以下のように定義される。 Def:テンソル ベクトル空間V に対して、(p,q)-型テンソルTは T : V ∗ × ... × V ∗ × V × ... × V → R で、各変数に対し線形な多重線形汎関数である。 ただし、V ∗ はV の双対空間であり、V ∗ × ... × V ∗ はV ∗ のp個の直 積、V × ... × V はV のq個の直積である。 3 / 40
  • 4. Linear Algebra Probability Theory Information Theory 序論 テンソル ここで、V の基底{ej}とV ∗ の双対基底{ϵi }にたいしてテンソルを施すと、 T i1,..,ip j1,...,jq = T(ϵi1 , ..., ϵip , ej1 , ..., ejq ) により、その成分として、(p + q)−次元配列が得られる。 4 / 40
  • 5. Linear Algebra Probability Theory Information Theory 序論 Frobenius norm(フロベニウスノルム) 今後、、Mm,n(K)を体K上のm × n⾏列全体の集合とし、GLn(K)を体K上 の正則なn × n⾏列の集合とする。 Def:フロベニウスノルム ∥ · ∥F : Mn,m(K) → Rを任意のA ∈ Mn,m(K)に対して次のように定義する。 ∥A∥F = √∑ i,j A2 i,j これは⾏列のTraceを使うと、以下のように定義することもできる。 ∥A∥F = √ Tr(AAT ) 5 / 40
  • 6. Linear Algebra Probability Theory Information Theory 固有値と特異値 固有値分解 固有値や固有ベクトルの定義は省略する。また、この章ではK = Rとして考 える。 Thm:固有値分解 A ∈ Mn,n(R)に対し、Aの固有値λ1, λ2, ..., λnがすべて異なる時、⾏列Aを A = V diag(λ)V −1 と分解することができる。ただし、V は各列に固有ベクトルを並べたもので あり、λは固有値を並べたベクトルである。さらに、diag(λ)はベクトルλを 対⾓成分に持つ⾏列である。 V (λi) = {v ∈ Rn |Av = λiv}とすると、Rn = V (λ1) ⊕ ... ⊕ V (λn)とできる ことから、f-不変なn個の⼀次元部分空間に分解しているとみることができ ることを意味する。 6 / 40
  • 7. Linear Algebra Probability Theory Information Theory 固有値と特異値 特異値 Thm:特異値分解定理 A ∈ Mm,n(R), U ∈ Mm,m(R), V ∈ Mn,n(R)とする。 この時、 A = UDV T とすることができる。 ただし、 Dは特異値を対⾓成分に並べた⾏列(埋まら ない対⾓成分は0)で、U, V は直⾏⾏列である。 Uの各列を左特異ベクトル、V の各列を右特異ベクトルという。 左特異ベク トルはAAT の固有ベクトルであり、右特異ベクトルはAT Aの固有ベクトル である。通常、U, V は⼀意に定まらない。(⼀つの特異値に対して、特異ベ クトルが⼀つとは限らないため) 7 / 40
  • 8. Linear Algebra Probability Theory Information Theory 固有値と特異値 Proof. 最初にm nと仮定する。AT Aの固有ベクトルを{u1, u2, ..., un},固 有値をλ1, λ2, ..., λnとする。 AT Aは正定置対象⾏列であるので、固有値は必 ず正で、⼆次形式は⾮負の値をとる。これは以下のように証明される。固有 ベクトル、固有値の定義より、∀i ∈ {1, 2, ..., n}, AT Aui = λiui が満たされる。さらに、ここから両辺uiで内積をとると、 (ui, AT Aui) = (ui, λiui) = λi 任意のxについて、 (x, AT Ax) = (Ax, Ax) = ∥Ax∥2 ≥ 0 よって、AT Aは正定置対象⾏列である。 8 / 40
  • 9. Linear Algebra Probability Theory Information Theory 固有値と特異値 次に、λi 0, (i = 1, 2, ..., r)となる固有値とλr+1, λr+2, ..., λn = 0となる固 有値で分ける。 vi for i = 1, 2, ..., rについて、 vi = 1 √ λi Aui とするとvi, vjはi ̸= jの時、直交する。(n m) よって、v1, v2, ..., vrはm次 元ベクトル空間のr次元部分空間の正規直交基底になっている。よっ て、v1, ..., vmがm次元ベクトル空間の正規直交基底になるよう にvr+1, vr+2, ..., vmを加えることができる。 次 に、V = [v1, v2, ..., vm],U = [u1, u2, ..., un]と定義する。 ここで、V T AUという⾏列を考える。この⾏列の(i,j)成分はvT i Aujであ る。 i = r + 1, r + 2, ..., nであれば、固有値は0なので、 ∥Aui∥2 = (Aui, Aui) = (ui, AT Aui) = λi∥ui∥2 = 0 9 / 40
  • 10. Linear Algebra Probability Theory Information Theory 固有値と特異値 よって、Aui = 0となる。  i, j = 1, 2, ..., rの場合、 vT i Auj = ( 1 √ λi Aui)T Auj = 1 √ λi uT i AT Auj = λi √ λi uT i uj = √ λiδi,j ここで、δi,jはクロネッカーのデルタ。 i = r + 1, r + 2, ..., mかつj = 1, 2, ..., rの場合、 vT i Auj = vT i √ λjvj = √ λj(vi, vj) = 0 m nの時は、AAT の固有ベクトルをv1, ..., vmと置いて、u1, ..., unを作 り、同様に計算すればよい。 10 / 40
  • 11. Linear Algebra Probability Theory Information Theory ムーンアペンローズ⼀般逆⾏列 ⼀般逆⾏列 Def:⼀般逆⾏列 A ∈ Mm,n(C)に対して、次の四つの条件を満たすn × m⾏列A+ がただ⼀つ 定まる ▶ AA+ A = A ▶ A+ AA+ = A+ ▶ (AA+ )∗ = AA+ ▶ (A+ A)∗ = A+ A ただし、A∗ はAの随伴⾏列を表す。 これは逆⾏列の⼀般化になっている。 11 / 40
  • 12. Linear Algebra Probability Theory Information Theory ムーンアペンローズ⼀般逆⾏列 ムーンアペンローズ⼀般逆⾏列 Def:ムーンアペンローズ⼀般逆⾏列 A ∈ Mn,mのムーンアペンローズ⼀般逆⾏列とは A+ = lim α↓0 (AT A + αI)−1 AT ) コンピューターに計算させるときは、アルゴリズム上定義より以下のような 計算を⾏う。 A+ = V D+ UT ここで、U, D, V は特異値分解によって、得られる⾏列である。 Aが⾏より列のほうが多い時、疑似逆⾏列を⽤いて、線形⽅程式を解くと、 数ある解のうちの⼀つの解を得ることができる。さらにその解は、∥x∥2 を最 ⼩にする解となる。列よりも⾏のほうが⼤きいとき、疑似逆⾏列を⽤いて、 線形⽅程式を解くと、∥Ax − y∥を最⼩にする解が得られる。これはまさに 最⼩⼆乗法の解である。 12 / 40
  • 13. Linear Algebra Probability Theory Information Theory ムーンアペンローズ⼀般逆⾏列 実際にこれが⼀般逆⾏列の定義を満たしているか確認する。 Proof. A ∈ M(m, n) = UDV T に対して、A = V D+ UT と置くと、 ▶ AA+ A = UDV T V D+ UT UDV T = UDD+ DV T = UDV T ▶ A+ AA+ = V D+ UT UDV T V D+ UT = V D+ DD+ UT = V D+ UT ▶ (AA+ )T = (UDV T V D+ UT )T = UD+ V T V DUU ▶ (A+ A)T = (V D+ UT UDV T ) = V D+ UT UDV T 13 / 40
  • 14. Linear Algebra Probability Theory Information Theory Principal Components Analsis(PCA) 機械学習の⽐較的簡単な例を⽰す。 問題設定 データポイント{x(1) , x(2) , ..., x(n) } ⊂ Rn を持っているとする。このデータ を⾮可逆圧縮したい。つまり、次元圧縮がしたい。しかし、データの情報を 失うことにもなるので、当然制度が落ちる可能性がある。制度をできるだけ 落とさないような、次元圧縮を考える。 この問題を以下のように書き換える。 PCAの問題設定 データポイントxi ∈ Rn をci ∈ Rl に対応させるようなfとxi ≈ g(f(xi))とな るようなg(c) = Dcを求めたい。 ただし、問題を簡単にするためにDの各列ベクトルは互いに直⾏しているも のとする。 14 / 40
  • 15. Linear Algebra Probability Theory Information Theory Principal Components Analsis(PCA) Input dataxに対して、最適なc∗ を対応させたい。よって、以下の⼆つの問 題に帰着する。 ▶ Inputxに対してどのようなc ∈ Rl を対応させるfがよいのか ▶ Dは具体的にどのような形か。 ⼀つ⽬は、xi ≈ g(f(xi))としたかったので、、xとg(c∗ )のノルムを最初に させるようなc∗ を求めるればよい。 よって、⼀つ⽬の問題設定は以下のように数式で表すことができる。 PCA:fを求める c∗ ∈ arg min c∈Rl ∥x − Dc∥2 subject to DDT = I 15 / 40
  • 16. Linear Algebra Probability Theory Information Theory Principal Components Analsis(PCA) ∥x − g(c)∥2 = (x − g(c))T (x − g(c)) = xT x − 2xT g(c) + g(c)T g(c) c∗ ∈ arg min c∈Rl −2xT g(c) + g(c)T g(c) = arg min c∈Rl −2xT Dc + (Dc)T (Dc) = arg min c∈Rl −2xT Dc + cT DT Dc = arg min c∈Rl −2xT Dc + cT c ∇(−2xT Dc + cT c) = 0 −2DT x + 2c = 0 c = DT x 16 / 40
  • 17. Linear Algebra Probability Theory Information Theory Principal Components Analsis(PCA) PCA:最適なf encoding function,f : Rn → Rl を ∀x ∈ Rn , f(x) = DT x 次にどのようなDが良いのか考える。ここで、r : Rn → Rn を次のように定 義する。 ∀x ∈ Rn , r(x) = g(f(x)) = DDT x 再び、x(i) とr(x(i) )をすべてのiで近づけるようなD∗ を求める。 17 / 40
  • 18. Linear Algebra Probability Theory Information Theory Principal Components Analsis(PCA) すなわち、以下のような問題を考える。 PCA:Dを求める D∗ ∈ arg min ∑ i ∥x(i) − r(x(i) )∥2 sbject to DT D = Il これは多少めんどくさい。。。 18 / 40
  • 19. Linear Algebra Probability Theory Information Theory Principal Components Analsis(PCA) 制約条件DT D = Inの元、 D∗ ∈ arg min ∑ i ∥x(i) − DDT x(i) ∥ = arg min ∥X − DDT X∥2 F = arg min Trace((X − DDT X)T (X − DDT X)) = arg min Trace((XT − XT DDT )(X − DDT X)) = arg min Trace(XT X − XT DDT X − XT DDT X + XT DDT DDT X) = arg min −Trace(XT DDT X) − Trace(XT DDT X) + Trace(XT DDT DDT X) = arg min −2Trace(XT DDT X) + Trace(XT DDT X) = arg min −Trace(XT DDT X) = arg max Trace(XT DDT X) = arg max Trace(DT XXT D) 19 / 40
  • 20. Linear Algebra Probability Theory Information Theory Principal Components Analsis(PCA) XXT を固有値分解して、 arg max Trace(DT XXT D) = arg max Trace(DT V ∑∑∑ V T D) = arg max Trace((V T D)T ∑∑∑ V T D) Dの各列ベクトルをv1, v2, .., vmの⼀次結合で表す。 ∀i ∈ {1, 2, .., m}, ∃ ai1, ..., ain ∈ R, di = ai1v1 + ai2v2 + ... + ainvn 20 / 40
  • 21. Linear Algebra Probability Theory Information Theory Principal Components Analsis(PCA) V T D =      vT 1 d1 vT ! d2 ... vT 1 dm · · · · · · · · · · · · vT md1 vT md2 ... vT mdm      よって、これの(i,j)成分はvT dj = vT i (aj1v1 + aj2v2 + ... + ajmvm) = aji 以 上より、 Trace((V T D)T ∑∑∑ V T D) = ∑ i1 λi1 a2 1,i1 + ∑ i2 λi2 a2 2,i2 + ... + ∑ im λim a2 m,im 各シグマの項を最⼤にするようにすればよい。 21 / 40
  • 22. Linear Algebra Probability Theory Information Theory Principal Components Analsis(PCA) 固有値分解をするとき、対応する固有値が⼤きい順になるように固有ベクト ルを並べたとする。制約条件DT D = Iより、dT 1 d1 = 1,これをa2 1について 整理し、⼀つ⽬のシグマに代⼊すると、それは = arg max λ1a2 1 + ... + λ2a2 m = arg max λ1(1 − a2 2 − a2 3 − ... − a2 m)a2 1 + λ2a2 2 + ... + λma2 m = arg max λ1 + (λ2 − λ1)a2 2 + ... + (λn − λ1)a2 m よって、(λi − λ1) ≤ 0より、最⼤値はλ1。よって、その時、 a1 = 1, a2 = 0, ..., am = 0 よって、 d1 = v1 となることがわかる。以下、同様にすることでd1 = v1, ..., dl = vlがわか る。よって以下の解が導かれる。 22 / 40
  • 23. Linear Algebra Probability Theory Information Theory Principal Components Analsis(PCA) PCA:最適なD PCAの問題において最適なDはXT Xの固有値の⼤きいものからl個えらび、 それに対応する固有ベクトルを並べたも⾏列が最適解である。 23 / 40
  • 24. Linear Algebra Probability Theory Information Theory 準備 確率空間 標本空間をΩ(濃度は適所判断)として、その要素を根源事 象、σ − algebraをFと書き、その要素を事象、P : F → [0, 1]を確率測度とす る。 Def:確率空間 (Ω, F, P)を確率空間という。 Def:確率変数 X : Ω → RがF−可測関数の時、確率変数という。 Def:確率分布 確率変数Xの確率分布PX : B(R) → [0, 1]を PX (A) = P({ω ∈ Ω|X(ω) ∈ A}), for A ∈ B(R) と定義する。 24 / 40
  • 25. Linear Algebra Probability Theory Information Theory 準備 Def:確率分布関数 Xを確率変数、PX をXの確率分布とするとき、FX : R → [0, 1]を FX (x) = P({ω ∈ Ω|X(ω) x}) = PX ((−∞, x]) for x ∈ R Def:密度関数 確率変数Xの分布PX が絶対連続の時、(つまりルベーグ測度に絶対連続の時) PX (A) = ∫ A fX (x)dx を満たすfX (可測関数)が存在し(by ラドン=ニコディムの定理)、これをXの 確率密度関数という。 25 / 40
  • 26. Linear Algebra Probability Theory Information Theory 基本的な確率分布 Probability ここでは、測度論的確率空間などは定義しないが、確率変数Xが標本空間か らRへの可測関数であることなどは、察してほしい。また、確率密度関数 や、期待値、分散についても普段使っているものである。 Def:ベルヌーイ分布 ϕ ∈ [0, 1], k ∈ {0, 1}として、 P(X = k) = ϕk (1 − ϕ)1−k で定まる確率分布をベルヌーイ分布という。 確率変数Xがベルヌーイ分布に従うことをX ∼ B(ϕ)と書く。 期待値、分散は E[x] = ϕ VAR[x] = ϕ(1 − ϕ) 26 / 40
  • 27. Linear Algebra Probability Theory Information Theory 基本的な確率分布 Defガウス分布 x ∈ R、標準偏差σ ∈ R+ := {x ∈ R|x 0},平均µ ∈ Rに対し、確率密度関数 が f(x) = 1 √ 2πσ exp(− (x − µ)2 2σ2 ) で与えられる確率分布をガウス分布という。 確率変数Xがガウス分布に従うことをX ∼ N(µ, σ)とかく。 平均、分散は E[X] = µ VAR[X] = σ2 27 / 40
  • 28. Linear Algebra Probability Theory Information Theory 基本的な確率分布 Def:多変量標準ガウス分布 x ∈ Rn に対して、 f(x) = 1 ( 2 √ 2π)n exp(− xT x 2 ) 平均、分散は E[X] = 0 VAR[X] = In 28 / 40
  • 29. Linear Algebra Probability Theory Information Theory 基本的な確率分布 多変量ガウス分布の確率変数xをアフィン変換することで得られる確率分布 を定める。 Def:多変量ガウス分布 A ∈ GLn(R), µ ∈ Rn ,AAT = Σに対して、z := Ax + µは g(z) = 1 ( 2 √ 2π)n √ |Σ| exp(− 1 2 (z − µ)T (Σ)−1 (z − µ)) という分布に従う。これを多変量ガウス分布という。 確率変数Xが多変量正規分布に従う時、X ∼ N(µ, Σ)とかく。 平均と分散は E[Z] = µ VAR[Z] = AAT = Σ さらに、Σ = BBT とコレスキー分解して、X = B−1 (Z − µ)と変換する と、Xは多変量ガウス分布に従う。 29 / 40
  • 30. Linear Algebra Probability Theory Information Theory 基本的な確率分布 Def:指数分布 λ ∈ R, x 0とする。確率密度関数に p(x; λ) = λ exp(−λx) を持つ確率変数Xは指数分布に従うといい、X ∼ E(λ)とかく。 平均と分散は E[X] = 1 λ VAR[X] = 1 λ2 30 / 40
  • 31. Linear Algebra Probability Theory Information Theory 基本的な確率分布 Def:ラプラス分布 µ, γ ∈ Rについて、確率密度関数に Laplace(x; µ, γ) = 1 2γ exp − |x − µ| γ を持つ確率変数Xはラプラス分布に従うといい、 X ∼ LAP(µ, γ)と書く。 平均と分散は E[X] = µ VAR[X] = 2γ2 31 / 40
  • 32. Linear Algebra Probability Theory Information Theory 基本的な確率分布 Def:ディラックのデルタ関数 x, µ ∈ Rについて、確率密度関数に p(x) = δ(x − µ) を持つ確率変数をディラックのデルタ分布に従うという。 ただし、 ∫ R δ(x − µ)f(x)dx = f(µ) を満たす。 この密度関数はしばしば、x = 0の⼀点のみで∞をとり、積分すると1になる 連続関数として使われるが、実際はこれは関数ではなく超関数と呼ばれるも のである。 32 / 40
  • 33. Linear Algebra Probability Theory Information Theory 基本的な確率分布 確率分布Pにはk個の確率分布が隠れていることがある。つまりi番⽬のクラ スの確率分布がp(x|C = i)で与えられているとする。この分布に重 みp(C = i)をつける。 Def:混合分布 p(x) = k∑ i=1 p(C = i)p(x|C = i) 33 / 40
  • 34. Linear Algebra Probability Theory Information Theory 基本的な確率分布 Def:sigmoid function(シグモイド関数) 以下のような関数をlogistic sigmoid関数という。 σ(x) = 1 1 + exp(−x) 34 / 40
  • 35. Linear Algebra Probability Theory Information Theory 基本的な確率分布 Def:softplus funtion ζ(x) = log(1 + exp(x)) をsoftplus functionという。 Thm:sigmoid functionの性質 ▶ d dx σ(x) = σ(x)(1 − σ(x)) ▶ 1 − σ(x) = σ(−x) ▶ log σ(x) = −ζ(−x) ▶ d dx ζ(x) = exp(x) 1+exp(x) ▶ logit関数:σ(x)の逆関数はy = log( x 1−x ) ▶ ζ(x)の逆関数:y = log(1 − exp(x)) ▶ ζ(x) − ζ(−x) = x 35 / 40
  • 36. Linear Algebra Probability Theory Information Theory エントロピー Information Theory 定義 (⾃⼰エントロピー) E ∈ Fに対して、Eが起こる確率をP(E)とする。この時、⾃⼰エントロ ピーI : F → Rを I(E) = − log(P(E)) と定義する。ただし、確率が0の時は⾃⼰エントロピーも0と定義する。 ⾃⼰エントロピーは以下の⼆つの性質を持っている。 E1, E2 ∈ Fに対して、 ▶ P(E1) ≤ P(E2) =⇒ I(E1) ≥ I(E2) ▶ P(E1 ∩ E2) = P(E1)P(E2) =⇒ I(E1 ∩ E2) = I(E1) + I(E2) 36 / 40
  • 37. Linear Algebra Probability Theory Information Theory エントロピー 定義 (確率変数のシャノン情報量(平均エントロピー)) 無限集合Ω上の確率変数Xの確率密度関数をpとする。この時Xのシャノン情 報量H(X) ∈ Rを H(X) = − ∫ ∞ −∞ p(x) log p(x)dx と定義する。Ωが有限集合の場合は、 ∑ を使って定義する。 分布の不確実性を表す値。 ▶ デルタ分布のシャノン情報量は−∞ ▶ 離散確率変数のシャノン情報量を最⼤化するのは⼀様分布 37 / 40
  • 38. Linear Algebra Probability Theory Information Theory KL-ダイバージェンス 定義 (KL-ダイバージェンス) B(R)上の確率密度関数p, qに対して、 DKL[p∥q] = − ∫ ∞ −∞ p(x) log p(x) q(x) dx をKL-ダイバージェンスという。 Ωが有限集合の場合は ∑ を使って定義する。 ⼆つの分布間の違いを図る尺度である。 ▶ ギブスの不等式 DKL[p∥q] 0, Proof : E[−log p(x) q(x) ] ≥ log ∫ q(x)dx = 0 ▶ DKL[p∥q] ̸= D[q∥p] ▶ DKL[p∥q] = 0 ⇐⇒ p = q ▶ minθ DKL[p(x)∥q(x|θ)]と最尤推定は等価 38 / 40
  • 39. Linear Algebra Probability Theory Information Theory KL-ダイバージェンス 定義 (クロスエントロピー) 確率分布P, Qのクロスエントロピーを H(P, Q) = H(P) + DKL(P∥Q) と定義する。 ▶ クロスエントロピー最⼩化とKL-ダイバージェンス最⼩化は等価 定義 (平均対数損失) 確率密度関数p(x)に対する確率密度関数q(x|θ)の平均損失関数を L(θ) = − ∫ ∞ −∞ p(x) log p(x)dx + ∫ ∞ −∞ p(x) log p(x) q(x|θ) dx ▶ 第⼀項はpのシャノン情報量、第⼆項はp, qのKL-ダイバージェンス 39 / 40
  • 40. Linear Algebra Probability Theory Information Theory KL-ダイバージェンス 参考⽂献 [1] Ian Goodfellow and Yoshua Bengio and Aaron Courville,DEEP LEARNING 40 / 40