MLaPP 9章「一般化線形モデルと指数型分布族」

MLaPP Ch.9
⼀般化線形モデルと指数型分布族
Generalized linear models
and
the exponential family
1 / 56

Generalized linear models and the exponential family
アウトライン
1. イントロダクション
2. 指数型分布族
3. ⼀般化線形モデル
4. プロビット回帰
5. マルチタスク学習
6. ⼀般化線形混合モデル
7. ランキング学習
2 / 56

Generalized linear models and the exponential family Introduction
Subsection 1
Introduction
3 / 56

Generalized linear models and the exponential family Introduction
この章で扱う内容
▶ 指数型分布族 (exponential family) と呼ばれる確率
分布の族の導⼊とその性質
▶ ⼀般化線形モデル (generalized linear model) と
呼ばれる線形回帰やロジスティック回帰を⼀般化し
たモデルの紹介と応⽤
▶ ランキング学習 (learning for rank)
4 / 56

Generalized linear models and the exponential family The exponential family
Subsection 2
The exponential family
5 / 56

指数型分布族
▶ ある条件を満たす確率分布の族
▶ ガウス分布、ベルヌーイ分布、ガンマ分布...
▶ 指数分布も含まれますが特に関係ありません
▶ 様々な良い性質を持っている
▶ ⼗分統計量や共役事前分布が存在
▶ 分布に関する制約があるとき制約を満たす分布の中
で最適
▶ ⼀般化線形モデルや変分推定の考え⽅のもとになる
6 / 56

1. 定義
2. 例
3. 対数分配関数
4. 指数型分布族に対する最尤推定
5. 指数型分布族に対するベイズ法
6. 最⼤エントロピー原理による指数分布族の導出
7 / 56

Deﬁnition
確率密度関数または確率質量関数
p (x|θ)
(
x = (x1, . . . , xm) ∈ Xm
, θ ∈ Θ ⊆ Rd
)
が以下の形で
書けるような確率分布の族を指数型分布族と⾔う
p (x|θ) =
1
Z (θ)
h (x) exp
[
θT
ϕ (x)
]
= h (x) exp
[
θT
ϕ (x) − A (θ)
]
.
ここで
Z (θ) =
ˆ
Xm
h (x) exp
[
θT
ϕ (x)
]
dx
A (θ) = log Z (θ) .
8 / 56

p (x|θ) =
1
Z (θ)
h (x) exp
[
θT
ϕ (x)
]
= h (x) exp
[
θT
ϕ (x) − A (θ)
]
Z (θ) =
ˆ
Xm
h (x) exp
[
θT
ϕ (x)
]
dx
A (θ) = log Z (θ)
▶ θ: ⾃然パラメータ (natural parameter) または
正準パラメータ (canonical parameter)
▶ ϕ (x) ∈ Rd: ⼗分統計量 (suﬃcient statistics)
▶ Z (x): 分配関数 (partition function) →規格化定数に対応
▶ A (θ): 対数分配関数 (log partition function) または
キュムラント⽣成関数 (cumulant function)
または⾃由エネルギー (free energy)
9 / 56

p (x|θ) =
1
Z (θ)
h (x) exp
[
θT
ϕ (x)
]
= h (x) exp
[
θT
ϕ (x) − A (θ)
]
Z (θ) =
ˆ
Xm
h (x) exp
[
θT
ϕ (x)
]
dx
A (θ) = log Z (θ)
▶ h (x): スケールパラメータ
▶ 通常はh (x) = 1 (になるように ϕ を選ぶ)
▶ x ⾃⾝が⼗分統計量 (ϕ (x) = x) のとき⾃然な指数分布族
(natural exponential family) と呼ぶ (xの測度をいじれば...)
9 / 56

▶ 指数型分布族の形式
p (x|θ) = h (x) exp
[
θT
ϕ (x) − A (θ)
]
をある関数 η (θ) によって
p (x|θ) = h (x) exp
[
η (θ)T
ϕ (x) − A (θ)
]
と書いたとき dim (θ) < dim (η (θ)) なら曲指数型分布族
(curved exponential family) と呼ぶ
▶ このとき⼗分統計量の次元はパラメータより多い
▶ η (θ) = θ の形を指数分布族の確率モデルの標準形
(canonical form) と呼ぶ
▶ この η (θ) = θ の時に θ を⾃然パラメータ (natural parameter) と呼ぶ
流儀もある？
10 / 56

ベルヌーイ分布
Ber (x|µ) = µx
(1 − µ)1−x
= exp [x log µ + (1 − x) log (1 − µ)]
= exp
[
ϕ (x)T
θ
]
▶ ϕ (x) = [I (x = 0) , I (x = 1)] , θ = [log µ, log (1 − µ)]
▶ 上の定式化は over-complete
11 / 56

Ber (x|µ) = µx
(1 − µ)1−x
= (1 − µ) exp
[
x log
(
µ
1 − µ
)]
= exp
[
ϕ (x) θ − ln(1 + eθ
)
]
▶ ϕ (x) = x, θ = log
(
µ
1−µ
)
▶ θ = log
(
µ
1−µ
)
は対数オッズ (log-odds ratio)
▶ µ = sigm (θ) = 1/
(
1 + e−θ
)
11 / 56

マルチヌーイ分布 (カテゴリカル分布)
Cat (x|µ) =
K∏
k=1
µxk
k = exp
[ K∑
k=1
xk log µk
]
= exp
[K−1∑
k=1
xk log
µk
µK
+ log µK
]
▶ xk = I (x = k)
▶ θ =
[
log µ1
µK
, . . . , log
µK−1
µK
]
, ϕ (x) = [x1, . . . , xK−1]
12 / 56

(1変量) ガウス分布
N
(
x|µ, σ2
)
=
1
(2πσ2)1/2
exp
[
−
1
2σ2
(x − µ)2
]
=
1
(2πσ2)1/2
exp
[
−
1
2σ2
x2
+
µ
σ2
x −
1
σ2
µ2
]
▶ θ = (θ1, θ2) =
( µ
σ2 , − 1
2σ2
)
, ϕ (x) = (x, x2
)
▶ A (θ) = −
θ2
1
4θ2
− 1
2
log (−2θ2) − 1
2
log (2π)
13 / 56

指数型分布族でない分布
▶ ⼀様分布 Unif (a, b)
p (x|a, b) =
{
1
b−a
a < x < b
0 otherwise
▶ 分布のサポートがパラメータに依存
▶ スチューデントのt分布
14 / 56

対数分配関数について
▶ 対数分配関数A (θ)はキュムラント⺟関数とも呼ばれ
級数展開した時の各項の係数をキュムラントと呼ぶ
▶ キュムラント⺟関数やキュムラントは指数型以外の
分布にもあります (別の定義を使う)
▶ A (θ) を使って ϕ (x) の平均や分散などが計算できる
▶ dA
dθ
= E [ϕ (x)] , d2A
dθ2 = var [ϕ (x)] , ...
▶ 2A (θ) = cov [ϕ (x)]
▶ 共分散⾏列は正定値 ⇒ A (θ) は凸関数
15 / 56

Ber (x|µ) = µx
(1 − µ)1−x
= (1 − µ) exp
[
x log
(
µ
1 − µ
)]
= exp
[
ϕ (x) θ − ln(1 + eθ
)
]
A (θ) = ln(1 + eθ
)
dA
dθ
=
eθ
1 + eθ
=
1
1 + e−θ
= sigm (θ) = µ = E [x] = E [ϕ (x)]
d2
A
dθ2
=
(
略
)
= (1 − µ) µ = Var [x] = Var [ϕ (x)]
16 / 56

指数型分布族に対する最尤推定
▶ 指数型分布族のモデルにおいてサンプル
D = (x1, . . . , xN) に対するパラメータ θ の最尤推定量
argmax
θ
p (D|θ) は次式を満たす θ になる
(
dA
dθ
=
)
E [ϕ (x)] =
1
N
N∑
i=1
ϕ (xi)
これを moment matching と呼ぶ
17 / 56

▶ 指数型分布族のモデルの尤度は次のようにかける
(η (θ) = θ なら g (θ) = 1/Z (θ) とすればよい)
p (D|θ) =
[ N∏
i=1
h (xi)
]
g (θ)N
exp
(
η (θ)T
[ N∑
i=1
ϕ (xi)
])
▶ ⼗分統計量
ϕ (D) =
[ N∑
i=1
ϕ1 (xi) , . . . ,
N∑
i=1
ϕK (xi)
]
▶ (適当な正則条件の下で) 有限個の⼗分統計量を持つ
分布は指数型分布族だけである
(Pitman-Koopman-Darmois theorem)
▶ 正則条件を満たさないときは成り⽴たない
(例: ⼀様分布)
18 / 56

指数型分布族に対するベイズ法
▶ 共役事前分布は有限個の⼗分統計量が存在するとき
にのみ存在
▶ 指数型分布族のモデルの尤度
p (D|θ) ∝ g (θ)N
exp
(
η (θ)T
sN
)
ただしsN =
∑N
i=1 s (xi)
▶ θ の共役事前分布は
p (θ|ν0, τ0) ∝ g (θ)ν0
exp
(
η (θ)T
τ0
)
▶ θ の事後分布は (上の2式の積だから)
p (θ|D) = p (θ|νN, τN) = p (θ|ν0 + N, τ0 + sN)
∝ g (θ)ν0+N0
exp
(
η (θ)T
(τ0 + sN)
)
19 / 56

事後予測分布
▶ D = (x1, . . . , xN) が観測された下での
D′
= (˜x1, . . . , ˜xN′ ) の事後予測分布は
p (D′
|D) =
ˆ
p (D′
|θ) p (θ|D) dθ
=
[ N′
∏
i=1
h (˜xi)
]
Z ( ˜τ0 + ˜s (D) + ˜s (D′
))
Z ( ˜τ0 + ˜s (D))
▶ ˜τ0 = (ν0, τ0) , ˜s (D) = (N, s (D)) , ˜s (D′) = (N′, s (D′))
▶ Z: p (θ|˜τ) の正規化定数
(Z (˜τ) =
´
g (θ)ν
exp
(
η (θ)T
τ
)
dθ )
20 / 56

最⼤エントロピー原理による導出
▶ 分布 p (x) が関数 fk と定数 Fk (k = 1, . . .) に対して
以下の制約を満たすとする
∑
x
fk (x) p (x) = Fk
▶ 上の制約の下で分布のモーメントと経験分布のモー
メントが⼀致する分布の中で最もエントロピーが⼤
きい (⼀様分布に近い) 分布は定数 λk を使って
p (x) =
1
Z
exp
(
−
∑
k
λkfk (x)
)
と指数型分布族の形でかける
▶ p (x) はギブス分布として知られている
▶ (平衡状態において系のエネルギーが従う分布)
21 / 56

Generalized linear models and the exponential family Generalized linear models (GLMs)
Subsection 3
Generalized linear models (GLMs)
22 / 56

⼀般化線形モデル
⼀般化線形モデル (generalized linear model; GLM)
出⼒の分布が指数型分布族であり、分布の平均が⼊⼒の
線形結合 (またはその⾮線形な変換) で表されるモデル
▶ 線形回帰やロジスティック回帰を⼀般化したモデル
▶ 出⼒の分布と⼊⼒と出⼒の関係に関してより柔軟な
モデルが作れる
23 / 56

出⼒の分布
▶ ⼊⼒を持たず1変数の出⼒ yi を持つ簡単なモデル
p
(
yi|θ, σ2
)
= exp
[
yiθ − A (θ)
σ2
+ c
(
yi, σ2
)
]
▶ σ2: dispersion parameter
▶ θ: ⾃然パラメータ
▶ A: 分配関数
▶ c: 正規化係数
▶ 指数型分布族ではある可逆な関数 ψ によって平均 µ
と⾃然パラメータ θ が θ = ψ (µ) と書き表せる
▶ ⼀般に µ = ψ−1 (θ) = A′ (θ)
24 / 56

リンク関数 (link function)
▶ ⼊⼒の線形結合 ηi に関する可逆で単調な関数により
出⼒ yi の (⼊⼒が xi の条件付き) 分布の平均を表す
µi = g−1
(ηi) = g−1
(
wT
xi
)
この g−1
を mean function と呼び
g をリンク関数 (link function) と呼ぶ
▶ 要するに出⼒の平均と⼊⼒との関係を表す関数
▶ 可逆かつ適当な定義域をもつ任意の関数が使える
▶ 特に g = ψ のとき正準リンク関数 (canonical link
function) と呼ぶ
25 / 56

正準リンク関数を使ったGLM
▶ さっきのモデルに⼊⼒を追加
p
(
yi|xi, w, σ2
)
= exp
[
yiwT
x − A
(
wT
x
)
σ2
+ c
(
yi, σ2
)
]
出⼒の分布と対応する正準リンク関数の例
y の分布 y の範囲リンク g (µ) θ = ψ (µ) µ = ψ−1 (θ) = E [y]
N
(
µ, σ2
)
(−∞, ∞) identity θ = µ µ = θ
Bin (N, µ) 0, . . . , N logit θ = log
(
µ
1−µ
)
µ = sigm (θ)
Poi (µ) 0, 1, 2, . . . log θ = log µ µ = eθ
26 / 56

線形回帰
出⼒が正規分布でリンク関数が恒等変換
log p
(
yi|xi, w, σ2
)
=
yiµi −
µ2
i
2
σ2
−
1
2
(
y2
i
σ2
+ log
(
2πσ2
)
)
▶ yi ∈ R
▶ θi = µi = wT
xi
▶ A (θ) = θ2
/2, E [yi] = µi, Var [yi] = σ2
27 / 56

⼆項回帰 (binomial regression)
出⼒が⼆項分布でリンク関数がロジット関数
log p (yi|xi, w) = yi log
(
πi
1 − πi
)
+ Ni log (1 − πi) + log
(
Ni
yi
)
▶ yi ∈ {0, 1, . . . , Ni}
▶ πi = sigm
(
wT
xi
)
, θi = log (πi/ (1 − πi)) = wT
xi,
σ2
= 1
▶ A (θ) = Ni log
(
1 + eθ
)
, E [yi] = Niπi,
Var [yi] = Niπi (1 − πi)
28 / 56

ポアソン回帰 (poisson regression)
出⼒がポアソン分布でリンク関数が対数関数
log p (yi|xi, w) = yi log (µi) + µi + log (yi!)
▶ yi ∈ {0, 1, 2, . . .}
▶ µi = exp
(
wT
x
)
, θi = log (µi) = wT
xi, σ2
= 1
▶ A (θ) = eθ
, E [yi] = Var [yi] = µi
29 / 56

最尤推定とMAP推定
▶ ロジスティック回帰 (8章) と同様に w を最適化
▶ 対数尤度
ℓ (w) = log p (D|w) =
1
σ2
N∑
i=1
ℓi
ℓi ≜ θiyi − A (θi)
▶ 勾配
dℓi
dwj
= (yi − µi)
dθi
dµi
dµi
dηi
xij
▶ 特に正準なリンク関数を使うとき
wℓ (w) =
1
σ2
[ N∑
i=1
(yi − µi) xi
]
▶ 2次の勾配法でより効率的に計算できる
▶ MAP推定もロジスティック回帰と同様に
30 / 56

ベイズ推定
▶ w の事後分布を求める
▶ MCMC (24章)
▶ メトロポリス法, ギブスサンプリング,...
▶ ガウス近似や変分法
31 / 56

Generalized linear models and the exponential family Probit regression
Subsection 4
Probit regression
32 / 56

プロビット回帰
▶ 出⼒の分布がベルヌーイ/⼆項分布のときリンク関数
としてプロビット関数 (正規分布の累積分布関数の
逆関数) を使う⽅法
−6 −4 −2 0 2 4 6
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
sigmoid
probit
33 / 56

プロビット回帰の利点
▶ 最適化が簡単になる (?)
▶ 潜在変数によるモデルの解釈ができる (random
utility model; RUM)
▶ 出⼒が順序つきの離散値であるモデルへの拡張
(ordinal regression)
▶ 出⼒が多クラスのモデルへの拡張 (multinomial
probit)
34 / 56

Generalized linear models and the exponential family Multi-task learning
Subsection 5
Multi-task learning
35 / 56

マルチタスク学習 (multi-task learning)
▶ 関係のある複数の分類や回帰モデルを学習したい時
それらのタスクが似ていると仮定することによって
同時に学習を⾏い性能を向上させる⼿法
36 / 56

階層ベイズによるマルチタスク学習
▶ 階層ベイズ (→5章) で複数のグループを同時に扱う
▶ 例: J 校の学校にそれぞれ Nj ⼈の⽣徒がおり yij を
j 番⽬ (j = 1, . . . , J) の学校の i 番⽬
(
i = 1, . . . , Nj
)
の
⽣徒の試験の成績とする
▶ xij を yij に対応する特徴としたときに各グループに
対してそれぞれモデル p (yij|xij) を学習するのが⽬的
▶ しかし、⼀部のグループは⼤量のデータを持つ⼀⽅
多くのグループには少量のデータしかない
37 / 56

▶ 出⼒の条件付き分布の平均をリンク関数 g で表して
各グループを特徴付けるパラメータ βj が共通の分布
に従うと仮定
E [yij|xij] = g−1
(
xT
ijβj
)
βj ∼ N
(
β∗, σ2
j
)
β∗ ∼ N
(
µ, σ2
∗
)
▶ 共通のパラメータ β∗ を通して各 βj が相関するため
サンプルが少数のグループでもうまく学習できる
(5.5節参照)
38 / 56

マルチタスク学習の応⽤例
▶ Personalized spam ﬁlter
▶ メールがスパムかどうかをユーザー毎に予測
E [yi|xi, u = j] =
(
βT
∗ + wj
)T
xi
▶ β∗: 全ユーザーのメールから推定されるパラメータ
▶ wj: ユーザーj のメールから推定されるパラメータ
▶ Domain adaptation (ドメイン適応)
▶ 異なる分布で表されるデータ上での分類器の集合を
学習する問題
39 / 56

▶ ⾃然⾔語処理におけるドメイン適応の例
▶ 固有表現認識 (named entity recognition)
▶ 構⽂解析
という2つのタスクに階層ベイズモデルを適⽤
Finkel, Jenny Rose, and Christopher D. Manning. ”Hierarchical bayesian domain adaptation.” Proceedings
of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the
Association for Computational Linguistics. Association for Computational Linguistics, 2009.
40 / 56

事前分布の種類
▶ マルチタスク学習では事前分布としてガウス分布を
仮定することが多い
▶ 他の事前分布がよいこともある
▶ sparsity-promoting prior
▶ Conjoint analysis (マーケティングにおいて商品の
どの要素が最も客に好まれるかの分析) で使われる
▶ 混合ガウス分布
▶ 全てのタスクが同様に似ていると仮定できないとき
41 / 56

Generalized linear models and the exponential family Generalized linear mixed models
Subsection 6
Generalized linear mixed models
42 / 56

⼀般化線形混合モデル
▶ マルチタスク学習のモデルを⼀般化
E
[
yij|xij, xj
]
= g
(
ϕ1
(
xij
)T
βj + ϕ2
(
xj
)T
β′
j + ϕ3
(
xij
)
α + ϕ4
(
xj
)
α′
)
▶ xj: 各グループを表す特徴
▶ βj, β′
j: 各グループごとのパラメータ
▶ α, α′
: 全グループ共通のパラメータ
▶ ϕk: 基底関数
xj
xij
yij
Nj
βj
J
µβ σ2
β
αµα
σ2
α
σ2
y
43 / 56

⼀般化線形混合モデル
▶ マルチタスク学習のモデルを⼀般化
E
[
yij|xij, xj
]
= g
(
ϕ1
(
xij
)T
βj + ϕ2
(
xj
)T
β′
j + ϕ3
(
xij
)
α + ϕ4
(
xj
)
α′
)
▶ xj: 各グループを表す特徴
▶ βj, β′
j: 各グループごとのパラメータ
▶ α, α′
: 全グループ共通のパラメータ
▶ ϕk: 基底関数
▶ 頻度主義統計では βj を変量効果 (random effects)
α を固定効果 (fixed effects) と呼んで概念上区別し
これらを含んだモデルを混合モデル (mixed model)
と呼ぶ
▶ p (y|x) がGLMのとき⼀般化線形 (混合) 効果モデル
(generalized linear mixed effects model; GLMM,
GLME) と呼ぶ
43 / 56

例: 医療データ
▶ ⾻に含まれるミネラルの密度について
1. ⼈種間での違いがあるかどうか解明
2. 年齢による説明
を⾏いたい
▶ 使うデータ
▶ yij: j 番の⼈の i 回⽬に測った⾻ミネラル濃度
▶ xij: j 番の⼈の i 回⽬に測った年齢
▶ xj: j 番の⼈の⼈種 (White, Asian, Black, Hispanic)
44 / 56

▶ 線形回帰とノンパラメトリック回帰を組み合わせた
セミパラメトリックモデル (semi-parametric
model) を使う
▶ ⾻ミネラル濃度の年齢に関する⾮線形性を表すため
▶ さらに個⼈差を変量効果とみなし混合モデルで表す
▶ ϕ1
(
xij
)
= 1,ϕ2
(
xj
)
= 0
▶ ϕ3
(
xij
)
= b
(
xij
)
=
[
bk
(
xij
)]
(ノンパラ担当)
▶ bk: k 次スプライン基底関数
▶ ϕ4
(
xj
)
=
[
I
(
xj = White
)
, . . . , I
(
xj = Hispanic
)]
▶ 出⼒を正規分布、リンク関数を線形関数とすれば
最終的なモデルは
yij =βj + αT
b (xij) + ϵij
+ α′
wI (xj = W) + · · · + α′
hI (xj = H)
(教科書から微修正)
▶ ϵij ∼ N
(
0, σ2
y
)
45 / 56

22 M. P. WAND
age in years
spinalbonemineraldensity(g/cm2
)
0.6
0.8
1.0
1.2
1.4
10 15 20 25
Asian Black
Hispanic
10 15 20 25
0.6
0.8
1.0
1.2
1.4
White
Figure 9. MCMC-based estimate of the non-linear age effect in the spinal bone mineral density example.
The dashed lines correspond to pointwise 95% credible sets.
for the spinal bone mineral density example. The main difference is that y is now a binary
rather than a Gaussian node.
Wand, M. P. ”Semiparametric regression and graphical models.” Australian & New Zealand Journal of
Statistics 51.1 (2009): 9-41.
46 / 56

Generalized linear models and the exponential family Learning to rank
Subsection 7
Learning to rank
47 / 56

ランキング学習 (Learning to rank; LETOR)
▶ 項⽬をランク付けする関数を学習する問題
▶ GLMとは特に関係ないけど他に適当な場所がないのでここで紹介
▶ 代表的な応⽤は情報検索
▶ クエリqとそれに関連するかもしれないドキュメント
d1
, . . . , dm
を考える
▶ 例: q という⽂字列を含む全てのドキュメント
▶ q との適合性の⾼い順に d1
, . . . , dm
をソートして
上位 k 項をユーザーに⽰したい
48 / 56

適合性 (relevance) の評価
▶ Bag of words にもとづく確率的⾔語モデルにより
適合性を評価する例
sim (q, d) ≜ p (q|d) =
n∏
i=1
p (qi|d)
▶ qi: q の i 番⽬の単語または項 (i = 1, . . . , n)
▶ p (qi|d): d に出現する単語の頻度から推定される
マルチヌーイ分布
▶ 頻度だけでなく PageRank のような他のシグナルも
組み合わせて適合性を評価したい
PageRank webのリンク構造から導出されるwebページ
の信頼性の指標
49 / 56

The pointwise approach
▶ クエリとドキュメントの組み合わせによって決まる
特徴量 x (q, d) に対して
▶ 適合する/しないの2値分類または
▶ 数段階の適合性に順序回帰
を⾏って事後確率 p (y = 1 or r|x (q, d)) でソート
▶ 特徴量には例えば query-document similarity
score や page rank score が含まれる
▶ 教師データのラベルはクエリのログでドキュメント
が⼀定回数以上クリックされたかどうかで与える
▶ ドキュメントのリスト上での位置を考慮しないため
リストの最下位と最上位での誤差を全く同じように
罰してしまう (??)
50 / 56

The pairwise approach
▶ 適合性を各ドキュメントに対する絶対評価ではなく
ドキュメント間の相対評価で決める
▶ ラベル yjk を、ドキュメント dj が dk より適合して
いれば 1 、そうでなければ 0 とする
▶ シグモイド関数を使えば
p
(
yjk = 1|xj, xk
)
= sigm (f (xj) − f (xk))
▶ f (x): スコア関数
▶ f (x) = wT
x とすればこのモデルは RankNet として
知られるニューラルネットワークの⼀種になる
51 / 56

The listwise approach
▶ 全ドキュメントのリストを直接モデル化
▶ 順序を Plackett-Luce distribution でモデリング
Plackett-Luce distribution
下式で表されるリストの並び替え π : j → π (j) の分布
p (π|s) =
m∏
j=1
sj
∑m
u=j su
▶ sj = s (π−1
(j)): π によって j 番⽬にランクされた
ドキュメントのスコア
▶ ドキュメントの上位への出現しやすさを表している
52 / 56

Plackett-Luce distribution の例
▶ ランキング π = (A, B, C) の確率 p (π) は
p (π|s) =
sA
sA + sB + sC
×
sB
sB + sC
×
sC
sC
▶
sA
sA+sB+sC
: A が1番⽬にランクされる確率
▶
sB
sB+sC
: A が1番⽬にランクされたときに、
B が2番⽬にランクされる確率
▶
sC
sC
: A, B が1,2番⽬にランクされたときに、
C が3番⽬にランクされる確率
53 / 56

▶ クエリ q に対する各ドキュメントのスコアを
s (d) = f (x (q, d)) とすればクエリが与えられたとき
のランクの分布が決められる
▶ f (x) = wT
x がよく使われ ListNet と呼ばれる
54 / 56

ランキングに対する損失関数
Mean reciprocal rank (MRR) クエリ q に1番適合する
ドキュメントの順位 r (q) の逆数 1/r (q)
Mean average precision (MAP) precision at k (P@k)
の適合するドキュメント (の順位の) 全体に
ついての平均 (1に近いほど良い)
P@k (π) ≜
πの上位k件中の適合するドキュメントの数
k
Normalized discounted cumulative gain (NDGG)
適合性が数段階に表されているときに使う
Rank correlation 基準となるランキングとの相関を使う
(普通の意味での相関とは違い種類も様々)
55 / 56

▶ 損失関数はベイズか頻度かで使い⽅が変わる
▶ ベイズ的アプローチではパラメータの事後分布から
のサンプリングや平均によって期待損失を計算
▶ 頻度的アプローチでは損失を直接最⼩化
▶ 関数が微分可能ではないため最⼩化には勾配を使わ
ない最適化か計算しやすい代理の損失関数を使う
▶ 例えば precision@k (P@k) の近似として wieghted
approximate-rank pairwise (WARP) がある
56 / 56

MLaPP 9章「一般化線形モデルと指数型分布族」

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a MLaPP 9章「一般化線形モデルと指数型分布族」

Similar a MLaPP 9章「一般化線形モデルと指数型分布族」 (20)