SlideShare una empresa de Scribd logo
1 de 33
Descargar para leer sin conexión
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Scalable Training of Inference Networks
for Gaussian-Process Models
Makoto Kawano (@mkt_kwn), Matsuo Lab.
書誌情報
著者情報:
Jiaxin Shi, Mohammad Emtiyaz Khan, Jun Zhu
清華大学 (インターン),理研 AIP(近似ベイズ推論チーム)
ICML2019
選定理由
ベイズ・不確実性周りでガウス過程は大事と思ったため
免責事項
思ったよりもニューラルネットワーク関係なかったです
再生核ヒルベルト空間 (RKHS) に意識を飛ばすのは初めてなので,
間違っているかもしれないです
間違っていたら,炎上しないようにそっと twitter とかで教えてください
1/32
研究概要
ガウス過程は計算量が O(N3) かかってしまうことが知られている
補助入力点の導入 [Cheng and Boots, 2016]
計算量は O(M3
) とかなり減る
(ただし M N)
事後分布の近似精度が M に依存してしまう
DNN による事後分布近似 [Sun et al., 2019]
補助入力点よりも柔軟な事後分布近似が可能
ミニバッチ学習では全データ点同士の相関を
捉えられない
入力空間 X 上ではなく,RKHSH 上でガウス過程 (の近似 NN) をミニバッチ学習
2/32
アウトライン
1. ガウス過程におけるベイズ推定
1.1 ガウス過程の定義
1.2 補助入力点による疎ガウス過程
1.3 関数空間における GP と推論ネット
ワーク
2. 提案手法
2.1 確率的汎関数鏡像降下法
2.2 GP のための推論ネットワーク
3. 実験
3.1 実験概要
3.2 合成データを用いた実験
3.3 回帰問題
3.4 分類問題
3/32
ガウス過程の定義
ガウス過程
平均関数 m(x) と共分散関数 k(x, x ) を持つ確率過程をガウス過程と呼ぶ:
f(x) ∼ GP m(x), k(x, x )
N 個の入力 X = [x1, . . . , xN ] とその関数値の周辺分布 f = [f(x1), . . . , f(xN )]
多変量ガウス分布 f ∼ N (mD, KD,D) に従う
D := [1, 2, . . . , N]):データのインデックス
mD: i 番目の値が m(xi) であるベクトル
KD,D: (i, j) 番目の値が k(xi, xj) である共分散行列
4/32
ガウス過程のベイズ推論
任意のテストデータ x が与えられた時の f(x) 上の事後分布を推定したい
回帰問題:尤度 (ガウス分布) の共役性によって解析的に事後分布が求まる
テストデータ x∗ における予測分布:
f(x∗
)|y ∼ N kT
∗,D(KD,D + σ2
I)−1
(y − mD), k∗∗ − kT
∗D(KD,D + σ2
I)−1
kD,∗
学習する必要はないので,学習時間はいらない
新しい入力 x が来るたびに,RD×D の逆行列を計算
計算量 O(N3
),使用メモリ O(N2
)
データ数 D が多すぎると現実的ではない
• 大抵数千程度まで
5/32
補助入力点による疎ガウス過程
ガウス過程回帰の補助変数法への変分ベイズ適用
[Quiñonero-Candela and Rasmussen, 2005]
関数 f(·) の定義域内に仮想的な M 個の入力点 Z = (z1, . . . , zM ) を適切に配置
各入力点 zm における出力値 um = f(zm) を補助変数とする
この補助入力点を用いて,ガウス過程に従う f(x) の予測分布を求める
1. 事前確率の定義
入力点 X における出力値 f と,補助入力点 Z における出力値 u.テスト入力点 x∗ に
おける出力値 f∗ の事前確率 p(f, u, f∗) を定義
2. 事後確率の導出
入力点 X における観測値 y にもとづいて,補助変数の事後確率 p(u|y) を求める
3. 予測分布の導出
出力値 f∗ の予測分布 p(f∗|y) を事後分布を用いて求める
p(f∗|y) = p(f∗|f)p(f|y)df ≈ p(f∗|u)p(u|y)du 6/32
補助入力点による疎ガウス過程
うまく補助入力点を決めると,元の入力点 X を用いた時と同等の予測が可能
Figure 1: [持橋大地 and 大羽成征, 2019] より引用
7/32
変分ベイズによる補助入力点の配置
補助入力点の配置も変分下界最大化問題に含めることで,計算効率をよくする
観測される確率変数:観測値 y = (y1, . . . , yN )
既知定数:入力点 X = (x1, . . . , xN )
未知定数:補助入力点 Z = (z1, . . . , zM ),
     共分散関数 k(x, x ; θ) を調整するパラメータ θ
推定対象となる確率変数:
   入力点における関数出力値 f = (f1, . . . , fN ) = (f(x1), . . . , f(xN ))
   補助入力点における関数出力値 u = (u1, . . . .uM ) = (f(z1), . . . , f(zM ))
8/32
変分ベイズによる補助入力点の配置
エビデンス p(y|X) に含まれる真の事後分布 p(f, u|y, X, Z) は解析的に求まらない
変分事後分布 q(f, u) で近似
変分ベイズによる補助変数法のための独立分解仮定
q(f, u) = p(f|u)q(u)
p(f|u) =
N
n=1
p(fn|u)
p(fn|u) = N(fn| ˆfn(u), ˆσ2
n)
q(u) = N(u|ˆu, ˆΣu)
9/32
疎ガウス過程の変分下界
エビデンスの変分下界
log p(Y|X) ≥ q(f, u) log
p(Y|X, f)p(f|u)p(u)
q(f, u)
dfdu
= Eq(u)p(f|u) [log p(y|f)] − KL [q(u) p(u)]
ガウス過程回帰:q(u) は closed-form なガウス分布
q(u) の計算量は O(MN),N に比例
分散の逆行列の計算量:O(M3)
実際は,逆行列計算のため,補助入力点数は制限
補助入力点の制限によって,近似事後分布の柔軟性が悪化
近似に有効な補助入力点を見つけることは難しい 10/32
ガウス過程の双対表現
関数空間上でガウス過程を見ても,スパース変分推論は可能
再生核ヒルベルト空間 H 上で双対表現をもつ [Cheng and Boots, 2016]
ガウス過程 GP(m, k) の再生核ヒルベルト空間 (RKHS)H 上での双対表現
µ ∈ H と半正定値線形写像 Σ : H → H が存在し,
任意の x, x ∈ X, ∃φx, φx ∈ H に対し,
m(x) = ρφx µ, k(x, x ) = ρ2
φx Σφx
平均:再生性カーネル ˜k(x, x ) = ρ2φx φx で定義される H で実現値 µ を持つ
共分散:線形写像 Σ と等しい
N(f|µ, Σ) と表せる
11/32
ガウス過程の推論ネットワーク
ガウス過程の双対表現と q(f),q(f∗, fu) の関係性
q(f) ∝ p(f∗|fu)q(fu)|Ku|
1
2 |K∗ − K∗uK−1
u Ku∗|
1
2
を用いることで,変分下界を書き直すことが可能:
L(q(f)) = Eq(f) [log p(y|f)] − KL [q(f) p(f)] .
メリット:
q(f) の良い関数近似器 (=ニューラルネットワーク) を選ぶ
スパース変分近似より良い近似事後分布が得られる
デメリット:
補助入力点:少ない数のデータを扱うパラメトリックな問題をとけば良い
q(f) 上でスパース仮定を置かずに同様の処理をすることは難しい 12/32
ガウス過程のミニバッチ学習
関数空間における q(f) と p(f|y) の一致度の測定 [Sun et al., 2019]
確率過程同士の KL ダイバージェンスは計算しにくい
log q(f)
p(f) df にならない 無限次元のルベーグ測度がないため [Eldredge, 2016]
有限個の測定点 XM における KL ダイバージェンスで上界を抑える
分布 c(x) から有限個サンプリング:XM := [x1, x2, . . . , xM ]
KL[q(f) p(f|y)] = sup
M∈N,XM∈XM
KL[q(fM) p(fM|y)]
課題:全データセット y への p(fM|y) の依存考慮
Sun et al.:データセットの部分集合を毎イテレーション毎にサンプリング
q(f) と p(f|y) が一致することはなくなってしまう
13/32
汎関数鏡像降下法の定義
近接勾配法 [鈴木大慈, 2018]
最急降下法やニュートン法を包括する枠組み:
w(t+1)
= arg min
w∈Rp
w, gt +
1
2ηt
w − w(t) 2
(汎関数) 鏡像降下法1[鈴木大慈, 2018]
ある凸関数 φ に対して Bregman ダイバージェンスを
Bφ(w , w) = φ(w ) − φ(w) − w − w, φ(w)| とすると,
w(t+1)
= arg min
w∈Rp
w, gt +
1
2ηt
Bφ(w, w(t)
)
1
鏡像降下法は,近接勾配法の二乗ノルムを Bregman ダイバージェンスにしたもの
14/32
ELBO 最適化
汎関数鏡像降下法適用による ELBO 最適化 [Cheng and Boots, 2016]
qt+1 = arg max
q
ˆ∂L(qt)q(f)df −
1
βt
KL[q qt]
ただし,t はイテレーション,βt > 0:学習率
qt := qt(f) は 1 イテレーション前の近似
ˆ∂L(qt) = N log p(yn|f) log p(f) − log qt(f):L(q) の汎関数勾配の不偏確率近似
適応的 (adaptive) ベイジアンフィルタとみなせる
qt+1(f) ∝ p(yn|f)Nβt
p(f)βt
qt(f)1−βt
前の近似事後分布 qt(f) が,事前分布 p(f) を修正
サブサンプリングされたデータの尤度 p(yn|f) が近似事後分布を更新 15/32
推論ネットワークの導入
適応的ベイジアンフィルタを推論ネットワークで実装
各イテレーション時の推論ネットワークで tractable な形に近似
GP の推論ネットワーク
qγ(f):パラメータ γ をもつ推論ネットワーク
γ の推定が目的
M 個の点有限集合の XM := [x1.x2, . . . , xM ] で評価
ガウス過程のようにガウス分布に従う
つまり,VAE のように µM, ΣM を出力するネットワークにする:
qγ(fM) = N(µM, ΣM)
16/32
ブートストラップによる近似
ブートストラップ法適用により qt(f) よりも qt+1(f) の方が精度の高い近似が可能
パーティクルフィルタにおけるブートストラップ法 [Doucet et al., 2001] と類似
ˆqt+1(f) ∝ p(yn|f)Nβt
p(f)βt
qγt (f)1−βt
右辺全てがガウス分布に従うため,ˆqt+1(f) もガウス分布に従う
解析的に 1 次・2 次モーメントが求まる
p(fM, fn)βt qγt (fM, fn)1−βt := N
mM
mn
,
KM,M KM,n
Kn,M Kn,n
,
∝ N
0
0
,
KM,M KM,n
Kn,M Kn,n
βt
× N
µM
µn
,
ΣM,M ΣM,n
Σn,M Σn,n
(1−βt)
更新された近似事後分布:
ˆqt+1(fM, fn) ∝ N(yn|fn, σ2
/(Nβt)) × N
mM
mn
,
KM,M KM,n
Kn,M Kn,n
.
17/32
推論ネットワークのパラメータ更新
周辺分布 ˆqt+1(fM) を推論ネットワークのパラメータに反映させるのは難しい
c(x) からサンプリングした計測点 XM における qγ(f) と ˜q(f) を一致させる
KL ダイバージェンスの勾配を使って更新
γt+1 = γt − η γKL [qγ(fM) ˆqt+1(fM)]|γ=γt
もし尤度がガウスではない場合,ˆqt+1(fM) は解析的に求まらない
KL ダイバージェンスの上界 KL[qγ(fM, fn) ˆqt+1(fM, fn)] を考える
Lt(qγ; qγt , XM) = Eqγ(fM,fn) [Nβtlog p(yn|fn)+
βt log p(fM,fn)+(1−βt) log qγt(fM,fn)−log qγ(fM,fn)] .
18/32
学習アルゴリズム
Algorithm 1 教師あり学習のための GPNet
Input: {(xn, yn)}N
n=1, c(x), M, T, β, η.
1: 推論ネットワーク qγ を初期化する.
2: for t = 1, . . . , T :
3: ランダムに訓練データ (xn, yn) をサンプリングする.
4: c(x) から XM = (x1, . . . , xM ) をサンプルする.
5: if ガウス分布尤度 :
6: ブートストラップ法で ˆqt+1(fM) を計算する.
7: γt+1 ← γt − η γKL [qγ(fM) ˆqt+1(fM)].
8: else
9: γt+1 ← γt + η γLt(qγ; qγt , XM).
10: end if
11: end for
12: return qγt .
計算量は O(M3)
NN を使うため,M の大きさは関
係ない
c(x) の選択
Cylinder sets と呼ばれているこ
とも
ノイズを加えて訓練データの
“近く” をサンプリングする
測定点 XM
19/32
GP のための推論ネットワーク
GPNets で利用可能な 3 種類のネットワークが挙げられる
ベイズニューラルネットワーク
GP と等価であることは示されている [Neal, 2012]
出力の密度関数は intractable 何百のサンプリング xNN の順伝播は高コスト
適切な各レイヤのユニット数がわからない BNN と GP が一致する保証なし
ガウス過程の特徴空間表現を利用した 2 種類のネットワーク
ガウス分布の重み w ∼ N(0, Σ) と入力特徴 φ(x) によるベイズ線形回帰
= 共分散 k(x, x ) = φ(x) Σφ(x ) をもつ GP と等しい
[Williams and Rasmussen, 1996]
ガウス過程の潜在関数 f ∼ GP(0, k) をパラメトリックモデルと解釈可能
q(f): f(x) = w φ(x), w ∼ N(m, V)
20/32
利用可能な推論ネットワーク
乱択化フーリエ特徴
(Random Feature Expansion, RFE)[Rahimi and Recht, 2008]
k(x, x ) ≈
1
M
M
m=1
cos(sm(x − x )), s1:M ∼ p(s),
φr(x) = 1√
M
[cos(s1 x), . . . , cos(sM x), sin(s1 x), . . . , sin(sM x)] と定義することで,
k(x, x ) ≈ φr(x) φr(x ) と特徴マップを近似可能
活性化関数 sin/cos,重み s1, s2, . . . , sM と w であるような 3 層の MLP
深層ニューラルネットワーク
φ(x) を深層 NN で実現するのみ
Neural Tangent Kernel[Jacot et al., 2018]:
kNTK(x, x ) = Ωg(x; Ω0) V Ωg(x; Ω0).
21/32
実験概要
提案手法 GPNet と FBNN [Sun et al., 2019],補助入力点による疎ガウス過程法 (SVGP)
を比較
M:補助入力点数および,測定点数を表す
実装は,GPFlow(TensorFlow + ガウス過程のレポジトリ)
https://github.com/thjashin/gp-infer-net
3 種類の実験タスクを設定
合成データ (GP を真のモデルとみなす) の近似
回帰問題
分類問題
22/32
合成データを用いた実験
RBF カーネルの GP の推論を行う
データ点 100 個からミニバッチサイズ 20 で学習
M = 20 の時,全ての手法で推定可能
M = 2, 5 の時でも GPNets は推定可能
分散が大きいため,学習時間に影響を及ぼす
23/32
ベンチマークデータセット
7 種類の標準的な回帰問題用のベンチマークを利用
GPNets に RFE ネットワークを利用
ほとんどのデータセットで GPNets の方が RMSE が小さい
2 4 6
boston
FBNN, M=500
GPNet, M=100
GPNet, M=500
SVGP, M=100
SVGP, M=500
PBP
4 5 6 7
concrete
0.5 1.0 1.5
energy
0.06 0.08 0.10
kin8nm
3.5 4.0 4.5
power
3.5 4.0 4.5
protein
0.5 0.6 0.7
wine red
−3 −2
boston
FBNN, M=500
GPNet, M=100
GPNet, M=500
SVGP, M=100
SVGP, M=500
PBP
−3.50 −3.25 −3.00 −2.75
concrete
−2.0 −1.5 −1.0 −0.5
energy
1.0 1.2
kin8nm
−2.9 −2.8 −2.7
power
−3.5 −3.0
protein
−1.0 −0.8
wine red
24/32
飛行機の遅延データセットでの回帰
より大きなデータセットでも回帰が可能であることを示す
590 万レコード:アメリカの飛行機記録 (2018/4-2019/3)[Hensman et al., 2013]
もっとも GPNets の RMSE が低い (尤度もほぼ同等)
SVGP が M における差が大きい
FBNN は M が大きくなると精度悪い
ミニバッチの問題が生じている
Metric
M=100 M=500
SVGP GPNet FBNN SVGP GPNet FBNN
RMSE 24.261 24.055 23.801 23.698 23.675 24.114
Test LL -4.618 -4.616 -4.586 -4.594 -4.601 -4.582
25/32
分類問題
GPNets が分類問題でも有効であることを示す
従来の CNN-GP は回帰問題として扱い,予測分布を利用
MNIST や CIFAR10 のデータ量は計算量 O(N3) では不可能
Methods MNIST CIFAR10
SVGP, RBF-ARD [?] 1.55% -
Conv GP [?] 1.22% 35.4%
SVGP, CNN-GP [?] 2.4% -
GPNet, CNN-GP 1.12% 24.63%
NN-GP [?] 1.21% 44.34%
CNN-GP [?] 0.96% -
ResNet-GP [?] 0.84% -
CNN-GP [?] 0.88% 32.86%
データ量を考慮すると普通のではなく,SVGP
しかない
学習が不安定になる
上側:分類尤度
下側:GP 回帰
提案手法が使いやすいのは明らか
26/32
まとめ
大きなデータセットでも高精度にガウス過程の事後分布を推定可能にする
関数空間上で最適化することで補助入力点による制約を取り除く
ミニバッチ学習でもデータセット全体を考慮
複数の実験で既存手法と比較
既存手法よりも推定事後分布の近似精度が同等 (もしくは良い)
データ量が多い場合でも,スケールし,ミニバッチ学習が可能 27/32
その他感想
著者スライド
感想
データ入力空間ではなく,関数空間上で最適化しちゃうのはうまい.
学習時は補助変数法と同じ計算量 O(M3)(イテレーション T 回回すから
O(TM3)?)だけど,M の数に近似分布の精度があまり依存せず,予測時は NN
と同じ計算量なのはつよい 色々使えるかも?
pytorch で再現実装しました github.com
28/32
References i
Cheng, C.-A. and Boots, B. (2016).
Incremental variational sparse gaussian process regression.
In Advances in Neural Information Processing Systems, pages 4410–4418.
Doucet, A., De Freitas, N., and Gordon, N. (2001).
An introduction to sequential monte carlo methods.
In Sequential Monte Carlo methods in practice, pages 3–14. Springer.
Eldredge, N. (2016).
Analysis and probability on infinite-dimensional spaces.
arXiv preprint arXiv:1607.03591.
29/32
References ii
Hensman, J., Fusi, N., and Lawrence, N. D. (2013).
Gaussian processes for big data.
arXiv preprint arXiv:1309.6835.
Jacot, A., Gabriel, F., and Hongler, C. (2018).
Neural tangent kernel: Convergence and generalization in neural networks.
In Advances in neural information processing systems, pages 8571–8580.
Neal, R. M. (2012).
Bayesian learning for neural networks, volume 118.
Springer Science & Business Media.
30/32
References iii
Quiñonero-Candela, J. and Rasmussen, C. E. (2005).
A unifying view of sparse approximate gaussian process regression.
Journal of Machine Learning Research, 6(Dec):1939–1959.
Rahimi, A. and Recht, B. (2008).
Random features for large-scale kernel machines.
In Advances in neural information processing systems, pages 1177–1184.
Sun, S., Zhang, G., Shi, J., and Grosse, R. (2019).
Functional variational bayesian neural networks.
arXiv preprint arXiv:1903.05779.
31/32
References iv
Williams, C. K. and Rasmussen, C. E. (1996).
Gaussian processes for regression.
In Advances in neural information processing systems, pages 514–520.
持橋大地 and 大羽成征 (2019).
ガウス過程と機械学習 = Gaussian process and machine learning.
MLP 機械学習プロフェッショナルシリーズ. 講談社.
鈴木大慈 (2018).
機械学習における確率的最適化.
応用数理, 28(3):27–33.
32/32

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
Iclr2016 vaeまとめ
Iclr2016 vaeまとめIclr2016 vaeまとめ
Iclr2016 vaeまとめ
 
WAICとWBICのご紹介
WAICとWBICのご紹介WAICとWBICのご紹介
WAICとWBICのご紹介
 
汎化性能測定
汎化性能測定汎化性能測定
汎化性能測定
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成
 
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
 
深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
「統計的学習理論」第1章
「統計的学習理論」第1章「統計的学習理論」第1章
「統計的学習理論」第1章
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 

Similar a [DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models

Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504
Wataru Kishimoto
 
PRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワーク
PRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワークPRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワーク
PRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワーク
KokiTakamiya
 
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust) GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
智啓 出川
 

Similar a [DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models (20)

[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
 
光発振器ネットワークで組合せ最適化問題を解くコヒーレントイジングマシン
光発振器ネットワークで組合せ最適化問題を解くコヒーレントイジングマシン光発振器ネットワークで組合せ最適化問題を解くコヒーレントイジングマシン
光発振器ネットワークで組合せ最適化問題を解くコヒーレントイジングマシン
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
 
PRML Chapter 5 (5.0-5.4)
PRML Chapter 5 (5.0-5.4)PRML Chapter 5 (5.0-5.4)
PRML Chapter 5 (5.0-5.4)
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
 
Icml2019 kyoto ohno_ver20190805
Icml2019 kyoto ohno_ver20190805Icml2019 kyoto ohno_ver20190805
Icml2019 kyoto ohno_ver20190805
 
Draftall
DraftallDraftall
Draftall
 
ネットワーク科学 空間システムデザイン
ネットワーク科学 空間システムデザインネットワーク科学 空間システムデザイン
ネットワーク科学 空間システムデザイン
 
Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504
 
大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法
 
Prml5 6
Prml5 6Prml5 6
Prml5 6
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
PRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワーク
PRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワークPRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワーク
PRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワーク
 
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust) GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
GPGPU Seminar (GPU Accelerated Libraries, 3 of 3, Thrust)
 
Prml sec6
Prml sec6Prml sec6
Prml sec6
 
CMSI計算科学技術特論B(13) 大規模量子化学計算(2)
CMSI計算科学技術特論B(13) 大規模量子化学計算(2)CMSI計算科学技術特論B(13) 大規模量子化学計算(2)
CMSI計算科学技術特論B(13) 大規模量子化学計算(2)
 
ユニバーサルなベイズ測度について
ユニバーサルなベイズ測度についてユニバーサルなベイズ測度について
ユニバーサルなベイズ測度について
 
Nmp for quantum_chemistry
Nmp for  quantum_chemistryNmp for  quantum_chemistry
Nmp for quantum_chemistry
 

Más de Deep Learning JP

Más de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Último

Último (11)

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 

[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models