SlideShare una empresa de Scribd logo
1 de 18
Descargar para leer sin conexión
Monitoring Least Squares Models of
Distributed Streams
M. Gabel*, D.Keren+, A. Schuster*
*Israel Institute of Technology,
+Haifa University
発表者 : 田部井 靖生 (JST/東工大)
KDD2015読み会@京大, 2015年8月29日(土)
何故この論文を選んだか?
•  問題設定が新しい(?)
•  手法はシンプル (導出は複雑)
問題設定の概要
•  時系列に流れてくるデータにおいて, モデルの変
化を監視する
–  ノードがk個ある
–  各ノードには, 時系列にデータがやってくる
–  監視するモデルは一つ
•  モデルの更新にはコストがかかる.
 コスト = データを集める & βの更新
•  モデルに大きな変化があったときのみ, モデル
を更新したい.
問題の概要
 ノード Vi
V1	
V2	
V3	
Vk	
(X1
1,y1
1)	
 (X1
2,y1
2)	
(X2
1,y2
1)	
(X3
1,y3
1)	
 (X3
2,y3
2)	
(Xk
1,yk
1)	
データ (X,y)
1つのモデル
手法の概要
•  Naïve
–  毎回βを更新 (通信のコストがかかる)
–  時刻T毎にβを更新
(時間間隔とβの誤差をバランスをとるのは困難)
•  各ノードにおいてβが大きく変化する可能性があると
きのみ, βを更新する.
•  問題点
 どうやってグローバルなβの変化を各ノードにおける
ローカルな変化から予測するのか
手法
•  基本的なアイディア
–  データの小さい変化領域Cを定義しする (convex
safe zone)
–  各ノードにおいてデータの変化がconvex safe zone
にあるならば, が成立
–  あるノードでconvex safe zoneを超えるデータの変
化があるとき, βを更新する
(Geometric monitoring)
•  βの更新の際には, 各ノードにおけるデータを一箇所に
集める
手法 (詳細)
•  において, と
する
•  このとき, Aとcは各ノードにおけるAjとcjの線形和で書
ける, i.e.,
•  よって, と書ける
•  すなわち, βの変化はAjとcjの変化量ペアー(Δj,δj)に影
響する
手法 (詳細)
•  と書けるので, βは
AjとCjの平均で書ける
•  (Δ,δ)の凸部分空間Cを以下満たすのように定
義する
•  [Lemma1] Cに関して, 以下が成立する
If for all j, then
Sliding window と Infinite window
•  Sliding window : βをWの範囲のデータから計算, β0を
最後のsync前のWの範囲のデータから計算
Ø  になる条件 :
•  Infinite window : βをこれまでのすべてのデータから計
算, β0を最後のsyncまでのすべてのデータから計算
Ø  になる条件 :
shall be denoted with ˆ·. Hence initial values
kX
j=1
Aj
0 , ˆc0 =
1
k
kX
j=1
cj
0 , ˆ0 = ˆA 1
0 ˆc0 ,
lues
kX
j=1
Aj
, ˆc =
1
k
kX
j=1
cj
, ˆ = ˆA 1
ˆc .
= kA 1
thus ˆ = ˆA 1
ˆc = A 1
c = and
0. In other words, we can compute the OLS
averages of local Aj
, cj
rather than the sums:
1
k
X
j
Aj
! 1
1
k
X
j
cj
!
= ˆA 1
ˆc (3)
Time
sync nownow
Aj
0
W
Aj
W
Aj
0 Aj
old common
new
Aj
0 Aj
sliding
window
infinite window
Figure 3: Sliding and infinite window models. When
Aj
overlaps Aj
0, j
= Aj
Aj
0 =
P
new xixT
i
P
old xixT
i .
リッジ回帰とGLS
•  リッジ回帰 :
βは閉じた式で書ける
l  Generalized Least Squares (GLS) :
 βは閉じた式で書ける , where
Ø 同様の手法でβを監視できる
実験
•  Distributed Least Square monitor(DILSQ)とT間隔毎
にモデルを更新するPER(T)を比較
•  DILSQは, sliding windowを採用
•  評価尺度として, モデルエラーとnormalized message
を用いた
–  それぞれのノードで送られるメッセージの平均
•  データセットは, 人工データ, Traffic Monitoring, Gas
Sensor Time Seriesを用いた
人口データを用いた実験
•  それぞれのRoundにおいて, y=xTβtrue+nにおいて, xは
N(0,1)のi.i.d, n N(0,σ2)
•  DILSQのエラーは閾値ε=1.35を超えることはない
•  DILSQは, βの変化に応じてモデルを変化させる
Figure 4: DILSQ model error (black) and syncs (bottom vertical lines) per round, compared to PER(100)
error (green), for k = 10 simulated nodes with m = 10 dimensions, and threshold ✏ = 1.35. Both algorithms
reduce communication to 1%, but DILSQ only syncs when changes (bottom purple line shows k k). PER(100)
syncs every 100 rounds, but is unable to maintain error below the threshold (dashed horizontal line).
guarantees maximum model error below the user-selected
threshold ✏, but PER does not. Hence, when comparing
the two, we find a posteriori the maximum period T (hence
minimum communication) for which the maximum error of
PER(T) is equal or below that of DILSQ. Note this gives
PER an unrealistic advantage. First, in a realistic setting we
cannot know a priori the optimal period T. Second, model
changes in realistic settings are not necessarily stationary:
the rate of model change may evolve, which DILSQ will
handle gracefully while PER cannot.
閾値εがモデルの更新コストに影響
•  (a)真のモデルは固定, (b)真のモデルは変化
•  PER(T)のパラメータは, 最大エラーがDILSQと
同じになるように設定
ack) and syncs (bottom vertical lines) per round, compared to PER(100)
d nodes with m = 10 dimensions, and threshold ✏ = 1.35. Both algorithms
DILSQ only syncs when changes (bottom purple line shows k k). PER(100)
able to maintain error below the threshold (dashed horizontal line).
w the user-selected
e, when comparing
um period T (hence
e maximum error of
SQ. Note this gives
a realistic setting we
d T. Second, model
cessarily stationary:
which DILSQ will
In the fixed dataset,
elements drawn i.i.d
with k nodes, each
ctor x of size m and
and y = xT
true + n
noise of strength .
(a) Fixed dataset (b) Drift dataset
Figure 5: Communication for DILSQ (black) and
periodic algorithm tuned to achieve same max error
(green) at di↵erent threshold values. DILSQ com-
munication on fixed model drops to zero for more
permissive ✏ (not shown on logarithmic scale).
パラメータを変化させたときの結果
Traffic monitoring
•  問題 : 複数個のセンサーの分毎の車の平均速度 
から速度を補完する
•  DILSQ(黒)はExact LSM(紫)と 色なく補完できている
閾値εがモデルの更新コストに影響
(a) Window size W = 60 (b) Window size W = 30
Figure 8: Communication for DILSQ (black) and
periodic algorithm (green) on the tra c dataset at
di↵erent ✏ values.
it
res
ne
a c
Sim
we
ind
to
ad
co
39
tri
e
of
syn
ite
co
まとめ
•  分散したストリームデータ上で, モデルの変化を
監視する手法
•  あるノードでモデルの変化に影響のあるデータ
が来たときのみモデルを更新
–  効率的なモデルの更新条件を導出
Ø 少ない通信のオーバヘッドで, モデルの変化を追
跡できる

Más contenido relacionado

Destacado

Ibisml2011 06-20
Ibisml2011 06-20Ibisml2011 06-20
Ibisml2011 06-20
Yasuo Tabei
 
Sketch sort ochadai20101015-public
Sketch sort ochadai20101015-publicSketch sort ochadai20101015-public
Sketch sort ochadai20101015-public
Yasuo Tabei
 
Sketch sort sugiyamalab-20101026 - public
Sketch sort sugiyamalab-20101026 - publicSketch sort sugiyamalab-20101026 - public
Sketch sort sugiyamalab-20101026 - public
Yasuo Tabei
 
Mlab2012 tabei 20120806
Mlab2012 tabei 20120806Mlab2012 tabei 20120806
Mlab2012 tabei 20120806
Yasuo Tabei
 
Gwt presen alsip-20111201
Gwt presen alsip-20111201Gwt presen alsip-20111201
Gwt presen alsip-20111201
Yasuo Tabei
 
SPIRE2013-tabei20131009
SPIRE2013-tabei20131009SPIRE2013-tabei20131009
SPIRE2013-tabei20131009
Yasuo Tabei
 
CPM2013-tabei201306
CPM2013-tabei201306CPM2013-tabei201306
CPM2013-tabei201306
Yasuo Tabei
 
WABI2012-SuccinctMultibitTree
WABI2012-SuccinctMultibitTreeWABI2012-SuccinctMultibitTree
WABI2012-SuccinctMultibitTree
Yasuo Tabei
 
NIPS2013読み会: Scalable kernels for graphs with continuous attributes
NIPS2013読み会: Scalable kernels for graphs with continuous attributesNIPS2013読み会: Scalable kernels for graphs with continuous attributes
NIPS2013読み会: Scalable kernels for graphs with continuous attributes
Yasuo Tabei
 
Lgm pakdd2011 public
Lgm pakdd2011 publicLgm pakdd2011 public
Lgm pakdd2011 public
Yasuo Tabei
 

Destacado (20)

Ibisml2011 06-20
Ibisml2011 06-20Ibisml2011 06-20
Ibisml2011 06-20
 
Sketch sort ochadai20101015-public
Sketch sort ochadai20101015-publicSketch sort ochadai20101015-public
Sketch sort ochadai20101015-public
 
Sketch sort sugiyamalab-20101026 - public
Sketch sort sugiyamalab-20101026 - publicSketch sort sugiyamalab-20101026 - public
Sketch sort sugiyamalab-20101026 - public
 
DCC2014 - Fully Online Grammar Compression in Constant Space
DCC2014 - Fully Online Grammar Compression in Constant SpaceDCC2014 - Fully Online Grammar Compression in Constant Space
DCC2014 - Fully Online Grammar Compression in Constant Space
 
Mlab2012 tabei 20120806
Mlab2012 tabei 20120806Mlab2012 tabei 20120806
Mlab2012 tabei 20120806
 
GIW2013
GIW2013GIW2013
GIW2013
 
Gwt presen alsip-20111201
Gwt presen alsip-20111201Gwt presen alsip-20111201
Gwt presen alsip-20111201
 
Dmss2011 public
Dmss2011 publicDmss2011 public
Dmss2011 public
 
Lp Boost
Lp BoostLp Boost
Lp Boost
 
SPIRE2013-tabei20131009
SPIRE2013-tabei20131009SPIRE2013-tabei20131009
SPIRE2013-tabei20131009
 
CPM2013-tabei201306
CPM2013-tabei201306CPM2013-tabei201306
CPM2013-tabei201306
 
WABI2012-SuccinctMultibitTree
WABI2012-SuccinctMultibitTreeWABI2012-SuccinctMultibitTree
WABI2012-SuccinctMultibitTree
 
Gwt sdm public
Gwt sdm publicGwt sdm public
Gwt sdm public
 
Lgm saarbrucken
Lgm saarbruckenLgm saarbrucken
Lgm saarbrucken
 
NIPS2013読み会: Scalable kernels for graphs with continuous attributes
NIPS2013読み会: Scalable kernels for graphs with continuous attributesNIPS2013読み会: Scalable kernels for graphs with continuous attributes
NIPS2013読み会: Scalable kernels for graphs with continuous attributes
 
Lgm pakdd2011 public
Lgm pakdd2011 publicLgm pakdd2011 public
Lgm pakdd2011 public
 
異常検知 - 何を探すかよく分かっていないものを見つける方法
異常検知 - 何を探すかよく分かっていないものを見つける方法異常検知 - 何を探すかよく分かっていないものを見つける方法
異常検知 - 何を探すかよく分かっていないものを見つける方法
 
ウェーブレット木の世界
ウェーブレット木の世界ウェーブレット木の世界
ウェーブレット木の世界
 
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
 
bigdata2012nlp okanohara
bigdata2012nlp okanoharabigdata2012nlp okanohara
bigdata2012nlp okanohara
 

Similar a Kdd2015reading-tabei

Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Yuya Unno
 
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
Yuya Yoshikawa
 

Similar a Kdd2015reading-tabei (20)

bigdata2012ml okanohara
bigdata2012ml okanoharabigdata2012ml okanohara
bigdata2012ml okanohara
 
Embedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural NetworksEmbedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural Networks
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化
CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化
CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
数理情報学特別講義ⅰ輪講
数理情報学特別講義ⅰ輪講数理情報学特別講義ⅰ輪講
数理情報学特別講義ⅰ輪講
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
 
Xtext 紹介
Xtext 紹介Xtext 紹介
Xtext 紹介
 
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
 
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
 
文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification
 
Data assim r
Data assim rData assim r
Data assim r
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
 
回帰モデルとして見る信号検出理論
回帰モデルとして見る信号検出理論回帰モデルとして見る信号検出理論
回帰モデルとして見る信号検出理論
 
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
Icml2019 kyoto ohno_ver20190805
Icml2019 kyoto ohno_ver20190805Icml2019 kyoto ohno_ver20190805
Icml2019 kyoto ohno_ver20190805
 

Kdd2015reading-tabei

  • 1. Monitoring Least Squares Models of Distributed Streams M. Gabel*, D.Keren+, A. Schuster* *Israel Institute of Technology, +Haifa University 発表者 : 田部井 靖生 (JST/東工大) KDD2015読み会@京大, 2015年8月29日(土)
  • 2.
  • 4. 問題設定の概要 •  時系列に流れてくるデータにおいて, モデルの変 化を監視する –  ノードがk個ある –  各ノードには, 時系列にデータがやってくる –  監視するモデルは一つ •  モデルの更新にはコストがかかる.  コスト = データを集める & βの更新 •  モデルに大きな変化があったときのみ, モデル を更新したい.
  • 5. 問題の概要  ノード Vi V1 V2 V3 Vk (X1 1,y1 1) (X1 2,y1 2) (X2 1,y2 1) (X3 1,y3 1) (X3 2,y3 2) (Xk 1,yk 1) データ (X,y) 1つのモデル
  • 6. 手法の概要 •  Naïve –  毎回βを更新 (通信のコストがかかる) –  時刻T毎にβを更新 (時間間隔とβの誤差をバランスをとるのは困難) •  各ノードにおいてβが大きく変化する可能性があると きのみ, βを更新する. •  問題点  どうやってグローバルなβの変化を各ノードにおける ローカルな変化から予測するのか
  • 7. 手法 •  基本的なアイディア –  データの小さい変化領域Cを定義しする (convex safe zone) –  各ノードにおいてデータの変化がconvex safe zone にあるならば, が成立 –  あるノードでconvex safe zoneを超えるデータの変 化があるとき, βを更新する (Geometric monitoring) •  βの更新の際には, 各ノードにおけるデータを一箇所に 集める
  • 8. 手法 (詳細) •  において, と する •  このとき, Aとcは各ノードにおけるAjとcjの線形和で書 ける, i.e., •  よって, と書ける •  すなわち, βの変化はAjとcjの変化量ペアー(Δj,δj)に影 響する
  • 9. 手法 (詳細) •  と書けるので, βは AjとCjの平均で書ける •  (Δ,δ)の凸部分空間Cを以下満たすのように定 義する •  [Lemma1] Cに関して, 以下が成立する If for all j, then
  • 10. Sliding window と Infinite window •  Sliding window : βをWの範囲のデータから計算, β0を 最後のsync前のWの範囲のデータから計算 Ø  になる条件 : •  Infinite window : βをこれまでのすべてのデータから計 算, β0を最後のsyncまでのすべてのデータから計算 Ø  になる条件 : shall be denoted with ˆ·. Hence initial values kX j=1 Aj 0 , ˆc0 = 1 k kX j=1 cj 0 , ˆ0 = ˆA 1 0 ˆc0 , lues kX j=1 Aj , ˆc = 1 k kX j=1 cj , ˆ = ˆA 1 ˆc . = kA 1 thus ˆ = ˆA 1 ˆc = A 1 c = and 0. In other words, we can compute the OLS averages of local Aj , cj rather than the sums: 1 k X j Aj ! 1 1 k X j cj ! = ˆA 1 ˆc (3) Time sync nownow Aj 0 W Aj W Aj 0 Aj old common new Aj 0 Aj sliding window infinite window Figure 3: Sliding and infinite window models. When Aj overlaps Aj 0, j = Aj Aj 0 = P new xixT i P old xixT i .
  • 11. リッジ回帰とGLS •  リッジ回帰 : βは閉じた式で書ける l  Generalized Least Squares (GLS) :  βは閉じた式で書ける , where Ø 同様の手法でβを監視できる
  • 12. 実験 •  Distributed Least Square monitor(DILSQ)とT間隔毎 にモデルを更新するPER(T)を比較 •  DILSQは, sliding windowを採用 •  評価尺度として, モデルエラーとnormalized message を用いた –  それぞれのノードで送られるメッセージの平均 •  データセットは, 人工データ, Traffic Monitoring, Gas Sensor Time Seriesを用いた
  • 13. 人口データを用いた実験 •  それぞれのRoundにおいて, y=xTβtrue+nにおいて, xは N(0,1)のi.i.d, n N(0,σ2) •  DILSQのエラーは閾値ε=1.35を超えることはない •  DILSQは, βの変化に応じてモデルを変化させる Figure 4: DILSQ model error (black) and syncs (bottom vertical lines) per round, compared to PER(100) error (green), for k = 10 simulated nodes with m = 10 dimensions, and threshold ✏ = 1.35. Both algorithms reduce communication to 1%, but DILSQ only syncs when changes (bottom purple line shows k k). PER(100) syncs every 100 rounds, but is unable to maintain error below the threshold (dashed horizontal line). guarantees maximum model error below the user-selected threshold ✏, but PER does not. Hence, when comparing the two, we find a posteriori the maximum period T (hence minimum communication) for which the maximum error of PER(T) is equal or below that of DILSQ. Note this gives PER an unrealistic advantage. First, in a realistic setting we cannot know a priori the optimal period T. Second, model changes in realistic settings are not necessarily stationary: the rate of model change may evolve, which DILSQ will handle gracefully while PER cannot.
  • 14. 閾値εがモデルの更新コストに影響 •  (a)真のモデルは固定, (b)真のモデルは変化 •  PER(T)のパラメータは, 最大エラーがDILSQと 同じになるように設定 ack) and syncs (bottom vertical lines) per round, compared to PER(100) d nodes with m = 10 dimensions, and threshold ✏ = 1.35. Both algorithms DILSQ only syncs when changes (bottom purple line shows k k). PER(100) able to maintain error below the threshold (dashed horizontal line). w the user-selected e, when comparing um period T (hence e maximum error of SQ. Note this gives a realistic setting we d T. Second, model cessarily stationary: which DILSQ will In the fixed dataset, elements drawn i.i.d with k nodes, each ctor x of size m and and y = xT true + n noise of strength . (a) Fixed dataset (b) Drift dataset Figure 5: Communication for DILSQ (black) and periodic algorithm tuned to achieve same max error (green) at di↵erent threshold values. DILSQ com- munication on fixed model drops to zero for more permissive ✏ (not shown on logarithmic scale).
  • 16. Traffic monitoring •  問題 : 複数個のセンサーの分毎の車の平均速度  から速度を補完する •  DILSQ(黒)はExact LSM(紫)と 色なく補完できている
  • 17. 閾値εがモデルの更新コストに影響 (a) Window size W = 60 (b) Window size W = 30 Figure 8: Communication for DILSQ (black) and periodic algorithm (green) on the tra c dataset at di↵erent ✏ values. it res ne a c Sim we ind to ad co 39 tri e of syn ite co
  • 18. まとめ •  分散したストリームデータ上で, モデルの変化を 監視する手法 •  あるノードでモデルの変化に影響のあるデータ が来たときのみモデルを更新 –  効率的なモデルの更新条件を導出 Ø 少ない通信のオーバヘッドで, モデルの変化を追 跡できる