SlideShare una empresa de Scribd logo
1 de 10
Descargar para leer sin conexión
天候データの特徴量設計とアンサンブルモデル
による鉄道⽀障予測
ニックネーム:sig
2017.04.27 JSAI Cup 2017
JSAI Cup 2017
2/10本コンテンストの提案法の概要
X0:学習⽤データ
(気温、降⽔量、湿度、雷、⾵速、
⾵向、最⼤瞬間⾵速、モデル学習
⽤⽀障)
…
Y1~Y5:モデル学習⽤⽀障データ
(中央線、京浜東北線、京葉線、内
房線、埼京川越線)
X1:特徴設計1
(P4) X4 : tSNE特徴設計
(P5)
X3 :T時間モデル
学習⽤⽀障(P5)
M1:Logistic Regression
M2:RandomForest
M3:Nerral Net
M4:SVM
M5:kNN
モデルの予測確率を重み付
き平均でアンサンブル
M1:M2:M3:M4:M5:
M6:M7:M8=
0.15:0.15:0.1:0.05:0.05
:0.2:0.2:0.1
X2:特徴設計2(P4)
M6:Logistic Regression
M7:Random Forest
M8:Neural Net
Submit!
(X1+X3+X4)と(Y1~Y5)を
⼊⼒し、⽉ごとに学習
特徴設計フェーズ(P4とP5)
利⽤データ
(X2+X3+X4)と(Y1~Y5)を
⼊⼒し、⽉ごとに学習
モデリングフェーズ(P6からP8)
+
アンサンブルフェーズ(P8)
テスト⽤⽀障データ(TE1〜TE5)の各⽀障予測確率を学習⽤
⽀障データ(Y1~Y5)の予測確率の平均値として、M1〜M8で
求める
JSAI Cup 2017
3/10データ利⽤⽅法:利⽤データ
• D1:モデル学習⽤⽀障データ
– 各学習⽤路線をモデル学習時の⽀障ラベルデータとして利⽤
• D2:気温データ
– 観測⽇時と測定値のみを利⽤
• D3:降⽔量データ
– 観測⽇時と測定値(降⽔量mm)のみを利⽤
• D4:湿度データ
– 観測⽇時と測定値(湿度%)のみを利⽤
• D5:雷データ
– 発⽣⽇時と種別(対地雷CGと雲間雷IC)のみを利⽤
• D6:⾵速データ
– 発⽣⽇時と測定値(⾵速m/s)のみを利⽤
• D7:⾵向データ
– 観測⽇時と測定値(⾵向360度)のみを利⽤
• D8:最⼤瞬間⾵速データ
– 観測⽇時と測定値(最⼤瞬間⾵速m/s)のみを利⽤
JSAI Cup 2017
4/10
• 特徴設計1:X1
– 仮説1:t時の予測には、直前(t-10分前)のデータが有効である
– D2~D4とD6〜D8では、t時の予測のために、(t-10)分前の各値の4つの統計量(平均、
中央値、最⼩値、最⼤値)を計算し特徴とする
• (例) 2013/1/1 12:00 の予測には2013/1/1 11:50の4つの統計量を使⽤
– D5は、 発⽣⽇時を10分刻みに丸め、(t-10)分時の発⽣頻度を計算し、特徴とする
• (例) 2013/1/1 12:00 の予測には2013/1/1 11:40:01から11:50:00の発⽣回数を利⽤
• 特徴設計2:X2
– 仮説2:X1だけだと、過去10分前のデータに問題(計測ミス、外れ値)がある可能性
を考慮し、頑健性を⾼める⽬的で30分前までのデータの統計量も有効である
– D2~D4とD6〜D8では、t時の予測のために、(t-10)分から(t-30)分の各値の4つの統計
量(平均、中央値、最⼩値、最⼤値)の平均を計算し特徴とする
• (例) 2013/1/1 12:00 の予測には2013/1/1 11:30,40,50分それぞれで4つの統計量を求め、それぞれの平均
を使⽤
– D5は、 発⽣⽇時を10分刻みに丸め、(t-10)分から(t-30)分時の発⽣頻度の平均を計算
し特徴とする
• 特徴設計1と2に共通の処理
– 仮説3:データに時系列性(時間帯や⽇によっては⽀障が少ない)があるため、時系列
性を表す特徴が⽀障予測に有効である
– ⽇本時間で平⽇か休⽇(祝⽇を含む)かを⽰す特徴を追加
– 時間の周期を表現するため0時から23時59分を三⾓関数(sin/cos)を⽤いて変換し特徴
として追加
データ利⽤⽅法:特徴設計X1とX2
JSAI Cup 2017
5/10
• 過去360(36 *10)分の各路線の学習⽤⽀障データD1を特徴として追加:X3
– ⽀障は内容にもよるが、⼀定時間続くことを⽀障の継続時間の密度分析(下
図)で確認した
– 仮説4:過去T分間に連続で起こっていれば、今も何処かの路線で⽀障の可能
性が⾼い
– t時の予測に(t-360)分前から(t-10)分の各路線の⽀障ラベルをOne-Hot表現
とし特徴として追加
• (例) 2013/1/1 12:00 の予測には各路線ごとの2013/1/1 06:00から11時50分までの⽀障ラ
ベルを追加(つまり、5路線×4クラス×36=720次元)
• tSNEによる次元圧縮特徴を追加:X4
– tSNE:圧縮前と圧縮後の確率分布の KL 情報量を最⼩化する⼿法。2点間の
近さを可視化する際に有効とされ、特徴として利⽤
– 計算にはRのRtsneパッケージを利⽤。(X1+X3)を⼊⼒として、3次元で圧縮
したX4を⽣成。パラメータはRのデフォルト値で利⽤
データ利⽤⽅法:特徴設計X3とX4
JSAI Cup 2017
6/10モデリングの⼯夫点:5種のモデル
• 仮説5:1つの強いモデルよりも、複数のモデルのアンサンブルスコアのほ
うが、バリアンスを⼩さくさせ、未来の⽀障予測の評価であるLoglossの最
⼩化に有効である
• 以下の5つの多クラス分類モデルを選択した
– Logistic Regression(LR)(by scikit-learn)
• パラメータはランダムサーチで決定した
– Random Forest(RF)(by scikit-learn)
• パラメータはランダムサーチで決定した
– Neural Network(NN)(by Keras)
• 3層ネットワークとして設計した
• アクティベーション関数ReLU+Dropout率を0.2と設定し、ソフトマック
ス関数で各クラスの予測確率を出⼒
– SVM(by scikit-learn)
• ガウシアンカーネルを利⽤し、残りのパラメータはランダムサーチで決定
した
– k-Nearest Neighbor(kNN)(by scikit-learn)
• kの⼤きさ:256、距離:ユークリッド距離、残りのパラメータはランダム
サーチで決定した
JSAI Cup 2017
7/10モデリングの⼯夫点:学習の⼯夫
• 2012/2/1から2013/6/30までの学習の仕⽅
– t時の予測に(t-10)分以前のデータのみを利⽤できるため、効率性を考
え、N⽉の予測にはN-1⽉までのデータを利⽤するとした
• 実運⽤を考慮し、モデルの更新を⽇々バッチで⾏うよりも、⼀⽉に⼀度のバッチでよ
いため学習の利便性が⾼いと考えられる
– データは⽀障なしラベルが90%近い不均衡データであるため、N⽉の
予測には(N-2)⽉までは⽀障なし以外のデータと(N-1)⽉はすべてのデ
ータを利⽤した
• (例)2013/1/1 00:00から2013/1/31 23:50の予測には、 2012/12/1 00:00から
2012/12/31 23:50までのすべてのデータと2012/1/1 00:00から2012/11/30
23:50までの⽀障なし以外であったデータを利⽤する
• 仮説6:(N-2)⽉までは⽀障なし以外のデータを利⽤することで、学習データ内の不均
衡を減らし、汎化性能の向上に効果があると考えられる
• 2012/1/1から2012/1/31までの学習の仕⽅
– 2012年1⽉は過去のデータがないため、2012/1/3までは予測のデフォ
ルト値を与え、2012/1/4から2012/1/31までは1⽇前のデータはすべ
て利⽤するとして、1⽇ずつ学習した
JSAI Cup 2017
8/10
• モデルのアンサンブル
– 学習したモデルM1〜M8の各クラスの予測スコアをアンサンブルすることで、
最終的な予測結果とする
– アンサンブルするために各モデルの重みを合計して1になるように設計する
– 各モデルの重みは、訓練時に評価したLoglossとコンテストサイトの解析結果
送信結果よりヒューリスティックに調整し、以下のとおり決定した
– M1:M2:M3:M4:M5:M6:M7:M8=
0.15:0.15:0.1:0.05:0.05:0.2:0.2:0.1
モデリングの⼯夫点:予測結果のアンサンブル
• 各モデルごとのテスト⽤路線の⽀障予測スコアの計算⽅法
– M1からM5:5つのモデルで、特徴 (X1+X3+X4)と学習⽤路線(Y1から
Y5)で学習し⽀障予測スコアを算出。全ての⽀障予測スコアの平均値を全
てのテスト⽤路線(TE1からTE5)の⽀障予測スコアとして利⽤
– M6からM8:LR/RF/NNに対して、特徴設計した(X2+X3+X4)を利⽤し、
上記と同様に⾏う
X1+X3+X4 Y1
X1+X3+X4 Y2
X1+X3+X4 Y5
… …
LR
RF
kNN
…
学習
5×5
+
+
+
予測 Y1
Y2
Y5
…
平均M1からM5の例 TE1
TE2
TE5
…
JSAI Cup 2017
9/10予測結果から得られる⽰唆
• 本サイトの解析結果送信結果を確認したところ、アンサンブルモデルのLR
の重みが特に予測に寄与していることが確認されたため、(X1+X3+X4)を
⼊⼒としてLRで推定した各特徴の重みの平均値のトップ20を確認
• 学習したLRの重みのうち、表1緑欄の10分前の各⽀障がどの⽀障にも⼤き
く寄与していることが確認された([路線名]_[ラベルID]_[t*10分前])
• 続いて、全体的に⾵速関連の⽀障が特に気象⽀障の予測に寄与しているこ
とが確認された。⾵速が強いと電⾞の運転に⽀障をきたすため、これは直
感とも合致すると考えられる
45 9 5 291 45 9 5 291 34.9
9 514348 9395 514 9
34.9 9 514348 9395
514348 9395 514 9 45 9 5 291
514 9 34.9 9
39 48 514348 9395 514 9
17 748 514348 9395 480 7
48 7 480 7 71 8
480 71 8 3 740 71 8 514 9
39 48 480 7 7
480 7 7104 8 6 .16 39640 514348 9395
45 9 5 291 81 48 7
81 480 71 8 514348 9395
3 740 7104 8 81 3 740 71 8
3 740 71 8 81 480 7 7104 8
480 7 71 8 514348 9395
34.9
34.9
480 7104 8
85
CR G CR CR
• 気象⽀障以外ではX3の
時間特徴である
hour_sin/label_holid
ayがあることから特定
の時間や休⽇が⽀障に
寄与すると考えられる
• CG1の発⽣回数や湿度
に関する特徴は普段あ
まり起きない気象状態
であるため、⾬や気温
よりも⽀障に寄与する
と考えられる
表1:LRの各⽀障ごとの係数の⼤きい特徴⼀覧
JSAI Cup 2017
10/10その他検討事項
• 各テスト⽤路線の予測に効果的な学習⽤路線の決定⽅法として以下を実施
したが、解析結果よりLoglossが悪化したため最終結果には利⽤していない
– 学習⽤5路線のみの予測結果から、テスト⽤5路線の予測を⾏うため、
学習⽤路線とテスト⽤路線の類似度を定量的に求めることを考える
– 仮説7:あるテスト⽤路線TE1と各学習⽤路線(Y1〜Y5)との距離が近い
路線ほど、予測結果は似た結果になるはずである
– 近さを類似度とみなし、学習⽤5路線の予測結果を類似度に基づく重み
付き平均としてTE1の予測とする
– 類似度の計算には、駅データ[1]から路線にある各駅の緯度・経度デー
タを利⽤し、ウォード法に基づき各テスト⽤路線と学習⽤路線との類
似度を求めた。類似度は合計して1になるように正規化した
• Adaboostを利⽤したが、学習時のLoglossが⼤きく過学習傾向にあったた
め最終結果には利⽤していない。より予測精度の⾼いとされている勾配ブ
ースティングを利⽤することが今後の課題である
• また、モデルのアンサンブル重みをヒューリスティックに決定したが、
Neural Networkを利⽤した最適化[2]や逐次⼆次計画法を適⽤し、数値計
算の効果を確認することも今後の課題である
[1]駅データ:http://www.ekidata.jp/ [2] Finding Optimal Weights of Ensemble Learner using Neural Network:
https://www.analyticsvidhya.com/blog/2015/08/optimal-weights-ensemble-learner-neural-network/

Más contenido relacionado

Más de LINE Corp.

13.03.09_決定ルール解析のための頑健性指標
13.03.09_決定ルール解析のための頑健性指標13.03.09_決定ルール解析のための頑健性指標
13.03.09_決定ルール解析のための頑健性指標LINE Corp.
 
14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用LINE Corp.
 
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...LINE Corp.
 
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析LINE Corp.
 
Rによるテキストマイニングの一例
Rによるテキストマイニングの一例Rによるテキストマイニングの一例
Rによるテキストマイニングの一例LINE Corp.
 
Rによる決定木解析の一例
Rによる決定木解析の一例Rによる決定木解析の一例
Rによる決定木解析の一例LINE Corp.
 
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...LINE Corp.
 
13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説LINE Corp.
 
13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会LINE Corp.
 
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...LINE Corp.
 
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_LINE Corp.
 
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析LINE Corp.
 
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...LINE Corp.
 
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...LINE Corp.
 
12.09.12_FSS2012
12.09.12_FSS201212.09.12_FSS2012
12.09.12_FSS2012LINE Corp.
 
12.01.18_論文紹介_An improved accuracy measure for rough sets
12.01.18_論文紹介_An improved accuracy measure for rough sets12.01.18_論文紹介_An improved accuracy measure for rough sets
12.01.18_論文紹介_An improved accuracy measure for rough setsLINE Corp.
 
11.06.10_論文紹介_Rough Set and Bayes Factor
11.06.10_論文紹介_Rough Set and Bayes Factor11.06.10_論文紹介_Rough Set and Bayes Factor
11.06.10_論文紹介_Rough Set and Bayes FactorLINE Corp.
 
11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...
11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...
11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...LINE Corp.
 
12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...
12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...
12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...LINE Corp.
 
11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...
11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...
11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...LINE Corp.
 

Más de LINE Corp. (20)

13.03.09_決定ルール解析のための頑健性指標
13.03.09_決定ルール解析のための頑健性指標13.03.09_決定ルール解析のための頑健性指標
13.03.09_決定ルール解析のための頑健性指標
 
14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用
 
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
 
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
 
Rによるテキストマイニングの一例
Rによるテキストマイニングの一例Rによるテキストマイニングの一例
Rによるテキストマイニングの一例
 
Rによる決定木解析の一例
Rによる決定木解析の一例Rによる決定木解析の一例
Rによる決定木解析の一例
 
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
 
13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説
 
13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会
 
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
 
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
 
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
 
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
 
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
 
12.09.12_FSS2012
12.09.12_FSS201212.09.12_FSS2012
12.09.12_FSS2012
 
12.01.18_論文紹介_An improved accuracy measure for rough sets
12.01.18_論文紹介_An improved accuracy measure for rough sets12.01.18_論文紹介_An improved accuracy measure for rough sets
12.01.18_論文紹介_An improved accuracy measure for rough sets
 
11.06.10_論文紹介_Rough Set and Bayes Factor
11.06.10_論文紹介_Rough Set and Bayes Factor11.06.10_論文紹介_Rough Set and Bayes Factor
11.06.10_論文紹介_Rough Set and Bayes Factor
 
11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...
11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...
11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...
 
12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...
12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...
12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...
 
11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...
11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...
11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...
 

17.04.27_JSAI Cup 2017_5th winner's solution

  • 2. JSAI Cup 2017 2/10本コンテンストの提案法の概要 X0:学習⽤データ (気温、降⽔量、湿度、雷、⾵速、 ⾵向、最⼤瞬間⾵速、モデル学習 ⽤⽀障) … Y1~Y5:モデル学習⽤⽀障データ (中央線、京浜東北線、京葉線、内 房線、埼京川越線) X1:特徴設計1 (P4) X4 : tSNE特徴設計 (P5) X3 :T時間モデル 学習⽤⽀障(P5) M1:Logistic Regression M2:RandomForest M3:Nerral Net M4:SVM M5:kNN モデルの予測確率を重み付 き平均でアンサンブル M1:M2:M3:M4:M5: M6:M7:M8= 0.15:0.15:0.1:0.05:0.05 :0.2:0.2:0.1 X2:特徴設計2(P4) M6:Logistic Regression M7:Random Forest M8:Neural Net Submit! (X1+X3+X4)と(Y1~Y5)を ⼊⼒し、⽉ごとに学習 特徴設計フェーズ(P4とP5) 利⽤データ (X2+X3+X4)と(Y1~Y5)を ⼊⼒し、⽉ごとに学習 モデリングフェーズ(P6からP8) + アンサンブルフェーズ(P8) テスト⽤⽀障データ(TE1〜TE5)の各⽀障予測確率を学習⽤ ⽀障データ(Y1~Y5)の予測確率の平均値として、M1〜M8で 求める
  • 3. JSAI Cup 2017 3/10データ利⽤⽅法:利⽤データ • D1:モデル学習⽤⽀障データ – 各学習⽤路線をモデル学習時の⽀障ラベルデータとして利⽤ • D2:気温データ – 観測⽇時と測定値のみを利⽤ • D3:降⽔量データ – 観測⽇時と測定値(降⽔量mm)のみを利⽤ • D4:湿度データ – 観測⽇時と測定値(湿度%)のみを利⽤ • D5:雷データ – 発⽣⽇時と種別(対地雷CGと雲間雷IC)のみを利⽤ • D6:⾵速データ – 発⽣⽇時と測定値(⾵速m/s)のみを利⽤ • D7:⾵向データ – 観測⽇時と測定値(⾵向360度)のみを利⽤ • D8:最⼤瞬間⾵速データ – 観測⽇時と測定値(最⼤瞬間⾵速m/s)のみを利⽤
  • 4. JSAI Cup 2017 4/10 • 特徴設計1:X1 – 仮説1:t時の予測には、直前(t-10分前)のデータが有効である – D2~D4とD6〜D8では、t時の予測のために、(t-10)分前の各値の4つの統計量(平均、 中央値、最⼩値、最⼤値)を計算し特徴とする • (例) 2013/1/1 12:00 の予測には2013/1/1 11:50の4つの統計量を使⽤ – D5は、 発⽣⽇時を10分刻みに丸め、(t-10)分時の発⽣頻度を計算し、特徴とする • (例) 2013/1/1 12:00 の予測には2013/1/1 11:40:01から11:50:00の発⽣回数を利⽤ • 特徴設計2:X2 – 仮説2:X1だけだと、過去10分前のデータに問題(計測ミス、外れ値)がある可能性 を考慮し、頑健性を⾼める⽬的で30分前までのデータの統計量も有効である – D2~D4とD6〜D8では、t時の予測のために、(t-10)分から(t-30)分の各値の4つの統計 量(平均、中央値、最⼩値、最⼤値)の平均を計算し特徴とする • (例) 2013/1/1 12:00 の予測には2013/1/1 11:30,40,50分それぞれで4つの統計量を求め、それぞれの平均 を使⽤ – D5は、 発⽣⽇時を10分刻みに丸め、(t-10)分から(t-30)分時の発⽣頻度の平均を計算 し特徴とする • 特徴設計1と2に共通の処理 – 仮説3:データに時系列性(時間帯や⽇によっては⽀障が少ない)があるため、時系列 性を表す特徴が⽀障予測に有効である – ⽇本時間で平⽇か休⽇(祝⽇を含む)かを⽰す特徴を追加 – 時間の周期を表現するため0時から23時59分を三⾓関数(sin/cos)を⽤いて変換し特徴 として追加 データ利⽤⽅法:特徴設計X1とX2
  • 5. JSAI Cup 2017 5/10 • 過去360(36 *10)分の各路線の学習⽤⽀障データD1を特徴として追加:X3 – ⽀障は内容にもよるが、⼀定時間続くことを⽀障の継続時間の密度分析(下 図)で確認した – 仮説4:過去T分間に連続で起こっていれば、今も何処かの路線で⽀障の可能 性が⾼い – t時の予測に(t-360)分前から(t-10)分の各路線の⽀障ラベルをOne-Hot表現 とし特徴として追加 • (例) 2013/1/1 12:00 の予測には各路線ごとの2013/1/1 06:00から11時50分までの⽀障ラ ベルを追加(つまり、5路線×4クラス×36=720次元) • tSNEによる次元圧縮特徴を追加:X4 – tSNE:圧縮前と圧縮後の確率分布の KL 情報量を最⼩化する⼿法。2点間の 近さを可視化する際に有効とされ、特徴として利⽤ – 計算にはRのRtsneパッケージを利⽤。(X1+X3)を⼊⼒として、3次元で圧縮 したX4を⽣成。パラメータはRのデフォルト値で利⽤ データ利⽤⽅法:特徴設計X3とX4
  • 6. JSAI Cup 2017 6/10モデリングの⼯夫点:5種のモデル • 仮説5:1つの強いモデルよりも、複数のモデルのアンサンブルスコアのほ うが、バリアンスを⼩さくさせ、未来の⽀障予測の評価であるLoglossの最 ⼩化に有効である • 以下の5つの多クラス分類モデルを選択した – Logistic Regression(LR)(by scikit-learn) • パラメータはランダムサーチで決定した – Random Forest(RF)(by scikit-learn) • パラメータはランダムサーチで決定した – Neural Network(NN)(by Keras) • 3層ネットワークとして設計した • アクティベーション関数ReLU+Dropout率を0.2と設定し、ソフトマック ス関数で各クラスの予測確率を出⼒ – SVM(by scikit-learn) • ガウシアンカーネルを利⽤し、残りのパラメータはランダムサーチで決定 した – k-Nearest Neighbor(kNN)(by scikit-learn) • kの⼤きさ:256、距離:ユークリッド距離、残りのパラメータはランダム サーチで決定した
  • 7. JSAI Cup 2017 7/10モデリングの⼯夫点:学習の⼯夫 • 2012/2/1から2013/6/30までの学習の仕⽅ – t時の予測に(t-10)分以前のデータのみを利⽤できるため、効率性を考 え、N⽉の予測にはN-1⽉までのデータを利⽤するとした • 実運⽤を考慮し、モデルの更新を⽇々バッチで⾏うよりも、⼀⽉に⼀度のバッチでよ いため学習の利便性が⾼いと考えられる – データは⽀障なしラベルが90%近い不均衡データであるため、N⽉の 予測には(N-2)⽉までは⽀障なし以外のデータと(N-1)⽉はすべてのデ ータを利⽤した • (例)2013/1/1 00:00から2013/1/31 23:50の予測には、 2012/12/1 00:00から 2012/12/31 23:50までのすべてのデータと2012/1/1 00:00から2012/11/30 23:50までの⽀障なし以外であったデータを利⽤する • 仮説6:(N-2)⽉までは⽀障なし以外のデータを利⽤することで、学習データ内の不均 衡を減らし、汎化性能の向上に効果があると考えられる • 2012/1/1から2012/1/31までの学習の仕⽅ – 2012年1⽉は過去のデータがないため、2012/1/3までは予測のデフォ ルト値を与え、2012/1/4から2012/1/31までは1⽇前のデータはすべ て利⽤するとして、1⽇ずつ学習した
  • 8. JSAI Cup 2017 8/10 • モデルのアンサンブル – 学習したモデルM1〜M8の各クラスの予測スコアをアンサンブルすることで、 最終的な予測結果とする – アンサンブルするために各モデルの重みを合計して1になるように設計する – 各モデルの重みは、訓練時に評価したLoglossとコンテストサイトの解析結果 送信結果よりヒューリスティックに調整し、以下のとおり決定した – M1:M2:M3:M4:M5:M6:M7:M8= 0.15:0.15:0.1:0.05:0.05:0.2:0.2:0.1 モデリングの⼯夫点:予測結果のアンサンブル • 各モデルごとのテスト⽤路線の⽀障予測スコアの計算⽅法 – M1からM5:5つのモデルで、特徴 (X1+X3+X4)と学習⽤路線(Y1から Y5)で学習し⽀障予測スコアを算出。全ての⽀障予測スコアの平均値を全 てのテスト⽤路線(TE1からTE5)の⽀障予測スコアとして利⽤ – M6からM8:LR/RF/NNに対して、特徴設計した(X2+X3+X4)を利⽤し、 上記と同様に⾏う X1+X3+X4 Y1 X1+X3+X4 Y2 X1+X3+X4 Y5 … … LR RF kNN … 学習 5×5 + + + 予測 Y1 Y2 Y5 … 平均M1からM5の例 TE1 TE2 TE5 …
  • 9. JSAI Cup 2017 9/10予測結果から得られる⽰唆 • 本サイトの解析結果送信結果を確認したところ、アンサンブルモデルのLR の重みが特に予測に寄与していることが確認されたため、(X1+X3+X4)を ⼊⼒としてLRで推定した各特徴の重みの平均値のトップ20を確認 • 学習したLRの重みのうち、表1緑欄の10分前の各⽀障がどの⽀障にも⼤き く寄与していることが確認された([路線名]_[ラベルID]_[t*10分前]) • 続いて、全体的に⾵速関連の⽀障が特に気象⽀障の予測に寄与しているこ とが確認された。⾵速が強いと電⾞の運転に⽀障をきたすため、これは直 感とも合致すると考えられる 45 9 5 291 45 9 5 291 34.9 9 514348 9395 514 9 34.9 9 514348 9395 514348 9395 514 9 45 9 5 291 514 9 34.9 9 39 48 514348 9395 514 9 17 748 514348 9395 480 7 48 7 480 7 71 8 480 71 8 3 740 71 8 514 9 39 48 480 7 7 480 7 7104 8 6 .16 39640 514348 9395 45 9 5 291 81 48 7 81 480 71 8 514348 9395 3 740 7104 8 81 3 740 71 8 3 740 71 8 81 480 7 7104 8 480 7 71 8 514348 9395 34.9 34.9 480 7104 8 85 CR G CR CR • 気象⽀障以外ではX3の 時間特徴である hour_sin/label_holid ayがあることから特定 の時間や休⽇が⽀障に 寄与すると考えられる • CG1の発⽣回数や湿度 に関する特徴は普段あ まり起きない気象状態 であるため、⾬や気温 よりも⽀障に寄与する と考えられる 表1:LRの各⽀障ごとの係数の⼤きい特徴⼀覧
  • 10. JSAI Cup 2017 10/10その他検討事項 • 各テスト⽤路線の予測に効果的な学習⽤路線の決定⽅法として以下を実施 したが、解析結果よりLoglossが悪化したため最終結果には利⽤していない – 学習⽤5路線のみの予測結果から、テスト⽤5路線の予測を⾏うため、 学習⽤路線とテスト⽤路線の類似度を定量的に求めることを考える – 仮説7:あるテスト⽤路線TE1と各学習⽤路線(Y1〜Y5)との距離が近い 路線ほど、予測結果は似た結果になるはずである – 近さを類似度とみなし、学習⽤5路線の予測結果を類似度に基づく重み 付き平均としてTE1の予測とする – 類似度の計算には、駅データ[1]から路線にある各駅の緯度・経度デー タを利⽤し、ウォード法に基づき各テスト⽤路線と学習⽤路線との類 似度を求めた。類似度は合計して1になるように正規化した • Adaboostを利⽤したが、学習時のLoglossが⼤きく過学習傾向にあったた め最終結果には利⽤していない。より予測精度の⾼いとされている勾配ブ ースティングを利⽤することが今後の課題である • また、モデルのアンサンブル重みをヒューリスティックに決定したが、 Neural Networkを利⽤した最適化[2]や逐次⼆次計画法を適⽤し、数値計 算の効果を確認することも今後の課題である [1]駅データ:http://www.ekidata.jp/ [2] Finding Optimal Weights of Ensemble Learner using Neural Network: https://www.analyticsvidhya.com/blog/2015/08/optimal-weights-ensemble-learner-neural-network/