SlideShare una empresa de Scribd logo
1 de 12
Descargar para leer sin conexión
T1-05 : 経験ベイズ木 関野正志
masashi_sekino@so-netmedia.jp
ノードの出力を確率分布でモデル化して、ベイズ推定で統一的に扱う決定木を提案します。
決定木 経験ベイズ木
• 二値/カテゴリカル
(二値/多クラス分類木)
• 連続値
(二乗誤差に基づく回帰木)
タスクに応じた確率分布
ベルヌーイ分布、正規分布、
ポアソン分布、指数分布・・
• 交差エントロピー
• Gini係数
周辺尤度ルール
検証データ
ノードの出力
(扱う課題)
分割の規準
分割の停止
枝刈りの規準
ベイズ推定
決定木の良さ
を活かしつつ
パラメータフリー化!
任意の分布に
一般化!
提案法の位置づけ
経験ベイズ木
一般化線形
モデル
出力の分布を任意の分布に
一般化した決定木モデル
出力の分布を任意の分布に
一般化した線形モデル
ノンパラベイズ
要素分布について周辺化して
サンプル割り当てについて解
くという点で共通
アンサンブル学習
Random Forest, GBDT, etc.
決定木の替わりに、経験ベ
イズ木を弱学習器に用いる
アンサンブル学習も可能
背景 決定木の利点と課題
最大深さ
親ノードの最小サイズ 子ノードの最小サイズ 子ノードの最小比率
子ノードの最大数最小ゲイン
識別タスク 回帰タスク
タスク専用の評価基準
・ 平均情報量
・ Gini係数
二乗誤差
課題1: 決定木はタスクが限定されている。
課題2: 分割停止のルールがたくさんある。
決定木
• データの標準化などの前処理が要らない。
• 前向き解法で大規模データに適用しやすい。
• 学習したモデルの可読性が高い。
=実務上、モデルの挙動を確認しやすい。
• 組み合わせ特徴量の探索にも使える。
100サンプル
10サンプル 90サンプル
20サンプル 70サンプル
広告主サイト
訪問あり
広告主サイト
訪問なし
類似広告
クリック歴なし
類似広告
クリック歴ありクリック率
高い!
クリック率
なかなか!
クリック率
低い!
など
実用上とても使いやすいモデル!
アプローチ ベイズ推定
周辺尤度
予測分布
尤度 事前分布
・・事後分布による期待値
確率モデル:
事後分布
・・ベイズの定理
• モデル(確率モデル、事前分布)
とベイズの定理から自然に導出さ
れる推定法
• 簡単に実現できる分布は限られる
が、モデルが適切なら一般的に高
精度になることが多い。
経験ベイズ法
複数のモデルがあるとき、データ全体
がひとつのモデルから得られていると
したときの、モデルの事後分布:
周辺尤度を最大化するモデルを選ぶ(経験ベイズ法)
ベイズ推定における
モデルの良さを測る尺度 事後確率最大化でモデルをひとつ選ぶ
提案法 経験ベイズ木
経験ベイズ木
学習データ全体決定木
学習データを説明変数で分割して、別々の予測値を割り当てるモデル
木全体の対数周辺尤度=葉ノードの対数周辺尤度の和
⇒ 決定木の分割の規準を対数周辺尤度で置き換える。
決定木
20
70
10
広告主サイト
訪問あり
広告主サイト
訪問なし
類似広告
クリック歴なし
類似広告
クリック歴あり
平均クリック率
高い!
平均クリック率
なかなか!
平均クリック率
低い!
100サンプル
10サンプル 90サンプル
20サンプル 70サンプル
広告主サイト
訪問あり
広告主サイト
訪問なし
類似広告
クリック歴なし
類似広告
クリック歴ありクリック率
高い!
クリック率
なかなか!
クリック率
低い!
20
70
10
広告主サイト
訪問あり
広告主サイト
訪問なし
類似広告
クリック歴なし
類似広告
クリック歴あり
クリック率
の予測分布
出力を平均値でなく
分布でモデル化
クリック率
の予測分布
クリック率
の予測分布
分割停止は対数周辺尤度に基づいて決定できる!
タスクに応じた任意の分布を用いることができる!
決定木学習アルゴリズム
指数型分布族の対数周辺尤度
• 各説明変数の各区切り位置で分割したときの
gainを計算
⇒ 高速に評価可能でないと厳しい
• 既存の決定木で用いられている平均情報量・
Gini係数などは、1サンプル出し入れしたとき
の評価値は、1サンプル分の値の足し引きで計
算できる。
平均情報量
Gini係数
ベルヌーイ分布
正規分布
指数型分布族の対数周辺尤度は十分統計量
の和で計算でき、サンプルを出し入れした
ときの値も高速に評価可能
変えるのはここ!
周辺尤度に基づく枝刈り/Multi-Split
周辺尤度に基づく枝刈り
• 決定木全体の対数周辺尤度は葉ノードの対数周辺尤度
の和であり、これを最大化するように枝刈りする。
• 葉ノードから自身以降の部分木の最大対数周辺尤度を
計算して親に渡していき、親単独の対数周辺尤度が、
子ノードの最大対数周辺尤度の和を上回る場合に枝刈
り(子を除く)していくことで、木全体の対数周辺尤
度を最大化する。
連続値説明変数のMulti-Split
• 二分割ではgainが得られないが、多分割であれば大きな
gainが得られる可能性がある。
• そこで、連続値説明変数を分割位置の探索時に、全ての
異なる値を別のノードとする状態から、Greedyに周辺尤
度を増加させるようにマージを繰り返すことで、連続値
説明変数に対する複数の区切り位置を求め、多分木
(Multi-split tree)を構成する。
ブートストラップ
複製データ1
ブートストラップ
複製データT
予測値
Random Empirical Bayesian Trees
Random Forest
• 学習データのブートストラップ複製を用いて、要素木を
学習する。
• 要素木の各分割ステップにおいて、説明変数全てから探
索するのではなく、いくつかのランダムに選択した説明
変数の中で探索する。
• 分類タスクでは予測ラベルの多数決、回帰タスクでは予
測値の平均を出力する。
Random Empirical Bayesian Trees
• 分割の停止に関しては経験ベイズ木に任せる。
• 要素木の本数、分割に用いる説明変数の個数はREBTでも
ハイパーパラメータとなる。
要素木として経験
ベイズ木を用いる
学習データ
・・・
学習 学習
・・・
予測 予測
単独予測値 ・・・ 単独予測値
多数決/平均
CV精度が最も良い深さの決定木/ランダムフォレストとほぼ同等の精度
2クラス分類
二分木+枝刈り
経験ベイズ木
多分木 二分木+枝刈り
Random EBTs
多分木
決定木
ランダム
フォレスト
深さがベストな決定木との対戦結果 深さがベストなRFとの対戦結果
カテゴリカル分布を用いる二分木+枝刈りの経験ベイズ木/REBTが高精度
多クラス分類
二分木+枝刈り 多分木
マルチベルヌー
イ
カテゴリカル マルチベルヌー
イ
カテゴリカル
経験ベイズ木
決定木
二分木+枝刈り 多分木
マルチベルヌー
イ
カテゴリカル マルチベルヌー
イ
カテゴリカル
Random EBTs
ランダム
フォレスト
経験ベイズ木はCV-MSEが最も良い決定木と同等、二分木+枝狩りのREBTが高精度
回帰タスク
二分木+枝刈り
経験ベイズ木
多分木
決定木
ランダム
フォレスト 二分木+枝刈り
Random EBTs
多分木
• 決定木の分割の規準を対数周辺尤度に置き換える経験ベイズ木を提案
• 経験ベイズ木は
• 出力の分布を任意の分布に一般化
• 検証データを用意せずに、対数周辺尤度を規準に枝刈りする手法を提案
• 対数周辺尤度を規準に、連続値説明変数をMulti-splitする手法も提案
• ベンチマークテストの結果、
• 多分木よりも2分木+枝刈りの性能が良い。
• 2クラス分類、回帰タスクでは経験ベイズ木とREBTはそれぞれ深さを
最適化した決定木やランダムフォレストと同等程度
• 多クラス分類ではカテゴリカル分布を用いる経験ベイズ木とREBTがそ
れぞれ深さを最適化した決定木やランダムフォレストよりも高精度と
なった。
• 多クラス分類では1対他学習がよく取られる方法であるが、これに対
応するマルチベルヌーイよりもカテゴリカル分布での性能が良かった。
まとめ

Más contenido relacionado

La actualidad más candente

グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
 
5分でわかるベイズ確率
5分でわかるベイズ確率5分でわかるベイズ確率
5分でわかるベイズ確率
hoxo_m
 

La actualidad más candente (20)

PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
 
色々な確率分布とその応用
色々な確率分布とその応用色々な確率分布とその応用
色々な確率分布とその応用
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
5分でわかるベイズ確率
5分でわかるベイズ確率5分でわかるベイズ確率
5分でわかるベイズ確率
 
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギー
 
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布について
 
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
「全ての確率はコイン投げに通ず」 Japan.R 発表資料「全ての確率はコイン投げに通ず」 Japan.R 発表資料
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータStanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
 

Destacado

Destacado (7)

大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理
 
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
 
Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料
 
失敗から学ぶ データ分析グループの チームマネジメント変遷 (デブサミ2016) #devsumi
失敗から学ぶデータ分析グループのチームマネジメント変遷 (デブサミ2016) #devsumi失敗から学ぶデータ分析グループのチームマネジメント変遷 (デブサミ2016) #devsumi
失敗から学ぶ データ分析グループの チームマネジメント変遷 (デブサミ2016) #devsumi
 
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
 
ニューラル機械翻訳の動向@IBIS2017
ニューラル機械翻訳の動向@IBIS2017ニューラル機械翻訳の動向@IBIS2017
ニューラル機械翻訳の動向@IBIS2017
 
SlideShare 101
SlideShare 101SlideShare 101
SlideShare 101
 

経験ベイズ木(IBIS 2017)