Más contenido relacionado
La actualidad más candente (20)
経験ベイズ木(IBIS 2017)
- 1. T1-05 : 経験ベイズ木 関野正志
masashi_sekino@so-netmedia.jp
ノードの出力を確率分布でモデル化して、ベイズ推定で統一的に扱う決定木を提案します。
決定木 経験ベイズ木
• 二値/カテゴリカル
(二値/多クラス分類木)
• 連続値
(二乗誤差に基づく回帰木)
タスクに応じた確率分布
ベルヌーイ分布、正規分布、
ポアソン分布、指数分布・・
• 交差エントロピー
• Gini係数
周辺尤度ルール
検証データ
ノードの出力
(扱う課題)
分割の規準
分割の停止
枝刈りの規準
ベイズ推定
決定木の良さ
を活かしつつ
パラメータフリー化!
任意の分布に
一般化!
- 3. 背景 決定木の利点と課題
最大深さ
親ノードの最小サイズ 子ノードの最小サイズ 子ノードの最小比率
子ノードの最大数最小ゲイン
識別タスク 回帰タスク
タスク専用の評価基準
・ 平均情報量
・ Gini係数
二乗誤差
課題1: 決定木はタスクが限定されている。
課題2: 分割停止のルールがたくさんある。
決定木
• データの標準化などの前処理が要らない。
• 前向き解法で大規模データに適用しやすい。
• 学習したモデルの可読性が高い。
=実務上、モデルの挙動を確認しやすい。
• 組み合わせ特徴量の探索にも使える。
100サンプル
10サンプル 90サンプル
20サンプル 70サンプル
広告主サイト
訪問あり
広告主サイト
訪問なし
類似広告
クリック歴なし
類似広告
クリック歴ありクリック率
高い!
クリック率
なかなか!
クリック率
低い!
など
実用上とても使いやすいモデル!
- 8. ブートストラップ
複製データ1
ブートストラップ
複製データT
予測値
Random Empirical Bayesian Trees
Random Forest
• 学習データのブートストラップ複製を用いて、要素木を
学習する。
• 要素木の各分割ステップにおいて、説明変数全てから探
索するのではなく、いくつかのランダムに選択した説明
変数の中で探索する。
• 分類タスクでは予測ラベルの多数決、回帰タスクでは予
測値の平均を出力する。
Random Empirical Bayesian Trees
• 分割の停止に関しては経験ベイズ木に任せる。
• 要素木の本数、分割に用いる説明変数の個数はREBTでも
ハイパーパラメータとなる。
要素木として経験
ベイズ木を用いる
学習データ
・・・
学習 学習
・・・
予測 予測
単独予測値 ・・・ 単独予測値
多数決/平均
- 12. • 決定木の分割の規準を対数周辺尤度に置き換える経験ベイズ木を提案
• 経験ベイズ木は
• 出力の分布を任意の分布に一般化
• 検証データを用意せずに、対数周辺尤度を規準に枝刈りする手法を提案
• 対数周辺尤度を規準に、連続値説明変数をMulti-splitする手法も提案
• ベンチマークテストの結果、
• 多分木よりも2分木+枝刈りの性能が良い。
• 2クラス分類、回帰タスクでは経験ベイズ木とREBTはそれぞれ深さを
最適化した決定木やランダムフォレストと同等程度
• 多クラス分類ではカテゴリカル分布を用いる経験ベイズ木とREBTがそ
れぞれ深さを最適化した決定木やランダムフォレストよりも高精度と
なった。
• 多クラス分類では1対他学習がよく取られる方法であるが、これに対
応するマルチベルヌーイよりもカテゴリカル分布での性能が良かった。
まとめ