SlideShare una empresa de Scribd logo
1 de 21
Descargar para leer sin conexión
ハイブリッド型樹木法
Tokyo.R #40
2014.6.14
元ネタ
2
Rで学ぶデータサイエンス
樹木構造接近法(共立出版)
2.3節・・・ハイブリッド型樹木法
「樹木構造接近法」???
「ハイブリッド型樹木法」???
用語的に特殊かも
ハイブリッド型樹木法決定木
3
本来は・・・「モデルに基づく再帰分割法」
model based recursive partition
ややこしければ、「決定木学習と回帰分析のハイブリッド」と思ってもOK
決定木学習とは
目的変数と説明変数のデータから木構造の分類器を生成
トップダウンに、再帰的に、データを分割していく
分割基準
Information Gain (C4.5)
Gini係数 (CART)
検定統計量 (CHAID)
4
Irisに決定木学習
5
連続値に対して決定木学習
6
※ "cars"データにmvpartを適用
あまり適しているとはいえない・・・
線形性があるデータは回帰分析が適切
7
dist = 3.93 × speed - 17.6
モデルに基づく再帰分割
8
一般の決定木の分割基準
Information Gain C4.5
Gini係数 CART
検定統計量 CHAID
他の分割基準を採用することもできる
 下位モデルとして回帰式を採用
 分割した時に2つの回帰式の残差平方和が最小になるように分割
 適切な複数の回帰式になるようにデータを分割する
決定木学習と回帰分析
・・・ ローテクな組み合わせ?
9
決定木学習は使われている
10
決定木学習!
2006年にデータマイニング学会IEEE ICDMで選ばれた
「データマイニングで使われるトップ10アルゴリズム」
回帰も使われている
11
Top2!
http://www.kdnuggets.com/polls/2011/algorithms-analytics-data-mining.html
本題の
ハイブリッド型決定木
12
テストデータ・・・Boston
13
crim zn indus chas nox rm age dis rad tax ptratio black lstat medv
1 0.00632 18 2.31 0 0.538 6.575 65.2 4.0900 1 296 15.3 396.90 4.98 24.0
2 0.02731 0 7.07 0 0.469 6.421 78.9 4.9671 2 242 17.8 396.90 9.14 21.6
3 0.02729 0 7.07 0 0.469 7.185 61.1 4.9671 2 242 17.8 392.83 4.03 34.7
4 0.03237 0 2.18 0 0.458 6.998 45.8 6.0622 3 222 18.7 394.63 2.94 33.4
5 0.06905 0 2.18 0 0.458 7.147 54.2 6.0622 3 222 18.7 396.90 5.33 36.2
6 0.02985 0 2.18 0 0.458 6.430 58.7 6.0622 3 222 18.7 394.12 5.21 28.7
medv 持ち家住宅の価格(中央値) 目的変数
rm 平均部屋数 説明(回帰)
ptratio 学生/先生の比率 説明(決定木)
tax 税率 説明(決定木)
nox 窒素酸化物の濃度 説明(決定木)
ボストンの住宅価格のデータ (14変数)
※ 住宅価格が部屋数に比例することは前提
head(Boston)
ライブラリ+データ+回帰分析
14
> install.package(“party”) # partyパッケージをインストール
> library(party) # ライブラリをロード
> data(Boston) # データをロード
> plot(Boston$rm,Boston$medv) # 回帰用データをプロット
> res <- lm(medv~rm, data=Boston) # 回帰分析
> abline(res) # 回帰直線をプロット
住宅価格と部屋数の回帰分析
15
4 5 6 7 8
1020304050
Boston$rm
Boston$medv
※ 決定係数=0.4835で、これだけでも特に悪いわけではない
※ 本ではrmを2乗していますが、ここでは1乗にします(説明のため)
ハイブリッド型決定木の関数:mob
16
> mob_ctl <- mob_control(minsplit=90)
> result <- mob(medv ~ rm | crim+zn+indus+lstat+black+ptratio+rad+tax+age+dis+nox,
data=Boston, control=mob_ctl)
> plot(result)
関数 mob ... MOdel Based recursive partition
書式
mob( y ~ x | a + b + c, data=DATA)
目的変数 説明変数(回帰) 説明変数(決定木)
# シンプルな木にする
ハイブリッド型決定木
17
ptratio
p < 0.001
1
20.1 20.1
tax
p < 0.001
2
265 265
Node 3 (n = 84)
3.1 9.3
1
54
Node 4 (n = 226)
3.1 9.3
1
54
nox
p < 0.001
5
0.668 0.668
Node 6 (n = 111)
3.1 9.3
1
54
Node 7 (n = 85)
3.1 9.3
1
54
学生/先生比
税率 窒素酸化物濃度
各終端ノードの回帰分析結果
18
> summary(result) # 末端ノードの結果が出力される
$`3`
Call:
NULL
Deviance Residuals:
Min 1Q Median 3Q Max
-9.069 0.000 0.000 0.000 11.409
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -53.4271 3.2189 -16.60 <2e-16 ***
rm 12.2871 0.4625 26.57 <2e-16 ***
---
住宅価格と部屋数の回帰分析結果
19
ptratio
p < 0.001
20.1 20.1
tax
p < 0.001
2
265 265
Node 3 (n = 84)
3.1 9.3
1
54
Node 4 (n = 226)
3.1 9.3
1
54
nox
p < 0.001
5
0.668 0.668
Node 6 (n = 111)
3.1 9.3
1
54
Node 7 (n = 85)
3.1 9.3
1
54
決定係数 0.86 0.78 0.06 0.03
傾き 11.9 10.0 3.50 1.22
Pr (t) <2e-16 <2e-16 0.007 0.11
※ Node3では、一部屋増えると $11,900価格が上がる
※ Node7では、rmを用いた回帰分析は妥当ではない
20
4 5 6 7 8
1020304050
Boston$rm
Boston$medv
まとめ
ハイブリッド型樹木法: データを複数の回帰モデルに分割
ptratio
p < 0.001
1
20.1 20.1
tax
p < 0.001
2
265 265
Node 3 (n = 84)
3.1 9.3
1
54
Node 4 (n = 226)
3.1 9.3
1
54
nox
p < 0.001
5
0.668 0.668
Node 6 (n = 111)
3.1 9.3
1
54
Node 7 (n = 85)
3.1 9.3
1
54
ご清聴ありがとうございました
21

Más contenido relacionado

La actualidad más candente

[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)Ryosuke Sasaki
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件Shinobu KINJO
 
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数Deep Learning JP
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5matsuolab
 
PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)tetsuro ito
 
分類問題 - 機械学習ライブラリ scikit-learn の活用
分類問題 - 機械学習ライブラリ scikit-learn の活用分類問題 - 機械学習ライブラリ scikit-learn の活用
分類問題 - 機械学習ライブラリ scikit-learn の活用y-uti
 
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1Len Matsuyama
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半Ohsawa Goodfellow
 
2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰logics-of-blue
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)Tatsuya Yokota
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4Takeshi Sakaki
 
[機械学習]文章のクラス分類
[機械学習]文章のクラス分類[機械学習]文章のクラス分類
[機械学習]文章のクラス分類Tetsuya Hasegawa
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論sleepy_yoshi
 
(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot Learning(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot LearningMasahiro Suzuki
 
ImageJを使った画像解析実習〜大量の画像データに対する処理の自動化〜
ImageJを使った画像解析実習〜大量の画像データに対する処理の自動化〜ImageJを使った画像解析実習〜大量の画像データに対する処理の自動化〜
ImageJを使った画像解析実習〜大量の画像データに対する処理の自動化〜LPIXEL
 

La actualidad más candente (20)

[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
 
変分法
変分法変分法
変分法
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件
 
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5
 
PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)
 
CMSI計算科学技術特論B(8) オーダーN法1
 CMSI計算科学技術特論B(8) オーダーN法1 CMSI計算科学技術特論B(8) オーダーN法1
CMSI計算科学技術特論B(8) オーダーN法1
 
決定木学習
決定木学習決定木学習
決定木学習
 
PRML11章
PRML11章PRML11章
PRML11章
 
分類問題 - 機械学習ライブラリ scikit-learn の活用
分類問題 - 機械学習ライブラリ scikit-learn の活用分類問題 - 機械学習ライブラリ scikit-learn の活用
分類問題 - 機械学習ライブラリ scikit-learn の活用
 
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
 
1 7.Type II ANOVA
1 7.Type II ANOVA1 7.Type II ANOVA
1 7.Type II ANOVA
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
 
[機械学習]文章のクラス分類
[機械学習]文章のクラス分類[機械学習]文章のクラス分類
[機械学習]文章のクラス分類
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
 
(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot Learning(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot Learning
 
ImageJを使った画像解析実習〜大量の画像データに対する処理の自動化〜
ImageJを使った画像解析実習〜大量の画像データに対する処理の自動化〜ImageJを使った画像解析実習〜大量の画像データに対する処理の自動化〜
ImageJを使った画像解析実習〜大量の画像データに対する処理の自動化〜
 

Destacado

Dynamic panel in tokyo r
Dynamic panel in tokyo rDynamic panel in tokyo r
Dynamic panel in tokyo rShota Yasui
 
20140614 tokyo r lt
20140614 tokyo r lt 20140614 tokyo r lt
20140614 tokyo r lt tetsuro ito
 
チェビシェフの不等式
チェビシェフの不等式チェビシェフの不等式
チェビシェフの不等式hoxo_m
 
独立成分分析とPerfume
独立成分分析とPerfume独立成分分析とPerfume
独立成分分析とPerfumeYurie Oka
 
rstanで個人のパラメーターを推定した話
rstanで個人のパラメーターを推定した話rstanで個人のパラメーターを推定した話
rstanで個人のパラメーターを推定した話Yuya Matsumura
 
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてエクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてHiroshi Shimizu
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編Hiroshi Shimizu
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木 Miyoshi Yuya
 

Destacado (12)

Dynamic panel in tokyo r
Dynamic panel in tokyo rDynamic panel in tokyo r
Dynamic panel in tokyo r
 
Tokyo r38
Tokyo r38Tokyo r38
Tokyo r38
 
20140614 tokyo r lt
20140614 tokyo r lt 20140614 tokyo r lt
20140614 tokyo r lt
 
Tokyo r39 beginner
Tokyo r39 beginnerTokyo r39 beginner
Tokyo r39 beginner
 
TokyoR40
TokyoR40TokyoR40
TokyoR40
 
R勉強会40回lt
R勉強会40回ltR勉強会40回lt
R勉強会40回lt
 
チェビシェフの不等式
チェビシェフの不等式チェビシェフの不等式
チェビシェフの不等式
 
独立成分分析とPerfume
独立成分分析とPerfume独立成分分析とPerfume
独立成分分析とPerfume
 
rstanで個人のパラメーターを推定した話
rstanで個人のパラメーターを推定した話rstanで個人のパラメーターを推定した話
rstanで個人のパラメーターを推定した話
 
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてエクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについて
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 

Similar a ハイブリッド型樹木法

データとは何か
データとは何かデータとは何か
データとは何かKenta Suzuki
 
Random Forest による分類
Random Forest による分類Random Forest による分類
Random Forest による分類Ken'ichi Matsui
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法Satoshi Hara
 
GRASSセミナー応用編
GRASSセミナー応用編GRASSセミナー応用編
GRASSセミナー応用編Kanetaka Heshiki
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333Issei Kurahashi
 
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)Tatsuya Yokota
 
Sec15 dynamic programming
Sec15 dynamic programmingSec15 dynamic programming
Sec15 dynamic programmingKeisuke OTAKI
 
M1gp -Who’s (Not) Talking to Whom?-
M1gp -Who’s (Not) Talking to Whom?-M1gp -Who’s (Not) Talking to Whom?-
M1gp -Who’s (Not) Talking to Whom?-Takashi Kawamoto
 
第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)Wataru Shito
 
研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法Takeshi Yamamuro
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 

Similar a ハイブリッド型樹木法 (16)

データとは何か
データとは何かデータとは何か
データとは何か
 
20150329 tokyo r47
20150329 tokyo r4720150329 tokyo r47
20150329 tokyo r47
 
Random Forest による分類
Random Forest による分類Random Forest による分類
Random Forest による分類
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
GRASSセミナー応用編
GRASSセミナー応用編GRASSセミナー応用編
GRASSセミナー応用編
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
 
ADVENTURE_Solidの概要
ADVENTURE_Solidの概要ADVENTURE_Solidの概要
ADVENTURE_Solidの概要
 
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
 
Random Forests
Random ForestsRandom Forests
Random Forests
 
Rで学ぶロバスト推定
Rで学ぶロバスト推定Rで学ぶロバスト推定
Rで学ぶロバスト推定
 
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
 
Sec15 dynamic programming
Sec15 dynamic programmingSec15 dynamic programming
Sec15 dynamic programming
 
M1gp -Who’s (Not) Talking to Whom?-
M1gp -Who’s (Not) Talking to Whom?-M1gp -Who’s (Not) Talking to Whom?-
M1gp -Who’s (Not) Talking to Whom?-
 
第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)
 
研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 

ハイブリッド型樹木法