SlideShare una empresa de Scribd logo
1 de 49
あたらしい相関係数
“MIC”の解説

名前:馬場真哉
Webサイト: logics of blue で検索!
http://logics-of-blue.com/
1
Caution!
私の主観的な見方で読み解いたものです
正確な表現ではないかもしれません

「分かり易さ」を最重視しました。

2
参考にした論文
Detecting Novel Associations in
Large Data Sets
Reshef, David N., et al.
science 334.6062 (2011): 1518-1524.

3
どんな論文?
相関係数の論文です
相関なし

相関あり

4
地味な研究に見えますか?

実はとってもすごい相関係数の論文です!
どこがすごいの・・・?

5
①Scienceに載った

6
②Scienceに推薦論文が載った

7
③たくさん引用された

4.3

日 回

被引用件数132(byGoogle,2013年7月2日時点)
発表されてから570日経過(2013年7月8日現在)
8
相関係数の一体何がすごいの?

Big Data

の台頭

(論文の中ではLarge Data Setsと記載)
9
データの構造はグラフで分かる?
変数

組み合わせ

10 個

100

45通り

4950

個

1000

個

通り

499500

通り
10
2変数間の関係性の指標を提示します

MIC
(Maximum Information Coefficient)
11
発表の順序

① MICって何?

② MICで計測
③実データで MIC

12
13
MICでできること

• 関係性の有無の検出
𝑅 2 とよく似た値
検定可能

• 散布図の形状が(大体)わかる
MASなど別の指標も利用
14
MICの考え方:相関があるとは?

X

X

相関なし

相関あり
15
MICの考え方:相関があるとは?

X

X

相関なし

相関あり
16
MICの哲学
もしも2つの変数間に相関があるなら
データを要約するように
データを分割するグリッドを引ける
17
マス目関係なし

全てのマスのうち
7マスにしかデータがない

相関なし

相関あり
18
マス目に合わせているかどうかの判別

MI を使用
Mutual Information : 相互情報量

𝑰 𝑿; 𝒀 =

𝒑 𝒙, 𝒚
𝒑 𝒙, 𝒚 𝒍𝒐𝒈
𝒑 𝒙 𝒑 𝒚
19
マス目に合わせているかどうかの判別

MI を使用
Mutual Information : 相互情報量

不確実性の減少量
不確実性とは?
20
どこの箱にデータが入っている?
左

真

右

不確実性

①

大

②

中

③

小
21
ⅩによってYの不確実性は減少したか?

左

真

右

?

?

?

MI低

X

左

真

右

下

上

中

X

MI高
22
MI低

左

真

MI高

右

X

左

真

右

X

マス目関係なし

マス目に収まった!

相関なし

相関あり

23
今までのまとめ~相関が得られるまで~

マス目

データを要約する
マス目が引けたか
判別する
MI
24
MICの哲学
もしも2つの変数間に相関があるなら
データを要約するように
データを分割できるグリッドを引ける

どうやって線を引く?
最大情報量規準
25
ダメな分け方

左

右

?

良い分け方

?

X

情報量増えてない

左

右

?

下

X

ちょっとわかった!
26
Reshef et al(2011) より転載

27
線を増やしても
意味がない

Reshef et al(2011) より転載して一部改編

28
おまけ
• 線はサンプルサイズの0.6乗まで増やす
• 線を増やしてもMIが増えるとは限らない
• MIは最大値が1になるよう標準化

29
結果

Reshef et al(2011) より転載して一部改編
MICの特徴
•

0~1の間に収まる
𝑅2 とよく似た値

•

完全な関数形なら必ず1

•

検定できる(シミュレーションの利用)

•

X~YもY~Xも同じ値になる(対称)
31
MICの分類

MINE の一種
Maximum Information-based Nonparametric exploration
情報量最大化ベースのノンパラメトリックな探究

MINEの仲間たち
MIC ・ MAS ・ MIC − 𝝆 𝟐
32
散布図の「形」を見分ける指数

• MAS
グリッドの本数をⅩとYで逆にした時と
通常のMICの差の大きさ
単調性の指標

•

𝟐
MIC−𝝆
MICとピアソンの積率相関係数との差
非線形性の指標
33
② MICで計測

34
Reshef et al(2011) より転載して一部改編

関数の形

35
Reshef et al(2011) より転載して一部改編

関数の形

全て識別できた

36
MIC VS 平滑化スプライン
散布図に滑らかな線を引く

平滑化スプラインの𝑹 𝟐 を使えば十分?
37
Reshef et al(2011) より転載して一部改編

MIC
0.80

関係性のタイプ

0.65

0.50

0.35

ノイズ付与

38
Reshef et al(2011) より転載して一部改編

MIC
0.80

関係性のタイプ

0.65

0.50

0.35

ノイズ付与

MICは線が2本あってもOK
39
Reshef et al(2011) より転載して一部改編

MIC VS 通常のMI(相互情報量)
MIC = 1

MIC = 0.6

MI = 1
MI = 0.5
40
Reshef et al(2011) より転載して一部改編

MIC
MIC VS 通常のMI(相互情報量)
完璧!
MIC = 1

MIC = 0.6
MI

にょろにょろに弱い

MI = 1
MI = 0.5
41
MIC はなぜ「にょろにょろ」に強いの?
Ans.

各々の箱の中は結構不確実
MICは箱の中のばらつきを考慮しないから

42
やや論文から離れますが・・・

箱の中のばらつきを考慮しなくて大丈夫?

MICはどうなる?
43
Rでやってみた by Package “minerva”
データ
para <- 20
x2 <- c(rnorm(n=50, mean=10, sd=para), rnorm(n=50, mean=200, sd=para))
y2 <- c(rnorm(n=50, mean=10, sd=para), rnorm(n=50, mean=200, sd=para))

結果

MIC = 1
普段使う「相関」とはやや趣が異なる様子
44
③実データで MIC
• WHOの社会データ
• 腸内細菌叢データ
(本当はもっとたくさんあるけど省略)

45
Reshef et al(2011) より転載して一部改編

成人女性の肥満度(%)

怪我による年間死亡数

WHOの社会データ
(357個の変数・63546通りの組み合わせ)

1000人当たり歯医者の密度

相関なし

収入/人口

相関あり

46
腸内細菌叢データ
MIC−𝝆 𝟐 で細菌の共生関係を調べる
B種

B種

A種

A種

線形

非線形

共存

非共存

47
Reshef et al(2011) より転載して一部改編

腸内細菌叢データ
MIC−𝝆 𝟐 で細菌の共生関係を調べる

OTU5948の密度(%)

非線形性の指標

OTU710の密度(%)

48
Big Data
MIC
MICはBig Data解析に便利……かも。
49

Más contenido relacionado

La actualidad más candente

相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心takehikoihayashi
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性Ichigaku Takigawa
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展Shiga University, RIKEN
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列Kenjiro Sugimoto
 
Graph Neural Networks
Graph Neural NetworksGraph Neural Networks
Graph Neural Networkstm1966
 
研究の基本ツール
研究の基本ツール研究の基本ツール
研究の基本ツール由来 藤原
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリングmlm_kansai
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量についてla_flance
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?hoxo_m
 
クラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリングクラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリングHiroshi Nakagawa
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方Shinagawa Seitaro
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 

La actualidad más candente (20)

相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列
 
正準相関分析
正準相関分析正準相関分析
正準相関分析
 
Graph Neural Networks
Graph Neural NetworksGraph Neural Networks
Graph Neural Networks
 
研究の基本ツール
研究の基本ツール研究の基本ツール
研究の基本ツール
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量について
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
クラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリングクラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリング
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 

Más de logics-of-blue

予測理論とpredictability
予測理論とpredictability予測理論とpredictability
予測理論とpredictabilitylogics-of-blue
 
2 7.一般化線形混合モデル
2 7.一般化線形混合モデル2 7.一般化線形混合モデル
2 7.一般化線形混合モデルlogics-of-blue
 
2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデルlogics-of-blue
 
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデルlogics-of-blue
 
2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰logics-of-blue
 
2 5 1.一般化線形モデル色々_CPUE標準化
2 5 1.一般化線形モデル色々_CPUE標準化2 5 1.一般化線形モデル色々_CPUE標準化
2 5 1.一般化線形モデル色々_CPUE標準化logics-of-blue
 
2 4.devianceと尤度比検定
2 4.devianceと尤度比検定2 4.devianceと尤度比検定
2 4.devianceと尤度比検定logics-of-blue
 
2 2.尤度と最尤法
2 2.尤度と最尤法2 2.尤度と最尤法
2 2.尤度と最尤法logics-of-blue
 
2 1.予測と確率分布
2 1.予測と確率分布2 1.予測と確率分布
2 1.予測と確率分布logics-of-blue
 
1 6.変数選択とAIC
1 6.変数選択とAIC1 6.変数選択とAIC
1 6.変数選択とAIClogics-of-blue
 
1 5.パラメトリックブートストラップ検定と確率分布
1 5.パラメトリックブートストラップ検定と確率分布1 5.パラメトリックブートストラップ検定と確率分布
1 5.パラメトリックブートストラップ検定と確率分布logics-of-blue
 
1 4.回帰分析と分散分析
1 4.回帰分析と分散分析1 4.回帰分析と分散分析
1 4.回帰分析と分散分析logics-of-blue
 
1 3.分散分析 anova
1 3.分散分析 anova1 3.分散分析 anova
1 3.分散分析 anovalogics-of-blue
 

Más de logics-of-blue (18)

予測理論とpredictability
予測理論とpredictability予測理論とpredictability
予測理論とpredictability
 
2 7.一般化線形混合モデル
2 7.一般化線形混合モデル2 7.一般化線形混合モデル
2 7.一般化線形混合モデル
 
2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル
 
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
 
2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰
 
2 5 1.一般化線形モデル色々_CPUE標準化
2 5 1.一般化線形モデル色々_CPUE標準化2 5 1.一般化線形モデル色々_CPUE標準化
2 5 1.一般化線形モデル色々_CPUE標準化
 
2 4.devianceと尤度比検定
2 4.devianceと尤度比検定2 4.devianceと尤度比検定
2 4.devianceと尤度比検定
 
2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
 
2 2.尤度と最尤法
2 2.尤度と最尤法2 2.尤度と最尤法
2 2.尤度と最尤法
 
2 1.予測と確率分布
2 1.予測と確率分布2 1.予測と確率分布
2 1.予測と確率分布
 
1 8.交互作用
1 8.交互作用1 8.交互作用
1 8.交互作用
 
1 7.Type II ANOVA
1 7.Type II ANOVA1 7.Type II ANOVA
1 7.Type II ANOVA
 
1 6.変数選択とAIC
1 6.変数選択とAIC1 6.変数選択とAIC
1 6.変数選択とAIC
 
1 5.パラメトリックブートストラップ検定と確率分布
1 5.パラメトリックブートストラップ検定と確率分布1 5.パラメトリックブートストラップ検定と確率分布
1 5.パラメトリックブートストラップ検定と確率分布
 
1 4.回帰分析と分散分析
1 4.回帰分析と分散分析1 4.回帰分析と分散分析
1 4.回帰分析と分散分析
 
1 3.分散分析 anova
1 3.分散分析 anova1 3.分散分析 anova
1 3.分散分析 anova
 
1 2.t検定
1 2.t検定1 2.t検定
1 2.t検定
 
1 1.はじめに
1 1.はじめに1 1.はじめに
1 1.はじめに
 

MICの解説