Más contenido relacionado
La actualidad más candente (20)
Similar a 確率統計-機械学習その前に (20)
確率統計-機械学習その前に
- 12. 回帰分析でわかること
傾きと切片
結果=傾き✕原因+切片
原因=説明変数、結果=目的変数、傾きは係数、切片は定数項と呼ばれる
先ほどの例だと「人時工数=97✕機能数+25000 」
切片は常に0と仮定し原点を通る前提で求めることも出来る
傾きや切片はEXCELを使うと簡単に求められる。
決定係数(R2)
当てはまりの良さを表す指標値。1に近いほど当てはまりはいい
おおむね相関係数の2乗と捉えていい(厳密にはいろいろある)
先ほどの例だと R2 = 0.08 ⇒ 当てはまりは良くない
決定係数もEXCELで簡単に求められる
有意性(p値)
効果がないのに効果があるとしてしまっていないかを判断する指標値。小さいほど有
意性が高い。
一般に p値<0.05 以下で統計的有意であると呼ばれる(5%有意)
先ほどの例だと p値 =0.00000002 ⇒ 有意
p値などを求める場合は、RやPythonを使う(EXCELでも計算できなくはない) 12
- 21. じゃあ、どうすればいいの?
1. 他の方法を使う
効果量の信頼区間:統計学者おすすめの方式
効果量:サンプル数に依存せずに関係の強さを表すことができる指標
ベイズ統計を使う:仮説が正しい確率を直接的に計算できる
⇒ いずれも p値ほど簡単に使えるものではない
2. 気にしない
論文書くならともかく、業務ならもっとカジュアルに使えばいい
たいていの場合、因果関係があるかないかは自ずと明らか
データを眺めるだけでも気づきがある
そもそも、未知の要因は無数にあるため、因果関係を機械的な方法だ
けで判定するのは無理がある
とはいえ、因果関係がある! と決めつける前に「そうでない可能
性」がないかは検討したほうがいい
特に時系列データには注意が必要 21
- 27. 参考文献
Takashi J. OZAKI「統計学と機械学習の違い」はどう論じたら良いのか」
http://tjo.hatenablog.com/entry/2015/09/17/190000
佐藤俊夫「回帰分析の語源」
http://satotoshio.net/blog/?p=1264
林岳彦「因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ」など
http://takehiko-i-hayashi.hatenablog.com/entry/20130418/1366232166
http://takehiko-i-hayashi.hatenablog.com/entry/20130902/1378119705
アレックス・ラインハート「ダメな統計学」
http://id.fnshr.info/2014/12/17/stats-done-wrong-toc/
himaginary「新発見の統計的有意性のp値の閾値は5%から0.5%に下げよ」
http://d.hatena.ne.jp/himaginary/20170829/Redefine_Statistical_Significance
Logics_of_Blue「時系列データへの回帰分析」
https://logics-of-blue.com/time-series-regression/
27