データ解析のための統計モデリング入門3章後半

データ解析のための統計モデリング⼊入⾨門
⼀一般化線形モデル(GLM) 3.5 ~∼ 3.8
Shinya AKiba
2014/06/10

About me
○研究テーマ
スペースデブリの軌道設計
Deeplearningを⽤用いた画像認識識 <-‐‑‒ いまここ
○バイト
ALBERT -‐‑‒ 集計、分析のお仕事。最近はクラスタリング。
○趣味とか
ラグビー、Python、お酒、⿇麻雀
@aki_̲n1wa
秋庭伸也
早稲⽥田⼤大学 -‐‑‒ 機械科学専攻 M2

OUTLINE
□これまでの話
□統計モデルの設計
-‐‑‒ 3.5 因⼦子型の統計モデル
-‐‑‒ 3.6 数量量型 + 因⼦子型の統計モデル
□「あてはまりのよさ」とは
□3.7「何でも正規分布」「何でも直線」には無理理がある
□3.8 まとめ

○2章
-‐‑‒ Rの使い⽅方(summary()、hist()など)
-‐‑‒ 統計モデルの選択(ポアソン分布)
-‐‑‒ 最尤推定(統計モデルのパラメータ推定)
「データ解析のための統計モデリング入門」サポートWebサイトより引用
http://hosho.ees.hokudai.ac.jp/ kubo/ce/IwanamiBook.html
2章はRで最尤推定を
やってみようという話でした。
これまでの話
○3章
-‐‑‒ Rの使い⽅方(glm())
メモ：施肥の読み⽅方 -‐‑‒> せひ

「データ解析のための統計モデリング入門」サポートWebサイトより引用
http://hosho.ees.hokudai.ac.jp/ kubo/ce/IwanamiBook.html
Rの関数:glm()を使って
統計モデルを設計し、
統計モデルごとに対数尤度度を
計算、⽐比較する。
これまでの話
○2章
-‐‑‒ Rの使い⽅方(summary()、hist()など)
○3章
-‐‑‒ Rの使い⽅方(glm())
-‐‑‒ glm()で統計モデルの設計
-‐‑‒ 統計モデルごとに対数尤度度を⽐比較
(general) linear model : (一般)線形モデル
generalized linear model : 一般化線形モデル

統計モデルの設計
3.4 3.6で、いろんな説明変数の組み合わせを考える。
線形予測子体サイズ：x 施肥処理：f
3.4 ○
3.5 ○
3.6 ○ ○
採用する説明変数

3.5 説明変数が因⼦子型の統計モデル
「種⼦子の数:y と施肥処理理(有無):f に関係がある」という仮定
ﬁt.f <-‐‑‒ glm(y ~∼ f, data=d, family=poisson)
0 (施肥処理理無し)
1 (施肥処理理有り)
p.56 本⽂文より
・「肥料料をやると平均種⼦子数がほんの少しだけ増える」と予測している。
線形予測⼦子: パラメータの推定値: 最大対数尤度:
-237.627

3.6 説明変数が数量量型+因⼦子型の統計モデル
「種⼦子の数:y と(体サイズ:x、施肥処理理(有無):f) に関係がある」という仮定
ﬁt.all <-‐‑‒ glm(y ~∼ x+f, data=d, family=poisson)
p.58 本⽂文より
・このモデルではマイナス(肥料料の効果)だと推定されています。
!
3.6.1の対数リンク関数については、p.60の図3.8を参照。
線形予測⼦子: パラメータの推定値: 最大対数尤度:
-236.294

「あてはまりのよさ」とは
3.4 ~∼ 3.6で、計算している「あてはまりのよさ」とは??
-‐‑‒> 統計モデルが、観測データにフィットしているか
次数対数尤度
2 -234.28
3 -234.21
4 -234.12
… …
10 -230.48
(※)「あてはまりのよさ」-‐‑‒> Goodness to fit
参考：http://en.wikipedia.org/wiki/Goodness_̲of_̲fit
線形予測⼦子の次数を増やしていくと…
fit.2 <-‐‑‒ glm(y ~∼ I(x)+I(x^2)+f, data = d, family=poisson)
fit.3 <-‐‑‒ glm(y ~∼ I(x)+I(x^2)+I(x^3)+f, data = d, family=poisson)
…
次数が増えるにつれて、
対数尤度が大きくなっている→

次数対数尤度
2 -234.28
3 -234.21
4 -234.12
… …
10 -230.48
分かったお!
とにかく次数を
おおきくすればいいお!!
3.4 ~∼ 3.6で、計算している「あてはまりのよさ」とは??
-‐‑‒> 統計モデルが、観測データにフィットしているか
線形予測⼦子の次数を増やしていくと…
ﬁt.2 <-‐‑‒ glm(y ~∼ I(x)+I(x^2)+f, data = d, family=poisson)
ﬁt.3 <-‐‑‒ glm(y ~∼ I(x)+I(x^2)+I(x^3)+f, data = d, family=poisson)
…
次数が増えるにつれて、
対数尤度が大きくなっている→

ﬁt.10 <-‐‑‒ glm(y ~∼ I(x)+I(x^2)+I(x^3)+I(x^4)+I(x^5)
+I(x^6)+I(x^7)+I(x^8)+I(x^9)+I(x^10)+f,
data = d, family=poisson)
10次式でモデルを作るお!!

7 8 9 10 11 12
2468101214
d$x
d$y
くねくねだお..
+I(x^6)+I(x^7)+I(x^8)+I(x^9)+I(x^10)+f,

7 8 9 10 11 12
2468101214
d$x
d$y
P.60 本⽂文より
・「妥当なモデル」かどうかは、あてはまりの良良しあし
だけで決まる問題ではありません。
・数式が現象をどのように表現しているのかという点に
注意しながら統計モデルを設計する。
+I(x^6)+I(x^7)+I(x^8)+I(x^9)+I(x^10)+f,
くねくねだお..

3.7「何でも正規分布」「何でも直線」には無理理がある
p.61 図3.9
架空データに対するLM, GLMの適用
!
p.62 本文より
LM
-> 何でも正規分布、x と y は直線関係
GLM(ポアソン分布)
-> カウントデータ、yのばらつきは平均とともに増加

何でも正規分布じゃだめか?
-‐‑‒> 実際のデータで試してみましょう。
!
前回の話
「ポアソン分布に従うもの」-‐‑‒> サッカーのゴール数では?
https://github.com/openfootball/world-cup
githubにデータあった↓
World Cupのゴール数を調べてみよう。

1930年年ウルグアイ⼤大会から2010年年南ア⼤大会までのcup.txtで
⼀一試合ごとの得点を集計する。(ソビエト、ユーゴスラビアなどは除いています)
Histogram of brazil$score1
brazil$score1
Frequency
0 2 4 6 8
05101520
ブラジル代表
データがたくさんあるので
ブラジル代表を使います。

Histogram of brazil$score1
brazil$score1
Frequency
0 2 4 6 8
05101520
ブラジル代表⽇日本代表
Histogram of japan$score1
japan$score1
Frequency
0 2 4 6 8
05101520
1930年年ウルグアイ⼤大会から2010年年南ア⼤大会までのcup.txtで
⼀一試合ごとの得点を集計する。(ソビエト、ユーゴスラビアなどは除いています)
ちなみにジャパンは

統計モデルの仮定：⼀一試合のゴール数とFIFAランキングのポイント差に関係がある。
team1,score1,pts1,team2,score2,pts2,diﬀ
Brazil,1,1242,Algeria,0,858,384
Brazil,0,1242,Argentina,0,1175,67
Brazil,2,1242,Australia,0,526,716
Brazil,1,1242,Austria,0,643,599
Brazil,3,1242,Austria,0,643,599
Brazil,4,1242,Bolivia,0,483,759
Brazil,2,1242,Bulgaria,0,425,817
Brazil,3,1242,Cameroon,0,558,684
Brazil,4,1242,Chile,2,1026,216
…
『前処理理したデータ』
(※)1930年年の試合にも現在のポイントを
適⽤用しています…orz。ブラジルは昔から強いからいいかな。
http://www.ﬁfa.com/worldranking/rankingtable/
2014/06/10時点でのランキング

-200 0 200 400 600 800
01234567
x$diff
x$score1
1950年ブラジル大会
vs スウェーデン
FIFAランキングポイントの差
一試合の得点

brazil.lm <-‐‑‒ lm(d$score1~∼d$diﬀ)
brazil.glm <-‐‑‒ glm(d$score1~∼d$diﬀ, family=poisson)
-200 0 200 400 600 800
02468
xx
-200 0 200 400 600 800
02468
d$diff
-200 0 200 400 600 800
02468
d$diff
-200 0 200 400 600 800
02468
xx
線形モデル一般化線形モデル

brazil.lm <-‐‑‒ lm(d$score1~∼d$diﬀ)
brazil.glm <-‐‑‒ glm(d$score1~∼d$diﬀ, family=poisson)
-200 0 200 400 600 800
02468
xx
-200 0 200 400 600 800
02468
d$diff
-200 0 200 400 600 800
02468
d$diff
-200 0 200 400 600 800
02468
xx
線形モデル一般化線形モデル
マイナスの得点が予測されてしまう

3.8 まとめ
□「あてはまりのよさ」≠「よい統計モデル」
-‐‑‒ あてはまりがよい -‐‑‒> 対数尤度度が⼤大きい
!
□ 観測するデータを説明する妥当なモデルを選ぶ
-‐‑‒ 種⼦子データならポアソン分布(が妥当っぽい)
よい統計モデルの選び⽅方
-‐‑‒> 4章~∼
パラメータ推定
-‐‑‒> 8章~∼

ご清聴ありがとうございました

データ解析のための統計モデリング入門3章後半

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (9)

Similar a データ解析のための統計モデリング入門3章後半

Similar a データ解析のための統計モデリング入門3章後半 (20)

データ解析のための統計モデリング入門3章後半