TokyoWebmining統計学部第1回

iAnalysis LLC 最高解析責任者
倉橋一成

1

この統計学部の
位置づけ

2

Phase I
データの収集・加工
DBの作成・接続
ログの収集

Phase II Phase III
データの可視化モデル作成
ヒストグラム
予測モデル
散布図
機械学習
時系列プロット
クラスタリング
円グラフ、棒グラフ
因果推論
地域プロット

4

データマイニング

Phase I
ログの収集

Phase II Phase III
ヒストグラム
予測モデル
散布図
機械学習
因果推論
地域プロット

5


Phase I
ログの収集

Phase II
データの可視化
仮説 Phase III
モデル作成
ヒストグラム
予測モデル
散布図
機械学習
因果推論
地域プロット

6


Phase IV
効果検証デザイン
A/Bテスト、ランダム化試験
実験計画

7


Phase I
ログの収集

Phase II Phase III
ヒストグラム
予測モデル
散布図
機械学習
因果推論
地域プロット

TokyoWebmining統計学部
では主にここを教えます
8

第1回
一般化線形モデル

9

Twitterのキャプチャ

12


13


14


15

 モデルって？
◦ ある現象を簡単に説明するもの

18


19


20


主にModel 1について

21

 x
◦ 説明変数
◦ 独立変数
◦ 予測変数
◦ 共変量
◦ 入力
 y
◦ 結果変数
◦ 従属変数
◦ 応答変数
◦ アウトプット
◦ 出力
◦ ターゲット

22

結果変数: y 説明変数: x 手法
連続値 2値 t検定
3つ以上のカテゴリー分散分析
連続線形単回帰、線形重回帰
カテゴリー、連続共分散分析
2値カテゴリー分割表、ロジスティック回帰
連続ロジステック回帰など
カテゴリー、連続ロジステック回帰
3つ以上のカテゴリーカテゴリー分割表
カテゴリー、連続名義ロジステック回帰
順序カテゴリー、連続順序ロジステック回帰
カウント値カテゴリー対数線形モデル
カテゴリー、連続ポアソン回帰
生存時間カテゴリー、連続 Cox回帰
相関のある値、グループ値カテゴリー、連続混合効果モデル
23

結果変数: y 説明変数: x 手法
連続値 2値 t検定
3つ以上のカテゴリー分散分析
連続線形単回帰、線形重回帰
カテゴリー、連続共分散分析
2値カテゴリー分割表、ロジスティック回帰
連続ロジステック回帰など
カテゴリー、連続ロジステック回帰
3つ以上のカテゴリーカテゴリー分割表
カテゴリー、連続名義ロジステック回帰
順序カテゴリー、連続順序ロジステック回帰
カウント値カテゴリー対数線形モデル
カテゴリー、連続ポアソン回帰
生存時間カテゴリー、連続 Cox回帰
相関のある値、グループ値カテゴリー、連続混合効果モデル
24

 一般線形モデル（GLM）
◦ 線形単回帰
◦ 線形重回帰
◦ （分散分析）
 一般化線形モデル（GLIM）
◦ 線形重回帰
◦ ロジスティック回帰
◦ ポアソン回帰

25

 線形：線のようにまっすぐな性質

y y = a + bx
誤差

a: 切片
b: 傾き

x

26

E[yi|xi] = a + bxi
 xiを条件付けたときのyiの期待値がxiの線形式になっている

yi = a + bxi + ei
 それぞれのyiはxiの線形式に誤差を足した値になっている

27

 誤差の小さいモデルが最も良いモデルだろう
 誤差の二乗和が最小になるようなa, bを求める

Σ{yi – (a + bxi)} 2

 上式の目的関数が最小になるa, bを求める
 a, bに関して目的関数を偏微分して「=0」を解く

28

 確率分布を当てはめて「最も尤もらしい」a, bを求める
 結果変数(y)または誤差(e)に正規分布を仮定する

yi = a + bxi + ei, ei～N(0, σ2)
E[yi|xi] = a + bxi, yi～N(a + bxi, σ2)
 最尤法でパラメータ推定すると、最小二乗法と同じ解になる

29

 xiを条件付けるとyiは正規分布に従っている
E[yi|xi] = a + bxi
y

x

30

 yiの分散は同じ
E[yi|xi] = a + bxi
y

x

31

E[yi|xi] = βxi
 yiの期待値をモデル化

xi=(x1i, …, xpi)
 説明変数はp個ある

β=(β1, …, βp)
 パラメータはp個

32

E[y] = βX
y: n次元ベクトル
β: p次元ベクトル
X: n×p行列
 統計解析の数式を読むときのコツ
◦ スカラー（単一の値）
◦ ベクトル
◦ 行列
の違いをはっきりとさせる

33

 最小二乗法、最尤法ともに同じ結果となる

β= (XTX)-1XTy
p×1 p×n n×p

p×p p×n

p×n n×1

p×1

 行列とベクトルの混在に慣れよう！

34

E[y] = βX
 一般線形モデル（GLM）
 様々なモデルを表現している
◦ 線形重回帰
◦ 分散分析（ANOVA）
 Xはカテゴリもしくはダミー変数
◦ 共分散分析（ANCOVA）
 Xはカテゴリと連続変数の混在

35

g(E[y]) = βX
 一般化線形モデル（GLIM）
 g: リンク関数
 y: 連続値
◦ GLM→恒等変換（変換しない）
 y: 2値
◦ ロジスティック回帰→ロジット変換
◦ プロビットモデル→プロビット変換（標準正規分布の逆累積分布関数）
◦ 極地分布のモデル→c log-log関数
 y: カウント値
◦ ポアソン回帰→対数変換

36

 サービス加入者が1ヶ月以内に辞めるかどうか
◦ 辞める: 1, 辞めない: 0

 会社が6ヶ月以内に倒産するかどうか
◦ 倒産する: 1, 倒産しない: 0

 ある人が1年以内に糖尿病になるかどうか
◦ 糖尿病になる: 1, 糖尿病にならない: 0

37

 x: 連続値、y: 2値

y

1

0
x

38

 yの推定値が[0, 1]の範囲をはみ出してしまう

y E[y] = βX

1

0
x

39

 yが[0, 1]の範囲に収まるような変換を行う

y logit(E[y]) = βX

1

0
x

40

 サービス加入者が課金を行った回数

 システムがエラーを起こす回数

 喘息の患者が発作を起こした回数

41

 x: 連続値、y: カウント値

y

x

42

 yの推定値が[0, ∞]の範囲をはみ出してしまう

y
E[y] = βX

x

43

 yが[0, ∞]に収まるような変換を行う

y
log(E[y]) = βX

x

44

 連続値→正規分布
 2値→二項分布
 カウント値→ポアソン分布

これらは指数型分布族に属する
f(y; θ) = exp[a(y)b(θ) + c(θ) + d(y)]
a(y) = yのとき正準形
b(θ): 自然パラメータ

正規、2項、ポアソンは全て正準形

45

一般化線形モデルは
指数型分布族の線形モデル

g(E[y]) = βX
 yは指数型分布族に従う
 分布が決まれば、リンク関数が決まる

46

尤度: Π{exp[a(y)b(θ) + c(θ) + d(y)]}
対数尤度: Σ[a(y)b(θ) + c(θ) + d(y)]
偏微分して=0を解くと
反復重み付き最小2乗法が求まる

XTWXb(m) = XTWz
m: 反復回数, W: 重み, b: パラメータ, z: yの関数

47

 重み付き最小二乗法

XTWXb(m) = XTWz

b (m) = (XTWX)-1XTWz
 通常の最小二乗法

b = (X TX)-1 X T y

48

 決定定数（R2乗、寄与率）、調整済みR2乗
 外れ値の検討
 残差プロット
 キャリブレーションプロット
 ホスマーレメショー統計量
 赤池情報量基準

49

 決定定数（R2乗、寄与率）、調整済みR2乗
 外れ値の検討
 残差プロット
 キャリブレーションプロット
 ホスマーレメショー統計量
 赤池情報量基準

50

 Aは赤丸があるとモデルの傾きが大きく変わる
 Bは赤丸があってもモデルの傾きは変わらない

 一般にてこ比が p/n の2～3倍以上であれば注意が必要

 A：外れ値
 B：外れ値でない

54

回帰モデル残差プロット

0

0

58

回帰モデル残差プロット

0

どのx値でも0を中心に均等にばらつく

0

均等ではない。「パターン」が出ている

59

 擬似R2乗
 AUC（ロジステック回帰）
 尤度比χ2乗検定
 AIC

60

 指数型分布族に対する線形モデルが一般化線形モデル
 yが連続値で正規分布を仮定すると一般線形モデル
 一般化線形モデルはGLIM、一般線形モデルはGLM
 パラメータは尤度を最大化することで推定する
◦ 最小二乗法、重み付き最小二乗法が導かれる
 GLMの回帰診断のうち、外れ値と残差プロットは特に重要

61

・一般線形モデルの仮定：反応変数が正規分布に従う、反応変数が説明変数の線形式で
表現できる、すべての反応は共通の分散をもつ、反応が互いに独立。残差分析でこれを
チェックする。歪んでたらBoxCox変換するとか。
・ハット行列の対角成分をてこ比と呼ぶてこ比と標準化残差を組み合わせた指標が
Cookの距離
・説明変数が連続値の場合、当てはめたモデルから予測確率を求め10くらいのグループに
分割し成功失敗の度数を算出、これに対してピアソンカイ二乗統計量を計算し適合度の
指標とする。これをホズマー・レメショウ統計量と呼ぶ。
・線形従属によりアレが特異に近くなり結果としてソレが著しく不安定になる。つまりデータが
変わる度にソレが大きく変化する。1からほげを引いてその逆数をとったもの(VIF)でその従属
っぷりは判断する。5以上ヤバい。ちなみにほげはある変数をそれ以外の変数で重回帰した
時の決定係数。
・分散分析は質的変数が定めるカテゴリーの間で連続変数の平均値を比較する統計手法
・共分散分析とは、説明変数がダミー変数で表わされる名義変数と共変量と呼ばれる連続
変数からなるモデル。分散分析と目的は同じだが、反応に影響をおよぼす共変量をモデルに
加え調整を行う。

62

・飽和モデルを立ててから、仮説に応じて項を省略した縮小モデルを検討する
・目的変数の分布を仮定→分布の期待値の式を線形に変形
・確率を線形モデルで表現したいがそのままやると0-1の範囲に収まらないので、その範囲に
収まるようにシュシュの許容値分布の累積分布関数を用いる。
・許容値分布→連結関数の順でいうと、プロビットモデル：正規分布→標準正規分布の逆累積
分布関数、ロジスティックモデル：なんかごにょごにょ→ロジット関数。極値分布を許容値分布
に使うモデルもありその場合、連結関数はcloglog関数
・ 2値データの時最低限確認すること2つ 1.連結関数の妥当性 2.超過分散してないか。後者
については逸脱度がデータ数-説明変数よりはるかに大きい値をとっている時に疑う。この
問題については目的変数の分散の記述モデルにパラメータφを加えたり、GEEとして扱ったり
して対処する。
・尤度比カイ二乗統計量:当てはめモデルと最小モデルの対数尤度関数の差から求める。
最小モデルの対数尤度関数から当てはめモデルの対数尤度関数を引いたものを最小モデル
の対数尤度関数で除したものを擬似R2と呼ぶ。
・ポアソン分布は群内の標本平均と標本分散がほぼ同じ値を持つ計数データに対する妥当
な確率モデルとして知られている

63

 設立：2011年3月24日
 場所：東京都港区南青山2-2-15 ウィン青山 1403
 ホームページ：http://ianalysis.jp/
 取引先
◦ 製薬会社
◦ 医療系支援・コンサルティング会社
◦ 広告代理店
◦ 人材サービス会社
◦ ソーシャルゲーム会社
◦ 商社
◦ 統計解析会社

64

 2011年東京大学博士号取得
◦ 修士まで：医療系の統計学が中心
 疫学、臨床試験
◦ 博士から：データマイニング分野の研究
 統計的学習、機械学習
 「統計学博士」は日本にないので「保険学博士」です
 2011年iAnalysis設立
◦ 分析ノウハウをビジネスへ
◦ 溜まっているデータをどうやったら有効活用できるか？
 Twitter:@isseing333

65

ご清聴
有難うございました

67

TokyoWebmining統計学部第1回

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (13)

Destacado

Destacado (19)

Similar a TokyoWebmining統計学部第1回

Similar a TokyoWebmining統計学部第1回 (20)

Más de Issei Kurahashi

Más de Issei Kurahashi (15)