Enviar búsqueda
Cargar
TokyoWebmining統計学部 第1回
•
31 recomendaciones
•
9,554 vistas
Issei Kurahashi
Seguir
Denunciar
Compartir
Denunciar
Compartir
1 de 67
Descargar ahora
Descargar para leer sin conexión
Recomendados
おしゃスタ@リクルート
おしゃスタ@リクルート
Issei Kurahashi
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス
Issei Kurahashi
おしゃスタat銀座
おしゃスタat銀座
Issei Kurahashi
[DSO]勉強会_データサイエンス講義_Chapter5
[DSO]勉強会_データサイエンス講義_Chapter5
tatsuyasakaeeda
Ym20121122
Ym20121122
Yoichi Motomura
東大計数特別講義20130528
東大計数特別講義20130528
Yoichi Motomura
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
Takashi J OZAKI
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
Yoichi Motomura
Recomendados
おしゃスタ@リクルート
おしゃスタ@リクルート
Issei Kurahashi
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス
Issei Kurahashi
おしゃスタat銀座
おしゃスタat銀座
Issei Kurahashi
[DSO]勉強会_データサイエンス講義_Chapter5
[DSO]勉強会_データサイエンス講義_Chapter5
tatsuyasakaeeda
Ym20121122
Ym20121122
Yoichi Motomura
東大計数特別講義20130528
東大計数特別講義20130528
Yoichi Motomura
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
Takashi J OZAKI
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
Yoichi Motomura
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
Yoichi Motomura
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
Hajime Sasaki
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
Takashi J OZAKI
[DSO]勉強会_データサイエンス講義_Chapter8
[DSO]勉強会_データサイエンス講義_Chapter8
tatsuyasakaeeda
なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?
Takashi J OZAKI
Maeshori missing
Maeshori missing
Daisuke Ichikawa
モデルベース協調フィルタリングにおける推薦の透明性に関する検討
モデルベース協調フィルタリングにおける推薦の透明性に関する検討
Okamoto Laboratory, The University of Electro-Communications
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
ビックデータ戦略
ビックデータ戦略
Kengo Nagahashi
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
id774
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
sleepy_yoshi
実践データ分析基礎
実践データ分析基礎
TOSHI STATS Co.,Ltd.
SIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to Rank
sleepy_yoshi
Tokyor18
Tokyor18
Daisuke Ichikawa
2ch
2ch
Atsushi Hayakawa
Tokyor17
Tokyor17
Daisuke Ichikawa
サーバ異常検知入門
サーバ異常検知入門
mangantempy
Tokyo r 10_12
Tokyo r 10_12
Tadayuki Onishi
Tokyor16
Tokyor16
Daisuke Ichikawa
Rで解く最適化問題 線型計画問題編
Rで解く最適化問題 線型計画問題編
Hidekazu Tanaka
Rデバッグあれこれ
Rデバッグあれこれ
Takeshi Arabiki
3次元のデータをグラフにする(Tokyo.R#17)
3次元のデータをグラフにする(Tokyo.R#17)
Takumi Tsutaya
Más contenido relacionado
La actualidad más candente
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
Yoichi Motomura
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
Hajime Sasaki
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
Takashi J OZAKI
[DSO]勉強会_データサイエンス講義_Chapter8
[DSO]勉強会_データサイエンス講義_Chapter8
tatsuyasakaeeda
なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?
Takashi J OZAKI
Maeshori missing
Maeshori missing
Daisuke Ichikawa
モデルベース協調フィルタリングにおける推薦の透明性に関する検討
モデルベース協調フィルタリングにおける推薦の透明性に関する検討
Okamoto Laboratory, The University of Electro-Communications
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
ビックデータ戦略
ビックデータ戦略
Kengo Nagahashi
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
id774
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
sleepy_yoshi
実践データ分析基礎
実践データ分析基礎
TOSHI STATS Co.,Ltd.
SIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to Rank
sleepy_yoshi
La actualidad más candente
(13)
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
[DSO]勉強会_データサイエンス講義_Chapter8
[DSO]勉強会_データサイエンス講義_Chapter8
なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?
Maeshori missing
Maeshori missing
モデルベース協調フィルタリングにおける推薦の透明性に関する検討
モデルベース協調フィルタリングにおける推薦の透明性に関する検討
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
ビックデータ戦略
ビックデータ戦略
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
実践データ分析基礎
実践データ分析基礎
SIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to Rank
Destacado
Tokyor18
Tokyor18
Daisuke Ichikawa
2ch
2ch
Atsushi Hayakawa
Tokyor17
Tokyor17
Daisuke Ichikawa
サーバ異常検知入門
サーバ異常検知入門
mangantempy
Tokyo r 10_12
Tokyo r 10_12
Tadayuki Onishi
Tokyor16
Tokyor16
Daisuke Ichikawa
Rで解く最適化問題 線型計画問題編
Rで解く最適化問題 線型計画問題編
Hidekazu Tanaka
Rデバッグあれこれ
Rデバッグあれこれ
Takeshi Arabiki
3次元のデータをグラフにする(Tokyo.R#17)
3次元のデータをグラフにする(Tokyo.R#17)
Takumi Tsutaya
近似ベイズ計算によるベイズ推定
近似ベイズ計算によるベイズ推定
Kosei ABE
Tokyo webmining 複雑ネットワークとデータマイニング
Tokyo webmining 複雑ネットワークとデータマイニング
Hiroko Onari
Tokyo r18
Tokyo r18
Takashi Minoda
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
horihorio
パターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvq
sleipnir002
Rで学ぶ離散選択モデル
Rで学ぶ離散選択モデル
宏喜 佐野
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
Yohei Sato
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Yohei Sato
Rによるデータサイエンス13「樹木モデル」
Rによるデータサイエンス13「樹木モデル」
Takeshi Mikami
Rて計量経済学入門#tokyo.r.17
Rて計量経済学入門#tokyo.r.17
yuuukioii
Destacado
(19)
Tokyor18
Tokyor18
2ch
2ch
Tokyor17
Tokyor17
サーバ異常検知入門
サーバ異常検知入門
Tokyo r 10_12
Tokyo r 10_12
Tokyor16
Tokyor16
Rで解く最適化問題 線型計画問題編
Rで解く最適化問題 線型計画問題編
Rデバッグあれこれ
Rデバッグあれこれ
3次元のデータをグラフにする(Tokyo.R#17)
3次元のデータをグラフにする(Tokyo.R#17)
近似ベイズ計算によるベイズ推定
近似ベイズ計算によるベイズ推定
Tokyo webmining 複雑ネットワークとデータマイニング
Tokyo webmining 複雑ネットワークとデータマイニング
Tokyo r18
Tokyo r18
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
パターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvq
Rで学ぶ離散選択モデル
Rで学ぶ離散選択モデル
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rによるデータサイエンス13「樹木モデル」
Rによるデータサイエンス13「樹木モデル」
Rて計量経済学入門#tokyo.r.17
Rて計量経済学入門#tokyo.r.17
Similar a TokyoWebmining統計学部 第1回
データ解析13 線形判別分析
データ解析13 線形判別分析
Hirotaka Hachiya
第1回R勉強会@東京
第1回R勉強会@東京
Yohei Sato
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
Issei Kurahashi
機械学習と深層学習の数理
機械学習と深層学習の数理
Ryo Nakamura
PRML輪読#3
PRML輪読#3
matsuolab
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
hirokazutanaka
第2回DARM勉強会
第2回DARM勉強会
Yoshitake Takebayashi
6 Info Theory
6 Info Theory
melvincabatuan
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門
Yohei Sato
幾何を使った統計のはなし
幾何を使った統計のはなし
Toru Imai
π計算
π計算
Yuuki Takano
東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2
hirokazutanaka
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門
irrrrr
Sakashita
Sakashita
texja1234
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
wada, kazumi
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
sleipnir002
PRML4.3
PRML4.3
hiroki yamaoka
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
[読会]Logistic regression models for aggregated data
[読会]Logistic regression models for aggregated data
shima o
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
Similar a TokyoWebmining統計学部 第1回
(20)
データ解析13 線形判別分析
データ解析13 線形判別分析
第1回R勉強会@東京
第1回R勉強会@東京
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
機械学習と深層学習の数理
機械学習と深層学習の数理
PRML輪読#3
PRML輪読#3
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
第2回DARM勉強会
第2回DARM勉強会
6 Info Theory
6 Info Theory
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門
幾何を使った統計のはなし
幾何を使った統計のはなし
π計算
π計算
東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門
Sakashita
Sakashita
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
PRML4.3
PRML4.3
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[読会]Logistic regression models for aggregated data
[読会]Logistic regression models for aggregated data
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
Más de Issei Kurahashi
データサイエンティストになるために
データサイエンティストになるために
Issei Kurahashi
Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回
Issei Kurahashi
おしゃスタVI 倉橋
おしゃスタVI 倉橋
Issei Kurahashi
iAnalysis NY視察
iAnalysis NY視察
Issei Kurahashi
おしゃスタV
おしゃスタV
Issei Kurahashi
平方和の分解
平方和の分解
Issei Kurahashi
コホート研究 isseing333
コホート研究 isseing333
Issei Kurahashi
遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333
Issei Kurahashi
生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333
Issei Kurahashi
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333
Issei Kurahashi
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333
Issei Kurahashi
統計概論 isseing333
統計概論 isseing333
Issei Kurahashi
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
Issei Kurahashi
分布 isseing333
分布 isseing333
Issei Kurahashi
データ解析
データ解析
Issei Kurahashi
Más de Issei Kurahashi
(15)
データサイエンティストになるために
データサイエンティストになるために
Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回
おしゃスタVI 倉橋
おしゃスタVI 倉橋
iAnalysis NY視察
iAnalysis NY視察
おしゃスタV
おしゃスタV
平方和の分解
平方和の分解
コホート研究 isseing333
コホート研究 isseing333
遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333
統計概論 isseing333
統計概論 isseing333
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
分布 isseing333
分布 isseing333
データ解析
データ解析
TokyoWebmining統計学部 第1回
1.
iAnalysis LLC 最高解析責任者
倉橋一成 1
2.
この統計学部の 位置づけ
2
3.
3
4.
Phase I
データの収集・加工 DBの作成・接続 ログの収集 Phase II Phase III データの可視化 モデル作成 ヒストグラム 予測モデル 散布図 機械学習 時系列プロット クラスタリング 円グラフ、棒グラフ 因果推論 地域プロット 4
5.
データマイニング
Phase I データの収集・加工 DBの作成・接続 ログの収集 Phase II Phase III データの可視化 モデル作成 ヒストグラム 予測モデル 散布図 機械学習 時系列プロット クラスタリング 円グラフ、棒グラフ 因果推論 地域プロット 5
6.
データマイニング
Phase I データの収集・加工 DBの作成・接続 ログの収集 Phase II データの可視化 仮説 Phase III モデル作成 ヒストグラム 予測モデル 散布図 機械学習 時系列プロット クラスタリング 円グラフ、棒グラフ 因果推論 地域プロット 6
7.
データマイニング
Phase IV 効果検証デザイン A/Bテスト、ランダム化試験 実験計画 7
8.
データマイニング
Phase I データの収集・加工 DBの作成・接続 ログの収集 Phase II Phase III データの可視化 モデル作成 ヒストグラム 予測モデル 散布図 機械学習 時系列プロット クラスタリング 円グラフ、棒グラフ 因果推論 地域プロット TokyoWebmining統計学部 では主にここを教えます 8
9.
第1回 一般化線形モデル
9
10.
始める前に
10
11.
謝辞
11
12.
Twitterのキャプチャ
12
13.
Twitterのキャプチャ
13
14.
Twitterのキャプチャ
14
15.
Twitterのキャプチャ
15
16.
提供
16
17.
17
18.
モデルって? ◦ ある現象を簡単に説明するもの 18
19.
モデルって? ◦ ある現象を簡単に説明するもの 19
20.
モデルって? ◦ ある現象を簡単に説明するもの 20
21.
モデルって? ◦ ある現象を簡単に説明するもの 主にModel 1について 21
22.
x ◦ 説明変数 ◦ 独立変数 ◦ 予測変数 ◦ 共変量 ◦ 入力 y ◦ 結果変数 ◦ 従属変数 ◦ 応答変数 ◦ アウトプット ◦ 出力 ◦ ターゲット 22
23.
結果変数: y
説明変数: x 手法 連続値 2値 t検定 3つ以上のカテゴリー 分散分析 連続 線形単回帰、線形重回帰 カテゴリー、連続 共分散分析 2値 カテゴリー 分割表、ロジスティック回帰 連続 ロジステック回帰など カテゴリー、連続 ロジステック回帰 3つ以上のカテゴリー カテゴリー 分割表 カテゴリー、連続 名義ロジステック回帰 順序 カテゴリー、連続 順序ロジステック回帰 カウント値 カテゴリー 対数線形モデル カテゴリー、連続 ポアソン回帰 生存時間 カテゴリー、連続 Cox回帰 相関のある値、グループ値 カテゴリー、連続 混合効果モデル 23
24.
結果変数: y
説明変数: x 手法 連続値 2値 t検定 3つ以上のカテゴリー 分散分析 連続 線形単回帰、線形重回帰 カテゴリー、連続 共分散分析 2値 カテゴリー 分割表、ロジスティック回帰 連続 ロジステック回帰など カテゴリー、連続 ロジステック回帰 3つ以上のカテゴリー カテゴリー 分割表 カテゴリー、連続 名義ロジステック回帰 順序 カテゴリー、連続 順序ロジステック回帰 カウント値 カテゴリー 対数線形モデル カテゴリー、連続 ポアソン回帰 生存時間 カテゴリー、連続 Cox回帰 相関のある値、グループ値 カテゴリー、連続 混合効果モデル 24
25.
一般線形モデル(GLM) ◦ 線形単回帰 ◦ 線形重回帰 ◦ (分散分析) 一般化線形モデル(GLIM) ◦ 線形重回帰 ◦ ロジスティック回帰 ◦ ポアソン回帰 25
26.
線形:線のようにまっすぐな性質 y y = a + bx 誤差 a: 切片 b: 傾き x 26
27.
E[yi|xi] = a
+ bxi xiを条件付けたときのyiの期待値がxiの線形式になっている yi = a + bxi + ei それぞれのyiはxiの線形式に誤差を足した値になっている 27
28.
誤差の小さいモデルが最も良いモデルだろう 誤差の二乗和が最小になるようなa, bを求める Σ{yi – (a + bxi)} 2 上式の目的関数が最小になるa, bを求める a, bに関して目的関数を偏微分して「=0」を解く 28
29.
確率分布を当てはめて「最も尤もらしい」a, bを求める 結果変数(y)または誤差(e)に正規分布を仮定する yi = a + bxi + ei, ei~N(0, σ2) E[yi|xi] = a + bxi, yi~N(a + bxi, σ2) 最尤法でパラメータ推定すると、最小二乗法と同じ解になる 29
30.
xiを条件付けるとyiは正規分布に従っている E[yi|xi] = a + bxi y x 30
31.
yiの分散は同じ E[yi|xi] = a + bxi y x 31
32.
E[yi|xi] = βxi
yiの期待値をモデル化 xi=(x1i, …, xpi) 説明変数はp個ある β=(β1, …, βp) パラメータはp個 32
33.
E[y] = βX
y: n次元ベクトル β: p次元ベクトル X: n×p行列 統計解析の数式を読むときのコツ ◦ スカラー(単一の値) ◦ ベクトル ◦ 行列 の違いをはっきりとさせる 33
34.
最小二乗法、最尤法ともに同じ結果となる β= (XTX)-1XTy p×1 p×n n×p p×p p×n p×n n×1 p×1 行列とベクトルの混在に慣れよう! 34
35.
E[y] = βX
一般線形モデル(GLM) 様々なモデルを表現している ◦ 線形重回帰 ◦ 分散分析(ANOVA) Xはカテゴリもしくはダミー変数 ◦ 共分散分析(ANCOVA) Xはカテゴリと連続変数の混在 35
36.
g(E[y]) = βX
一般化線形モデル(GLIM) g: リンク関数 y: 連続値 ◦ GLM→恒等変換(変換しない) y: 2値 ◦ ロジスティック回帰→ロジット変換 ◦ プロビットモデル→プロビット変換(標準正規分布の逆累積分布関数) ◦ 極地分布のモデル→c log-log関数 y: カウント値 ◦ ポアソン回帰→対数変換 36
37.
サービス加入者が1ヶ月以内に辞めるかどうか ◦ 辞める: 1, 辞めない: 0 会社が6ヶ月以内に倒産するかどうか ◦ 倒産する: 1, 倒産しない: 0 ある人が1年以内に糖尿病になるかどうか ◦ 糖尿病になる: 1, 糖尿病にならない: 0 37
38.
x: 連続値、y: 2値 y 1 0 x 38
39.
yの推定値が[0, 1]の範囲をはみ出してしまう y E[y] = βX 1 0 x 39
40.
yが[0, 1]の範囲に収まるような変換を行う y logit(E[y]) = βX 1 0 x 40
41.
サービス加入者が課金を行った回数 システムがエラーを起こす回数 喘息の患者が発作を起こした回数 41
42.
x: 連続値、y: カウント値 y x 42
43.
yの推定値が[0, ∞]の範囲をはみ出してしまう y E[y] = βX x 43
44.
yが[0, ∞]に収まるような変換を行う y log(E[y]) = βX x 44
45.
連続値→正規分布 2値→二項分布 カウント値→ポアソン分布 これらは指数型分布族に属する f(y; θ) = exp[a(y)b(θ) + c(θ) + d(y)] a(y) = yのとき正準形 b(θ): 自然パラメータ 正規、2項、ポアソンは全て正準形 45
46.
一般化線形モデルは 指数型分布族の線形モデル
g(E[y]) = βX yは指数型分布族に従う 分布が決まれば、リンク関数が決まる 46
47.
尤度: Π{exp[a(y)b(θ) +
c(θ) + d(y)]} 対数尤度: Σ[a(y)b(θ) + c(θ) + d(y)] 偏微分して=0を解くと 反復重み付き最小2乗法が求まる XTWXb(m) = XTWz m: 反復回数, W: 重み, b: パラメータ, z: yの関数 47
48.
重み付き最小二乗法 XTWXb(m) = XTWz b (m) = (XTWX)-1XTWz 通常の最小二乗法 b = (X TX)-1 X T y 48
49.
決定定数(R2乗、寄与率)、調整済みR2乗 外れ値の検討 残差プロット キャリブレーションプロット ホスマーレメショー統計量 赤池情報量基準 49
50.
決定定数(R2乗、寄与率)、調整済みR2乗 外れ値の検討 残差プロット キャリブレーションプロット ホスマーレメショー統計量 赤池情報量基準 50
51.
A
B 51
52.
A
B 52
53.
A
B 53
54.
Aは赤丸があるとモデルの傾きが大きく変わる Bは赤丸があってもモデルの傾きは変わらない 一般にてこ比が p/n の2~3倍以上であれば注意が必要 A:外れ値 B:外れ値でない 54
55.
A
B 55
56.
A
B 56
57.
回帰モデル
57
58.
回帰モデル
残差プロット 0 0 58
59.
回帰モデル
残差プロット 0 どのx値でも0を中心に均等にばらつく 0 均等ではない。「パターン」が出ている 59
60.
擬似R2乗 AUC(ロジステック回帰) 尤度比χ2乗検定 AIC 60
61.
指数型分布族に対する線形モデルが一般化線形モデル yが連続値で正規分布を仮定すると一般線形モデル 一般化線形モデルはGLIM、一般線形モデルはGLM パラメータは尤度を最大化することで推定する ◦ 最小二乗法、重み付き最小二乗法が導かれる GLMの回帰診断のうち、外れ値と残差プロットは特に重要 61
62.
・一般線形モデルの仮定:反応変数が正規分布に従う、反応変数が説明変数の線形式で 表現できる、すべての反応は共通の分散をもつ、反応が互いに独立。残差分析でこれを チェックする。歪んでたらBoxCox変換するとか。 ・ハット行列の対角成分をてこ比と呼ぶ てこ比と標準化残差を組み合わせた指標が Cookの距離 ・説明変数が連続値の場合、当てはめたモデルから予測確率を求め10くらいのグループに 分割し成功失敗の度数を算出、これに対してピアソンカイ二乗統計量を計算し適合度の 指標とする。これをホズマー・レメショウ統計量と呼ぶ。 ・線形従属によりアレが特異に近くなり結果としてソレが著しく不安定になる。つまりデータが 変わる度にソレが大きく変化する。1からほげを引いてその逆数をとったもの(VIF)でその従属 っぷりは判断する。5以上ヤバい。ちなみにほげはある変数をそれ以外の変数で重回帰した 時の決定係数。 ・分散分析は質的変数が定めるカテゴリーの間で連続変数の平均値を比較する統計手法 ・共分散分析とは、説明変数がダミー変数で表わされる名義変数と共変量と呼ばれる連続 変数からなるモデル。分散分析と目的は同じだが、反応に影響をおよぼす共変量をモデルに 加え調整を行う。
62
63.
・飽和モデルを立ててから、仮説に応じて項を省略した縮小モデルを検討する ・目的変数の分布を仮定→分布の期待値の式を線形に変形 ・確率を線形モデルで表現したいがそのままやると0-1の範囲に収まらないので、その範囲に 収まるようにシュシュの許容値分布の累積分布関数を用いる。 ・許容値分布→連結関数の順でいうと、プロビットモデル:正規分布→標準正規分布の逆累積 分布関数、ロジスティックモデル:なんかごにょごにょ→ロジット関数。極値分布を許容値分布 に使うモデルもありその場合、連結関数はcloglog関数 ・ 2値データの時最低限確認すること2つ 1.連結関数の妥当性
2.超過分散してないか。後者 については逸脱度がデータ数-説明変数よりはるかに大きい値をとっている時に疑う。この 問題については目的変数の分散の記述モデルにパラメータφを加えたり、GEEとして扱ったり して対処する。 ・尤度比カイ二乗統計量:当てはめモデルと最小モデルの対数尤度関数の差から求める。 最小モデルの対数尤度関数から当てはめモデルの対数尤度関数を引いたものを最小モデル の対数尤度関数で除したものを擬似R2と呼ぶ。 ・ポアソン分布は群内の標本平均と標本分散がほぼ同じ値を持つ計数データに対する妥当 な確率モデルとして知られている 63
64.
設立:2011年3月24日 場所:東京都港区南青山2-2-15 ウィン青山 1403 ホームページ:http://ianalysis.jp/ 取引先 ◦ 製薬会社 ◦ 医療系支援・コンサルティング会社 ◦ 広告代理店 ◦ 人材サービス会社 ◦ ソーシャルゲーム会社 ◦ 商社 ◦ 統計解析会社 64
65.
2011年東京大学博士号取得 ◦ 修士まで:医療系の統計学が中心 疫学、臨床試験 ◦ 博士から:データマイニング分野の研究 統計的学習、機械学習 「統計学博士」は日本にないので「保険学博士」です 2011年iAnalysis設立 ◦ 分析ノウハウをビジネスへ ◦ 溜まっているデータをどうやったら有効活用できるか? Twitter:@isseing333 65
66.
66
67.
ご清聴 有難うございました
67
Descargar ahora