おしゃスタ@リクルート

iAnalysis合同会社
代表・最高解析責任者倉橋一成

1

【経歴】
東京大学Ph.D (2011), Statistician, Data Scientist, Data Miner
【専門】
cDNAマイクロアレイ、臨床試験データ、レセプトデータ、
電子カルテ・医療オーダーデータ、マーケティングデータ
【スキル】
R, SAS, SPSS, Visual C++, Ruby on Rails, Python
【主な実績】
・2005：NPO日本臨床研究支援ユニット、解析担当
腎臓癌患者の調査データの解析(SAS)
レセプトデータの解析と結果のレポーティング(R)
・2007、2009：スタットコム株式会社、統計解析者
小児癌の臨床試験のプロトコルに沿った解析とレポーティング
術後乳癌患者のQOLに関する研究の解析と統計アドバイス
・2009～2010：帝京大学、医師への統計コンサルタント
論文化にあたっての医師へのアドバイスと解析
様々な科の医師に対してのコンサルタント（内科、外科、眼科など）スタットコム株式会社、統計解析者
・2010：キャピタルメディカ株式会社、プロジェクトメンバー
レセプトデータを活用した新規プロジェクトの立ち上げメンバー
・2011：iAnalysis合同会社設立
※Twitter: @isseing333
※blog: 「おとうさんの解析日記」 http://d.hatena.ne.jp/isseing333/

2

iAnalysis合同会社

 設立：2011年3月24日
 Web：http://ianalysis.jp/
 本社：東京都港区南青山2-2-15 ウィン青山
 取引先企業
◦ エーザイ株式会社、大鵬薬品工業株式会社、株式会社gumi、大手自動車会社、
大手人材サービス会社など
 医療分野から始まり、多種多様な業種へ

 実績
◦ セミナー活動
◦ コンサルティング
 分析手法のアドバイス
 分析環境作りのアドバイス
◦ 分析実務
 調査データ分析によるインサイト抽出
 売上データ分析によるKPIの開発
◦ 分析のためのデータベース構築
◦ 予測モデル開発
 Web上の行動履歴データを使ったユーザーの属性予測

3

http://ianalysis.jp/

4

 『注目の職種！データサイエンティストになるための条件』
◦ リクナビNEXT：ブレインパッド佐藤氏との対談

 『業務改善のためのデータサイエンス』
◦ スクー（Web教室）でのレクチャー
 『データサイエンティスト問題』
◦ リクルート、CodeIQ
 『データサイエンティスト協会（仮）』
◦ 一般社団法人設立に向けてFacebookページの開設

5

 データサイエンスとは？

 データサイエンティストの流れ

 CodeIQデータサイエンス問題
◦ データサイエンティスト初級問題
◦ データサイエンティスト～統計学編1～
◦ データサイエンティスト～統計学編2～
◦ データサイエンティスト～機械学習編1～
◦ データサイエンティスト～機械学習編2～

6

データサイエンス
とは？

 「経験的に得られたデータを分析し法則性を見出す学問」
 政治・ギャンブルなどのニーズから生まれた

サンプリング調査

webアクセス・広告

8

 様々な事象を数値化した集合

ID 年齢身長体重
A 20 165 60
B 43 178 73
C 36 163 57
... ... ... ...

ID Webページ時間
A Top 20120607
A Service 20120607 データベース
B Top 20120607
B Service 20120607
B contact 20120607
… … …

9

 データマイニング
◦ （大量の）データから有益な情報を掘り起こす（マイニング）こと
◦ 分析対象のデータは「排気データ」なことが多い
◦ 技術的な視点が強い

 データサイエンス
◦ データを適切に分析することで、正しい意思決定を行う
◦ 目的、仮説を持って意識的にデータを溜めて分析しよう
◦ 技術を何のためにどう活かすかという視点が強い

 Google：「次の10年で熱い職業は統計学」
◦ あらゆるデータが記録される時代
◦ データをどのように有効活用するか！
◦ http://www.publickey1.jp/blog/10/10_3.html
 Facebook：「データサイエンティスト」を公募

10

 Gmail
◦ 「迷惑メール」であるかどうか予測し、フィルタを行う
 ロジスティック回帰
 ナイーブベイズ
◦ 利用者が「迷惑メール」と選択した時点で予測方法を更新する
 ベイズによるパラメータ更新

11

 ECサイトなどで、ユーザの好みを分析し、各ユーザごとに興味のあ
りそうな情報を選択して表示すること

 Amazon
◦ Webサイトで顧客層ごとに異なるトップメニューを用意
◦ ある商品を購入したら他の商品を推奨する

 マクドナルド
◦ カスタマイズクーポン
◦ 会員の購買履歴を分析して個々人に異なるキャンペーンを行う
◦ おさいふケータイを利用している1,000万人が対象

12

 Gartner社：楽観視していない（否定的なわけではない）

13

 Gartner社：楽観視していない（否定的なわけではない）

「2015年までを通じ、Fortune 500企業の85％以上が、ビッグデー
タを競合優位性確保のために効果的に活用することに失敗する」

 McKinseyの警鐘

米国では2018年までに、高度なアナリティクス・スキルを持つ人材
（データサイエンティスト）が14～19万人不足し、大規模なデータ
セットのアナリティクスを活用し意思決定のできるマネージャーやア
ナリストが150万人不足する

14

 広報ページ：http://www.facebook.com/DataScientist.jp

 議論ページ：http://www.facebook.com/groups/datascientist.jp/
◦ スキル要件、人物像等について議論
◦ 興味のある方はぜひご連絡を（要申請）

17

データサイエンスの流れ

18

ビジネス
インテリジェンス
（BI）

ビジネス
アナリティクス
（BA）

20

CodeIQ
データサイエンス問題

21

データサイエンティスト
を目指して問題を解こう！

22

【前提】
 とある転職サイトから、「とりあえずデータがあるんだけど、、、」と言われてデー
タを受け取りました。先方は何をして欲しいかまだはっきりと決まってない様子。

受け取ったデータは、
「応募した人の属性データ(oubo_zokusei.csv)」
「応募した時間の記録データ(oubo_kiroku.csv)」
の2種のCSVファイルです。

【課題】
 幸いにもデータサイズはあまり大きくなく、Rで読み込める程度。まずはRで読み込ん
でどんなデータか把握してください。
 解答はテキストファイル(.txt)で、

1. Rコード
2. データの概要：どんなデータかまとめた文章
3. 分析提案：もし応募数の予測モデルを作るとしたらあった方がよさそうな変数とその
理由
の3つを、この順番で書いて下さい。

23

頻度

標準偏差

平均値

値（身長）
27

頻度

最頻値

中央値

平均値

年収
28

問1. Rを使い、5人分の身長に関し、下記の6つの統計量を求めてくだ
さい。

# 5人分の身長データ
height1 <- c(168, 173, 152, 181, 175)

(1) 5人分の身長データの平均値
(2) 5人分の身長データの中央値
(3) 5人分の身長データの標本分散
(4) 5人分の身長データの不偏分散
(5) 5人分の身長データの標準偏差（不偏分散を使う）
(6) 5人分の身長データの標準誤差（不偏分散を使う）

29

問2. 下記のrnorm関数を使うと5人分の身長のデータを擬似生成でき
ます。擬似生成データを使った以下の質問に答えてください。

# 5人分の身長を擬似生成するコード
height2 <- 170 + 10*rnorm(5)

(1) 擬似生成した5人分の身長データを使って
- 標本分散
- 不偏分散
- 標準偏差（不偏分散を使う）
- 標準誤差（不偏分散を使う）
の4つの統計量を計算してください。
計算に使ったRのコードと計算結果を提出してください。

30

(2) 「100人分の身長データ」、「1,000人分の身長データ」を擬似生
成し、上記4つの統計量（標本分散、不偏分散、標準偏差、標準誤
差）を計算してみてください。人数（データ件数）が増えたとき、
この4つの関係性はどうなるか議論してください。

31

 例）選挙の調査
1億人 1,000人（十万分の1）

 サンプリング調査で分かるのは、”母集団”の”平均値”
◦ 母集団の平均値（真値）を推測するのが95%信頼区間

 妥当な結果を得るには”ランダムサンプリング”していることが必要

33

問1. DataScience_stat2.csvのデータは100万人分の身長を模擬的に
作成したものです。
この100万人分の身長データから、1000人分のデータをRを使ってサ
ンプリングしてください。

問2. 問1でランダムサンプリングしたデータを使って以下の値を求め
てください。
2-1. 平均値
2-2. 標準誤差（不偏分散を使う）
2-3. 平均値の95%信頼区間

問3. 問2-3の信頼区間は、もとの100万人の集団の平均身長（真値）
を推測するものです。サンプリングを無限に繰り返すと、理論的に
は95%の割合で信頼区間の範囲に真値が含まれます。ランダムサン
プリングを10000回繰り返し、この事を確認してください。計算に
使ったRのコードと簡単な説明を提出してください。

34

 データに様々な「モデル」を当てはめて、情報を探索する

36

 x
◦ 説明変数
◦ 独立変数
◦ 予測変数
◦ 共変量
◦ 入力

 y
◦ 結果変数
◦ 従属変数
◦ 応答変数
◦ アウトプット
◦ 出力
◦ ターゲット

37

結果変数: y 説明変数: x 手法
連続値 2値 t検定
3つ以上のカテゴ分散分析
リー
連続線形単回帰、線形重回帰
カテゴリー、連続共分散分析
2値カテゴリー分割表、ロジスティック回
帰
連続ロジステック回帰など
カテゴリー、連続ロジステック回帰
3つ以上のカテゴリーカテゴリー分割表
カテゴリー、連続名義ロジステック回帰
順序カテゴリー、連続順序ロジステック回帰
カウント値カテゴリー対数線形モデル
カテゴリー、連続ポアソン回帰
生存時間カテゴリー、連続 Cox回帰
相関のある値、グループ値カテゴリー、連続混合効果モデル 38

【問題】
問1. Rを使い、DataScience_ML1.csvを読み込み以下の線形回帰モデ
ルを作成してください。
y=x1+x2

問2. Rを使い、問1で作ったモデルに対して以下の回帰診断を行なって
ください。

(1) ローデータの散布図
(2) 調整済みR二乗
(3) 残差プロット
(4) キャリブレーションプロット

39

SVMとは以下のカーネルを定義したとき、

以下の式を解くことで判別を行う方法です。

SVMを回帰に応用したものがSVRです。
カーネルの種類には次のようなものがあります。

40

1. 高次元への変換
2. マージン最大化
3. カーネルトリック

高次元へ変換

マージン最大化

X Φ(X)

41

【問題】
問1. Rを使い、DataScience_ML1.csvを読み込み、以下のモデルを作
成してください。結果変数はyとします。

・線形カーネルのSVRモデル
・3次多項式カーネルのSVRモデル
・ガウシアンカーネルのSVRモデル（radial basis）
・シグモイドカーネルのSVRモデル

問2. 作ったモデルに対して予測診断を行うために、各モデルのキャリ
ブレーションプロットとR二乗をチェックしてください。

42

ご清聴ありがとうございました

contact@ianalysis.jp

43

おしゃスタ@リクルート

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (18)

Similar a おしゃスタ@リクルート

Similar a おしゃスタ@リクルート (20)

Más de Issei Kurahashi

Más de Issei Kurahashi (16)

おしゃスタ@リクルート