Más contenido relacionado La actualidad más candente (18) Similar a おしゃスタ@リクルート (20) Más de Issei Kurahashi (16) おしゃスタ@リクルート2. 【経歴】
東京大学Ph.D (2011), Statistician, Data Scientist, Data Miner
【専門】
cDNAマイクロアレイ、臨床試験データ、レセプトデータ、
電子カルテ・医療オーダーデータ、マーケティングデータ
【スキル】
R, SAS, SPSS, Visual C++, Ruby on Rails, Python
【主な実績】
・2005:NPO日本臨床研究支援ユニット、解析担当
腎臓癌患者の調査データの解析(SAS)
レセプトデータの解析と結果のレポーティング(R)
・2007、2009:スタットコム株式会社、統計解析者
小児癌の臨床試験のプロトコルに沿った解析とレポーティング
術後乳癌患者のQOLに関する研究の解析と統計アドバイス
・2009~2010:帝京大学、医師への統計コンサルタント
論文化にあたっての医師へのアドバイスと解析
様々な科の医師に対してのコンサルタント(内科、外科、眼科など)スタットコム株式会社、統計解析者
・2010:キャピタルメディカ株式会社、プロジェクトメンバー
レセプトデータを活用した新規プロジェクトの立ち上げメンバー
・2011:iAnalysis合同会社 設立
※Twitter: @isseing333
※blog: 「おとうさんの解析日記」 http://d.hatena.ne.jp/isseing333/
2
3. iAnalysis合同会社
設立:2011年3月24日
Web:http://ianalysis.jp/
本社:東京都港区南青山2-2-15 ウィン青山
取引先企業
◦ エーザイ株式会社、大鵬薬品工業株式会社、株式会社gumi、大手自動車会社、
大手人材サービス会社など
医療分野から始まり、多種多様な業種へ
実績
◦ セミナー活動
◦ コンサルティング
分析手法のアドバイス
分析環境作りのアドバイス
◦ 分析実務
調査データ分析によるインサイト抽出
売上データ分析によるKPIの開発
◦ 分析のためのデータベース構築
◦ 予測モデル開発
Web上の行動履歴データを使ったユーザーの属性予測
3
5. 『注目の職種!データサイエンティストになるための条件』
◦ リクナビNEXT:ブレインパッド佐藤氏との対談
『業務改善のためのデータサイエンス』
◦ スクー(Web教室)でのレクチャー
『データサイエンティスト問題』
◦ リクルート、CodeIQ
『データサイエンティスト協会(仮)』
◦ 一般社団法人設立に向けてFacebookページの開設
5
6. データサイエンスとは?
データサイエンティストの流れ
CodeIQデータサイエンス問題
◦ データサイエンティスト初級問題
◦ データサイエンティスト~統計学編1~
◦ データサイエンティスト~統計学編2~
◦ データサイエンティスト~機械学習編1~
◦ データサイエンティスト~機械学習編2~
6
8. 「経験的に得られたデータを分析し法則性を見出す学問」
政治・ギャンブルなどのニーズから生まれた
サンプリング調査
webアクセス・広告
8
9. 様々な事象を数値化した集合
ID 年齢 身長 体重
A 20 165 60
B 43 178 73
C 36 163 57
... ... ... ...
ID Webページ 時間
A Top 20120607
A Service 20120607 データベース
B Top 20120607
B Service 20120607
B contact 20120607
… … …
9
10. データマイニング
◦ (大量の)データから有益な情報を掘り起こす(マイニング)こと
◦ 分析対象のデータは「排気データ」なことが多い
◦ 技術的な視点が強い
データサイエンス
◦ データを適切に分析することで、正しい意思決定を行う
◦ 目的、仮説を持って意識的にデータを溜めて分析しよう
◦ 技術を何のためにどう活かすかという視点が強い
Google:「次の10年で熱い職業は統計学」
◦ あらゆるデータが記録される時代
◦ データをどのように有効活用するか!
◦ http://www.publickey1.jp/blog/10/10_3.html
Facebook:「データサイエンティスト」を公募
10
11. Gmail
◦ 「迷惑メール」であるかどうか予測し、フィルタを行う
ロジスティック回帰
ナイーブベイズ
◦ 利用者が「迷惑メール」と選択した時点で予測方法を更新する
ベイズによるパラメータ更新
11
12. ECサイトなどで、ユーザの好みを分析し、各ユーザごとに興味のあ
りそうな情報を選択して表示すること
Amazon
◦ Webサイトで顧客層ごとに異なるトップメニューを用意
◦ ある商品を購入したら他の商品を推奨する
マクドナルド
◦ カスタマイズクーポン
◦ 会員の購買履歴を分析して個々人に異なるキャンペーンを行う
◦ おさいふケータイを利用している1,000万人が対象
12
13. Gartner社:楽観視していない(否定的なわけではない)
13
14. Gartner社:楽観視していない(否定的なわけではない)
「2015年までを通じ、Fortune 500企業の85%以上が、ビッグデー
タを競合優位性確保のために効果的に活用することに失敗する」
McKinseyの警鐘
米国では2018年までに、高度なアナリティクス・スキルを持つ人材
(データサイエンティスト)が14~19万人不足し、大規模なデータ
セットのアナリティクスを活用し意思決定のできるマネージャーやア
ナリストが150万人不足する
14
17. 広報ページ:http://www.facebook.com/DataScientist.jp
議論ページ:http://www.facebook.com/groups/datascientist.jp/
◦ スキル要件、人物像等について議論
◦ 興味のある方はぜひご連絡を(要申請)
17
23. 【前提】
とある転職サイトから、「とりあえずデータがあるんだけど、、、」と言われてデー
タを受け取りました。先方は何をして欲しいかまだはっきりと決まってない様子。
受け取ったデータは、
「応募した人の属性データ(oubo_zokusei.csv)」
「応募した時間の記録データ(oubo_kiroku.csv)」
の2種のCSVファイルです。
【課題】
幸いにもデータサイズはあまり大きくなく、Rで読み込める程度。まずはRで読み込ん
でどんなデータか把握してください。
解答はテキストファイル(.txt)で、
1. Rコード
2. データの概要:どんなデータかまとめた文章
3. 分析提案:もし応募数の予測モデルを作るとしたらあった方がよさそうな変数とその
理由
の3つを、この順番で書いて下さい。
23
29. 問1. Rを使い、5人分の身長に関し、下記の6つの統計量を求めてくだ
さい。
# 5人分の身長データ
height1 <- c(168, 173, 152, 181, 175)
(1) 5人分の身長データの平均値
(2) 5人分の身長データの中央値
(3) 5人分の身長データの標本分散
(4) 5人分の身長データの不偏分散
(5) 5人分の身長データの標準偏差(不偏分散を使う)
(6) 5人分の身長データの標準誤差(不偏分散を使う)
29
33. 例)選挙の調査
1億人 1,000人(十万分の1)
サンプリング調査で分かるのは、”母集団”の”平均値”
◦ 母集団の平均値(真値)を推測するのが95%信頼区間
妥当な結果を得るには”ランダムサンプリング”していることが必要
33
36. データに様々な「モデル」を当てはめて、情報を探索する
36
37. x
◦ 説明変数
◦ 独立変数
◦ 予測変数
◦ 共変量
◦ 入力
y
◦ 結果変数
◦ 従属変数
◦ 応答変数
◦ アウトプット
◦ 出力
◦ ターゲット
37
38. 結果変数: y 説明変数: x 手法
連続値 2値 t検定
3つ以上のカテゴ 分散分析
リー
連続 線形単回帰、線形重回帰
カテゴリー、連続 共分散分析
2値 カテゴリー 分割表、ロジスティック回
帰
連続 ロジステック回帰など
カテゴリー、連続 ロジステック回帰
3つ以上のカテゴリー カテゴリー 分割表
カテゴリー、連続 名義ロジステック回帰
順序 カテゴリー、連続 順序ロジステック回帰
カウント値 カテゴリー 対数線形モデル
カテゴリー、連続 ポアソン回帰
生存時間 カテゴリー、連続 Cox回帰
相関のある値、グループ値 カテゴリー、連続 混合効果モデル 38
41. 1. 高次元への変換
2. マージン最大化
3. カーネルトリック
高次元へ変換
マージン最大化
X Φ(X)
41