SlideShare una empresa de Scribd logo
1 de 43
Descargar para leer sin conexión
iAnalysis合同会社
代表・最高解析責任者 倉橋一成


                       1
【経歴】
   東京大学Ph.D (2011), Statistician, Data Scientist, Data Miner
【専門】
   cDNAマイクロアレイ、臨床試験データ、レセプトデータ、
   電子カルテ・医療オーダーデータ、マーケティングデータ
【スキル】
   R, SAS, SPSS, Visual C++, Ruby on Rails, Python
【主な実績】
   ・2005:NPO日本臨床研究支援ユニット、解析担当
    腎臓癌患者の調査データの解析(SAS)
    レセプトデータの解析と結果のレポーティング(R)
   ・2007、2009:スタットコム株式会社、統計解析者
    小児癌の臨床試験のプロトコルに沿った解析とレポーティング
    術後乳癌患者のQOLに関する研究の解析と統計アドバイス
   ・2009~2010:帝京大学、医師への統計コンサルタント
    論文化にあたっての医師へのアドバイスと解析
    様々な科の医師に対してのコンサルタント(内科、外科、眼科など)スタットコム株式会社、統計解析者
   ・2010:キャピタルメディカ株式会社、プロジェクトメンバー
    レセプトデータを活用した新規プロジェクトの立ち上げメンバー
   ・2011:iAnalysis合同会社 設立
※Twitter: @isseing333
※blog: 「おとうさんの解析日記」 http://d.hatena.ne.jp/isseing333/

                                                               2
iAnalysis合同会社

   設立:2011年3月24日
   Web:http://ianalysis.jp/
   本社:東京都港区南青山2-2-15 ウィン青山
   取引先企業
    ◦   エーザイ株式会社、大鵬薬品工業株式会社、株式会社gumi、大手自動車会社、
        大手人材サービス会社など
   医療分野から始まり、多種多様な業種へ

   実績
    ◦ セミナー活動
    ◦ コンサルティング
           分析手法のアドバイス
           分析環境作りのアドバイス
    ◦ 分析実務
           調査データ分析によるインサイト抽出
           売上データ分析によるKPIの開発
    ◦ 分析のためのデータベース構築
    ◦ 予測モデル開発
           Web上の行動履歴データを使ったユーザーの属性予測


                                                3
http://ianalysis.jp/




                   4
   『注目の職種!データサイエンティストになるための条件』
    ◦ リクナビNEXT:ブレインパッド佐藤氏との対談




   『業務改善のためのデータサイエンス』
    ◦ スクー(Web教室)でのレクチャー
   『データサイエンティスト問題』
    ◦ リクルート、CodeIQ
   『データサイエンティスト協会(仮)』
    ◦ 一般社団法人設立に向けてFacebookページの開設


                                   5
   データサイエンスとは?

   データサイエンティストの流れ

   CodeIQデータサイエンス問題
    ◦   データサイエンティスト初級問題
    ◦   データサイエンティスト~統計学編1~
    ◦   データサイエンティスト~統計学編2~
    ◦   データサイエンティスト~機械学習編1~
    ◦   データサイエンティスト~機械学習編2~




                              6
データサイエンス
   とは?
   「経験的に得られたデータを分析し法則性を見出す学問」
   政治・ギャンブルなどのニーズから生まれた

                     サンプリング調査




                    webアクセス・広告




                                 8
   様々な事象を数値化した集合

                    ID     年齢        身長      体重
                    A       20       165      60
                    B       43       178      73
                    C       36       163      57
                    ...     ...      ...      ...

               ID         Webページ             時間
               A            Top            20120607
               A           Service         20120607   データベース
               B            Top            20120607
               B           Service         20120607
               B           contact         20120607
               …             …                …


                                                               9
   データマイニング
    ◦ (大量の)データから有益な情報を掘り起こす(マイニング)こと
    ◦ 分析対象のデータは「排気データ」なことが多い
    ◦ 技術的な視点が強い


   データサイエンス
    ◦ データを適切に分析することで、正しい意思決定を行う
    ◦ 目的、仮説を持って意識的にデータを溜めて分析しよう
    ◦ 技術を何のためにどう活かすかという視点が強い


   Google:「次の10年で熱い職業は統計学」
    ◦ あらゆるデータが記録される時代
    ◦ データをどのように有効活用するか!
    ◦ http://www.publickey1.jp/blog/10/10_3.html
   Facebook:「データサイエンティスト」を公募



                                                   10
   Gmail
    ◦ 「迷惑メール」であるかどうか予測し、フィルタを行う
      ロジスティック回帰
      ナイーブベイズ
    ◦ 利用者が「迷惑メール」と選択した時点で予測方法を更新する
      ベイズによるパラメータ更新




                                     11
   ECサイトなどで、ユーザの好みを分析し、各ユーザごとに興味のあ
    りそうな情報を選択して表示すること

   Amazon
    ◦ Webサイトで顧客層ごとに異なるトップメニューを用意
    ◦ ある商品を購入したら他の商品を推奨する


   マクドナルド
    ◦ カスタマイズクーポン
    ◦ 会員の購買履歴を分析して個々人に異なるキャンペーンを行う
    ◦ おさいふケータイを利用している1,000万人が対象




                                      12
   Gartner社:楽観視していない(否定的なわけではない)




                                    13
   Gartner社:楽観視していない(否定的なわけではない)

「2015年までを通じ、Fortune 500企業の85%以上が、ビッグデー
タを競合優位性確保のために効果的に活用することに失敗する」



   McKinseyの警鐘

米国では2018年までに、高度なアナリティクス・スキルを持つ人材
(データサイエンティスト)が14~19万人不足し、大規模なデータ
セットのアナリティクスを活用し意思決定のできるマネージャーやア
ナリストが150万人不足する




                                         14
15
16
   広報ページ:http://www.facebook.com/DataScientist.jp




   議論ページ:http://www.facebook.com/groups/datascientist.jp/
    ◦ スキル要件、人物像等について議論
    ◦ 興味のある方はぜひご連絡を(要申請)



                                                             17
データサイエンスの流れ




              18
19
ビジネス
インテリジェンス
  (BI)




  ビジネス
アナリティクス
  (BA)




          20
CodeIQ
データサイエンス問題




             21
データサイエンティスト
を目指して問題を解こう!



           22
【前提】
 とある転職サイトから、「とりあえずデータがあるんだけど、、、」と言われてデー
  タを受け取りました。先方は何をして欲しいかまだはっきりと決まってない様子。

受け取ったデータは、
「応募した人の属性データ(oubo_zokusei.csv)」
「応募した時間の記録データ(oubo_kiroku.csv)」
の2種のCSVファイルです。

【課題】
 幸いにもデータサイズはあまり大きくなく、Rで読み込める程度。まずはRで読み込ん
   でどんなデータか把握してください。
 解答はテキストファイル(.txt)で、

1. Rコード
2. データの概要:どんなデータかまとめた文章
3. 分析提案:もし応募数の予測モデルを作るとしたらあった方がよさそうな変数とその
   理由
の3つを、この順番で書いて下さい。



                                            23
24
25
26
頻度




     標準偏差



       平均値

             値(身長)
                     27
頻度




 最頻値

     中央値

       平均値

             年収
                  28
問1. Rを使い、5人分の身長に関し、下記の6つの統計量を求めてくだ
 さい。

 # 5人分の身長データ
 height1 <- c(168, 173, 152, 181, 175)

 (1)   5人分の身長データの平均値
 (2)   5人分の身長データの中央値
 (3)   5人分の身長データの標本分散
 (4)   5人分の身長データの不偏分散
 (5)   5人分の身長データの標準偏差(不偏分散を使う)
 (6)   5人分の身長データの標準誤差(不偏分散を使う)




                                         29
問2. 下記のrnorm関数を使うと5人分の身長のデータを擬似生成でき
 ます。擬似生成データを使った以下の質問に答えてください。

 # 5人分の身長を擬似生成するコード
 height2 <- 170 + 10*rnorm(5)

 (1) 擬似生成した5人分の身長データを使って
     - 標本分散
     - 不偏分散
     - 標準偏差(不偏分散を使う)
     - 標準誤差(不偏分散を使う)
   の4つの統計量を計算してください。
   計算に使ったRのコードと計算結果を提出してください。




                                      30
(2) 「100人分の身長データ」、「1,000人分の身長データ」を擬似生
  成し、上記4つの統計量(標本分散、不偏分散、標準偏差、標準誤
  差)を計算してみてください。人数(データ件数)が増えたとき、
  この4つの関係性はどうなるか議論してください。




                                        31
32
   例)選挙の調査
         1億人              1,000人(十万分の1)




   サンプリング調査で分かるのは、”母集団”の”平均値”
    ◦ 母集団の平均値(真値)を推測するのが95%信頼区間


   妥当な結果を得るには”ランダムサンプリング”していることが必要

                                          33
問1. DataScience_stat2.csvのデータは100万人分の身長を模擬的に
 作成したものです。
この100万人分の身長データから、1000人分のデータをRを使ってサ
 ンプリングしてください。

問2. 問1でランダムサンプリングしたデータを使って以下の値を求め
 てください。
    2-1. 平均値
    2-2. 標準誤差(不偏分散を使う)
    2-3. 平均値の95%信頼区間

問3. 問2-3の信頼区間は、もとの100万人の集団の平均身長(真値)
 を推測するものです。サンプリングを無限に繰り返すと、理論的に
 は95%の割合で信頼区間の範囲に真値が含まれます。ランダムサン
 プリングを10000回繰り返し、この事を確認してください。計算に
 使ったRのコードと簡単な説明を提出してください。

                                               34
35
   データに様々な「モデル」を当てはめて、情報を探索する




                                 36
   x
    ◦   説明変数
    ◦   独立変数
    ◦   予測変数
    ◦   共変量
    ◦   入力


   y
    ◦   結果変数
    ◦   従属変数
    ◦   応答変数
    ◦   アウトプット
    ◦   出力
    ◦   ターゲット




                 37
結果変数: y      説明変数: x    手法
連続値          2値         t検定
             3つ以上のカテゴ   分散分析
             リー
             連続         線形単回帰、線形重回帰
             カテゴリー、連続   共分散分析
2値           カテゴリー      分割表、ロジスティック回
                        帰
             連続         ロジステック回帰など
             カテゴリー、連続   ロジステック回帰
3つ以上のカテゴリー   カテゴリー      分割表
             カテゴリー、連続   名義ロジステック回帰
順序           カテゴリー、連続   順序ロジステック回帰
カウント値        カテゴリー      対数線形モデル
             カテゴリー、連続   ポアソン回帰
生存時間         カテゴリー、連続   Cox回帰
相関のある値、グループ値 カテゴリー、連続   混合効果モデル        38
【問題】
問1. Rを使い、DataScience_ML1.csvを読み込み以下の線形回帰モデ
 ルを作成してください。
    y=x1+x2



問2. Rを使い、問1で作ったモデルに対して以下の回帰診断を行なって
 ください。

  (1)   ローデータの散布図
  (2)   調整済みR二乗
  (3)   残差プロット
  (4)   キャリブレーションプロット




                                             39
SVMとは以下のカーネルを定義したとき、




以下の式を解くことで判別を行う方法です。




SVMを回帰に応用したものがSVRです。
カーネルの種類には次のようなものがあります。




                         40
1.   高次元への変換
2.   マージン最大化
3.   カーネルトリック




                高次元へ変換



                                マージン最大化



          X              Φ(X)

                                          41
【問題】
問1. Rを使い、DataScience_ML1.csvを読み込み、以下のモデルを作
 成してください。結果変数はyとします。

・線形カーネルのSVRモデル
・3次多項式カーネルのSVRモデル
・ガウシアンカーネルのSVRモデル(radial basis)
・シグモイドカーネルのSVRモデル



問2. 作ったモデルに対して予測診断を行うために、各モデルのキャリ
 ブレーションプロットとR二乗をチェックしてください。




                                             42
ご清聴ありがとうございました

  contact@ianalysis.jp



                         43

Más contenido relacionado

La actualidad más candente

行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
Yoichi Motomura
 
ビックデータ戦略
ビックデータ戦略ビックデータ戦略
ビックデータ戦略
Kengo Nagahashi
 
ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2
you shimajiro
 
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Shota Kubo
 
[DSO]勉強会_データサイエンス講義_Chapter9
[DSO]勉強会_データサイエンス講義_Chapter9[DSO]勉強会_データサイエンス講義_Chapter9
[DSO]勉強会_データサイエンス講義_Chapter9
tatsuyasakaeeda
 

La actualidad más candente (18)

東大計数特別講義20130528
東大計数特別講義20130528東大計数特別講義20130528
東大計数特別講義20130528
 
Ym20121122
Ym20121122Ym20121122
Ym20121122
 
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
 
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
 
ビックデータ戦略
ビックデータ戦略ビックデータ戦略
ビックデータ戦略
 
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
 
SIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to RankSIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to Rank
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
 
ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2
 
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
 
データサイエンス講義 第4章 スパムフィルタ、単純ベイズ、データラングリング
データサイエンス講義 第4章  スパムフィルタ、単純ベイズ、データラングリングデータサイエンス講義 第4章  スパムフィルタ、単純ベイズ、データラングリング
データサイエンス講義 第4章 スパムフィルタ、単純ベイズ、データラングリング
 
[DSO]勉強会_データサイエンス講義_Chapter9
[DSO]勉強会_データサイエンス講義_Chapter9[DSO]勉強会_データサイエンス講義_Chapter9
[DSO]勉強会_データサイエンス講義_Chapter9
 
20190526 bayes ml
20190526 bayes ml20190526 bayes ml
20190526 bayes ml
 
データサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリストデータサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリスト
 
#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法
 
Treasure Data × Wave Analytics EC Demo
Treasure Data × Wave Analytics EC DemoTreasure Data × Wave Analytics EC Demo
Treasure Data × Wave Analytics EC Demo
 
実践データ分析基礎
実践データ分析基礎実践データ分析基礎
実践データ分析基礎
 

Similar a おしゃスタ@リクルート

【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス
Issei Kurahashi
 
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
webcampusschoo
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori
 
事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612
Takahiro Inoue
 
ビッグデータ革命 クラウドがコモデティ化する「奇跡」
ビッグデータ革命 クラウドがコモデティ化する「奇跡」ビッグデータ革命 クラウドがコモデティ化する「奇跡」
ビッグデータ革命 クラウドがコモデティ化する「奇跡」
Atsushi Nakada
 

Similar a おしゃスタ@リクルート (20)

おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス
 
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
 
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612
 
データ分析で Excel を活用しよう
データ分析で Excel を活用しようデータ分析で Excel を活用しよう
データ分析で Excel を活用しよう
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明
 
SASより高速なRevolution R Enterprise
SASより高速なRevolution R EnterpriseSASより高速なRevolution R Enterprise
SASより高速なRevolution R Enterprise
 
広告クリエイティブ最適化の実際 TokyoWebmining 22nd 発表資料
広告クリエイティブ最適化の実際 TokyoWebmining 22nd 発表資料広告クリエイティブ最適化の実際 TokyoWebmining 22nd 発表資料
広告クリエイティブ最適化の実際 TokyoWebmining 22nd 発表資料
 
大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
 
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
 
ビッグデータ革命 クラウドがコモデティ化する「奇跡」
ビッグデータ革命 クラウドがコモデティ化する「奇跡」ビッグデータ革命 クラウドがコモデティ化する「奇跡」
ビッグデータ革命 クラウドがコモデティ化する「奇跡」
 
Shared Questionnaire System Development Project
Shared Questionnaire System Development ProjectShared Questionnaire System Development Project
Shared Questionnaire System Development Project
 

Más de Issei Kurahashi

データサイエンティストになるために
データサイエンティストになるためにデータサイエンティストになるために
データサイエンティストになるために
Issei Kurahashi
 
Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回
Issei Kurahashi
 
おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋
Issei Kurahashi
 
コホート研究 isseing333
コホート研究 isseing333コホート研究 isseing333
コホート研究 isseing333
Issei Kurahashi
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
Issei Kurahashi
 
遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333
Issei Kurahashi
 
生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333
Issei Kurahashi
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333
Issei Kurahashi
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333
Issei Kurahashi
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
Issei Kurahashi
 

Más de Issei Kurahashi (16)

データサイエンティストになるために
データサイエンティストになるためにデータサイエンティストになるために
データサイエンティストになるために
 
Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回
 
おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋
 
iAnalysis NY視察
iAnalysis NY視察 iAnalysis NY視察
iAnalysis NY視察
 
おしゃスタV
おしゃスタVおしゃスタV
おしゃスタV
 
平方和の分解
平方和の分解平方和の分解
平方和の分解
 
コホート研究 isseing333
コホート研究 isseing333コホート研究 isseing333
コホート研究 isseing333
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
 
遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333
 
生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333
 
統計概論 isseing333
統計概論 isseing333統計概論 isseing333
統計概論 isseing333
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
 
分布 isseing333
分布 isseing333分布 isseing333
分布 isseing333
 
データ解析
データ解析データ解析
データ解析
 

おしゃスタ@リクルート

  • 2. 【経歴】 東京大学Ph.D (2011), Statistician, Data Scientist, Data Miner 【専門】 cDNAマイクロアレイ、臨床試験データ、レセプトデータ、 電子カルテ・医療オーダーデータ、マーケティングデータ 【スキル】 R, SAS, SPSS, Visual C++, Ruby on Rails, Python 【主な実績】 ・2005:NPO日本臨床研究支援ユニット、解析担当 腎臓癌患者の調査データの解析(SAS) レセプトデータの解析と結果のレポーティング(R) ・2007、2009:スタットコム株式会社、統計解析者 小児癌の臨床試験のプロトコルに沿った解析とレポーティング 術後乳癌患者のQOLに関する研究の解析と統計アドバイス ・2009~2010:帝京大学、医師への統計コンサルタント 論文化にあたっての医師へのアドバイスと解析 様々な科の医師に対してのコンサルタント(内科、外科、眼科など)スタットコム株式会社、統計解析者 ・2010:キャピタルメディカ株式会社、プロジェクトメンバー レセプトデータを活用した新規プロジェクトの立ち上げメンバー ・2011:iAnalysis合同会社 設立 ※Twitter: @isseing333 ※blog: 「おとうさんの解析日記」 http://d.hatena.ne.jp/isseing333/ 2
  • 3. iAnalysis合同会社  設立:2011年3月24日  Web:http://ianalysis.jp/  本社:東京都港区南青山2-2-15 ウィン青山  取引先企業 ◦ エーザイ株式会社、大鵬薬品工業株式会社、株式会社gumi、大手自動車会社、 大手人材サービス会社など  医療分野から始まり、多種多様な業種へ  実績 ◦ セミナー活動 ◦ コンサルティング  分析手法のアドバイス  分析環境作りのアドバイス ◦ 分析実務  調査データ分析によるインサイト抽出  売上データ分析によるKPIの開発 ◦ 分析のためのデータベース構築 ◦ 予測モデル開発  Web上の行動履歴データを使ったユーザーの属性予測 3
  • 5. 『注目の職種!データサイエンティストになるための条件』 ◦ リクナビNEXT:ブレインパッド佐藤氏との対談  『業務改善のためのデータサイエンス』 ◦ スクー(Web教室)でのレクチャー  『データサイエンティスト問題』 ◦ リクルート、CodeIQ  『データサイエンティスト協会(仮)』 ◦ 一般社団法人設立に向けてFacebookページの開設 5
  • 6. データサイエンスとは?  データサイエンティストの流れ  CodeIQデータサイエンス問題 ◦ データサイエンティスト初級問題 ◦ データサイエンティスト~統計学編1~ ◦ データサイエンティスト~統計学編2~ ◦ データサイエンティスト~機械学習編1~ ◦ データサイエンティスト~機械学習編2~ 6
  • 8. 「経験的に得られたデータを分析し法則性を見出す学問」  政治・ギャンブルなどのニーズから生まれた サンプリング調査 webアクセス・広告 8
  • 9. 様々な事象を数値化した集合 ID 年齢 身長 体重 A 20 165 60 B 43 178 73 C 36 163 57 ... ... ... ... ID Webページ 時間 A Top 20120607 A Service 20120607 データベース B Top 20120607 B Service 20120607 B contact 20120607 … … … 9
  • 10. データマイニング ◦ (大量の)データから有益な情報を掘り起こす(マイニング)こと ◦ 分析対象のデータは「排気データ」なことが多い ◦ 技術的な視点が強い  データサイエンス ◦ データを適切に分析することで、正しい意思決定を行う ◦ 目的、仮説を持って意識的にデータを溜めて分析しよう ◦ 技術を何のためにどう活かすかという視点が強い  Google:「次の10年で熱い職業は統計学」 ◦ あらゆるデータが記録される時代 ◦ データをどのように有効活用するか! ◦ http://www.publickey1.jp/blog/10/10_3.html  Facebook:「データサイエンティスト」を公募 10
  • 11. Gmail ◦ 「迷惑メール」であるかどうか予測し、フィルタを行う  ロジスティック回帰  ナイーブベイズ ◦ 利用者が「迷惑メール」と選択した時点で予測方法を更新する  ベイズによるパラメータ更新 11
  • 12. ECサイトなどで、ユーザの好みを分析し、各ユーザごとに興味のあ りそうな情報を選択して表示すること  Amazon ◦ Webサイトで顧客層ごとに異なるトップメニューを用意 ◦ ある商品を購入したら他の商品を推奨する  マクドナルド ◦ カスタマイズクーポン ◦ 会員の購買履歴を分析して個々人に異なるキャンペーンを行う ◦ おさいふケータイを利用している1,000万人が対象 12
  • 13. Gartner社:楽観視していない(否定的なわけではない) 13
  • 14. Gartner社:楽観視していない(否定的なわけではない) 「2015年までを通じ、Fortune 500企業の85%以上が、ビッグデー タを競合優位性確保のために効果的に活用することに失敗する」  McKinseyの警鐘 米国では2018年までに、高度なアナリティクス・スキルを持つ人材 (データサイエンティスト)が14~19万人不足し、大規模なデータ セットのアナリティクスを活用し意思決定のできるマネージャーやア ナリストが150万人不足する 14
  • 15. 15
  • 16. 16
  • 17. 広報ページ:http://www.facebook.com/DataScientist.jp  議論ページ:http://www.facebook.com/groups/datascientist.jp/ ◦ スキル要件、人物像等について議論 ◦ 興味のある方はぜひご連絡を(要申請) 17
  • 19. 19
  • 20. ビジネス インテリジェンス (BI) ビジネス アナリティクス (BA) 20
  • 23. 【前提】  とある転職サイトから、「とりあえずデータがあるんだけど、、、」と言われてデー タを受け取りました。先方は何をして欲しいかまだはっきりと決まってない様子。 受け取ったデータは、 「応募した人の属性データ(oubo_zokusei.csv)」 「応募した時間の記録データ(oubo_kiroku.csv)」 の2種のCSVファイルです。 【課題】  幸いにもデータサイズはあまり大きくなく、Rで読み込める程度。まずはRで読み込ん でどんなデータか把握してください。  解答はテキストファイル(.txt)で、 1. Rコード 2. データの概要:どんなデータかまとめた文章 3. 分析提案:もし応募数の予測モデルを作るとしたらあった方がよさそうな変数とその 理由 の3つを、この順番で書いて下さい。 23
  • 24. 24
  • 25. 25
  • 26. 26
  • 27. 頻度 標準偏差 平均値 値(身長) 27
  • 28. 頻度 最頻値 中央値 平均値 年収 28
  • 29. 問1. Rを使い、5人分の身長に関し、下記の6つの統計量を求めてくだ さい。 # 5人分の身長データ height1 <- c(168, 173, 152, 181, 175) (1) 5人分の身長データの平均値 (2) 5人分の身長データの中央値 (3) 5人分の身長データの標本分散 (4) 5人分の身長データの不偏分散 (5) 5人分の身長データの標準偏差(不偏分散を使う) (6) 5人分の身長データの標準誤差(不偏分散を使う) 29
  • 30. 問2. 下記のrnorm関数を使うと5人分の身長のデータを擬似生成でき ます。擬似生成データを使った以下の質問に答えてください。 # 5人分の身長を擬似生成するコード height2 <- 170 + 10*rnorm(5) (1) 擬似生成した5人分の身長データを使って - 標本分散 - 不偏分散 - 標準偏差(不偏分散を使う) - 標準誤差(不偏分散を使う) の4つの統計量を計算してください。 計算に使ったRのコードと計算結果を提出してください。 30
  • 31. (2) 「100人分の身長データ」、「1,000人分の身長データ」を擬似生 成し、上記4つの統計量(標本分散、不偏分散、標準偏差、標準誤 差)を計算してみてください。人数(データ件数)が増えたとき、 この4つの関係性はどうなるか議論してください。 31
  • 32. 32
  • 33. 例)選挙の調査 1億人 1,000人(十万分の1)  サンプリング調査で分かるのは、”母集団”の”平均値” ◦ 母集団の平均値(真値)を推測するのが95%信頼区間  妥当な結果を得るには”ランダムサンプリング”していることが必要 33
  • 34. 問1. DataScience_stat2.csvのデータは100万人分の身長を模擬的に 作成したものです。 この100万人分の身長データから、1000人分のデータをRを使ってサ ンプリングしてください。 問2. 問1でランダムサンプリングしたデータを使って以下の値を求め てください。 2-1. 平均値 2-2. 標準誤差(不偏分散を使う) 2-3. 平均値の95%信頼区間 問3. 問2-3の信頼区間は、もとの100万人の集団の平均身長(真値) を推測するものです。サンプリングを無限に繰り返すと、理論的に は95%の割合で信頼区間の範囲に真値が含まれます。ランダムサン プリングを10000回繰り返し、この事を確認してください。計算に 使ったRのコードと簡単な説明を提出してください。 34
  • 35. 35
  • 36. データに様々な「モデル」を当てはめて、情報を探索する 36
  • 37. x ◦ 説明変数 ◦ 独立変数 ◦ 予測変数 ◦ 共変量 ◦ 入力  y ◦ 結果変数 ◦ 従属変数 ◦ 応答変数 ◦ アウトプット ◦ 出力 ◦ ターゲット 37
  • 38. 結果変数: y 説明変数: x 手法 連続値 2値 t検定 3つ以上のカテゴ 分散分析 リー 連続 線形単回帰、線形重回帰 カテゴリー、連続 共分散分析 2値 カテゴリー 分割表、ロジスティック回 帰 連続 ロジステック回帰など カテゴリー、連続 ロジステック回帰 3つ以上のカテゴリー カテゴリー 分割表 カテゴリー、連続 名義ロジステック回帰 順序 カテゴリー、連続 順序ロジステック回帰 カウント値 カテゴリー 対数線形モデル カテゴリー、連続 ポアソン回帰 生存時間 カテゴリー、連続 Cox回帰 相関のある値、グループ値 カテゴリー、連続 混合効果モデル 38
  • 39. 【問題】 問1. Rを使い、DataScience_ML1.csvを読み込み以下の線形回帰モデ ルを作成してください。 y=x1+x2 問2. Rを使い、問1で作ったモデルに対して以下の回帰診断を行なって ください。 (1) ローデータの散布図 (2) 調整済みR二乗 (3) 残差プロット (4) キャリブレーションプロット 39
  • 41. 1. 高次元への変換 2. マージン最大化 3. カーネルトリック 高次元へ変換 マージン最大化 X Φ(X) 41
  • 42. 【問題】 問1. Rを使い、DataScience_ML1.csvを読み込み、以下のモデルを作 成してください。結果変数はyとします。 ・線形カーネルのSVRモデル ・3次多項式カーネルのSVRモデル ・ガウシアンカーネルのSVRモデル(radial basis) ・シグモイドカーネルのSVRモデル 問2. 作ったモデルに対して予測診断を行うために、各モデルのキャリ ブレーションプロットとR二乗をチェックしてください。 42