SlideShare a Scribd company logo
1 of 41
TokyoR 初心者セッション




                Rでピボットテーブル


                    @yokkuns 里 洋平
                  yohei0511@gmail.com
                2013.01.26 第28回Tokyo.R


2013年1月26日土曜日
AGENDA

    ■ 自己紹介

    ■ ピボットテーブルって何?

    ■ Rでピボットテーブル

    ■ RStudioでHTMLレポート

    ■ デモ
2013年1月26日土曜日
AGENDA

    ■ 自己紹介

    ■ ピボットテーブルって何?

    ■ Rでピボットテーブル

    ■ RStudioでHTMLレポート

    ■ デモ
2013年1月26日土曜日
自己紹介

  ◆ 里 洋平(@yokkuns)


 ◆ 元Webエンジニアのデータサイエンティスト
      ・今は主にマーケティング周りを見てる



 ◆ 統計解析やデータマイニングをビジネスに適用
      ・時系列解析とか異常検知とか最適化とか

      ・いろんなモデルの構築


2013年1月26日土曜日
活動例: 勉強会の主催・執筆


                   Tokyo.R主催




                パッケージ本執筆しました!




2013年1月26日土曜日
活動例: 動画レコメンド

                閲覧されている動画の情報を用いておすすめ動画を表示する




2013年1月26日土曜日
活動例: 市場予測

                Web上の情報から市場予測




2013年1月26日土曜日
活動例: 異常検知
                              Anomaly detection

                    複数時系列から異常な振る舞いを検知する

                                                                            C
                                                                            A
        時系列のモデリング               複数時系列の異常検知                                  B

      時系列A                             時系列A

                                                                        異常な振る舞い
      時系列B


      時系列C                      時系列B          時系列C

                                 異常な振る舞いの時系列を検出




                例1:トラフィック異常検知                   例2:CM効果のノイズ除去

                    トラフィックA                          ケースA
                                                              CM効果
                    トラフィックB                          ケースB

                    トラフィックC      調査                  ケースC

                     異常な振る舞いをしている                    異常な振る舞いをしているケースを
                     トラフィックの原因を調査する                  除外して、CMの効果を算出する
                                                                                  85
2013年1月26日土曜日
活動例: 時系列解析と影響分析
                        TV Commercial Effects

                時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
                                                   イベン
                CM時系列                               ト

                                          新規
                                          登録


                              CM                   ARPP
                                                    U




                                          ARPU

            各KPIの時系列
                                                          その他
                                                           外部
                                   継続率
                                                           要因




                                                 ケース




                                                            87

2013年1月26日土曜日
新たな勉強会




          TokyoApache.Pig
          https://groups.google.com/group/tokyo_apache_pig




2013年1月26日土曜日
AGENDA

    ■ 自己紹介

    ■ ピボットテーブルって何?

    ■ Rでピボットテーブル

    ■ RStudioでHTMLレポート

    ■ デモ
2013年1月26日土曜日
Excelの最大の魅力:ピボットテーブル
      Excelには、ピボットテーブルという超強力な集計ツールがある
      マウスでポチポチっとやるだけで、簡単にクロス集計とか出来る




 Excel(エクセル)実用編:家計簿の作成(ピボットテーブルを使う)
 http://www.eurus.dti.ne.jp/yoneyama/Excel/jituyou/kake-pib.htm

2013年1月26日土曜日
Excelの最大の魅力:ピボットテーブル
      Excelには、ピボットテーブルという超強力な集計ツールがある
      マウスでポチポチっとやるだけで、簡単にクロス集計とか出来る




 Excel(エクセル)実用編:家計簿の作成(ピボットテーブルを使う)
 http://www.eurus.dti.ne.jp/yoneyama/Excel/jituyou/kake-pib.htm

2013年1月26日土曜日
Excelの最大の魅力:ピボットテーブル
      Excelには、ピボットテーブルという超強力な集計ツールがある
      マウスでポチポチっとやるだけで、簡単にクロス集計とか出来る




 Excel(エクセル)実用編:家計簿の作成(ピボットテーブルを使う)
 http://www.eurus.dti.ne.jp/yoneyama/Excel/jituyou/kake-pib.htm

2013年1月26日土曜日
ピボットテーブルの課題




2013年1月26日土曜日
ピボットテーブルの課題



        簡単だけど手作業になるので再現性が担保出来ない




2013年1月26日土曜日
ピボットテーブルの課題



        簡単だけど手作業になるので再現性が担保出来ない



  いろんな軸で切ったグラフとかを一気に見たい時とか面倒




2013年1月26日土曜日
ピボットテーブルの課題



        簡単だけど手作業になるので再現性が担保出来ない



  いろんな軸で切ったグラフとかを一気に見たい時とか面倒



                定常的に実行する事になったりすると面倒




2013年1月26日土曜日
RとRStudioで解決




  reshape2パッケージでピボットと同様に整形や集計が出来る


    HTML出力出来るので一気にグラフ見れるし、再現性も担保


                さらにRを使った統計解析を実行出来る




2013年1月26日土曜日
AGENDA

    ■ 自己紹介

    ■ ピボットテーブルって何?

    ■ Rでピボットテーブル

    ■ RStudioでHTMLレポート

    ■ デモ
2013年1月26日土曜日
参考資料
                @a_bicky さんによる素晴らしい資料があるので
                          こちらもご確認下さい




                  http://www.slideshare.net/abicky/r-10128090

2013年1月26日土曜日
Rでピボットテーブル: reshape2パッケージ

                ピボットテーブルと同じように整形や集約処理が出来る




                              melt
                                     A   variable   value
                                     1      B       100
        A          B     C
        1         100   300          1      C       300
        2         200   400   cast
                                     2      B       200

                                     2      C       400



2013年1月26日土曜日
reshape2パッケージ

     dcast関数とmelt関数の2つを用いてピボットテーブルを実現する


 dcast(data, formula, fun.aggregate = NULL, ..., margins = NULL,
   subset = NULL, fill = NULL, drop = TRUE, value.var = guess_value(data))


    fourmula: 整形の形式 行となる変数 列となる変数
    value.var: 集計対象となる変数




 melt(data, id.vars, measure.vars,variable.name = "variable", ...,
   na.rm = FALSE,value.name = "value")


    id.vars: idになるカラム名
    measure.vars: グループ変数になるカラム名




2013年1月26日土曜日
Rでピボットテーブル: データの集計

                行となる変数と列となる変数を指定して集約処理を行う




                   行~列 の形式で集約し         独自の関数を
                    その合計を算出           指定する事も出来る




2013年1月26日土曜日
Rでピボットテーブル: データの整形

     横に並んでいるデータをカラム名をグループ変数として縦長に整形




                  melt




2013年1月26日土曜日
AGENDA

    ■ 自己紹介

    ■ ピボットテーブルって何?

    ■ Rでピボットテーブル

    ■ RStudioでHTMLレポート

    ■ デモ
2013年1月26日土曜日
参考資料
                @wdkz さんによる素晴らしい資料があるので
                       こちらもご確認下さい




                http://www.slideshare.net/wdkz/rstudio-13866958

2013年1月26日土曜日
RStudioの導入: インストール
                       Rの総合開発環境(IDE)
                補完機能だけでなくレポート出力なども手軽に出来る




2013年1月26日土曜日
RStudioの導入: インストール
                http://www.rstudio.com/ からDownload
                       Desktop版とServer版がある




2013年1月26日土曜日
RStudioの導入: 画面構成
                        4分割の画面構成
                (エディタ・コンソール・workspace・その他)




2013年1月26日土曜日
RStudioの導入: エディタ画面
                Ctrl+Enter(MacはCommand+Enter)で実行
                         範囲を指定しての実行も可能




2013年1月26日土曜日
RStudioの導入: workspace
                現在定義されている変数や関数が表示され、
                   クリックすると中身が見れる




2013年1月26日土曜日
RStudioの導入: コンソール・その他
                コンソールは通常のコンソールと同じ
           その他にはファイル一覧やplot時にはグラフが表示される




2013年1月26日土曜日
RStudioの導入: Markdownでの記述
                    R Markdown形式で開発する事で
                データの解析手順と結果を1つのHTMLで出力出来る




2013年1月26日土曜日
RStudioの導入: Markdownでの記述
                 Markdownとは、シンプルな記法による記述で
                構造的に妥当なHTMLに変換するマークアップ言語




2013年1月26日土曜日
RStudioの導入: Markdownでの記述

                Markdownの記述例




2013年1月26日土曜日
RStudioの導入: HTMLレポート出力
                  knitHTMLを押すだけでHTMLに変換
                ローカル、またはサーバに保存する事が出来る




2013年1月26日土曜日
AGENDA

    ■ 自己紹介

    ■ ピボットテーブルって何?

    ■ Rでピボットテーブル

    ■ RStudioでHTMLレポート

    ■ デモ
2013年1月26日土曜日
デモ

2013年1月26日土曜日
AGENDA

    ■ 自己紹介

    ■ ピボットテーブルって何?

    ■ Rでピボットテーブル

    ■ RStudioでHTMLレポート

    ■ デモ
2013年1月26日土曜日
ご清聴ありがとうございました




2013年1月26日土曜日

More Related Content

What's hot

傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装takehikoihayashi
 
回帰不連続デザイン(Regression Discontinuity Design, RDD)
回帰不連続デザイン(Regression Discontinuity Design, RDD)回帰不連続デザイン(Regression Discontinuity Design, RDD)
回帰不連続デザイン(Regression Discontinuity Design, RDD)Jaehyun Song
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)Masaru Tokuoka
 
NUPSC招待講演:アルゴリズムで広がる世界
NUPSC招待講演:アルゴリズムで広がる世界NUPSC招待講演:アルゴリズムで広がる世界
NUPSC招待講演:アルゴリズムで広がる世界Kentaro Imajo
 
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)Koichi Hamada
 
統計的係り受け解析入門
統計的係り受け解析入門統計的係り受け解析入門
統計的係り受け解析入門Yuya Unno
 
ROS2のコードチェック
ROS2のコードチェックROS2のコードチェック
ROS2のコードチェックKotaro Yoshimoto
 
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用SSII
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会takehikoihayashi
 
落合陽一 筑波大 講演資料 10月17日
落合陽一 筑波大 講演資料 10月17日落合陽一 筑波大 講演資料 10月17日
落合陽一 筑波大 講演資料 10月17日Yoichi Ochiai
 
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性Shiga University, RIKEN
 
クラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリングクラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリングHiroshi Nakagawa
 
ラドン変換を用いた消失点検出による射影歪み補正の考察
ラドン変換を用いた消失点検出による射影歪み補正の考察ラドン変換を用いた消失点検出による射影歪み補正の考察
ラドン変換を用いた消失点検出による射影歪み補正の考察hasegawamakoto
 
バリデーション研究の入門
バリデーション研究の入門バリデーション研究の入門
バリデーション研究の入門Yasuyuki Okumura
 
RとSQLiteで気軽にデータベース作成
RとSQLiteで気軽にデータベース作成RとSQLiteで気軽にデータベース作成
RとSQLiteで気軽にデータベース作成弘毅 露崎
 
Tableauから始める統計学の基礎
Tableauから始める統計学の基礎Tableauから始める統計学の基礎
Tableauから始める統計学の基礎Hiroshi Masuda
 

What's hot (20)

傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
 
回帰不連続デザイン(Regression Discontinuity Design, RDD)
回帰不連続デザイン(Regression Discontinuity Design, RDD)回帰不連続デザイン(Regression Discontinuity Design, RDD)
回帰不連続デザイン(Regression Discontinuity Design, RDD)
 
時系列分析入門
時系列分析入門時系列分析入門
時系列分析入門
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
 
NUPSC招待講演:アルゴリズムで広がる世界
NUPSC招待講演:アルゴリズムで広がる世界NUPSC招待講演:アルゴリズムで広がる世界
NUPSC招待講演:アルゴリズムで広がる世界
 
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
 
統計的係り受け解析入門
統計的係り受け解析入門統計的係り受け解析入門
統計的係り受け解析入門
 
ROS2のコードチェック
ROS2のコードチェックROS2のコードチェック
ROS2のコードチェック
 
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
 
外れ値
外れ値外れ値
外れ値
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
落合陽一 筑波大 講演資料 10月17日
落合陽一 筑波大 講演資料 10月17日落合陽一 筑波大 講演資料 10月17日
落合陽一 筑波大 講演資料 10月17日
 
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性
 
クラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリングクラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリング
 
ラドン変換を用いた消失点検出による射影歪み補正の考察
ラドン変換を用いた消失点検出による射影歪み補正の考察ラドン変換を用いた消失点検出による射影歪み補正の考察
ラドン変換を用いた消失点検出による射影歪み補正の考察
 
Binary indexed tree
Binary indexed treeBinary indexed tree
Binary indexed tree
 
観察研究の必須事項
観察研究の必須事項観察研究の必須事項
観察研究の必須事項
 
バリデーション研究の入門
バリデーション研究の入門バリデーション研究の入門
バリデーション研究の入門
 
RとSQLiteで気軽にデータベース作成
RとSQLiteで気軽にデータベース作成RとSQLiteで気軽にデータベース作成
RとSQLiteで気軽にデータベース作成
 
Tableauから始める統計学の基礎
Tableauから始める統計学の基礎Tableauから始める統計学の基礎
Tableauから始める統計学の基礎
 

Similar to Rでピボットテーブル

Rでレポートメール
RでレポートメールRでレポートメール
RでレポートメールYohei Sato
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift ModellingYohei Sato
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusionYohei Sato
 
異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)Yohei Sato
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolationYohei Sato
 
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection biasYohei Sato
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkunsYohei Sato
 
時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17horihorio
 
1時間で分かるSTA (Software Test Automation) #stac2014
1時間で分かるSTA (Software Test Automation) #stac20141時間で分かるSTA (Software Test Automation) #stac2014
1時間で分かるSTA (Software Test Automation) #stac2014Kazuhiro Suzuki
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” Hajime Sasaki
 
エンジニア必見!Sreへの第一歩
エンジニア必見!Sreへの第一歩エンジニア必見!Sreへの第一歩
エンジニア必見!Sreへの第一歩Takuya Tezuka
 
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -歩 柴田
 
異業種でのテスト自動化の実際
異業種でのテスト自動化の実際異業種でのテスト自動化の実際
異業種でのテスト自動化の実際Satsuki Urayama
 
ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2you shimajiro
 
固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-
固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-
固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-歩 柴田
 
SQLチューニング勉強会資料
SQLチューニング勉強会資料SQLチューニング勉強会資料
SQLチューニング勉強会資料Shinnosuke Akita
 
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~Kazuhiro Suzuki
 
Hivemall Talk@SIGMOD-J Oct.4, 2014.
Hivemall Talk@SIGMOD-J Oct.4, 2014.Hivemall Talk@SIGMOD-J Oct.4, 2014.
Hivemall Talk@SIGMOD-J Oct.4, 2014.Makoto Yui
 

Similar to Rでピボットテーブル (20)

Rでレポートメール
RでレポートメールRでレポートメール
Rでレポートメール
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusion
 
異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
 
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection bias
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkuns
 
JasstTokyo2017
JasstTokyo2017JasstTokyo2017
JasstTokyo2017
 
時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17
 
1時間で分かるSTA (Software Test Automation) #stac2014
1時間で分かるSTA (Software Test Automation) #stac20141時間で分かるSTA (Software Test Automation) #stac2014
1時間で分かるSTA (Software Test Automation) #stac2014
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
 
エンジニア必見!Sreへの第一歩
エンジニア必見!Sreへの第一歩エンジニア必見!Sreへの第一歩
エンジニア必見!Sreへの第一歩
 
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -
 
異業種でのテスト自動化の実際
異業種でのテスト自動化の実際異業種でのテスト自動化の実際
異業種でのテスト自動化の実際
 
ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2ビジネス活用事例で学ぶデータサイエンス入門 #2
ビジネス活用事例で学ぶデータサイエンス入門 #2
 
固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-
固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-
固定化か?最新化か?オプティマイザ統計の運用をもう一度考える。 -JPOUG Tech Talk Night #6-
 
SQLチューニング勉強会資料
SQLチューニング勉強会資料SQLチューニング勉強会資料
SQLチューニング勉強会資料
 
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~
 
Hivemall Talk@SIGMOD-J Oct.4, 2014.
Hivemall Talk@SIGMOD-J Oct.4, 2014.Hivemall Talk@SIGMOD-J Oct.4, 2014.
Hivemall Talk@SIGMOD-J Oct.4, 2014.
 

More from Yohei Sato

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Yohei Sato
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 openingYohei Sato
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みYohei Sato
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Yohei Sato
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2Yohei Sato
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkunsYohei Sato
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介Yohei Sato
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan rYohei Sato
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生Yohei Sato
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例Yohei Sato
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略Yohei Sato
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッションYohei Sato
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusionYohei Sato
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部Yohei Sato
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkunsYohei Sato
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyorYohei Sato
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 openingYohei Sato
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Yohei Sato
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –Yohei Sato
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Yohei Sato
 

More from Yohei Sato (20)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkuns
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyor
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 opening
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
 

Rでピボットテーブル

  • 1. TokyoR 初心者セッション Rでピボットテーブル @yokkuns 里 洋平 yohei0511@gmail.com 2013.01.26 第28回Tokyo.R 2013年1月26日土曜日
  • 2. AGENDA ■ 自己紹介 ■ ピボットテーブルって何? ■ Rでピボットテーブル ■ RStudioでHTMLレポート ■ デモ 2013年1月26日土曜日
  • 3. AGENDA ■ 自己紹介 ■ ピボットテーブルって何? ■ Rでピボットテーブル ■ RStudioでHTMLレポート ■ デモ 2013年1月26日土曜日
  • 4. 自己紹介 ◆ 里 洋平(@yokkuns) ◆ 元Webエンジニアのデータサイエンティスト ・今は主にマーケティング周りを見てる ◆ 統計解析やデータマイニングをビジネスに適用 ・時系列解析とか異常検知とか最適化とか ・いろんなモデルの構築 2013年1月26日土曜日
  • 5. 活動例: 勉強会の主催・執筆 Tokyo.R主催 パッケージ本執筆しました! 2013年1月26日土曜日
  • 6. 活動例: 動画レコメンド 閲覧されている動画の情報を用いておすすめ動画を表示する 2013年1月26日土曜日
  • 7. 活動例: 市場予測 Web上の情報から市場予測 2013年1月26日土曜日
  • 8. 活動例: 異常検知 Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の異常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック異常検知 例2:CM効果のノイズ除去 トラフィックA ケースA CM効果 トラフィックB ケースB トラフィックC 調査 ケースC 異常な振る舞いをしている 異常な振る舞いをしているケースを トラフィックの原因を調査する 除外して、CMの効果を算出する 85 2013年1月26日土曜日
  • 9. 活動例: 時系列解析と影響分析 TV Commercial Effects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPP U ARPU 各KPIの時系列 その他 外部 継続率 要因 ケース 87 2013年1月26日土曜日
  • 10. 新たな勉強会 TokyoApache.Pig https://groups.google.com/group/tokyo_apache_pig 2013年1月26日土曜日
  • 11. AGENDA ■ 自己紹介 ■ ピボットテーブルって何? ■ Rでピボットテーブル ■ RStudioでHTMLレポート ■ デモ 2013年1月26日土曜日
  • 12. Excelの最大の魅力:ピボットテーブル Excelには、ピボットテーブルという超強力な集計ツールがある マウスでポチポチっとやるだけで、簡単にクロス集計とか出来る Excel(エクセル)実用編:家計簿の作成(ピボットテーブルを使う) http://www.eurus.dti.ne.jp/yoneyama/Excel/jituyou/kake-pib.htm 2013年1月26日土曜日
  • 13. Excelの最大の魅力:ピボットテーブル Excelには、ピボットテーブルという超強力な集計ツールがある マウスでポチポチっとやるだけで、簡単にクロス集計とか出来る Excel(エクセル)実用編:家計簿の作成(ピボットテーブルを使う) http://www.eurus.dti.ne.jp/yoneyama/Excel/jituyou/kake-pib.htm 2013年1月26日土曜日
  • 14. Excelの最大の魅力:ピボットテーブル Excelには、ピボットテーブルという超強力な集計ツールがある マウスでポチポチっとやるだけで、簡単にクロス集計とか出来る Excel(エクセル)実用編:家計簿の作成(ピボットテーブルを使う) http://www.eurus.dti.ne.jp/yoneyama/Excel/jituyou/kake-pib.htm 2013年1月26日土曜日
  • 16. ピボットテーブルの課題 簡単だけど手作業になるので再現性が担保出来ない 2013年1月26日土曜日
  • 17. ピボットテーブルの課題 簡単だけど手作業になるので再現性が担保出来ない いろんな軸で切ったグラフとかを一気に見たい時とか面倒 2013年1月26日土曜日
  • 18. ピボットテーブルの課題 簡単だけど手作業になるので再現性が担保出来ない いろんな軸で切ったグラフとかを一気に見たい時とか面倒 定常的に実行する事になったりすると面倒 2013年1月26日土曜日
  • 19. RとRStudioで解決 reshape2パッケージでピボットと同様に整形や集計が出来る HTML出力出来るので一気にグラフ見れるし、再現性も担保 さらにRを使った統計解析を実行出来る 2013年1月26日土曜日
  • 20. AGENDA ■ 自己紹介 ■ ピボットテーブルって何? ■ Rでピボットテーブル ■ RStudioでHTMLレポート ■ デモ 2013年1月26日土曜日
  • 21. 参考資料 @a_bicky さんによる素晴らしい資料があるので こちらもご確認下さい http://www.slideshare.net/abicky/r-10128090 2013年1月26日土曜日
  • 22. Rでピボットテーブル: reshape2パッケージ ピボットテーブルと同じように整形や集約処理が出来る melt A variable value 1 B 100 A B C 1 100 300 1 C 300 2 200 400 cast 2 B 200 2 C 400 2013年1月26日土曜日
  • 23. reshape2パッケージ dcast関数とmelt関数の2つを用いてピボットテーブルを実現する dcast(data, formula, fun.aggregate = NULL, ..., margins = NULL, subset = NULL, fill = NULL, drop = TRUE, value.var = guess_value(data)) fourmula: 整形の形式 行となる変数 列となる変数 value.var: 集計対象となる変数 melt(data, id.vars, measure.vars,variable.name = "variable", ..., na.rm = FALSE,value.name = "value") id.vars: idになるカラム名 measure.vars: グループ変数になるカラム名 2013年1月26日土曜日
  • 24. Rでピボットテーブル: データの集計 行となる変数と列となる変数を指定して集約処理を行う 行~列 の形式で集約し 独自の関数を その合計を算出 指定する事も出来る 2013年1月26日土曜日
  • 25. Rでピボットテーブル: データの整形 横に並んでいるデータをカラム名をグループ変数として縦長に整形 melt 2013年1月26日土曜日
  • 26. AGENDA ■ 自己紹介 ■ ピボットテーブルって何? ■ Rでピボットテーブル ■ RStudioでHTMLレポート ■ デモ 2013年1月26日土曜日
  • 27. 参考資料 @wdkz さんによる素晴らしい資料があるので こちらもご確認下さい http://www.slideshare.net/wdkz/rstudio-13866958 2013年1月26日土曜日
  • 28. RStudioの導入: インストール Rの総合開発環境(IDE) 補完機能だけでなくレポート出力なども手軽に出来る 2013年1月26日土曜日
  • 29. RStudioの導入: インストール http://www.rstudio.com/ からDownload Desktop版とServer版がある 2013年1月26日土曜日
  • 30. RStudioの導入: 画面構成 4分割の画面構成 (エディタ・コンソール・workspace・その他) 2013年1月26日土曜日
  • 31. RStudioの導入: エディタ画面 Ctrl+Enter(MacはCommand+Enter)で実行 範囲を指定しての実行も可能 2013年1月26日土曜日
  • 32. RStudioの導入: workspace 現在定義されている変数や関数が表示され、 クリックすると中身が見れる 2013年1月26日土曜日
  • 33. RStudioの導入: コンソール・その他 コンソールは通常のコンソールと同じ その他にはファイル一覧やplot時にはグラフが表示される 2013年1月26日土曜日
  • 34. RStudioの導入: Markdownでの記述 R Markdown形式で開発する事で データの解析手順と結果を1つのHTMLで出力出来る 2013年1月26日土曜日
  • 35. RStudioの導入: Markdownでの記述 Markdownとは、シンプルな記法による記述で 構造的に妥当なHTMLに変換するマークアップ言語 2013年1月26日土曜日
  • 36. RStudioの導入: Markdownでの記述 Markdownの記述例 2013年1月26日土曜日
  • 37. RStudioの導入: HTMLレポート出力 knitHTMLを押すだけでHTMLに変換 ローカル、またはサーバに保存する事が出来る 2013年1月26日土曜日
  • 38. AGENDA ■ 自己紹介 ■ ピボットテーブルって何? ■ Rでピボットテーブル ■ RStudioでHTMLレポート ■ デモ 2013年1月26日土曜日
  • 40. AGENDA ■ 自己紹介 ■ ピボットテーブルって何? ■ Rでピボットテーブル ■ RStudioでHTMLレポート ■ デモ 2013年1月26日土曜日