Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)

5.135 visualizaciones

Publicado el

Publicado en: Ciencias
  • Hello! Get Your Professional Job-Winning Resume Here - Check our website! https://vk.cc/818RFv
       Responder 
    ¿Estás seguro?    No
    Tu mensaje aparecerá aquí

Rによる特徴抽出 第48回R勉強会@東京(#TokyoR)

  1. 1. Rによる特徴抽出 第48回R勉強会@東京(#TokyoR) @Keiku 2015/06/20
  2. 2. 自己紹介 • Twitter:@Keiku • お仕事:銀行のデータ分析コンサルタント – 金融以外の業界のお仕事もしています • 趣味:kaggle – Masterを目指して日々頑張っています – 最近は、KDDcup2015も頑張っています
  3. 3. データ分析プロセス出版! • データ分析プロセス (シリーズ Useful R 2) [単行本] • 福島 真太朗 (著), 金 明哲 (編集) • 発売日:2015/6/25 – 微力ながらレビューという形でお手 伝いさせて頂きました
  4. 4. データ分析プロセスの目次 • 第1章 データ分析のプロセス • 第2章 基本的なデータ操作 • 第3章 前処理・変換 – 3.1 データの記述・要約 – 3.2 欠損値への対応 – 3.3 外れ値の検出と対応 – 3.4 連続データの離散化 – 3.5 属性選択 • 第4章 パターンの発見 • 第5章 データ分析の例 • 付録A 主な予測アルゴリズムの概要 • 付録B caretパッケージで利用できるアルゴリズム • 付録C ELKIの使用方法 • 参考文献 • 索 引 属性抽出がない!? 紙面の都合上カットと なった…_φ(・ω・` )ショボン より実践的な属性抽出 の解説はある!
  5. 5. アジェンダ • Rによる特徴抽出 • FeatureHashingパッケージのご紹介 • XgboostによるGBDT featureの生成
  6. 6. Rによる特徴抽出 • Scale変換 • Log変換、Box-Cox変換 • MinMaxScaler変換、パーセンタイル丸め • PCA、SVD • One-Hot encoding • Hashing Trick • TF-IDF • K-means、KNN • GBDT • T-SNE • RBM 手法の区分 変換 用途 パッケージ 統計量による変換 標準化、正規化、 MinMax標準化 NN、SVM hadley/scales、 caret::preProcess 統計量による変換 対数変換、Box-Cox変 換 ロバスト推定、不均衡 データ hadley/scales、 caret::preProcess 次元圧縮 PCA、SVD ノイズ除去(画像認識)、 レコメンド irlba 次元圧縮 T-SNE 高次元データの可視化 tsne Hashing One-Hot Encoding カテゴリカルデータ model.matrix caret::dummyVars Hashing DocumentTermMatrix(T F-IDF) 文書分類 tm、tau Hashing Hashing Trick カテゴリカルデータ、 CTR予測 FeatureHashing 教師なし学習 K-meansなど 省略 省略 教師あり学習 GBDTなど CTR予測 xgboost
  7. 7. FeatureHashingパッケージ • カテゴリカルデータをハッシングするパッケージ – John likes to watch movies. – Mary likes movies too. – John also likes football. • Hashing Trick – 辞書を使うことなくハッシュ関数によりハッシュ値をインデックスとする – カーネルトリックのように高次元な特徴ベクトル空間を陽に扱わない – 詳しくは、PFI Seminar 2012/03/15 カーネルとハッシュの機械学習 Joh n like s to wat ch mo vies Mar y too also foo tbal l 1 2 3 4 5 6 7 8 9 John likes to watch movies Mary too also football 1 1 1 1 1 0 0 0 0 0 1 0 0 1 1 1 0 0 1 1 0 0 0 0 0 1 1
  8. 8. FeatureHashingパッケージのインストール • インストール – C++11が必要
  9. 9. Hash.model.matrixでHashing • kaggle:Avazu(Click-Through Rate Prediction) のデータ(5.9GB 40,428,967行、24列)で検証
  10. 10. xgboostでGBDT • nthread=32、nround=100で、30分程度 • Submitしてみた – Public Score:0.4056038 Private Score:0.4038650 – コンペ時の0.3897445(FTRL-Proximal)には及ばず
  11. 11. (余談)オンライン学習のアルゴリズムの実装 • FeatureHashingパッケージはCTR予測で用いられる ことを想定したパッケージ(ぽい) • CTR予測用のデータセットdata(ipinyou)がある • FTRL-Proximalの実装もある
  12. 12. xgboostによるGBDT featureの生成 • Avazuの上位者は、GBDTによる特徴抽出+ Factorization Machinesというアプローチ • GBDTによる特徴抽出 – predleaf=TRUEとするだけ • Factorization MachinesはLIBFFMなどを使用
  13. 13. 参考資料 • Pre-Processing http://topepo.github.io/caret/preprocess.html#cs • PFI Seminar 2012/03/15 カーネルとハッシュの機械学習 http://www.slideshare.net/pfi/pfi-seminar-20120315 • Feature Hashingを試す - Negative/Positive Thinking http://d.hatena.ne.jp/jetbead/20141106/1415208665 • Feature Hashing - Wikipedia https://ja.wikipedia.org/wiki/Feature_Hashing • Hive/Hivemallを利用した広告クリックスルー率(CTR)の推定 - Qiita http://qiita.com/myui/items/f726ca3dcc48410abe45 • Gradient Boosting Decision Treeでの特徴選択 in R | 分析のおはな し。 http://www.housecat442.com/?p=480 • 3 Idiots' Approach for Display Advertising Challenge - kaggle-2014- criteo.pdf http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014- criteo.pdf

×