Más contenido relacionado
La actualidad más candente (20)
Similar a 機械学習CROSS 前半資料 (20)
機械学習CROSS 前半資料
- 11. 平手 勇宇(ひらて ゆう)
• 楽天株式会社 楽天技術研究所 インテリジェンスドメインチーム
• 専門分野:データマイニング,Webマイニング
50以上の様々なサービスを提供
11
- 12. 平手 勇宇(ひらて ゆう)
• 楽天株式会社 楽天技術研究所 インテリジェンスドメインチーム
• 専門分野:データマイニング,Webマイニング
海外展開を推進
12
- 13. 株式会社 ALBERT - ⼩小宮 篤史
@komiya_atsushi
分析⼒力力をコアとする
マーケティングソリューションカンパニー
エンジニア(Web / AWS / 機械学習)
サービス・ソリューションの開発と運⽤用
- 15. 自己紹介 – 油井誠 @myui
• 奈良先端科学技術大学院大学(NAIST) 情報科学研究科
博士課程修了、博士(工学) 2009年3月
• 産業技術総合研究所 情報技術研究部門 研究員
2010月4月~現在
• 専門はデータ工学、データベース学
大規模データを高速に扱うアルゴリズムの研究に一貫して従事(Data
Geek)
• XMLデータベースの研究開発
• Many-‐core(64コア)プロセッサを利用したノンブロッキング(Lock-‐free)アルゴリズ
ムの研究開発
• データベースの並列処理の研究開発
• オランダ国立情報学数学研究所で主記憶データベース(MonetDB)の並列処理機構
を開発
• 大規模機械学習の研究開発
• Apache
Hive上で動くオープンソース機械学習ライブラリを開発
hFps://github.com/myui/hivemall
• 企業との共同研究でインターネット広告のコンバージョン率(CVR)予測を行っており、
テラバイト級のデータの機械学習にHivemallを利用
• 平成14年度 IPA未踏ユーススーパークリエイタ
• 未踏ユースの第一期生で比戸さん(PFI)と同期
- 25. タスク毎のざっくりとした短所・⻑⾧長所
⼈人⼿手
⻑⾧長所
ルールベース
短所
⻑⾧長所
短所
機械学習
⻑⾧長所
短所
どんなユーザー
経験と勘を 数多く存在す 履履歴に基づいて チューニン
レコ
システム化で
がどういうもの
抽象化して るマイナーな マイナーなケー グが悪いと
メン
きずスケール
を好むか、経験
スケールさ ケースに対応 スも対応できる、
意味不不明な
ド
しない
と勘を活かせる
せられる できない
スケールする 結果が出る
⽂文章分類は読め 全て⼈人間がや
クラ
ば分かる(主⼈人 るのはコスト
ス分
がオオアリクイ が掛かり過ぎ
類
に…=スパム) る
正解付き
⼈人間の感覚 例例外ケースが 正解付きデータ
データ集め
を単純化し 無数に存在す を集められれば
は⼈人⼿手や
てスケール ると精度度が上 精度度の⾼高い予測
ルールに依
させられる がらない
が可能
存する
数万種類の計
閾値を超え
測値を24時間
複雑な異異常、
検知はでき
たらアラー
おおよその異異常
複雑・未知な異異
365⽇日モニター
未知の異異常を
ても原因が
異異常
ト、などは
は何らかの計測
常も捉えられる
を監視するわ
ルール化する
解釈不不能な
検知
⾃自動化でき
値に現れている
可能性がある
けにもいかな
のは困難
場合がある
る
い
25
- 53. 機械学習の利用事例@産総研
広告データのコンバージョン率推定 [共同研究]
• ユーザ属性群、広告属性群からなるセッションに対して最
CVR(Conversion
Rate)が良い広告をユーザに提示する
• CVR
=
#CV
/
#CLICKS
• CVとは広告クリックのあった媒体で、ユーザが実際に(資料が請求した|実
際に商品が購入した)等のイベント
• Terabytes以上の訓練データセット、月60-‐100GB程度で増加中
• 1000クライアント以上の広告主
• RDB→TSV形式にして定期的にデータをHDFSに投入
• 翌月のCVありなしを広告カテゴリにもよるが平均0.95程度のAUC
で予測できている
• 1年以上前からのデータを訓練に利用
• 訓練事例の蓄積が不十分なカテゴリのAUCは低い
• Hivemallにより32ノードで5-‐10分程度で学習
• 最大1000程度のmapタスクが立ち上がる (#map
slotに応じた学習時間)
• 学習というよりも特徴エンジニアリングに一番時間を要する
• 複数テーブルの結合処理、学習用の訓練例(特徴表現)の作成
• Hive+UDFが最も有難く感じる瞬間
• Columnar
(ORC)
フォーマットによる圧縮がよく効く
• テラバイトデータの特徴エンジニアリング ((('A`)))
広告のCLICK率は精々0.2%なのでCTR = #CLICKS / # Impressionまで計測す
ると500倍のストレージ要件
- 54. 大規模データの特徴エンジニアリング(前処理)
Hadoop/Hiveを利用したELT(Extract-‐Load-‐Transform)処理が特徴エンジニア
リングに有用
• HDFSに取りあえずロードさせてHadoop/Hiveで整形するのが
勝ちパターン(?)
• 結合処理はHiveで並列ハッシュ結合により行う
• 共同研究で行っているCVR推定では3つのview定義と3つの一時table、
数個のUDFを訓練例の作成に利用している
Label
1
2
3
練
例
Web
service
7
1
transform
Hadoop
/Hive
訓
9
-1
Logs
B
1
Join
A
extract
load
OLTP
DBs
8
データソース
の結合処理
ユーザID等の質的変数を
二値素性に変換
Transform
script
Label
A:2
A:3
B:7
B:8
B:9
1
1
0
0
0
1
0
-1
KDDCup
2012のデータセット
A:1
0
1
0
0
0
1
1
0
0
1
1
0
0
• 特徴エンジニアリング(ETL処理)を効率的に扱える機械学習フレームワークが必要
•
大規模データになるとプログラミングするのは大変(外部マージソートが必須)
• ETLツールにはUDF相当やHiveのTransform相当(任意のスクリプト実行)の拡張性が必要
•
予め用意されている関数などでは不十分なことが多い
- 55. 運用上得られた課題(1) – 学習アルゴリズム
データ量が増えても難なく動作する学習アルゴリズム
• 学習率をパラメタに必要とするアルゴリズムの適用は難しい(e.g.,
確率的勾配降
下法(SGD))
• SGDの学習率の自動設定手法はまだ研究段階
• モデルの確信度により学習モデルの更新を制御するアルゴリズム(CW/AROW/
SCW)は収束は早いが…
• データ量が増すと単純なPassive
Aggressiveに劣ることもある
• 急激な変化(concept
drip)への対処
• 訓練例とテストデータの乖離した場合にどうするか
• 過去の膨大なデータ(ビックデータ)を学習に用いることが仇となるケースがある
アベノミクスによる
レジームシフト
• 多用な切り口で学習モデルを作って
多椀バンディット等でモデルを選択する?
• 学習器への予測結果のLazyなフィード
バック機構?
去年の10月ごろから金融業の広告の
コンバージョン率が跳ね上がる
- 56. 運用上得られた課題(2) – 学習フレームワーク
• リアルタイムの学習は実際に必要だけど…逐次学
習/ストリーム学習の設定は現実的(?)
• データの入力順に学習モデルが左右される
• ストリーム設定だと学習器への入力のshuffleができない
• CW/AROWに最初に負の事例ばかり学習させたら..?
• 訓練例を複数回数(イテレーション)、順不同に学習器に与える必
要がある
• CW/AROW/SCWでも経験的に3イテレーションぐらいはさせた方が良い
バッチ学習と逐次学習のハイブリッドに向かうのではないか
Hadoop cluster
Postgres
Training data
OLTP
transactions
node
Incremental
learning
・・・
Prediction model
Cloudera
Oryx
node
node
DB-‐Hadoop
Hybrid
machine
learning
Batch
learning
- 60. FFRI,Inc.
マルウェア検知(分類)
• 近年のマルウェアの多くは亜種 or ツールによる
自動生成
→ コード面、機能面での差分は比較的少ない
• 正常ソフトとマルウェアを線形分離できないか?
– 実行時に呼び出されたAPIのn-gramを特徴に利用
NtCreateFile_NtWriteFile_NtCloseHandle
• パラメーター次第だが、TPR:90%超、FPR:1∼5%
→ FPR:1%以上はNG(セキュリティ業界の悩み)
60