1. (C) Recruit Technologies Co.,Ltd. All rights reserved.
2015年7月15日
リクルートテクノロジーズ
ITソリューション統括部ビッグデータ部
野村 健
変わる!?リクルートグループ
のデータ解析基盤
2. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentはじめに
本日お伝えしたいこと
リクルートグループのデータ活用状況について1
データ活用をしていく中で、でてきた課題感に対する
対応について2
1
3. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department自己紹介
野村 健
〜2009年:
・電気メーカのソフトウェア開発会社に勤務
・交通管制システムの導入
- 主に、旅行時間情報の算出
- 運用管理システムの構築
〜2014年:
・某SIer会社に勤務
・通信キャリアのログ分析基盤のアーキテクチャ設計
・デジタルコンテンツのレコメンドシステムのアーキテクチャ設計
・+5年 Hadoopなど並列分散処理関連の経験
2014年11月〜:
・リクルートテクノロジーズにて、R&D及びHadoop基盤運用を担当
2
9. (C) Recruit Technologies Co.,Ltd. All rights reserved.
Server Database
数値で見るデータ解析環境
エコシステム
本番98台/開発24台 1 PB
8
10. (C) Recruit Technologies Co.,Ltd. All rights reserved.
数値で見るHadoopの使われ方
28,344
1,038
万
1日あたりの全JOBの数
1日あたりの全Hbaseクエリの数
リクルートグループ全体
リクルートグループ全体
9
11. (C) Recruit Technologies Co.,Ltd. All rights reserved.
数値で見るデータ解析案件状況
約200 データ解析案件数(年間)
ビッグデータ部の案件従事人数 240
リクルートテクノロジーズ内での人数(パートナーも含む)
リクルートテクノロジーズ内での案件数
10
12. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentビッグデータ活用における体制
リクルートグループでは、分析業務に対して以下の3つの役割を
定義し案件を推進!
(「コンサル型」+「エンジニア型」)×マーケター
コンサル型 エンジニア型
事業担当者
≒マーケターリクルートテクノロジーズ
ビッグデータグループ
Hadoopエンジニア
分析者
11
13. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
データドリブンの意思決定・施策 【数が多い】
(レコメンド・BI・予測・リアルタイム・非構造)
施策ひとつひとつがより難易度高くかつ長期に【質が高い】
①シナリオマーケティング、②リアルタイムレコメンド、
③画像解析 etc
事業担当者
≒マーケター
の知識向上、データドリブン施策の
重要性が認識・拡散。
ここ数年での変化①
12
14. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department一般物体認識:スパースコーディング+SVM
一般物体認識: 画像に映った物を特定する処理
① 画像をベクトルに変換するencoderの作成
② encoderで画像をベクトルに変換
③ 教師データのベクトルを用いて判別モデルを生成
④ 未知の画像を②でベクトルに変換
⑤ ③のモデルに④を通し物体を特定
カスタマが興味のある画像に、何が映っているかを特定し、
検索の軸としたり、レコメンド利用の可能性がある
13
15. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
特定の技術上で施作実行 【種類が少ない】
(MapReduce/Mahout/Hive/HBase)
施策特性に合わせたエコシス/インフラ環境の活用【種類が増加】
①YARN+Tez、②Spark(Spark Streaming)、
③Impala、④ AWS/TreasureData etc
事業からの要望の高度化から、施策特性
に合わせた技術の選択。
ここ数年での変化②
エンジニア型
分析者
事業担当者
≒マーケター
14
16. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department取り掛かり中(一部やりたい)のテーマ紹介
Titan
グラフ画像解析
テキスト
解析
ストリーム分散SQL
15
26. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department新たなデータ解析基盤の要件とは
1. データソースの多様性
2. データライフサイクル管理
3. データ品質管理
25
27. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department新たなデータ解析基盤の要件とは
1. データソースの多様性
2. データライフサイクル管理
3. データ品質管理
26
28. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータソースの多様性
REST API
FTPサーバ
データ
コレクタ
リアルタイムデータとバッチデータのコレクト・フィード対応
データ
フィード
27
29. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department新たなデータ解析基盤の要件とは
1. データソースの多様性
2. データライフサイクル管理
3. データ品質管理
28
30. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
データ活用の観点2
システム監査の観点1
29
31. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
システム監査の観点
アプリサーバなど
データコネクト データ処理
ログ分析基盤
いつ生成されたデータなのか?
どこで生成されたデータなのか?
社内データセンタ
30
32. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
システム監査の観点
アプリサーバなど
データコネクト データ処理
ログ分析基盤
どの経路から来たデータなのか?
社内データセンタ
31
33. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
システム監査の観点
アプリサーバなど
社内データセンタ
データコネクト データ処理
ログ分析基盤
どのデータを元に生成されたのか?
データフローの管理者は誰か?
誰がどのようにアクセスするのか?
32
34. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
データ活用の観点
特定用途による管理
• BI用の列指向ファイルフォーマットなど
生データ
BI用データ
レコメンドエンジン用
データ
・・・
33
35. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
データ活用の観点
時系列による管理
• 過去の不必要なデータのクリーニング
直近 1ヶ月後 2ヶ月後 1年後 N年後
・・・ ・・・
削除
34
36. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
データ活用の観点
利用頻度・SLA・コストによる管理
• 蓄積デバイス、HDFSのレプリケーション数などの最適化
・・・ ・・・
利用頻度高 低
35
37. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
データ活用の観点
利用者権限による管理
• ロールベースによる権限毎のデータ分離
生データ
(マスキングや暗号化
など対策済み)
マーケター
用データ
分析者用データ
・・・
事業担当者
≒マーケター
分析者
36
38. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department新たなデータ解析基盤の要件とは
1. データソースの多様性
2. データライフサイクル管理
3. データ品質管理
37
39. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータ品質管理
機密項目(マスキング/暗号化etc)
スキーマ互換性の担保
メタデータ管理
監査用ユニークID管理
ポリシー定義に基づく品質管理
品質
チェック
データ
蓄積
ポリシー
チェック
破棄
データ
38
41. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentフィジビリ検証予定の内容について
フィジビリ検証予定のシステム概要について
ユーザの行動をニアリアルタイムに把握し、
サービスレベルを向上したい
ログの活用先の増加が想定されるので、データ
連携先の追加がしやすい仕組みにしておきたい
ログの活用に不要な情報に対して、暗号化・
マスキングなどの対策コストを抑えたい
40
42. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentフィジビリ検証予定の内容について
フィジビリ検証予定のシステム概要について
① 事業サイトのログに対し、暗号化・マスキングなどデータの品質及びセキュリティ担保
② データ活用側へ必要なデータのみ限定できるよう、データパイプラインを定義
③ データ活用側が今後増えていくことを見越し、連携方式を統一し連携負荷軽減
アプリサーバ
Agent
アプリサーバ
Agent
事業
サイト
マスタ
システム
生ログ-アプリ
ETL済ログ-アプリ
変換 蓄積品質
モニタリング基盤
ログ解析基盤
生ログ-アプリ
ETL済ログ-アプリ
変換 蓄積品質
①②
③
41
43. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department検証実施中の内容について
フィジビリ検証予定のシステム概要について
④ ユーザ行動をニアリアルタイムに分析し、予測モデルによる検知からプッシュ基盤などへ
のアクション通知へ(のちのちは、オンライン学習などもできたら)
アプリサーバ
Agent
アプリサーバ
Agent
事業
サイト
マスタ
システム
生ログ-アプリ
ETL済ログ-アプリ
変換 蓄積品質
プッシュ基盤
生ログ-アプリ
ETL済ログ-アプリ
変換 蓄積品質
オン
ライン
予測
通知検知
④
42
44. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
Hadoop YARN
新たなデータ解析基盤への取り組み
検討中のシステム構成概要案
セキュリティ
ポリシー
メタデータ
リポジトリ
データ
変換
データ
品質管理
データ
蓄積
データ
フィード
モニタリング
MRv2
データコネクト/データリポジトリ
リアルタイム/バッチ API
データ
コレクタ
データライフ
サイクル管理
データ
受信
43
46. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
事業担当者の案件施策に対するデータ連携負荷を軽減し、
リクルートグループ内での更なるデータ利活用促進を目指す
まとめと今後
2
新技術は積極的に試し、事業サービスでの利用可能性を
常に模索していく3
ストリームデータから導入を始め、既存のバッチへ横展開
そして、共通機能化をしていく
1
45
47. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department一緒に戦ってくれる仲間募集中
本日の「データマネジメント」はデータ解析基盤
の1テーマであり他にも取り組んでいます。
RTCでは、一緒に働く
仲間を求めてます!!
リアルタイムデータ解析処理
リソースマネジメントの効率化
データ分析者向けユーザインタフェース etc…
リクルートテクノロジーズ
ITソリューション統括部ビッグデータ部
野村 健<nomura_takeshi@r.recruit.co.jp>
48. (C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
ご清聴ありがとうございました
リクルートテクノロジーズ