Más contenido relacionado
La actualidad más candente (20)
Similar a WebDB Forum 2012 基調講演資料 (20)
Más de Recruit Technologies (20)
WebDB Forum 2012 基調講演資料
- 2. 自己紹介
1988年 リクルート入社「経理部」配属、会計システム自作など
1995年 危険人物視されつつ 基幹システムをPCで再構築 の日々
2000年 「リクナビ」リーダー。死闘を通じ、構造改革
2006年 システム基盤推進室(新組織)立上げ
2007年 アジャイル開発スキーム「SWAT」完成
2010年 プロジェクト推進部(新組織)立上げ
2012年 アドバンスドテクノロジーラボ(新組織)立上げ ~現在に至る
米谷 修 Osamu Yonetani
株式会社リクルートテクノロジーズ
執行役員CTO
ITソリューション部
最近は
&
ももクロに
はまってます プロジェクト推進部
担当エグゼクティブマネジャー
- 4. 本日お話ししたいこと
2011/9/26
Hadoopカンファレンス主催
※ユーザ企業が開催するカンファレンスではアジア最大級
- 5. 本日お話ししたいこと
【リクルートの収益比率の推移】
100%
90%
情報誌
80%
70%
60% フリーペーパー
50%
40%
ネット
30%
20%
10%
0%
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
「情報誌×営業力」
→「ネット×エンジニア
- 6. ◆アジェンダ
1.はじめに ~リクルートおよびリクルートテクノロジー
ズ
2.我々の「新技術」に対するスタンス
3.ビッグデータへの取り組み
4.おわりに ~ちょっと宣伝
- 8. 1.はじめに ~リクルートとは
【企業概要】
創立
1960年3月31日 「大学新聞広告社」として
スタート
グループ
約 22,000名
従業員数
関連企業数 国内:53社、海外:49社
連結売上高 約 8,000億円 ※2012年
3月末
連結経常利益 約 1,200億円 ※2012年
3月末
目指す世界観
「あなた」を支える存
在でありたい
- 9. 1.はじめに ~リクルートとは
【リクルートのビジネスモデル】
カスタマー 企業
(一般ユーザー) (サービス提供者)
マッチング
世界中の生活者と産業界に
「まだ、ここにない、出会い。」を提供します
- 10. 1.はじめに ~リクルートとは
【展開サービスの「ほんの一部」】
- 11. 1.はじめに ~リクルートテクノロジーズとは
リクルートキャリア
リクルート住まいカンパニー
リクルートライフスタイル
リクルートジョブズ
事業会社 リクルートスタッフィング
リクルートマーケティングパートナーズ
スタッフサービス・ホールディングス
リクルート
ホールディングス
ビッグデータ機能部門 事業・社内IT推進部門
機能会社 UI設計/SEO部門 インフラ部門
テクノロジーR&D部門 大規模プロジェクト推進部門
リクルートアドミニストレーション
リクルートコミュニケーションズ
- 12. 1.はじめに ~リクルートテクノロジーズとは
リクルートグループ各社の現在・将来のニーズを見据えて
競合優位性の高いIT・ネットマーケティング基盤を
開拓、ビジネス実装することにより
リクルートグループの競争優位を構築していく。
IT・ネットマーケティング領域において
トップレベルの専門スキルを持った人材が育ち、集い、楽しんでい
る。
業界を驚かせるレベルで、
テクノロジーの開拓と、そのビジネス実装が実現している。
リクルートグループのビジネス、業界のルールを、
恒常的なイノベーションによって変革している。
- 13. 1.はじめに ~リクルートテクノロジーズとは
【どんな会社?】~オフィス環境
所在地:
千代田区丸の内1-9-2
グラントウキョウサウスタワー38~39F
(東京駅直結)
- 14. 1.はじめに ~リクルートテクノロジーズとは
【どんな会社?】~会社の風土(主なもの)
- 17. 2.「新技術」に対するスタンス
サービス提供企業だからこそ…
「先端技術をいかに早く、 性能検証は、サービス提供
いかに独自に組み合わせて 企業がそれぞれ個別のビジ
勝負をするか」はサービス ネスシーンに適したパター
提供企業の考えどころ ンで行うべきもの
常に先端技術に対するアンテナを張り、徹底的に
調査・検証 をして、いち早く取り入れることを検討
すべき
リクルートテクノロジーズが専門機能会社
として分社・設立した理由の一つ
17
- 20. 2.「新技術」に対するスタンス
新技術のR&D取り組みステップ
Gate Review Gate Review Gate Review
R-Stage Dev-Stage β-Stage 運用-Stage
・技術要素調査 ・効果的な仕組み ・正式にフィジビ ・実運用へ
・技術の実態を としてプレ実装 リティスタディ
把握する ・活用方法をさら として推進~
に開拓 展開をする
日常的に、アタリマエのように調査・
検証を
し続け、新技術R&Dの
体制 や 習慣 、発想 を持ち続ける
20
- 22. 3.ビッグデータへの取り組み
Hadoopとは 大規模データを効率的に分散処理・管理する
ためのソフトウェア基盤(JAVAフレームワーク)
・MapReduce(Javaプログラム) これらで構成
・HDFS(分散ファイルシステム)
マスタ
サーバー
MapReduce MAP
(javaプログラム)
SHUFFLE
スレーブ
REDUCE
サーバー
HDFS
(分散ファイルシステム)
22
- 23. 3.ビッグデータへの取り組み
各種機能は「エコシステム」で簡単に利用
RDB
問い合わせログ PVログ
レコメンド
データ
Quest® Data Connector
これらディストリ
SQLライクな操作言語として、Hive ビューションによ
り、Hadoopを容
マイニングのライブラリとして、mahout
易に使いこなして
データ連携ツールとして、Sqoop いる
JOBスケジューリングツールとして、Azkaban
23
- 24. 3.ビッグデータへの取り組み
①Hive の活用
・いわば Hadoop上で動作するRDB
・ SQLライクな「HiveQL」で操作、処理結果は自動的に
MapReduceへ
・おもに既存機能のリプレイス系の案件で活躍する
・SQL → Hiveへ移行するだけで、低工数で簡単に
高速化が実現
見立てのために 更なる高速化のために
「とりあえずは 一部をMapReduceへ書き
Hiveで実装」 換え
24
- 25. 3.ビッグデータへの取り組み
②mahout の活用
・データマイニング系ロジックのJavaライブラリ
・「アソシエーション分析」などのアルゴリズムが用意されている
・協調フィルタリングや、アソシエーションルール
に基づくレコメンドなど
・複数の中から最適な条件を選定することが可能
行動履歴
データ レコメンド物件の
表示など
25
- 26. 3.ビッグデータへの取り組み
③Sqoop の活用
・HadoopとRDBMSとでデータをやり取りするためのしくみ
・Oracleデータベースへの高速接続を提供する「OraOop」など
・RDBMSを完全に撤廃させることなく、RDBMSと
Hadoopでデータを共有、使い分けを可能にする
・複数のRDBMSによる分析基盤作りにも有効
本番DB
Hadoop
検証環境
ログ
本番データから
外部
Hadoopデータに連
データ
携する
26
- 27. 3.ビッグデータへの取り組み
システム構成概要
リサーチ段階 実験・検証 第1世代環境 第2世代環境
3~4台 20台 120台 40台 (今後拡
大)
プライベートクラウド プライベートクラウド
部分的な 完全なる
実験機 ラボ環境
環境融合 環境融合
2008~9 2010 2011 2012
Webサイトのバッチ システム移行などで 商用利用が可能な設計 プライベートクラウド
処理移植など、 余ったハードウェアを (セキュリティなど非 環境との融合を進めた
処理性能の評価・ 再利用 機能面)を施した環境 環境
研究
イマココ
27
- 28. 3.ビッグデータへの取り組み
システム構成概要 第1世代 第2世代
Apache Hadoop / CDH MapR / GreenplumMR
Heartbeat + DRBD
MasterNode1 MasterNode2 MasterNode3 MasterNode4 Node1 Node2 Node3 Node4
JobTracker JobTracker CLDB CLDB CLDB CLDB
NameNode NameNode JobTracker JobTracker JobTracker JobTracker
Secondary Secondary TaskTracker TaskTracker TaskTracker TaskTracker
NameNode NameNode FileServer FileServer FileServer FileServer
Warden
SlaveNode1 SlaveNode2 SlaveNode3 SlaveNode4 Node5 Node6 Node7 Node8
TaskTracker TaskTracker TaskTracker TaskTracker
CLDB CLDB CLDB CLDB
JobTracker JobTracker JobTracker JobTracker
DataNode DataNode DataNode DataNode
TaskTracker TaskTracker TaskTracker TaskTracker
FileServer FileServer FileServer FileServer
Master4台+Slave15台+batch1台の20 3Nodeから、利用リソースに応じて増
台構成をベースに利用リソースに応じ 設
てSlaveを増設
28
- 36. 3.ビッグデータへの取り組み ~適用事例
「クルマなびカウンター*」における活用事例
*クルマなびカウンター:対面形式で車選びを支援する新サービス
仲介
簡単
お客様 安心 販売店
無料相談
仲介 仲介
カーセンサー独自の品質基準による車選び
物件や状態選定はお任せ+カーナビ/ETC+保証/アフター
車選び~契約までのワンストップサービス
車選び〜実車確認〜契約代行
36
- 38. 3.ビッグデータへの取り組み ~適用事例
どこにデータ活用がされているのか?
車の価格設定
条件の近いものをまとめ、一律の
保証等を付けて同一品質・同一価格を実現する
これが難しい。なぜか?
どのような項目でまとめれば良いか?
最適な値段はいくらなのか?
38
- 39. 3.ビッグデータへの取り組み ~適用事例
■マーケット・商材の特殊性
中古車マーケットは感覚的な値付けの世界=「正価」のないマーケット
一物一価の商材。価格決定因子が複雑
外部環境(輸出、為替、新車)からの影響値が大きい
オプションは
車種/グレード/年式/走行/修復歴/ナビ/ETC/駆動方式 ざっと30超!
/色/ミッション/排気量/車検残/禁煙車/本革シート/
モニター/キーレス/サンルーフ/保証/整備/エリア…
➤ 統計的分析が難しい
■価格算出に求められること
マーケット・商材の特殊性から、価格算出するために必要なこと
➤ 全データを対象にしたトライ&エラーの繰り返し
39
- 40. 3.ビッグデータへの取り組み ~適用事例
もともと、アイディアはあったが…
組み合わせが膨大なため、車種やエリアを限定しても
集計が困難。限定しているので、価格算出の信頼度が低
い。
本番DB
この集計ではダメだ…
行動履歴 やり直そう…
DB
外部
データ
数日
カーセンサーのデータ*:1億件/月
オートオークションのデータ:18万件/月
➤ 実現できそうもない
*月間で340万件×30オプションのand条件
40
- 41. 3.ビッグデータへの取り組み ~適用事例
既にバッチ高速化でhadoopの実用性を認識
Hadoopを活用できるのでは?
本番DB
行動履歴 Hadoop 色々試せる!
DB
環境
外部
データ
1時間半
仮説→実行→検証を高速に繰り返し
答えを導くことができた
41
- 42. 3.ビッグデータへの取り組み ~適用事例
Hadoop活用でサービス完成!
仲介
簡単
お客様 安心 販売店
本番DB
行動履歴 Hadoop
DB 環境
外部
データ
毎月950車種の価格を1時間半で分析!
42
- 44. 3.ビッグデータへの取り組み ~今後の展望
with 自然言語処理 DWH
:Hadoop+Mahout(マイニング)+Lucene KVS or
(形態素分解)ほか 活用 RDB
➤ クチコミ分析、レコメンドメールなど
へ応用展開
with リアルタイム分析
:S4・STORM(リアルタイム分散処理プラッ
トフォーム) ほか 活用
➤ リアルタイムレコメンド、フラッシュ
マーケティングなど
with スマートデバイス
:音声解析(Siri)・位置情報の取り込
み、画像データの取り込み ほか
➤ ユーザ属性×GPS(行動履歴)分析に
よる店舗情報プッシュなど
44
- 46. 4.おわりに ~もうちょっとだけ宣伝を
IT・ネットマーケティング基盤開発に関する
社外への情報発信を積極的に行なっています
- 47. 4.おわりに ~もうちょっとだけ宣伝を
工程
SEO
分析
UI改善
大規模PRJ プロマネ
アプリアーキ
インフラ基盤
R&D CIO 次世代 コンサル マネジメント・開発
layer 支援 検討 提案
エンジニアスキル・分析スキルを発揮できる
多くのフィールドが「ここ」にはあります
- 49. ご興味のある方はコチラまで…
rtech_qa1@recruit-tech.co.jp
(もしくは)
http://recruit-tech.co.jp/
リクルートテクノロジー
ズ