WebDB Forum 2012 基調講演資料

2012年11月21日（水）
WebDBフォーラム特別講演

リクルートの
ビッグデータへの取り組み
～我々の「テクノロジー」に対するスタンス
～

自己紹介
1988年リクルート入社「経理部」配属、会計システム自作など
1995年危険人物視されつつ基幹システムをPCで再構築の日々
2000年「リクナビ」リーダー。死闘を通じ、構造改革
2006年システム基盤推進室（新組織）立上げ
2007年アジャイル開発スキーム「SWAT」完成
2010年プロジェクト推進部（新組織）立上げ
2012年ｱﾄﾞﾊﾞﾝｽﾄﾞﾃｸﾉﾛｼﾞｰﾗﾎﾞ（新組織）立上げ～現在に至る

米谷修 Osamu Yonetani

株式会社リクルートテクノロジーズ
執行役員CTO
ITソリューション部
最近は
＆
ももクロに
はまってますプロジェクト推進部
担当エグゼクティブマネジャー

本日お話ししたいこと

リクルート
×
テクノロジー？


2011/9/26
Hadoopカンファレンス主催
※ユーザ企業が開催するカンファレンスではアジア最大級

【リクルートの収益比率の推移】
100%
90%
情報誌
80%
70%
60% フリーペーパー
50%
40%

ネット
30%
20%
10%
0%
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011

「情報誌×営業力」
→「ネット×エンジニア

◆アジェンダ

１．はじめに～リクルートおよびリクルートテクノロジー
ズ

２．我々の「新技術」に対するスタンス
３．ビッグデータへの取り組み
４．おわりに～ちょっと宣伝

１．はじめに
～リクルートおよびリクルートテクノロジーズのご
紹介

１．はじめに～リクルートとは

【企業概要】
創立
１９６０年３月３１日「大学新聞広告社」として
スタート
グループ
約２２,０００名
従業員数

関連企業数国内：５３社、海外：４９社

連結売上高約８,０００億円 ※２０１２年
３月末

連結経常利益約１,２００億円 ※２０１２年
３月末

目指す世界観
「あなた」を支える存
在でありたい


【リクルートのビジネスモデル】
カスタマー企業
（一般ユーザー）（サービス提供者）

マッチング

世界中の生活者と産業界に
「まだ、ここにない、出会い。」を提供します


【展開サービスの「ほんの一部」】

１．はじめに～リクルートテクノロジーズとは
リクルートキャリア

リクルート住まいカンパニー

リクルートライフスタイル

リクルートジョブズ

事業会社リクルートスタッフィング

リクルートマーケティングパートナーズ

スタッフサービス・ホールディングス

リクルート
ホールディングス

ビッグデータ機能部門事業・社内IT推進部門

機能会社 UI設計/SEO部門インフラ部門

テクノロジーR&D部門大規模プロジェクト推進部門

リクルートアドミニストレーション

リクルートコミュニケーションズ


リクルートグループ各社の現在・将来のニーズを見据えて
競合優位性の高いIT・ネットマーケティング基盤を
開拓、ビジネス実装することにより
リクルートグループの競争優位を構築していく。

IT・ネットマーケティング領域において
トップレベルの専門スキルを持った人材が育ち、集い、楽しんでい
る。
業界を驚かせるレベルで、
テクノロジーの開拓と、そのビジネス実装が実現している。
リクルートグループのビジネス、業界のルールを、
恒常的なイノベーションによって変革している。


【どんな会社？】～オフィス環境

所在地：
千代田区丸の内１－９－２
グラントウキョウサウスタワー38～39F
（東京駅直結）


【どんな会社？】～会社の風土（主なもの）

２．「新技術」に対するスタンス

２.「新技術」に対するスタンス
講演や取材でよく聞かれること

「リクルート」って
サービス提供側の企業なのに…

なぜそこまで「自分たちで」
技術検証をしにいくのか？

どうしてそこまでして先端技術を
キャッチアップしようとするのか？

16

サービス提供企業だからこそ…
「先端技術をいかに早く、性能検証は、サービス提供
いかに独自に組み合わせて企業がそれぞれ個別のビジ
勝負をするか」はサービスネスシーンに適したパター
提供企業の考えどころンで行うべきもの

常に先端技術に対するアンテナを張り、徹底的に
調査・検証をして、いち早く取り入れることを検討
すべき

リクルートテクノロジーズが専門機能会社
として分社・設立した理由の一つ
17

一般的なユーザー企業における「検証」とは？
・自力のジャッジが困難。ベンダーに頼り
がち
・テストを容易にするため、単純なテスト
データ
・調査/検証時間が惜しいのでひと通りさっ
と

18

私たちの「調査・検証」に対するこだわり
・自力のジャッジが困難。ベンダーに頼り
・外部ベンダーに任せきりにせずに、自ら
がち
・テストを容易にするため、単純なテスト
・リアリティのあるデータを用いて
データ
・調査/検証時間が惜しいのでひと通りさっ
・とことん深く、執拗に、繰り返し確かめ
る
と

かつて、
「スペックの盲信・検証の丸投げ」
をすることで、手痛い経験をしてきた
ことの反省から
19

新技術のＲ＆Ｄ取り組みステップ
Gate Review Gate Review Gate Review

R-Stage Dev-Stage β-Stage 運用-Stage

・技術要素調査・効果的な仕組み・正式にフィジビ・実運用へ
・技術の実態をとしてプレ実装リティスタディ
把握する・活用方法をさらとして推進～
に開拓展開をする

日常的に、アタリマエのように調査・
検証を
し続け、新技術Ｒ＆Ｄの
体制や習慣、発想を持ち続ける
20

～「Hadoop」を軸にした分析基盤について

Hadoopとは大規模データを効率的に分散処理・管理する
ためのソフトウェア基盤（JAVAフレームワーク）
・MapReduce（Javaプログラム）これらで構成
・HDFS（分散ファイルシステム）
マスタ
サーバー

MapReduce MAP
（javaプログラム）

SHUFFLE

スレーブ
REDUCE
サーバー

HDFS
（分散ファイルシステム）
22

各種機能は「エコシステム」で簡単に利用

RDB

問い合わせログ PVログ
レコメンド
データ

Quest® Data Connector

これらディストリ
ＳＱＬライクな操作言語として、Ｈive ビューションによ
り、Hadoopを容
マイニングのライブラリとして、mａｈｏｕｔ
易に使いこなして
データ連携ツールとして、Ｓｑｏｏｐいる
ＪＯＢスケジューリングツールとして、Aｚｋａｂａｎ
23

①Hive の活用
・いわば Hadoop上で動作するRDB
・ SQLライクな「HiveQL」で操作、処理結果は自動的に
MapReduceへ

・おもに既存機能のリプレイス系の案件で活躍する
・SQL → Hiveへ移行するだけで、低工数で簡単に
高速化が実現

見立てのために更なる高速化のために
「とりあえずは一部をMapReduceへ書き
Hiveで実装」換え
24

②mahout の活用
・データマイニング系ロジックのJavaライブラリ
・「アソシエーション分析」などのアルゴリズムが用意されている

・協調フィルタリングや、アソシエーションルール
に基づくレコメンドなど
・複数の中から最適な条件を選定することが可能

行動履歴
データレコメンド物件の
表示など

25

③Sqoop の活用
・HadoopとRDBMSとでデータをやり取りするためのしくみ
・Oracleデータベースへの高速接続を提供する「OraOop」など

・RDBMSを完全に撤廃させることなく、RDBMSと
Hadoopでデータを共有、使い分けを可能にする
・複数のRDBMSによる分析基盤作りにも有効

本番DB
Hadoop
検証環境
ログ

本番データから
外部
Hadoopデータに連
データ
携する
26

システム構成概要
リサーチ段階実験・検証第1世代環境第2世代環境

3～4台 20台 120台 40台（今後拡
大）

プライベートクラウドプライベートクラウド

部分的な完全なる
実験機ラボ環境
環境融合環境融合

2008～9 2010 2011 2012

Webサイトのﾊﾞｯﾁシステム移行などで商用利用が可能な設計プライベートクラウド
処理移植など、余ったハードウェアを（セキュリティなど非環境との融合を進めた
処理性能の評価・再利用機能面）を施した環境環境
研究

イマココ
27

システム構成概要第１世代第２世代
Apache Hadoop / CDH MapR / GreenplumMR
Heartbeat + DRBD

MasterNode1 MasterNode2 MasterNode3 MasterNode4 Node1 Node2 Node3 Node4
JobTracker JobTracker CLDB CLDB CLDB CLDB

NameNode NameNode JobTracker JobTracker JobTracker JobTracker
Secondary Secondary TaskTracker TaskTracker TaskTracker TaskTracker
NameNode NameNode FileServer FileServer FileServer FileServer

Warden

SlaveNode1 SlaveNode2 SlaveNode3 SlaveNode4 Node5 Node6 Node7 Node8

TaskTracker TaskTracker TaskTracker TaskTracker
CLDB CLDB CLDB CLDB

JobTracker JobTracker JobTracker JobTracker
DataNode DataNode DataNode DataNode
TaskTracker TaskTracker TaskTracker TaskTracker
FileServer FileServer FileServer FileServer

Master4台＋Slave15台+batch1台の20 ３Nodeから、利用リソースに応じて増
台構成をベースに利用リソースに応じ設
てSlaveを増設

28

～組織体制の特徴

ビッグデータに対峙する２種類のアナリスト

【役割】
事業の抱える課題解決に向けた仮説を立て、大量データをマイニングし具
体的な解決案を提案する。現場に近いところで超具体的な方針を示す
【スキル・知識】
分析力、論理的思考力、仮説力、統計/マーケティング知識、SQL、Rなど

【役割】
データマイニングや機械学習を行った結果をもとに、ユーザーの行動特性
など一定の規則性を見出し、提供サービスの品質向上に努める
【スキル・知識】
Hadoop、MapReduce、Mahout、Java、R、統計解析、時系列解析、データマ
イニング、機械学習、自然言語処理など

30

「コンサル型」アナリスト
ツールを駆使してデータを分析する。どんなマーケティング施策を打てば
ビジネスにプラスになるか事業と共に考え、意思決定の手助けをする
➤ 最適なアルゴリズム・ロジックを「見つける」

事業担当者
コンサル型アナリスト
需要予測
例えば何にどのタイミングで広告宣伝費をかけるのが一番効率的か？
… （某メディアでは年間の広告宣伝費を3億削減）

レコメンド
どのようなロジックにするとアクション率が向上するか？
31

「エンジニア型」アナリスト
ビッグデータ関連技術の活用方法を、技術力・インフラ基盤と共に提供し、
新たな施策を事業とともに考え実装していく
➤ アルゴリズムを「実装する」・「組み合わせる」

事業担当者エンジニア型アナリスト

事業の状況を背景とした、新たな技術で実現できることを背景とした
施策の検討、期待する成果・目的ソリューションの紹介、技術力・イ
の設定ンフラ基盤の提供、活用方法の事例
展開や新たな用途開発など

32

（「コンサル型」＋「エンジニア型」）×マーケター

事業会社の担当者
≒マーケター R-Techの
守備範囲

コンサル型エンジニア型

「コンサル型」＋「エンジニア型」の異なるアナリス
トと
マーケターの三位一体で、最適なデータ活用を実現
33

～実サービスにおけるHadoopの適用事例

【事例紹介】
自動車カンパニー
（現リクルートマーケティングパートナーズ）

３．ビッグデータへの取り組み～適用事例
「クルマなびカウンター*」における活用事例
*クルマなびカウンター：対面形式で車選びを支援する新サービス
仲介
簡単
お客様安心販売店

無料相談
仲介仲介

カーセンサー独自の品質基準による車選び
物件や状態選定はお任せ＋カーナビ/ETC＋保証/アフター

車選び～契約までのワンストップサービス
車選び〜実車確認〜契約代行
36


＠イオンタウン
仙台泉大沢

37


どこにデータ活用がされているのか？

車の価格設定

条件の近いものをまとめ、一律の
保証等を付けて同一品質・同一価格を実現する

これが難しい。なぜか？

どのような項目でまとめれば良いか？
最適な値段はいくらなのか？
38

■マーケット・商材の特殊性
 中古車マーケットは感覚的な値付けの世界＝「正価」のないマーケット
 一物一価の商材。価格決定因子が複雑
 外部環境（輸出、為替、新車）からの影響値が大きい

オプションは
車種/グレード/年式/走行/修復歴/ナビ/ETC/駆動方式ざっと30超！
/色/ミッション/排気量/車検残/禁煙車/本革シート/
モニター/キーレス/サンルーフ/保証/整備/エリア…

➤ 統計的分析が難しい

■価格算出に求められること
 マーケット・商材の特殊性から、価格算出するために必要なこと

➤ 全データを対象にしたトライ＆エラーの繰り返し
39


もともと、アイディアはあったが…
組み合わせが膨大なため、車種やエリアを限定しても
集計が困難。限定しているので、価格算出の信頼度が低
い。
本番DB
この集計ではダメだ…
行動履歴やり直そう…
DB

外部
データ
数日

カーセンサーのデータ*：1億件/月
オートオークションのデータ：18万件/月

➤ 実現できそうもない
*月間で340万件×30オプションのand条件
40

既にバッチ高速化でhadoopの実用性を認識

Hadoopを活用できるのでは？
本番DB

行動履歴 Hadoop 色々試せる！
DB
環境
外部
データ

1時間半

仮説→実行→検証を高速に繰り返し
答えを導くことができた
41


Hadoop活用でサービス完成！
仲介
簡単
お客様安心販売店

本番DB

行動履歴 Hadoop
DB 環境
外部
データ

毎月950車種の価格を1時間半で分析！
42

～今後の展望

３．ビッグデータへの取り組み～今後の展望

with 自然言語処理 DWH
：Hadoop＋Mahout（マイニング）＋Lucene KVS or
（形態素分解）ほか活用 RDB
➤ クチコミ分析、レコメンドメールなど
へ応用展開
with リアルタイム分析
：S4・STORM（リアルタイム分散処理プラッ
トフォーム）ほか活用
➤ リアルタイムレコメンド、フラッシュ
マーケティングなど

with スマートデバイス
：音声解析（Siri）・位置情報の取り込
み、画像データの取り込みほか
➤ ユーザ属性×GPS（行動履歴）分析に
よる店舗情報プッシュなど

44

４．おわりに
～もうちょっとだけ宣伝を

４．おわりに～もうちょっとだけ宣伝を

IT・ネットマーケティング基盤開発に関する
社外への情報発信を積極的に行なっています

４．おわりに～もうちょっとだけ宣伝を

工程
SEO
分析
UI改善
大規模PRJ プロマネ
アプリアーキ
インフラ基盤

R&D CIO 次世代コンサルマネジメント・開発
layer 支援検討提案

エンジニアスキル・分析スキルを発揮できる
多くのフィールドが「ここ」にはあります

さいごに…

近い将来、皆さんのような
優秀な方々と一緒に
ワクワクしながら
面白い仕事ができることを
心待ちにしています

ご興味のある方はコチラまで…

rtech_qa1@recruit-tech.co.jp
（もしくは）

http://recruit-tech.co.jp/
リクルートテクノロジー
ズ

ご清聴ありがとうございました

WebDB Forum 2012 基調講演資料

WebDB Forum 2012 基調講演資料

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a WebDB Forum 2012 基調講演資料

Similar a WebDB Forum 2012 基調講演資料 (20)

Más de Recruit Technologies

Más de Recruit Technologies (20)

WebDB Forum 2012 基調講演資料