リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方

リクルートライフスタイルが
考える、万人に使ってもらえ
る分析基盤の作り方
PLAZMA Data Platform Day
#tdtech
2018/05/22
山田雄

■山田雄（ヤマダユウ）
株式会社リクルートライフスタイル
ネットビジネス本部
データプラットフォームT
Twitter:@nii_yan
GitHub:https://github.com/yu-yamada
・以前はメールマーケティング用基盤の作成からデータ分析まで関わる
現在はリクルートライフスタイルの共通分析基盤の開発、運用全般を担当
ビックデータ、Ruby、お祭り、ビール、カップ焼きそばが好き。
自己紹介

データ分析基盤を作ってると
こういうことありませんか？？

このサービスのデータも分析基盤に
連携して
ごめんなさい、今リソース不
足なんで、１ヶ月後に！

リアルタイムデータも分析できるよ
うにして欲しいんだけど！
ごめんなさい、検証から始め
ないとだから２ヶ月待って！

ちょっとどんなデータ入ってるか見
てみよう
select * from 巨大table limit 10;
パーティション指定しないとlimitつ
けてもフルスキャン走るんできちん
とパーティション指定して下さい！

いっちょcross joinでデータ取りま
すか！
結果何億件のデータが返ってくると思ってるの？？
本当にこれ見る？Joinしてからデータ削るんじゃなくて、データ削って
からjoinしてくれる？
これのせいで、中間データでdisk食いつぶして他の処理落ちたんだけ
ど！！こいつのアカウントXXXしてぇ~

機械学習で結果出せて、表彰された
〜！賞金もゲット！
基盤があったからこそ出来た事なの
に、こっちは評価されない・・・

分析者(ユーザ)と
基盤運用者は衝突しがち

• データ分析基盤は使ってもらってなんぼ
• たくさん分析してもらって事業成果を上げてもらう
• たくさん分析してもらうには
 基盤を提供し続ける
 パフォーマンスを上げる
 データ品質を上げる
 新しいデータ連携の追加
 データ鮮度を保つ&上げる
データ分析基盤で提供したい価値

データを使ったビジネスの３大要素

きちんとみんなが使ってくれる基盤にす
るには、どうしたらよいだろう？？

1.ユーザの
声を集める
(collect)
2.内容を精
査する
(confirm)
3.価値を創
造する
(create)
4.効果を検
証する
(check)
5.継続する
(continue)カスタマーセントリックで基盤を作る

1.ユーザの
声を集める
(collect)
2.内容を精
査する
(confirm)
3.価値を創
造する
(create)
4.効果を検
証する
(check)
5.継続する
(continue)

2.内容を精
査する
(confirm)
3.価値を創
造する
(create)
4.効果を検
証する
(check)
5.継続する
(continue)
1.ユーザの
声を集める
(collect)

人がシステムに合わせるのではなく、
システムが人に合わせる

なぜユーザーファーストにするのか
使ってくれる人がいないと分析基盤は継続しないから！
• とにかくユーザが使い易い基盤にする
• ユーザの声を常に聞ける環境を整える
• 攻めの基盤を作るのは信頼残高を築いてから！！

リクルートライフスタイルで取り組んでいること
• 問い合わせ用にslackのchannelを開設
• ユーザアンケートを行う
• 基盤を使う立場になる(マーケターに兼務で入る
など
• データを使うチームと同じグループになる
• 毎月メルマガ発行をする
• 社内散歩をする
などなどを行いユーザと仲良くする！

機械的に取れるユーザの声も集める
• どのテーブルがどのユーザ使われているか
• どのクエリが負荷が高いか
• どのユーザがどれぐらいクエリを投げているか
• ユーザクエリの平均レスポンスタイム
• 社内snsなどでの基盤に対する声

1.ユーザの
声を集める
(collect)
3.価値を創
造する
(create)
4.効果を検
証する
(check)
5.継続する
(continue)
2.内容を精
査する
(confirm)

ユーザの表面的な言動だけを捉えず、そ
の背後にあるユーザ自身も気づいていな
い本音(インサイト)を探り当てる。

精査の方法
• 対応時間でレベル分けをする
• すぐに対応できるものと、対応に時間がかかる
ものを織り交ぜて対応する
(きちんと対応している姿勢を見せるため)
• なんで、ユーザがその声をあげたのかwhyを考える
• 表面的な対応を繰り返さないため

2.内容を精
査する
(confirm)
1.ユーザの
声を集める
(collect)
4.効果を検
証する
(check)
5.継続する
(continue)
3.価値を創
造する
(create)

なぜ売上を上げないといけないか
売上を上げないと予算がつかないから！
• 分析基盤はとにかくお金がかかる
• 予算はほぼ毎年純増(データ量に相関する場合が多い
• 売上が上がれば予算がつき、より良い基盤が作れる
• さらに売上が上がるバッチを走らせられる
• ROIは計算しなくて良い
• インフラってそんなもんだと思います
• この基盤があるおかげでこんだけ売上の上がるバッチが
走ってるんだよ〜ぐらいで

なぜ運用コストを下げたいのか
運用は人を幸せにしないから！
• キャパシティ管理をしなくていいように
• ビックデータ基盤で将来のデータ量予測はほぼ不可能
• 障害が起きた際に単純に再実行できるデータパイプ
ラインを作る
• 冪等性を担保する
• クラウドに任せるところは任せる
• 魔改造しない
• SLAを緩くする

分析の敷居をとにかく下げる
• ユーザが分析したい時にすでにデータはある状態に
• ユーザの使いやすいIFを用意
• 定期的にユーザ教育を実施
• いつでも見られるように動画コンテンツも用意
するなど
• どこにどんなデータがあるか一元的に管理

使いやすいIF例(chat bot)
bot
S3
redshift
Slackにつぶやくことによって、S3のデータをredshiftへloadしてくれるbotを用意

メタ情報を一元的に管理

3.価値を創
造する
(create)
2.内容を精
査する
(confirm)
1.ユーザの
声を集める
(collect)
5.継続する
(continue)
4.効果を検
証する
(check)

KPIを設計する
• ユーザアカウント数
• クエリの数
• 平均レスポンス時間
• テーブル数
• 障害数
• botの使用回数
これらの数字を毎週チーム全員で確認

4.効果を検
証する
(check)
3.価値を創
造する
(create)
2.内容を精
査する
(confirm)
1.ユーザの
声を集める
(collect)
5.継続する
(continue)

継続をするためには進化が出来る基盤に
しておく必要がある

なぜDataLake構成にしておくのか
進化を続けられる基盤になれる
• 新しいDWHがどんどん出てきている
• 用途によって使いたいDWHは違う
• スケールアウト出来る分析基盤に対応
• サイズ制限からの解放
データレイクにしておくことによって、新しいエン
ジンや新しいニーズが出てきた際も柔軟に対応出来
る、進化を続ける基盤となれる

DataLakeの三段構成
Raw Normalized Mart
非構造データ
Rawデータ
TSVやParquetなど、
構造化されたデータ
使い易いようにマー
ト加工されたデータ

常に透明性を持った基盤にしておく

データを情報に変えてより多くの
ユーザに動機と機会を提供する

1.ユーザの
声を集める
(collect)
2.内容を精
査する
(confirm)
3.価値を創
造する
(create)
4.効果を検
証する
(check)
5.継続する
(continue)一時的で終わらないサイクルを

リクルートライフスタイルの分析基盤

リクルートライフスタイルが持つデータ

HPB HPG
JLN
事業データ
CSV
外部データ
S3
Redshift
Redshift (mirror)
BigQuery
Cloud Storage
アクセスログ
アプリログ Treasure Data
ORACLE
Exadata
リクルートライフスタイルのデータ分析基盤

入力出力処理
データ利活用の３大要素

HPB HPG
JLN
事業データ
CSV
外部データ
S3
Redshift
Redshift (mirror)
BigQuery
Cloud Storage
アクセスログ
ORACLE
Exadata
入力出力処理
リクルートライフスタイルのデータ分析基盤

BigQuery
Cloud Storage
ExaData
CSV
外部データ
S3
Redshift
Redshift (mirror)
アクセスログ
ORACLE
Exadata
事業データ
HPB HPG
JLN

BigQuery
Cloud Storage
Redshift
ORACLE
Exadata
CSV
外部データ
S3
Redshift
Redshift (mirror)
アクセスログ
事業データ
HPB HPG
JLN

Redshift Spectrumの活用
S3
DB1
DB3
DB2
AWS Glue
lambda
Redshift
S3
Redshift
Redshift
TSV Parquet
ファイルサイズ大
ファイルサイズ小
S3のObjectを直接参照出来るSpectrumを使用するこ
とで、クラスタサイズの圧縮を行い、用途毎にクラス
タを立てることで、ユーザの利便性を上げる

Redshift
Redshift (mirror)
BigQuery
ORACLE
Exadata
CSV
外部データ
S3
アクセスログ
事業データ
HPB HPG
JLN
BigQuery
Cloud Storage

Redshift
Redshift (mirror)
TreasureData
ORACLE
Exadata
CSV
外部データ
S3
アクセスログ
事業データ
HPB HPG
JLN
BigQuery
Cloud Storage

TreasureData ETL
Treasure Data
Redshift
BigQuery
外部サービスとの連携用にもTreasureDataを使用

行動ログデータや事業データの
レコード総数
約4,500億件
ユーザアカウント数
1,200
クエリ数
20,000/day
テーブル数(データマートも含む)
約4,000
利用状況

カスタマーセントリックで
透明性のある基盤を
継続して提供しましょう

一緒にデータ基盤作ってくれる人募集中！！！

リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方

Similar a リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方 (20)

Más de Yu Yamada

Más de Yu Yamada (8)

リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方

Notas del editor