SlideShare a Scribd company logo
1 of 22
大規模案件で
データサイエンスチーム
を活躍させる取り組み
20180124
1
誰?
• 大原一輝
• 専門:統計学
• 中途入社、ライフスタイル2年目
• ポリシー:起案から基礎調査、モデリング、
運用まで全部できる個人・チームを作る
• データサイエンスチームのリーダー
– 後述する役割でいうとビジネス寄りの人
2
事の始まり
• 大規模案件獲得できた!
• 大規模なのでチーム作って対応するぞ!
• しかしデータサイエンティストでチーム
を作った経験無い…
• チーム戦の知見を貯めつつ、利益を上げ
る取り組みに挑みたい!
3
データサイエンスチーム発足
• 体制
– データサイエンティスト8人程度
– 案件的にはプロダクト側やウェブ解析など他
チームも関わってるので、総計すると20人弱
• 定義
– ここでいうデータサイエンティストチームは、
沢山のデータサイエンティストがいて個々人
で沢山の案件こなしてますよってのではなく、
複数人で1つの大規模プロジェクト回すぞっ
て意味でのチーム
4
データサイエンティスト
• 様々な人がいる
– 理論寄り、エンジニア寄り、ビジネス寄り
– スキル・興味がレベル・方向性ともに異なる
– 各々得意・不得意な領域を持つ
• どうやって協力していこう?
5
案件概要
• 日次バッチで各商品にレコメンドスコア
を付与し、売上アップを狙う
6
まずチームの責任分掌を決める
• ここがフワッとしてるとタスクが宙に浮
くので、案件のタスク洗い出して、デー
タサイエンスチームのポジションと役割
分担を明確にする
• メンバーのタスク割り振りはその後
• 重要なのは後述する具体的なタスクその
ものではなく、やるやらを決めること。
タスク一覧はあくまで参考、案件次第
7
チームで何をする?
1. 基礎調査
2. モデリング
3. バッチ開発
4. バッチ基盤開発
5. ABテスト
6. ABテスト振り返り
7. データサイエンスチーム内のPM
8
逆に、何をしない?
1. DWHや基盤エンジニアリング:CET
2. 営業調整
3. カスタマー・クライアント対応
4. サービス側のエンジニアリング
5. フロントエンド
6. 案件全体のマネジメント
7. 経営層報告や事業調整
9
他チーム協業はビジネス系担当
• データサイエンスチーム内では取り組ま
ないものの、案件として取り組むべきタ
スクは幾らでもある。そこを他チームと
協業するパイプ役が必要
• ある程度データサイエンスわかるビジネ
ス系の人がパイプ役になると良い
– [個人的意見]居ない場合は、非ビジネス系
データサイエンティストより、極論データサ
イエンス一切わからないビジネス系人材の登
用が良さそう
10
具体的にどう進める?
• Kaggle的なコンペ形式
– 規定評価指標でモデルを採点して競う方式
– 随時手法公開
– 週一で共有会
– GHEでレビュー、slackで相談を逐次実行
• 複数のABテストスロットに実戦投入
• 上記コンペ→ABを1サイクルとして何度
も回し続ける
11
やってみよう!
コンペ→ABサイクル
12
AB第1弾の対応を考えてみた
• メンバーによってゴールが全然違う
– ゴール=何を最適化するか?
– 最初に議論して「何を目的変数にするか」「精度
指標とするか」を合わせ、打ち手や最終目的が異
なっていても、相互レビュー可能なようにする
– 評価指標が統一されてないと、どの打ち手がどの
程度良いのかや取り組みの価値がわからない
• スキルやデータ理解度が違う
– 実務データは複雑かつダーティ
– 得意分野が異なる
13
コンペ形式の下準備
• 問題設定
– チームのゴールと指標統一
• マート用意
– データ理解の最低限を担保
• リーダーボード
– スコア確認で自身の手応えを得る
• リポジトリ管理
– コードや手法共有
14
良かった点
• 様々な打ち手が出てきた
– ツリー、強化学習、word2vec、NLP、時系列…
• 手法やデータの知見共有ができた
• 競技的な取り組みで仕事のモチベアップ
• メンバーの相互育成に繋がった
– 中堅→若手:ドメイン知識や実践面の共有
– 若手→中堅:最新の手法や理論面を共有
15
出てきた問題点
1. メンバーのエンジニアスキルが大きく異なる
2. 理論系のメンバーが書いたバッチ、エンジニ
ア的には多大な改善余地がある
3. エンジニアが頑張ってリファクタする
4. →エンジニアが疲弊する
→エンジニアリングレベルを担保しよう!!
16
第2弾の対応策を考えてみた
• エンジニア系メンバーにコード規約や利
用ツール含め、様々なフローを結構細か
く規定してもらった
17
出てきた問題点
• 理論系メンバーがエンジニアリングスキルを
求められる規約に合わせるのは厳しい
– 独自Github flow, Docker, Kubernetes, AirFlow
• 環境制限のため様々な打ち手を阻害する
– XGBoost, NLP, 強化学習, word2vecなど使いたい
– Docker使えば確かに環境切り分けられるけど、
管理が大変になってくる…
• [個人的意見] 多様性を無視し全員にエンジ
ニアリングレベルを求めると、普通のエンジ
ニア集団になる
18
第3弾の対応策を考えてみた
• エンジニア寄りと理論寄りのメンバーでサ
ブチームを構成して相互補完
• これまで各メンバーに時間配分任せていた
が、それだとメンバーによってはモデリン
グだけするなど何かに特化しがちなので、
大まかなスケジュールを設定して臨んだ
– 基礎調査→モデリング→バッチ開発を1~2週間
ずつ
19
結果
• 結論、めちゃくちゃ良かった!!!
• お互いの立場を超えた連携
– エンジニアは理論の、理論系はエンジニアの
知見を協業することで理解できた
– 理論系もエンジニアに負担にならないような
コードを書くという心掛けが真に理解できた
• 各タスクごとに期間を設けたので、おざ
なりになるタスクがなくなった
• 3回目以降はこの形式で運営中
20
データサイエンスチーム
ベタープラクティス
1. 最初にデータサイエンスチームのポジ
ションとタスクを明確にする
2. コンペ形式でモデルを磨き込むことによ
り、成果改善とメンバーのモチベ・スキ
ルアップ
3. サブチームを作り、理論系やビジネス系
とエンジニア系を混ぜて相互補完する
4. 各タスクに掛けるリソースとスケジュー
ルを大まかに設定してサブチームに渡す
21
まとめ
• サブチーム作ってメンバーのスキルを相互補
完するようにしよう
• コンペ形式はモチベとスキルアップに効果的
• お膳立ては大変だが、成果は上々!!!
• 細々した調整もやるビジネス寄りの人がいる
とデータサイエンスチームの運営がスムーズ
• データサイエンスチーム作りは手探り多いが、
十分なリターンを見込める。挑戦しよう!
22

More Related Content

What's hot

Yahoo! JAPANが持つデータ分析ソリューションの紹介 #yjdsnight
Yahoo! JAPANが持つデータ分析ソリューションの紹介 #yjdsnightYahoo! JAPANが持つデータ分析ソリューションの紹介 #yjdsnight
Yahoo! JAPANが持つデータ分析ソリューションの紹介 #yjdsnight
Yahoo!デベロッパーネットワーク
 
カップルが一緒にお風呂に入る割合をベイズ推定してみた
カップルが一緒にお風呂に入る割合をベイズ推定してみたカップルが一緒にお風呂に入る割合をベイズ推定してみた
カップルが一緒にお風呂に入る割合をベイズ推定してみた
hoxo_m
 
プログラミングコンテストでの動的計画法
プログラミングコンテストでの動的計画法プログラミングコンテストでの動的計画法
プログラミングコンテストでの動的計画法
Takuya Akiba
 

What's hot (20)

深層強化学習による立体四目ゲームAIの作成
深層強化学習による立体四目ゲームAIの作成深層強化学習による立体四目ゲームAIの作成
深層強化学習による立体四目ゲームAIの作成
 
neutral
neutralneutral
neutral
 
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
 
対話返答生成における個性の追加反映
対話返答生成における個性の追加反映対話返答生成における個性の追加反映
対話返答生成における個性の追加反映
 
Deep Q-Network 論文輪読会
Deep Q-Network 論文輪読会Deep Q-Network 論文輪読会
Deep Q-Network 論文輪読会
 
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
 
Yahoo! JAPANが持つデータ分析ソリューションの紹介 #yjdsnight
Yahoo! JAPANが持つデータ分析ソリューションの紹介 #yjdsnightYahoo! JAPANが持つデータ分析ソリューションの紹介 #yjdsnight
Yahoo! JAPANが持つデータ分析ソリューションの紹介 #yjdsnight
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LT
 
Github Actionsで始めるROS/ROS2のCI
Github Actionsで始めるROS/ROS2のCIGithub Actionsで始めるROS/ROS2のCI
Github Actionsで始めるROS/ROS2のCI
 
カップルが一緒にお風呂に入る割合をベイズ推定してみた
カップルが一緒にお風呂に入る割合をベイズ推定してみたカップルが一緒にお風呂に入る割合をベイズ推定してみた
カップルが一緒にお風呂に入る割合をベイズ推定してみた
 
プログラミングコンテストでの動的計画法
プログラミングコンテストでの動的計画法プログラミングコンテストでの動的計画法
プログラミングコンテストでの動的計画法
 
Depth Estimation論文紹介
Depth Estimation論文紹介Depth Estimation論文紹介
Depth Estimation論文紹介
 
[DL輪読会]Deep Learning 第6章 深層順伝播型ネットワーク
[DL輪読会]Deep Learning 第6章 深層順伝播型ネットワーク[DL輪読会]Deep Learning 第6章 深層順伝播型ネットワーク
[DL輪読会]Deep Learning 第6章 深層順伝播型ネットワーク
 
クラウドサービスを活用した業務効率化 - 株式会社LIXIL
クラウドサービスを活用した業務効率化 - 株式会社LIXILクラウドサービスを活用した業務効率化 - 株式会社LIXIL
クラウドサービスを活用した業務効率化 - 株式会社LIXIL
 
国際標準化におけるAR/MR用語の使われ方
国際標準化におけるAR/MR用語の使われ方国際標準化におけるAR/MR用語の使われ方
国際標準化におけるAR/MR用語の使われ方
 
続・わかりやすいパターン認識_3章
続・わかりやすいパターン認識_3章続・わかりやすいパターン認識_3章
続・わかりやすいパターン認識_3章
 
仕事で使うChatGPT—ディレクター・プランナーの<勉強会>
仕事で使うChatGPT—ディレクター・プランナーの<勉強会>仕事で使うChatGPT—ディレクター・プランナーの<勉強会>
仕事で使うChatGPT—ディレクター・プランナーの<勉強会>
 
コンピュータビジョンの観点から見たAIの公平性
コンピュータビジョンの観点から見たAIの公平性コンピュータビジョンの観点から見たAIの公平性
コンピュータビジョンの観点から見たAIの公平性
 
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
 
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
 

Similar to 大規模案件でデータサイエンスチームを活躍させる取り組み

おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋
Issei Kurahashi
 

Similar to 大規模案件でデータサイエンスチームを活躍させる取り組み (20)

Big data harvardbusiessreview20121112
Big data harvardbusiessreview20121112Big data harvardbusiessreview20121112
Big data harvardbusiessreview20121112
 
Naite20 cmmi
Naite20 cmmiNaite20 cmmi
Naite20 cmmi
 
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgateデータ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
 
杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2
 
data science study group vol.5(Japanese)
data science study group vol.5(Japanese)data science study group vol.5(Japanese)
data science study group vol.5(Japanese)
 
おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋
 
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
 
Digital strategy in Japanese
Digital strategy in JapaneseDigital strategy in Japanese
Digital strategy in Japanese
 
スクール事業を通して感じたデータサイエンティストのキャリア構築の難しさとデータラーニングギルド設立に至った理由
スクール事業を通して感じたデータサイエンティストのキャリア構築の難しさとデータラーニングギルド設立に至った理由スクール事業を通して感じたデータサイエンティストのキャリア構築の難しさとデータラーニングギルド設立に至った理由
スクール事業を通して感じたデータサイエンティストのキャリア構築の難しさとデータラーニングギルド設立に至った理由
 
20220524_採用ピッチ
20220524_採用ピッチ20220524_採用ピッチ
20220524_採用ピッチ
 
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
 
データサイエンティストってどこへ行ったのか???
データサイエンティストってどこへ行ったのか???データサイエンティストってどこへ行ったのか???
データサイエンティストってどこへ行ったのか???
 
Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料
 
Shifter様いつもお世話になっています!
Shifter様いつもお世話になっています!Shifter様いつもお世話になっています!
Shifter様いつもお世話になっています!
 
Shifter様いつもお世話になっています!
Shifter様いつもお世話になっています!Shifter様いつもお世話になっています!
Shifter様いつもお世話になっています!
 
本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法
 
位置情報SNSのチェックインデータを用いたユーザの傾向の分析と位置予測
位置情報SNSのチェックインデータを用いたユーザの傾向の分析と位置予測位置情報SNSのチェックインデータを用いたユーザの傾向の分析と位置予測
位置情報SNSのチェックインデータを用いたユーザの傾向の分析と位置予測
 
データマネジメント2014
データマネジメント2014データマネジメント2014
データマネジメント2014
 
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりデータサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
 
一人三役!一気通貫でデータ活用するエンジニアリング
一人三役!一気通貫でデータ活用するエンジニアリング一人三役!一気通貫でデータ活用するエンジニアリング
一人三役!一気通貫でデータ活用するエンジニアリング
 

More from Recruit Lifestyle Co., Ltd.

More from Recruit Lifestyle Co., Ltd. (20)

業務と消費者の体験を同時にデザインするリクルートの価値検証のリアル ー 「Airレジ ハンディ」セルフオーダーのブレない「価値」の確かめ方 ー
業務と消費者の体験を同時にデザインするリクルートの価値検証のリアル ー 「Airレジ ハンディ」セルフオーダーのブレない「価値」の確かめ方 ー業務と消費者の体験を同時にデザインするリクルートの価値検証のリアル ー 「Airレジ ハンディ」セルフオーダーのブレない「価値」の確かめ方 ー
業務と消費者の体験を同時にデザインするリクルートの価値検証のリアル ー 「Airレジ ハンディ」セルフオーダーのブレない「価値」の確かめ方 ー
 
分散トレーシングAWS:X-Rayとの上手い付き合い方
分散トレーシングAWS:X-Rayとの上手い付き合い方分散トレーシングAWS:X-Rayとの上手い付き合い方
分散トレーシングAWS:X-Rayとの上手い付き合い方
 
OOUIを実践してわかった、9つの大切なこと
OOUIを実践してわかった、9つの大切なことOOUIを実践してわかった、9つの大切なこと
OOUIを実践してわかった、9つの大切なこと
 
Flutter移行の苦労と、乗り越えた先に得られたもの
Flutter移行の苦労と、乗り越えた先に得られたものFlutter移行の苦労と、乗り越えた先に得られたもの
Flutter移行の苦労と、乗り越えた先に得られたもの
 
CTIサービスを支える裏側 〜物理デバイスとの戦い〜 | iOSDC Japan 2020
CTIサービスを支える裏側 〜物理デバイスとの戦い〜 | iOSDC Japan 2020CTIサービスを支える裏側 〜物理デバイスとの戦い〜 | iOSDC Japan 2020
CTIサービスを支える裏側 〜物理デバイスとの戦い〜 | iOSDC Japan 2020
 
「進化し続けるインフラ」のためのマルチアカウント管理
「進化し続けるインフラ」のためのマルチアカウント管理「進化し続けるインフラ」のためのマルチアカウント管理
「進化し続けるインフラ」のためのマルチアカウント管理
 
Air事業のデザイン組織とデザイナー
Air事業のデザイン組織とデザイナーAir事業のデザイン組織とデザイナー
Air事業のデザイン組織とデザイナー
 
リクルートライフスタイル AirシリーズでのUXリサーチ
リクルートライフスタイル AirシリーズでのUXリサーチリクルートライフスタイル AirシリーズでのUXリサーチ
リクルートライフスタイル AirシリーズでのUXリサーチ
 
ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割
ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割
ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割
 
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
データサイエンティストが力を発揮できるアジャイルデータ活用基盤データサイエンティストが力を発揮できるアジャイルデータ活用基盤
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
 
Real-time personalized recommendation using embedding
Real-time personalized recommendation using embeddingReal-time personalized recommendation using embedding
Real-time personalized recommendation using embedding
 
データから価値を生み続けるには
データから価値を生み続けるにはデータから価値を生み続けるには
データから価値を生み続けるには
 
データプロダクト開発を成功に導くには
データプロダクト開発を成功に導くにはデータプロダクト開発を成功に導くには
データプロダクト開発を成功に導くには
 
Jupyter だけで機械学習を実サービス展開できる基盤
Jupyter だけで機械学習を実サービス展開できる基盤Jupyter だけで機械学習を実サービス展開できる基盤
Jupyter だけで機械学習を実サービス展開できる基盤
 
SQLを書くだけでAPIが作れる基盤
SQLを書くだけでAPIが作れる基盤SQLを書くだけでAPIが作れる基盤
SQLを書くだけでAPIが作れる基盤
 
BtoBサービスならではの顧客目線の取り入れ方
BtoBサービスならではの顧客目線の取り入れ方BtoBサービスならではの顧客目線の取り入れ方
BtoBサービスならではの顧客目線の取り入れ方
 
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のりThe Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
 
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
 
ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡
 
Refactoring point of Kotlin application
Refactoring point of Kotlin applicationRefactoring point of Kotlin application
Refactoring point of Kotlin application
 

大規模案件でデータサイエンスチームを活躍させる取り組み