SlideShare a Scribd company logo
1 of 21
Download to read offline
あなただけにそっと教える
弊社の分析事情
Data Analyst Meetup Tokyo vol.1
工藤 啓朗(Gunosy Inc.)
2016/06/23
自己紹介
くどう ひろあき (@Hmj_kd)
- 北海道釧路市出身, 30代, 妻子あり
- 高専 : 釧路高専 情報工学科
- 大学 : 物理学科 (ブラックホール,Inflation宇宙論)
- 前職 : プログラマ → Pandas データマエショリスト, データ分析
- 現職 : 4ヶ月目
- 2歳の娘に溺愛中...
自己紹介
以前こんな発表をした者です...
テーマは
「弊社の分析事情-○○社の場合」
入社してから前職やイメージ(?)と,
異なった部分を話したいと思います
Gunosy
データ×アルゴリズム
会社紹介
- Gunosy の紹介
- データ分析部の紹介
- チームについて
- どんなことやっているの?
- 運営ノウハウなど
今日のお話
データ分析部 in Gunosy
- 構成
- 8 名 + アルバイト数名(社員の10人に1人がデータ分析部)
- Bg : 人工知能,自然言語処理,計算知能,素粒子物理学 , ...
- 主な業務
- 記事配信ロジックの改善
- A/B テストの運用
- データ分析
- 施策前後の数値分析
- ユーザの行動分析, アド分析
- KPI設計,分析
- クライアントアプリのログ設計
主な分析の切り口
- ユーザ
- 性別,年齢,地域,...
- いつ登録したか
- どんな記事を読んでいるか
- いつ起動しているか
- 利用頻度は
- ...
ユーザの行動履歴などから推定
ログデータから
1. 研究組織(研究者)ではなく,課題解決する組織(エンジニア?)
2. 開発もワシワシする
3. コミュニケーション
4. 共有文化
5. Python 文化
他社のデータ分析部と異なる特殊なところ(主観イメージ)
主に取り組んでいる(きた)課題
- 組織の課題
- 施策のスピード,見るべき数値
- よりデータ・ドリブンな企業となるためへの改善
- ユーザにコンテンツを適切な形で伝える
- 定量,定性的にユーザを理解する
- 数値 : DAU,継続率,...
- ロジックの改善
- 現状把握だけではなく,仮説・検証・意思決定も含んだ分析が求められる
したいのは研究ではなく,課題を解決すること
データで遊んでいる
人々ではありません
(笑)
- 開発もします !!
- コードはGithub管理
- 本番データももちろんみれます.
- むしろ,AWSさわります
分析からデプロイするまで面倒みます
仮説 分析 施策
ロジック
開発
デプロイ
内容によっては,
1人で一気通貫もある
以前...
- mtg : 30分~1時間 × N
- 議事録...
- 事前ネゴ
- 決めるための事前mtg
- わかりやすいプレゼン資料
- 部長が中々つかまらない
今...
- 基本 slack
- 重要な数値、それを支える数値
- mtgがあっても,Google ドキュメントで
書きながら話しながら進める
- きれいなプレゼン資料つくるなら,施策
を前に進めよう
- 部長はonline
コミュニケーション
slack で議論
チャンネルは
- Project
- Team
- 個人分報
- …
など
- Task
- ZenHub で管理
- Github
- 仮説,施策,検証のログ
- Slack
- 議論
- yammer
- 最終意思決定
仮説,議論から意思決定まで流れ
意思決定
yammer
議論
Slack
ダッシュボード
A/B テスト
オフラインテスト
プロトタイプ
ロジック実装
ロジック実装
仮説出し
Github issue
アドホック分析
レビュー
- 失敗から学ぶ
- 重要な数値をモニタリングして,下がったら原因を探る.
- 他社事例
- 他社のABテストが100%になった.
- 撤退した.機能が消えた.
- ユーザ間の比較
- iOS/Android,獲得経路別,ユーザが最初に使った機能ごとの KPI
- 大切な数値と相関の大きな値
- ある行動の回数が多いと,重要な数値も高くなる傾向がある
仮説出しの例
Github(README/Wiki) や Qiita や GoogleDriveを活用して,
知見やトラブルシューティングをシェアしています.
気軽に聞ける風土
- Pandas Tips
- ロジックについてのアイデア
- ...
共有文化
ロジック開発では
- Django デス
- バッチもDjango
- (ほぼ) Python 3系
アドホックな分析では
Jupyter (旧: ipython notebook) を活用しています !!
- 前処理 : Pandas
- 可視化 : seaborn, ggplot風 など
Python 文化 そう, Python
主に
ダッシュボード(可視化)まわり
社内ダッシュボード
依頼ベースでの話は,
クエリを渡して
ディレクター側で運用しています!!
データ分析部 開発合宿
- データ分析部だけどコードも書く,ちょっと特殊なデータ分析部です(主観)
- まだまだ改善途中,ノウハウを共有しあってよいチームにしていきたい
まとめと,これから
ご清聴ありがとうございます !!

More Related Content

What's hot

Masakazu Sano Tokyowebmining 37 20140621
Masakazu Sano Tokyowebmining 37 20140621Masakazu Sano Tokyowebmining 37 20140621
Masakazu Sano Tokyowebmining 37 20140621
Masakazu Sano
 
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
圭輔 大曽根
 
Sano tokyowebmining 36_20140526
Sano tokyowebmining 36_20140526Sano tokyowebmining 36_20140526
Sano tokyowebmining 36_20140526
Masakazu Sano
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori
 

What's hot (12)

データ分析スクリプトのツール化入門 - PyConJP 2016
データ分析スクリプトのツール化入門 - PyConJP 2016データ分析スクリプトのツール化入門 - PyConJP 2016
データ分析スクリプトのツール化入門 - PyConJP 2016
 
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
 
Masakazu Sano Tokyowebmining 37 20140621
Masakazu Sano Tokyowebmining 37 20140621Masakazu Sano Tokyowebmining 37 20140621
Masakazu Sano Tokyowebmining 37 20140621
 
機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython
 
tokyo_webmining_no51
tokyo_webmining_no51tokyo_webmining_no51
tokyo_webmining_no51
 
Rationalizing Medical Relation Prediction from Corpus-level Statistics
Rationalizing Medical Relation Prediction from Corpus-level StatisticsRationalizing Medical Relation Prediction from Corpus-level Statistics
Rationalizing Medical Relation Prediction from Corpus-level Statistics
 
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
 
Sano tokyowebmining 36_20140526
Sano tokyowebmining 36_20140526Sano tokyowebmining 36_20140526
Sano tokyowebmining 36_20140526
 
OpenData_DataCurator_20140927
OpenData_DataCurator_20140927OpenData_DataCurator_20140927
OpenData_DataCurator_20140927
 
自然言語処理紹介(就職編)
自然言語処理紹介(就職編)自然言語処理紹介(就職編)
自然言語処理紹介(就職編)
 
Google Prediction APIを使う前に知っておきたい統計のはなし
Google Prediction APIを使う前に知っておきたい統計のはなしGoogle Prediction APIを使う前に知っておきたい統計のはなし
Google Prediction APIを使う前に知っておきたい統計のはなし
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 

Viewers also liked

Viewers also liked (14)

WebDB Forum 2016 gunosy
WebDB Forum 2016 gunosyWebDB Forum 2016 gunosy
WebDB Forum 2016 gunosy
 
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
 
Gunosyデータマイニング研究会 #118 これからの強化学習
Gunosyデータマイニング研究会 #118 これからの強化学習Gunosyデータマイニング研究会 #118 これからの強化学習
Gunosyデータマイニング研究会 #118 これからの強化学習
 
A/B Testing at Pinterest: Building a Culture of Experimentation
A/B Testing at Pinterest: Building a Culture of Experimentation A/B Testing at Pinterest: Building a Culture of Experimentation
A/B Testing at Pinterest: Building a Culture of Experimentation
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
 
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
 
記事分類における教師データおよびモデルの管理
記事分類における教師データおよびモデルの管理記事分類における教師データおよびモデルの管理
記事分類における教師データおよびモデルの管理
 
論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97
 
マイクロサービスとABテスト
マイクロサービスとABテストマイクロサービスとABテスト
マイクロサービスとABテスト
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 

Similar to あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT

サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量
T T
 

Similar to あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT (20)

データ分析というお仕事のこれまでとこれから(HCMPL2014)
データ分析というお仕事のこれまでとこれから(HCMPL2014)データ分析というお仕事のこれまでとこれから(HCMPL2014)
データ分析というお仕事のこれまでとこれから(HCMPL2014)
 
最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」
 
軸が異なる3つの組み合わせの考え方
軸が異なる3つの組み合わせの考え方軸が異なる3つの組み合わせの考え方
軸が異なる3つの組み合わせの考え方
 
Akira shibata at developer summit 2016
Akira shibata at developer summit 2016Akira shibata at developer summit 2016
Akira shibata at developer summit 2016
 
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
 
モブプログラミング x 行動分析学 x 教育
モブプログラミング x 行動分析学 x 教育モブプログラミング x 行動分析学 x 教育
モブプログラミング x 行動分析学 x 教育
 
サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量
 
mlabforum2012_okanohara
mlabforum2012_okanoharamlabforum2012_okanohara
mlabforum2012_okanohara
 
data science study group vol.5(Japanese)
data science study group vol.5(Japanese)data science study group vol.5(Japanese)
data science study group vol.5(Japanese)
 
Thinking datascientist itself
Thinking datascientist itselfThinking datascientist itself
Thinking datascientist itself
 
Sapporo Data Pioneers #1 LT:240118_sapporodatapioneers.pptx
Sapporo Data Pioneers #1 LT:240118_sapporodatapioneers.pptxSapporo Data Pioneers #1 LT:240118_sapporodatapioneers.pptx
Sapporo Data Pioneers #1 LT:240118_sapporodatapioneers.pptx
 
20220422佐賀銀行新入行員研修
20220422佐賀銀行新入行員研修20220422佐賀銀行新入行員研修
20220422佐賀銀行新入行員研修
 
Saya Projectの感情スコア推定モデル
Saya Projectの感情スコア推定モデルSaya Projectの感情スコア推定モデル
Saya Projectの感情スコア推定モデル
 
DDD読書会 アナリシスパターン
DDD読書会 アナリシスパターンDDD読書会 アナリシスパターン
DDD読書会 アナリシスパターン
 
2018-06-15第4回高大連携 高校生・大学生交流会2018
2018-06-15第4回高大連携 高校生・大学生交流会20182018-06-15第4回高大連携 高校生・大学生交流会2018
2018-06-15第4回高大連携 高校生・大学生交流会2018
 
みんなのPython勉強会#21 澪標アナリティクス 井原様
みんなのPython勉強会#21 澪標アナリティクス 井原様みんなのPython勉強会#21 澪標アナリティクス 井原様
みんなのPython勉強会#21 澪標アナリティクス 井原様
 
強化学習@PyData.Tokyo
強化学習@PyData.Tokyo強化学習@PyData.Tokyo
強化学習@PyData.Tokyo
 
深層強化学習 Pydata.Okinawa Meetup #22
深層強化学習 Pydata.Okinawa Meetup #22深層強化学習 Pydata.Okinawa Meetup #22
深層強化学習 Pydata.Okinawa Meetup #22
 
JTF2016 The strategy and Sun Tzu
JTF2016 The strategy and Sun TzuJTF2016 The strategy and Sun Tzu
JTF2016 The strategy and Sun Tzu
 
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
 

あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT