SlideShare una empresa de Scribd logo
1 de 24
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
マーケティングテクノロジー勉強会
How to 大量データ処理
~Hadoop/Redshift/Aerospike~
株式会社 EVERRISE
伊藤、中川
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
はじめに
本日は、お越しいただきありがとうございます。
講座を通じて、以下をご説明します。
How to 大量データ処理
① バッチ編
② トランザクション編
約 40 分程度の講座となりますが、よろしくお願い
いたします。
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
EVERRISE ご紹介
会社名 : EVERRISE CO.,LTD.
代表: 倉田 宏昌
設立日: 2006 年 7 月 3 日
所在地: 東京都港区六本木 4-11-13
ランディック六本木ビル 3F
Url : http://www.ever-rise.co.jp/
事業内容: - 業務系システム構築
- Web システム構築
社員数: 33 人 ( 技術者約 25 名 )
会社名 : EVERRISE VIETNAM CO.,LTD.
代表: 山崎 利崇
設立日: 2012 年 11 月 14 日
所在地: ベトナム ホーチミン
DA KAO Center
Url : http://www.everrise.asia
事業内容: - 業務系システム構築
- Web システム構築
社員数: 25 人 ( 技術者約 20 名 )
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
取引先一覧
・インターネット広告代理店
・配信事業社 (DSP / SSP / ADNW)
・メディアレップ
・総合代理店
・リサーチ企業
・ Web 系サービス提供企業
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
EVERRISE 社での開発・案件の事例
・ DMP 、アトリビューション分析
・スマートフォン向け独自アドネットワーク
・広告配信サーバカスタマイズ
・マーケティングオートメーションツール
※ アドテク系受託開発の会社です※
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
FAworks のご紹介
アドテク、 Web 系案件をご紹介!『 faworks 』で検索!
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
講師紹介
◆ 基本情報  伊藤孝 (38 歳 )
  EVERRISE 取締役
 
  Facebook   takashi.itou.er
◆ 経歴
  1989 年頃  プログラムと出会う
  1999 年 4 月   PG として就職
  2004 年~  物流・在庫コンサル
  2006 年 6 月   EVERRISE 起業
  2006 年 9 月~ アド関連システム開発多数
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
アドテクブログもやってます!
http://www.ever-rise.co.jp/adtech-blog/
「アドテクブログ」で検索
サイバーエージェント、
リクルートをおさえて第一位
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
How to 大量データ処理
バッチ系処理
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
本パートでの要点
私は現役技術者では無いで、
SIer として
大量データ処理 ( バッチ ) を受託する際の
How to というか注意点
をご紹介させていただきます。
大量データ処理の歴史を振り返り、ご紹介します。
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
データベース時代の大量データ
某携帯キャリアの 2003 年頃、約 12 年前の話です。
契約者数: 4 千万
通話回数: 1 日 1 億回、月間で 30 億回
このデータを元に、個人宛てに請求書を発行する
システムを担当 ( 料金計算+請求書作成 )
この処理を全て Oracle で実現する必要があった。
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
データベース時代の大量データ
データベースは専用スパコンで驚異的なサーバスペック。
C 言語でカリカリにチューニング。
何と言っても驚きは、そのサーバの価格!
1 台 100 億円以上!
それでも、携帯契約者が毎日のように増加していたので、 
耐えられずに「もう 1 台 DB サーバを買う?」という議論
が出たが、さすがに即断はできなかったようで、
まずはデータ圧縮チームを結成!
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
データベース時代の大量データ
Oracle 社員、プラチナ資格保有技術者で 20 名程度。
当時の想定単価:月額 200 万円
月額 200 万円 ×20 人 ×12 ヶ月=約 5 億円
その技術者で
「データ圧縮とパラメータチューニング」
だけを、ひたすら実施。
結果、 100 億円のサーバ購入を回避!
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
Hadoop 時代の大量データ
弊社は 2008 年頃から Hadoop の利用を開始。
Amazon EMR の提供は 2009 年頃で、 Hive もない。
その頃に利用した苦労話を。
技術的に面白そうだからと、
弊社 CTO が「 Hadoop でやります!」
という前提で、あるアド系のシステムを受託。
( 本当は DB でも十分なデータ量でしたが・・・ )
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
Hadoop 時代の大量データ
文献はほとんどなく、 AWS 自体も不安定のなか、 
S3 、 EC2 でガリガリと作りこみました。
…結果は
リリースは、延期に次ぐ延期。
  2 ~ 3 ヶ月間、担当者は休みなし。
  リリース後も不具合連発!
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
Hadoop 時代の大量データ
どんな事象でハマったか?
数台で分散処理させる際、極まれに 1 台だけ失敗する
⇒ 根本原因不明。クラウドの特性上致し方ない?
S3 から処理対象ファイルを読み込むと、極まれにリストが欠損する
⇒ 当時の S3 バグ
エラーログ、実行ログが各サーバに分散して、処理が追えない
⇒ ログを追うためだけの処理を別途記載
エラー対策記述が集計ロジックの約 10 倍に
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
Amazon EMR + Hive 時代の大量データ
2013 年頃、アトリビューション分析をいくつか受託開発。
Amazon EMR + Hive 構成でそれなりに実装できました。
ただし
> 数台で分散処理させる際、極まれに 1 台だけ失敗する
等の問題は発生していました。
上記のようなエラー時の回避には慣れていたのですが、
「対策記述量の多さと HiveQL の癖に手こずる」
という問題は残りました。
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
Amazon Redshift 時代の大量データ
そこで 2014 年頃から Redshift 利用(現在メイン利用)
◆Redshift の良い点
・ Hive のような独自文法がほぼなく、
 副問い合わせなど複雑なクエリも実行可能
・集計指示出してからの結果が早い ( 数秒で可能 )
・ EMR で発生していた失敗がなく非常に安定
・既存 DB システムから容易に切り替え可能
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
Redshift を検証して分かっていること
ファイルの読み込みは方法次第で大きく変動
copy という機能で S3 からのファイルを取り込むことが基本だが、複数ファイル
を 1 ファイルにマージして取込むと大幅に時間短縮される。ただし、使用するノー
ドが複数のノードスライス (CPU コア数 ) を持つ場合は、その分だけファイルを分
割した方が早い。
データ量、処理量、ノード数の関係性がリニア
データ・処理量が増えても、ノード数やノードスライス数等を増やせば、処理時間
は一定を保てるので、計算が立つ ( 処理の組み方次第 ) 。一定閾値を超えると急激
にパフォーマンス悪化という状況は見られない。
いくつかの注意点がある
vacuum 処理をしないと select のパフォーマンスが低下する / ノードの停止がで
きず「停止=削除」となる / PostgreSQL ベースなので mysql と文法が違う / サ
ポートしていない型も多い / etc
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
Redshift と TreasureData(TD) の弊社的比較
なぜ、 TD ではなく Redshift を利用しているのか?
1.弊社に Redshift 習熟者が多い
2. AWS 導入は検証済で容易 (TD は実績が少ない? )
3. DWH 経験者がすぐに利用できる
4. HiveQL よりも生 SQL に近い
5. AWS 担当者に文句を言える ( 逆に TD に知り合いが居ない )
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
最初から Redshift にしておけば良かった!実例①
データ量は想定より増える
とある「 MA ツール」の開発例で、顧客ランク推移を月単位で見れれば
良かったはずが日単位でランクが変動を見たいと変更。過去 1 年間だけ
のデータ保持の想定が、前年度、前々年度との比較もしたい!と変更。
30 万ユーザの 12 ヶ月の月別の顧客ランク推移
30 万 ×12 ヶ月= 360 万レコード想定
30 万ユーザの 36 ヶ月の日別の顧客ランク推移
30 万 ×1095 日= 3 億 3 千万レコード
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
最初から Redshift にしておけば良かった!実例②
想定以上に「無茶をするユーザ」がいる
弊社「アドレポ」の実例。事前にサンプルを集め、調査・設計を実
施。 20 ユーザ位まではデータベースでも余裕なデータ・処理量と想定。
リリース後どうなったか?                 
  2 ユーザ目で「無茶する想定外ユーザ」が登場。
データ量が数倍、出力レポート量も 10 倍以上
その後、 5 ユーザ目に同様の「無茶するユーザ」が登場。      
あっさりとデータベースが処理量でパンク。
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
大量データ処理を開発する時の教訓
データ・処理量的に見通しが立たない
または、すぐ増強が必要そうなものは
迷わず Redshift(TD 等 ) にしておくべき!
Copyright © EVERRISE CO.,LTD. All Rights Reserved.
次に
続きまして
トランザクション編

Más contenido relacionado

La actualidad más candente

AdServerの仕組み
AdServerの仕組みAdServerの仕組み
AdServerの仕組み
Eiji Kuroda
 

La actualidad más candente (20)

クラウドファースト時代のAWS活用事例と今後の展望 - AWS Cloud Storage & DB Day 2014
クラウドファースト時代のAWS活用事例と今後の展望 - AWS Cloud Storage & DB Day 2014 クラウドファースト時代のAWS活用事例と今後の展望 - AWS Cloud Storage & DB Day 2014
クラウドファースト時代のAWS活用事例と今後の展望 - AWS Cloud Storage & DB Day 2014
 
アドテクを支える人と技術
アドテクを支える人と技術アドテクを支える人と技術
アドテクを支える人と技術
 
AdServerの仕組み
AdServerの仕組みAdServerの仕組み
AdServerの仕組み
 
[CTO Night & Day 2019] Amazon Culture #ctonight
[CTO Night & Day 2019] Amazon Culture #ctonight[CTO Night & Day 2019] Amazon Culture #ctonight
[CTO Night & Day 2019] Amazon Culture #ctonight
 
グローバル戦略におけるクラウド活用のポイント - AWS Summit Tokyo 2014 Day 1 : Keynote
グローバル戦略におけるクラウド活用のポイント - AWS Summit Tokyo 2014 Day 1 : Keynoteグローバル戦略におけるクラウド活用のポイント - AWS Summit Tokyo 2014 Day 1 : Keynote
グローバル戦略におけるクラウド活用のポイント - AWS Summit Tokyo 2014 Day 1 : Keynote
 
Rtb30min
Rtb30minRtb30min
Rtb30min
 
5分でキャッチアップAdTech
5分でキャッチアップAdTech5分でキャッチアップAdTech
5分でキャッチアップAdTech
 
[db tech showcase Tokyo 2016] C21: JR東日本で利用されたIoTによるBIインテグレーション by 株式会社インサイトテ...
[db tech showcase Tokyo 2016] C21: JR東日本で利用されたIoTによるBIインテグレーション by 株式会社インサイトテ...[db tech showcase Tokyo 2016] C21: JR東日本で利用されたIoTによるBIインテグレーション by 株式会社インサイトテ...
[db tech showcase Tokyo 2016] C21: JR東日本で利用されたIoTによるBIインテグレーション by 株式会社インサイトテ...
 
AWSでのセキュリティ運用 ~ IAM,VPCその他
AWSでのセキュリティ運用 ~IAM,VPCその他AWSでのセキュリティ運用 ~IAM,VPCその他
AWSでのセキュリティ運用 ~ IAM,VPCその他
 
Cedec2015 ゲームサーバー基盤の新しい選択肢
Cedec2015 ゲームサーバー基盤の新しい選択肢Cedec2015 ゲームサーバー基盤の新しい選択肢
Cedec2015 ゲームサーバー基盤の新しい選択肢
 
大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理
 
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
 
20180516 AWS Black Belt Online Seminar Amazon Connect
20180516 AWS Black Belt Online Seminar Amazon Connect20180516 AWS Black Belt Online Seminar Amazon Connect
20180516 AWS Black Belt Online Seminar Amazon Connect
 
ゲームエンジニアのためのデータベース設計
ゲームエンジニアのためのデータベース設計ゲームエンジニアのためのデータベース設計
ゲームエンジニアのためのデータベース設計
 
クラウド時代に必要とされる組織と人材育成について
クラウド時代に必要とされる組織と人材育成についてクラウド時代に必要とされる組織と人材育成について
クラウド時代に必要とされる組織と人材育成について
 
とあるKVSをAutoscalingしてみる
とあるKVSをAutoscalingしてみるとあるKVSをAutoscalingしてみる
とあるKVSをAutoscalingしてみる
 
20190726 pub sec_Edtech_webiner
20190726 pub sec_Edtech_webiner20190726 pub sec_Edtech_webiner
20190726 pub sec_Edtech_webiner
 
NamenodeHA導入背景と運用状況
NamenodeHA導入背景と運用状況NamenodeHA導入背景と運用状況
NamenodeHA導入背景と運用状況
 
[CTO Night & Day 2019] AWS Database Overview -データベースの選択指針- #ctonight
[CTO Night & Day 2019] AWS Database Overview -データベースの選択指針- #ctonight[CTO Night & Day 2019] AWS Database Overview -データベースの選択指針- #ctonight
[CTO Night & Day 2019] AWS Database Overview -データベースの選択指針- #ctonight
 
CDNの仕組み(JANOG36)
CDNの仕組み(JANOG36)CDNの仕組み(JANOG36)
CDNの仕組み(JANOG36)
 

Destacado

㈱あきない総合研究所 ネットワークをチカラにする130228
㈱あきない総合研究所 ネットワークをチカラにする130228㈱あきない総合研究所 ネットワークをチカラにする130228
㈱あきない総合研究所 ネットワークをチカラにする130228
Masaki Yoshida
 
11月 コストリーダーか差別化戦略か?
11月 コストリーダーか差別化戦略か?11月 コストリーダーか差別化戦略か?
11月 コストリーダーか差別化戦略か?
Masaki Yoshida
 
10月 吉田イズム成長戦略121219
10月 吉田イズム成長戦略12121910月 吉田イズム成長戦略121219
10月 吉田イズム成長戦略121219
Masaki Yoshida
 
見込み客マーケティング最新版121025
見込み客マーケティング最新版121025見込み客マーケティング最新版121025
見込み客マーケティング最新版121025
Masaki Yoshida
 
柔らか頭の作り方130325
柔らか頭の作り方130325柔らか頭の作り方130325
柔らか頭の作り方130325
Masaki Yoshida
 

Destacado (17)

Medical Learning Bar ×Osaka Peatix登録方法
Medical Learning Bar ×Osaka Peatix登録方法Medical Learning Bar ×Osaka Peatix登録方法
Medical Learning Bar ×Osaka Peatix登録方法
 
Kvi白熱教室 vol.3
Kvi白熱教室 vol.3Kvi白熱教室 vol.3
Kvi白熱教室 vol.3
 
Mlbプレゼン②(共有) [互換モード]
Mlbプレゼン②(共有) [互換モード]Mlbプレゼン②(共有) [互換モード]
Mlbプレゼン②(共有) [互換モード]
 
薬歴未記入問題の原因とその解決方法
薬歴未記入問題の原因とその解決方法薬歴未記入問題の原因とその解決方法
薬歴未記入問題の原因とその解決方法
 
KVI白熱教室Vol.4「刺さるプレゼン」20140521
KVI白熱教室Vol.4「刺さるプレゼン」20140521 KVI白熱教室Vol.4「刺さるプレゼン」20140521
KVI白熱教室Vol.4「刺さるプレゼン」20140521
 
Mlbプレゼン①(共有) [互換モード]
Mlbプレゼン①(共有) [互換モード]Mlbプレゼン①(共有) [互換モード]
Mlbプレゼン①(共有) [互換モード]
 
糖尿病治療におけるアンメットニーズ
糖尿病治療におけるアンメットニーズ糖尿病治療におけるアンメットニーズ
糖尿病治療におけるアンメットニーズ
 
Reduxについて
ReduxについてReduxについて
Reduxについて
 
山口県岩国市Facebookセミナーin岩国商工会議所
山口県岩国市Facebookセミナーin岩国商工会議所山口県岩国市Facebookセミナーin岩国商工会議所
山口県岩国市Facebookセミナーin岩国商工会議所
 
`redux`と`flux`を比べてみたときの個人的な感想
`redux`と`flux`を比べてみたときの個人的な感想`redux`と`flux`を比べてみたときの個人的な感想
`redux`と`flux`を比べてみたときの個人的な感想
 
Gcm#3 uiデザインの品質を効率的に向上させるには?
Gcm#3 uiデザインの品質を効率的に向上させるには?Gcm#3 uiデザインの品質を効率的に向上させるには?
Gcm#3 uiデザインの品質を効率的に向上させるには?
 
㈱あきない総合研究所 ネットワークをチカラにする130228
㈱あきない総合研究所 ネットワークをチカラにする130228㈱あきない総合研究所 ネットワークをチカラにする130228
㈱あきない総合研究所 ネットワークをチカラにする130228
 
11月 コストリーダーか差別化戦略か?
11月 コストリーダーか差別化戦略か?11月 コストリーダーか差別化戦略か?
11月 コストリーダーか差別化戦略か?
 
10月 吉田イズム成長戦略121219
10月 吉田イズム成長戦略12121910月 吉田イズム成長戦略121219
10月 吉田イズム成長戦略121219
 
見込み客マーケティング最新版121025
見込み客マーケティング最新版121025見込み客マーケティング最新版121025
見込み客マーケティング最新版121025
 
Kfsとkpiとkbi
KfsとkpiとkbiKfsとkpiとkbi
Kfsとkpiとkbi
 
柔らか頭の作り方130325
柔らか頭の作り方130325柔らか頭の作り方130325
柔らか頭の作り方130325
 

Similar a マーケティングテクノロジー勉強会

B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by  Daisuke HiramaB34 Extremely Tuned Hadoop Cluster by  Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
Insight Technology, Inc.
 
ソーシャルアプリを分析してみた
ソーシャルアプリを分析してみたソーシャルアプリを分析してみた
ソーシャルアプリを分析してみた
Drecom Co., Ltd.
 

Similar a マーケティングテクノロジー勉強会 (20)

[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
 
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
 
おすすめインフラ! for スタートアップ
おすすめインフラ! for スタートアップおすすめインフラ! for スタートアップ
おすすめインフラ! for スタートアップ
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
Hadoop/Spark セルフサービス系の事例まとめ
Hadoop/Spark セルフサービス系の事例まとめHadoop/Spark セルフサービス系の事例まとめ
Hadoop/Spark セルフサービス系の事例まとめ
 
データマート対応した話
データマート対応した話データマート対応した話
データマート対応した話
 
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
 
【17-E-4】GitHub Enterpriseユーザ企業登壇!企業文化にイノベーションを起こすモダンなソフトウェア開発環境とは?
【17-E-4】GitHub Enterpriseユーザ企業登壇!企業文化にイノベーションを起こすモダンなソフトウェア開発環境とは?【17-E-4】GitHub Enterpriseユーザ企業登壇!企業文化にイノベーションを起こすモダンなソフトウェア開発環境とは?
【17-E-4】GitHub Enterpriseユーザ企業登壇!企業文化にイノベーションを起こすモダンなソフトウェア開発環境とは?
 
20141203 tiberoセミナー講演資料
20141203 tiberoセミナー講演資料20141203 tiberoセミナー講演資料
20141203 tiberoセミナー講演資料
 
Hadoop ~Yahoo! JAPANの活用について~
Hadoop ~Yahoo! JAPANの活用について~Hadoop ~Yahoo! JAPANの活用について~
Hadoop ~Yahoo! JAPANの活用について~
 
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by  Daisuke HiramaB34 Extremely Tuned Hadoop Cluster by  Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
 
データベースアプリケーション開発セミナー・最新のデータベースとアプリケーション開発の関係
データベースアプリケーション開発セミナー・最新のデータベースとアプリケーション開発の関係データベースアプリケーション開発セミナー・最新のデータベースとアプリケーション開発の関係
データベースアプリケーション開発セミナー・最新のデータベースとアプリケーション開発の関係
 
Unification of the middle scale services by Nuxt.js
Unification of the middle scale services by Nuxt.jsUnification of the middle scale services by Nuxt.js
Unification of the middle scale services by Nuxt.js
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
 
ソーシャルアプリを分析してみた
ソーシャルアプリを分析してみたソーシャルアプリを分析してみた
ソーシャルアプリを分析してみた
 
負荷分散勉強会
負荷分散勉強会負荷分散勉強会
負荷分散勉強会
 

Último

Último (10)

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 

マーケティングテクノロジー勉強会

  • 1. Copyright © EVERRISE CO.,LTD. All Rights Reserved. マーケティングテクノロジー勉強会 How to 大量データ処理 ~Hadoop/Redshift/Aerospike~ 株式会社 EVERRISE 伊藤、中川
  • 2. Copyright © EVERRISE CO.,LTD. All Rights Reserved. はじめに 本日は、お越しいただきありがとうございます。 講座を通じて、以下をご説明します。 How to 大量データ処理 ① バッチ編 ② トランザクション編 約 40 分程度の講座となりますが、よろしくお願い いたします。
  • 3. Copyright © EVERRISE CO.,LTD. All Rights Reserved. EVERRISE ご紹介 会社名 : EVERRISE CO.,LTD. 代表: 倉田 宏昌 設立日: 2006 年 7 月 3 日 所在地: 東京都港区六本木 4-11-13 ランディック六本木ビル 3F Url : http://www.ever-rise.co.jp/ 事業内容: - 業務系システム構築 - Web システム構築 社員数: 33 人 ( 技術者約 25 名 ) 会社名 : EVERRISE VIETNAM CO.,LTD. 代表: 山崎 利崇 設立日: 2012 年 11 月 14 日 所在地: ベトナム ホーチミン DA KAO Center Url : http://www.everrise.asia 事業内容: - 業務系システム構築 - Web システム構築 社員数: 25 人 ( 技術者約 20 名 )
  • 4. Copyright © EVERRISE CO.,LTD. All Rights Reserved. 取引先一覧 ・インターネット広告代理店 ・配信事業社 (DSP / SSP / ADNW) ・メディアレップ ・総合代理店 ・リサーチ企業 ・ Web 系サービス提供企業
  • 5. Copyright © EVERRISE CO.,LTD. All Rights Reserved. EVERRISE 社での開発・案件の事例 ・ DMP 、アトリビューション分析 ・スマートフォン向け独自アドネットワーク ・広告配信サーバカスタマイズ ・マーケティングオートメーションツール ※ アドテク系受託開発の会社です※
  • 6. Copyright © EVERRISE CO.,LTD. All Rights Reserved. FAworks のご紹介 アドテク、 Web 系案件をご紹介!『 faworks 』で検索!
  • 7. Copyright © EVERRISE CO.,LTD. All Rights Reserved. 講師紹介 ◆ 基本情報  伊藤孝 (38 歳 )   EVERRISE 取締役     Facebook   takashi.itou.er ◆ 経歴   1989 年頃  プログラムと出会う   1999 年 4 月   PG として就職   2004 年~  物流・在庫コンサル   2006 年 6 月   EVERRISE 起業   2006 年 9 月~ アド関連システム開発多数
  • 8. Copyright © EVERRISE CO.,LTD. All Rights Reserved. アドテクブログもやってます! http://www.ever-rise.co.jp/adtech-blog/ 「アドテクブログ」で検索 サイバーエージェント、 リクルートをおさえて第一位
  • 9. Copyright © EVERRISE CO.,LTD. All Rights Reserved. How to 大量データ処理 バッチ系処理
  • 10. Copyright © EVERRISE CO.,LTD. All Rights Reserved. 本パートでの要点 私は現役技術者では無いで、 SIer として 大量データ処理 ( バッチ ) を受託する際の How to というか注意点 をご紹介させていただきます。 大量データ処理の歴史を振り返り、ご紹介します。
  • 11. Copyright © EVERRISE CO.,LTD. All Rights Reserved. データベース時代の大量データ 某携帯キャリアの 2003 年頃、約 12 年前の話です。 契約者数: 4 千万 通話回数: 1 日 1 億回、月間で 30 億回 このデータを元に、個人宛てに請求書を発行する システムを担当 ( 料金計算+請求書作成 ) この処理を全て Oracle で実現する必要があった。
  • 12. Copyright © EVERRISE CO.,LTD. All Rights Reserved. データベース時代の大量データ データベースは専用スパコンで驚異的なサーバスペック。 C 言語でカリカリにチューニング。 何と言っても驚きは、そのサーバの価格! 1 台 100 億円以上! それでも、携帯契約者が毎日のように増加していたので、  耐えられずに「もう 1 台 DB サーバを買う?」という議論 が出たが、さすがに即断はできなかったようで、 まずはデータ圧縮チームを結成!
  • 13. Copyright © EVERRISE CO.,LTD. All Rights Reserved. データベース時代の大量データ Oracle 社員、プラチナ資格保有技術者で 20 名程度。 当時の想定単価:月額 200 万円 月額 200 万円 ×20 人 ×12 ヶ月=約 5 億円 その技術者で 「データ圧縮とパラメータチューニング」 だけを、ひたすら実施。 結果、 100 億円のサーバ購入を回避!
  • 14. Copyright © EVERRISE CO.,LTD. All Rights Reserved. Hadoop 時代の大量データ 弊社は 2008 年頃から Hadoop の利用を開始。 Amazon EMR の提供は 2009 年頃で、 Hive もない。 その頃に利用した苦労話を。 技術的に面白そうだからと、 弊社 CTO が「 Hadoop でやります!」 という前提で、あるアド系のシステムを受託。 ( 本当は DB でも十分なデータ量でしたが・・・ )
  • 15. Copyright © EVERRISE CO.,LTD. All Rights Reserved. Hadoop 時代の大量データ 文献はほとんどなく、 AWS 自体も不安定のなか、  S3 、 EC2 でガリガリと作りこみました。 …結果は リリースは、延期に次ぐ延期。   2 ~ 3 ヶ月間、担当者は休みなし。   リリース後も不具合連発!
  • 16. Copyright © EVERRISE CO.,LTD. All Rights Reserved. Hadoop 時代の大量データ どんな事象でハマったか? 数台で分散処理させる際、極まれに 1 台だけ失敗する ⇒ 根本原因不明。クラウドの特性上致し方ない? S3 から処理対象ファイルを読み込むと、極まれにリストが欠損する ⇒ 当時の S3 バグ エラーログ、実行ログが各サーバに分散して、処理が追えない ⇒ ログを追うためだけの処理を別途記載 エラー対策記述が集計ロジックの約 10 倍に
  • 17. Copyright © EVERRISE CO.,LTD. All Rights Reserved. Amazon EMR + Hive 時代の大量データ 2013 年頃、アトリビューション分析をいくつか受託開発。 Amazon EMR + Hive 構成でそれなりに実装できました。 ただし > 数台で分散処理させる際、極まれに 1 台だけ失敗する 等の問題は発生していました。 上記のようなエラー時の回避には慣れていたのですが、 「対策記述量の多さと HiveQL の癖に手こずる」 という問題は残りました。
  • 18. Copyright © EVERRISE CO.,LTD. All Rights Reserved. Amazon Redshift 時代の大量データ そこで 2014 年頃から Redshift 利用(現在メイン利用) ◆Redshift の良い点 ・ Hive のような独自文法がほぼなく、  副問い合わせなど複雑なクエリも実行可能 ・集計指示出してからの結果が早い ( 数秒で可能 ) ・ EMR で発生していた失敗がなく非常に安定 ・既存 DB システムから容易に切り替え可能
  • 19. Copyright © EVERRISE CO.,LTD. All Rights Reserved. Redshift を検証して分かっていること ファイルの読み込みは方法次第で大きく変動 copy という機能で S3 からのファイルを取り込むことが基本だが、複数ファイル を 1 ファイルにマージして取込むと大幅に時間短縮される。ただし、使用するノー ドが複数のノードスライス (CPU コア数 ) を持つ場合は、その分だけファイルを分 割した方が早い。 データ量、処理量、ノード数の関係性がリニア データ・処理量が増えても、ノード数やノードスライス数等を増やせば、処理時間 は一定を保てるので、計算が立つ ( 処理の組み方次第 ) 。一定閾値を超えると急激 にパフォーマンス悪化という状況は見られない。 いくつかの注意点がある vacuum 処理をしないと select のパフォーマンスが低下する / ノードの停止がで きず「停止=削除」となる / PostgreSQL ベースなので mysql と文法が違う / サ ポートしていない型も多い / etc
  • 20. Copyright © EVERRISE CO.,LTD. All Rights Reserved. Redshift と TreasureData(TD) の弊社的比較 なぜ、 TD ではなく Redshift を利用しているのか? 1.弊社に Redshift 習熟者が多い 2. AWS 導入は検証済で容易 (TD は実績が少ない? ) 3. DWH 経験者がすぐに利用できる 4. HiveQL よりも生 SQL に近い 5. AWS 担当者に文句を言える ( 逆に TD に知り合いが居ない )
  • 21. Copyright © EVERRISE CO.,LTD. All Rights Reserved. 最初から Redshift にしておけば良かった!実例① データ量は想定より増える とある「 MA ツール」の開発例で、顧客ランク推移を月単位で見れれば 良かったはずが日単位でランクが変動を見たいと変更。過去 1 年間だけ のデータ保持の想定が、前年度、前々年度との比較もしたい!と変更。 30 万ユーザの 12 ヶ月の月別の顧客ランク推移 30 万 ×12 ヶ月= 360 万レコード想定 30 万ユーザの 36 ヶ月の日別の顧客ランク推移 30 万 ×1095 日= 3 億 3 千万レコード
  • 22. Copyright © EVERRISE CO.,LTD. All Rights Reserved. 最初から Redshift にしておけば良かった!実例② 想定以上に「無茶をするユーザ」がいる 弊社「アドレポ」の実例。事前にサンプルを集め、調査・設計を実 施。 20 ユーザ位まではデータベースでも余裕なデータ・処理量と想定。 リリース後どうなったか?                    2 ユーザ目で「無茶する想定外ユーザ」が登場。 データ量が数倍、出力レポート量も 10 倍以上 その後、 5 ユーザ目に同様の「無茶するユーザ」が登場。       あっさりとデータベースが処理量でパンク。
  • 23. Copyright © EVERRISE CO.,LTD. All Rights Reserved. 大量データ処理を開発する時の教訓 データ・処理量的に見通しが立たない または、すぐ増強が必要そうなものは 迷わず Redshift(TD 等 ) にしておくべき!
  • 24. Copyright © EVERRISE CO.,LTD. All Rights Reserved. 次に 続きまして トランザクション編