ビッグデータとデータマート

© Opt, Inc. All Rights Reserved.
ビッグデータとデータマート
株式会社オプト　仙台ラボラトリ
第1回タガヤス登壇資料

Copyright © 2017 OPT Inc. All Rights Reserved.
目次
● ビッグデータとは
● データベースについて
● データマート対応した話

ビッグデータとは

ビッグデータってどんなデータ？

ビッグデータとは、通常のツールで
は扱えないような、非常に大きな
データ量のデータのこと。
wikiによると5年前の定義では、数
十テラ～数ペタバイト。

では、オプト仙台ラボラトリで
扱っているデータって？

ひとことでいうと
「インターネット広告掲載結果」
のデータ
（※弊社はe-marketing companyです）
With

（株式会社オプトは、 e-marketing companyからINNOVATION AGENCYへ！）

（e-marketing company
だと堂々と言ってしまいましたが、
今年の夏から
INNOVATION AGENCY
と名乗っていますので
謹んで訂正させていただきます）
ビジネスを革新させ、新しい価値を創造してまいります！

それはさておき・・・

インターネットの広告って？

こことか
ここも
これは、
ディスプレイ広告

こことか
キーワード広告。
サーチ、
リスティング広告
といいます

ネット上の各種サイトに広告を掲載した
結果のデータをAPI等
様々な方法で集めています。

どの広告を
いつ
どんな端末から
何回表示したか
何回クリックしたか
などなど
・・・

オプトではたくさんの顧客の広告を
様々な媒体に出しているので
その広告実績データは
1日でおよそ11.5 GBです
（※データベース取込前の圧縮ファイル状態です）

現在の蓄積されているデータ総量
はというと・・・

4.02 TB
Redshiftの総利用量

さきほどの「ビックデータの定義」
からすると
そんなにビッグデータ
でもないのでは・・・？

Redshiftが圧縮
してくれているんです！！
（圧縮率が最大 4 倍とも言われてます）

また、データ量を減らすために
必要項目のみを取得・取込している
ためでもあったりします

また、
保持期間も絞っています

よって、やはり
広告データはビッグデータ
といえると思います

とはいえ、
4.02TBって想像しづらい・・・？

レコード件数でいうと、
だいたい・・・

75億！
Redshiftの総データ件数

あと、２０００万！

だいたい地球の人口ぐらいなので
多そうな気はしましたね！

だいたいビックデータについて
ご理解いただけたところで
次にいきます！

データベースについて

ビッグデータを扱うデータベースとは？

ビッグデータを扱うのに
適したデータベースもあります
（一般的にデータウェアハウス）

Redshift
AWS（Amazon Web Service）というアマゾンのクラウドサービスで
提供されいるデータウェアハウスです。
Amazon Redshiftはペタバイト級の大容量データを高速に処
理することができるデータウェアハウスでコストは従来のソ
リューションの1/10未満です。
（AWS公式サイトより引用）

Redshiftの特徴
列指向でPostgreSQLベース。
COPYコマンドファイル（CSV,TSV,JSON)から高速にデータ取込が
可能！
更新処理はニガテ・・・
データベーステーブルの列指向ストレージは、必要な総ディスク
I/O と、ディスクからロードする必要のあるデータ量が大幅に減
少するので、分析クエリのパフォーマンスの最適化において重
要な要因です。
（AWS公式サイトより引用）

BigQuery
GCP（Google Cloud Platform）というGoogleのクラウドサービスで
提供されいるデータウェアハウスです。
BigQuery は Google が提供するフルマネージドのエンタープ
ライズ向けアナリティクスデータウェアハウスです。ペタバイト
規模のデータを低料金で格納して処理することができます。
（GCP公式サイトより引用）

BigQueryの特徴
列指向です。
データ保存は無料でクエリ単位で課金。恒常的に巨大なデータにク
エリを投げるのでなければ結構安い（個人の感想です）。
Googleの他製品とも相性が良く、AdWordsのデータや、Google
Spread Sheetのデータをインポートして処理することなどもできる。
（東京本社の開発では使っているらしい）

Treasure Data
Treasure Dataより提供されているクラウド上のデータウェアハウス
です。
※オプトでは「トレジャーデータサービス by IDCF」を活用しています。
データの収集・分析・連携を目的としたクラウド型データマネー
ジメントサービスです。ウェブ、モバイルアプリケーション、セン
サーの多構造化・非構造化データなど、様々なソースからの
データ収集、分析、連携を簡単に行えるのが特徴です。
（Treasure Data公式サイトより引用）

TreasureDataの特徴
列指向です。
どんどんデータを貯めていくのに適している
※削除はDELETE文はないのでニガテ（partial_deleteというコマンド
で、時刻カラムでの期間指定した削除は可能）、更新はできない
パーティションのため時刻のカラムが必須！

今回は専用のUIもある
Treasure Dataについて
もう少し説明してみたいと思います

まずは
データベースを作成しましょう！

空のデータベースが作成されました！

つぎに
テーブルを作成しましょう！

空のテーブルが作成されました！

カラムを追加していきます

ひととおり追加したら保存します

テーブルが作成できました！

つぎに
データを取り込んでみましょう！

ファイルから取り込んで
みたいと思います

取込対象ファイルを選択します

取込対象は
テスト用のサンプルデータです

TreasureDataでは時刻カラムは必須！
（パーティションで使われる）

同じ名前のカラムは自動でマッピング

名前が違うものも手動でマッピング可能

取込が成功しました！

取込したデータも入っているようです

「スキップ」を選択しなかったので
テーブル定義しなかったカラムも
自動で取り込まれました！

取込項目のマッピング時
不要項目は「skip」にチェックしましょう！

ちなみに
まったくテーブルにカラムを定義
しないで取り込むこともできます！

カラム定義してないので
Columnsに何もでない

自動でファイル内の項目が
カラム候補として出てきます

client_list1を定義した際の
カラム以外に「skip」をつけてみます

必要項目のみ無事取込できました！

データ抽出してみましょう

Web上からSELECT文を書き実行できます

データが抽出できました！

データが出力も簡単にできます

今回はサンプルデータの取込でしたが
大容量のログデータの分析など
テーブル定義なしで高速に行えるので
便利なものとなってます

オプトで使っているもの以外にも、
OracleやIBMのRed Brick
などなど
様々なデータウェアハウスがあります

なんとなく
利用しているデータベースが
特殊かもと思った（かもしれない）
ところで次にいきます！

データマート対応した話

データマートとは？

データマートとは、頻繁に利用する
データのみ集計したデータにしてお
いたもの。
同時利用数・データ量削減などから
レスポンスの向上が期待できる。

実際どんなことをしたの？

経緯
最小粒度（広告業界でいうと、広告やキーワードなどのこと。より大きな粒度は広告グ
ループ、キャンペーンなど）のデータからの計算だったため、各アプリケー
ションからのリクエストに対して理想的とはいえないパフォーマンス。
Redshiftの同時実行数はデフォルトが5、設定自体は50まで増
やすことが可能ですが、「15以下推奨」とされています。（同時
接続数の制限は500）
⇒OLTP(オンライントランザクション処理)にはやはり不向きだっ
たか・・・？

やはり、集計しておいたデータがあった
方が良いよね！
（※複数システムでデータを活用しており、様々な
条件で分析するので
最終系を事前準備はむずかしい）

よく使われる粒度の大きい単位で集計し
てRDS（PostgreSQL)に格納
広告やキーワードといった最も細かい粒度を、キャンペーンとい
うより大きな粒度にサマリしたものにするだけで、
データ件数は24分の1ぐらいに減ります！
当時の状況だと、85%程度のリクエストがキャンペーン粒度の
データ利用で実際は集計できた。
RDSなので同時実行数の懸念もなし！

リクエストにより
Redshift（最小粒度を保持）と
RDS（集計データを保持）を使い分け
85%程度のリクエストが大きな粒度のデータ利用でまかなえた
としても、残り15%は最小粒度から集計する必要があったので、
切り分け処理を実装！
【メモ】
RDSもRedshift同様のAWSのサービスですが、中身は通常の
DBです（データベースの種類は選択可能です）

各システム
各システム
データ蓄積
システム
RDS
(PostgreSQ
L)
Redshift
媒体データを利用す
る各システムより
APIリクエスト
キャンペーン粒度から
の集計で問題なければ
データマートへ
広告やキーワードなど
最小粒度の絞り込みを
したければRedshiftへ
API
API
（約85%のリクエストはこ
ちらに）
サマリデータを
格納
この顧客の
運用状況は
どうかな
・・・？
あの顧客の
最近追加し
たXX広告
の実績はど
うかしら
・・・？

その結果・・・

48秒→1秒弱
（計測ツールデータなしならば
15秒→1秒弱）
レスポンス改善時間

すごく成果がありました！

今後のイベントでは、
現在のプロジェクト担当者より
より詳細な内容で
各データベースの特徴・性能比較や
データマート対応内容の
ご説明をさせていただきます！
（ビックデータに詳しくない方にも分かりやすく
を目指します）

ぜひ来てくださいね♥

ビッグデータとデータマート

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a ビッグデータとデータマート

Similar a ビッグデータとデータマート (20)

Más de 株式会社オプト　仙台ラボラトリ

Más de 株式会社オプト　仙台ラボラトリ (8)