SlideShare una empresa de Scribd logo
1 de 102
Descargar para leer sin conexión
© Opt, Inc. All Rights Reserved.
ビッグデータとデータマート
株式会社オプト 仙台ラボラトリ
第1回タガヤス登壇資料 
© Opt, Inc. All Rights Reserved.
Copyright © 2017 OPT Inc. All Rights Reserved.
目次
● ビッグデータとは
● データベースについて
● データマート対応した話
© Opt, Inc. All Rights Reserved.
ビッグデータとは
© Opt, Inc. All Rights Reserved.
ビッグデータってどんなデータ?
© Opt, Inc. All Rights Reserved.
ビッグデータとは、通常のツールで
は扱えないような、非常に大きな
データ量のデータのこと。
wikiによると5年前の定義では、数
十テラ~数ペタバイト。
© Opt, Inc. All Rights Reserved.
では、オプト仙台ラボラトリで
扱っているデータって?
© Opt, Inc. All Rights Reserved.
ひとことでいうと
「インターネット広告掲載結果」
のデータ
(※弊社はe-marketing companyです)
With
© Opt, Inc. All Rights Reserved.
(株式会社オプトは、 e-marketing companyからINNOVATION AGENCYへ!)
© Opt, Inc. All Rights Reserved.
(e-marketing company
だと堂々と言ってしまいましたが、
今年の夏から
INNOVATION AGENCY
と名乗っていますので
謹んで訂正させていただきます)
ビジネスを革新させ、新しい価値を創造してまいります!
© Opt, Inc. All Rights Reserved.
それはさておき・・・
© Opt, Inc. All Rights Reserved.
インターネットの広告って?
© Opt, Inc. All Rights Reserved.
こことか
ここも
これは、
ディスプレイ広告
© Opt, Inc. All Rights Reserved.
こことか
キーワード広告。
サーチ、
リスティング広告
といいます
© Opt, Inc. All Rights Reserved.
ネット上の各種サイトに広告を掲載した
結果のデータをAPI等
様々な方法で集めています。
© Opt, Inc. All Rights Reserved.
どの広告を
いつ
どんな端末から
何回表示したか
何回クリックしたか
などなど
・・・
© Opt, Inc. All Rights Reserved.
オプトではたくさんの顧客の広告を
様々な媒体に出しているので
その広告実績データは
1日でおよそ11.5 GBです
(※データベース取込前の圧縮ファイル状態です)
© Opt, Inc. All Rights Reserved.
現在の蓄積されているデータ総量
はというと・・・
© Opt, Inc. All Rights Reserved.
4.02 TB
Redshiftの総利用量
© Opt, Inc. All Rights Reserved.
さきほどの「ビックデータの定義」
からすると
そんなにビッグデータ
でもないのでは・・・?
© Opt, Inc. All Rights Reserved.
Redshiftが圧縮
してくれているんです!!
(圧縮率が最大 4 倍とも言われてます)
© Opt, Inc. All Rights Reserved.
また、データ量を減らすために
必要項目のみを取得・取込している
ためでもあったりします
© Opt, Inc. All Rights Reserved.
また、
保持期間も絞っています
© Opt, Inc. All Rights Reserved.
よって、やはり
広告データはビッグデータ
といえると思います
© Opt, Inc. All Rights Reserved.
とはいえ、
4.02TBって想像しづらい・・・?
© Opt, Inc. All Rights Reserved.
レコード件数でいうと、
だいたい・・・
© Opt, Inc. All Rights Reserved.
75億!
Redshiftの総データ件数
© Opt, Inc. All Rights Reserved.
あと、2000万!
© Opt, Inc. All Rights Reserved.
だいたい地球の人口ぐらいなので
多そうな気はしましたね!
© Opt, Inc. All Rights Reserved.
だいたいビックデータについて
ご理解いただけたところで
次にいきます!
© Opt, Inc. All Rights Reserved.
データベースについて
© Opt, Inc. All Rights Reserved.
ビッグデータを扱うデータベースとは?
© Opt, Inc. All Rights Reserved.
ビッグデータを扱うのに
適したデータベースもあります
(一般的にデータウェアハウス)
© Opt, Inc. All Rights Reserved.
Redshift
AWS(Amazon Web Service)というアマゾンのクラウドサービスで
提供されいるデータウェアハウスです。
Amazon Redshiftはペタバイト級の大容量データを高速に処
理することができるデータウェアハウスでコストは従来のソ
リューションの1/10未満です。
(AWS公式サイトより引用)
© Opt, Inc. All Rights Reserved.
Redshiftの特徴
列指向でPostgreSQLベース。
COPYコマンドファイル(CSV,TSV,JSON)から高速にデータ取込が
可能!
更新処理はニガテ・・・
データベーステーブルの列指向ストレージは、必要な総ディスク
I/O と、ディスクからロードする必要のあるデータ量が大幅に減
少するので、分析クエリのパフォーマンスの最適化において重
要な要因です。
(AWS公式サイトより引用)
© Opt, Inc. All Rights Reserved.
BigQuery
GCP(Google Cloud Platform)というGoogleのクラウドサービスで
提供されいるデータウェアハウスです。
BigQuery は Google が提供するフルマネージドのエンタープ
ライズ向けアナリティクス データ ウェアハウスです。ペタバイト
規模のデータを低料金で格納して処理することができます。
(GCP公式サイトより引用)
© Opt, Inc. All Rights Reserved.
BigQueryの特徴
列指向です。
データ保存は無料でクエリ単位で課金。恒常的に巨大なデータにク
エリを投げるのでなければ結構安い(個人の感想です)。
Googleの他製品とも相性が良く、AdWordsのデータや、Google
Spread Sheetのデータをインポートして処理することなどもできる。
(東京本社の開発では使っているらしい)
© Opt, Inc. All Rights Reserved.
Treasure Data
Treasure Dataより提供されているクラウド上のデータウェアハウス
です。
※オプトでは「トレジャーデータサービス by IDCF」を活用しています。
データの収集・分析・連携を目的としたクラウド型データマネー
ジメントサービスです。ウェブ、モバイルアプリケーション、セン
サーの多構造化・非構造化データなど、様々なソースからの
データ収集、分析、連携を簡単に行えるのが特徴です。
(Treasure Data公式サイトより引用)
© Opt, Inc. All Rights Reserved.
TreasureDataの特徴
列指向です。
どんどんデータを貯めていくのに適している
※削除はDELETE文はないのでニガテ(partial_deleteというコマンド
で、時刻カラムでの期間指定した削除は可能)、更新はできない
パーティションのため時刻のカラムが必須!
© Opt, Inc. All Rights Reserved.
今回は専用のUIもある
Treasure Dataについて
もう少し説明してみたいと思います
© Opt, Inc. All Rights Reserved.
まずは
データベースを作成しましょう!
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
空のデータベースが作成されました!
© Opt, Inc. All Rights Reserved.
つぎに
テーブルを作成しましょう!
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
空のテーブルが作成されました!
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
カラムを追加していきます
© Opt, Inc. All Rights Reserved.
ひととおり追加したら保存します
© Opt, Inc. All Rights Reserved.
テーブルが作成できました!
© Opt, Inc. All Rights Reserved.
つぎに
データを取り込んでみましょう!
© Opt, Inc. All Rights Reserved.
ファイルから取り込んで
みたいと思います
© Opt, Inc. All Rights Reserved.
取込対象ファイルを選択します
© Opt, Inc. All Rights Reserved.
取込対象は
テスト用のサンプルデータです
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
TreasureDataでは時刻カラムは必須!
(パーティションで使われる)
© Opt, Inc. All Rights Reserved.
同じ名前のカラムは自動でマッピング
© Opt, Inc. All Rights Reserved.
同じ名前のカラムは自動でマッピング
© Opt, Inc. All Rights Reserved.
名前が違うものも手動でマッピング可能
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
取込が成功しました!
© Opt, Inc. All Rights Reserved.
取込したデータも入っているようです
© Opt, Inc. All Rights Reserved.
「スキップ」を選択しなかったので
テーブル定義しなかったカラムも
自動で取り込まれました!
© Opt, Inc. All Rights Reserved.
取込項目のマッピング時
不要項目は「skip」にチェックしましょう!
© Opt, Inc. All Rights Reserved.
ちなみに
まったくテーブルにカラムを定義
しないで取り込むこともできます!
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
カラム定義してないので
Columnsに何もでない
© Opt, Inc. All Rights Reserved.
自動でファイル内の項目が
カラム候補として出てきます
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
client_list1を定義した際の
カラム以外に「skip」をつけてみます
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
必要項目のみ無事取込できました!
© Opt, Inc. All Rights Reserved.
データ抽出してみましょう
© Opt, Inc. All Rights Reserved.
Web上からSELECT文を書き実行できます
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
データが抽出できました!
© Opt, Inc. All Rights Reserved.
© Opt, Inc. All Rights Reserved.
データが出力も簡単にできます
© Opt, Inc. All Rights Reserved.
今回はサンプルデータの取込でしたが
大容量のログデータの分析など
テーブル定義なしで高速に行えるので
便利なものとなってます
© Opt, Inc. All Rights Reserved.
オプトで使っているもの以外にも、
OracleやIBMのRed Brick
などなど
様々なデータウェアハウスがあります
© Opt, Inc. All Rights Reserved.
なんとなく
利用しているデータベースが
特殊かもと思った(かもしれない)
ところで次にいきます!
© Opt, Inc. All Rights Reserved.
データマート対応した話
© Opt, Inc. All Rights Reserved.
データマートとは?
© Opt, Inc. All Rights Reserved.
データマートとは、頻繁に利用する
データのみ集計したデータにしてお
いたもの。
同時利用数・データ量削減などから
レスポンスの向上が期待できる。
© Opt, Inc. All Rights Reserved.
実際どんなことをしたの?
© Opt, Inc. All Rights Reserved.
経緯
最小粒度(広告業界でいうと、広告やキーワードなどのこと。より大きな粒度は広告グ
ループ、キャンペーンなど)のデータからの計算だったため、各アプリケー
ションからのリクエストに対して理想的とはいえないパフォーマンス。
Redshiftの同時実行数はデフォルトが5、設定自体は50まで増
やすことが可能ですが、「15以下推奨」とされています。(同時
接続数の制限は500)
⇒OLTP(オンライントランザクション処理)にはやはり不向きだっ
たか・・・?
© Opt, Inc. All Rights Reserved.
やはり、集計しておいたデータがあった
方が良いよね!
(※複数システムでデータを活用しており、様々な
条件で分析するので
最終系を事前準備はむずかしい)
© Opt, Inc. All Rights Reserved.
よく使われる粒度の大きい単位で集計し
てRDS(PostgreSQL)に格納
広告やキーワードといった最も細かい粒度を、キャンペーンとい
うより大きな粒度にサマリしたものにするだけで、
データ件数は24分の1ぐらいに減ります!
当時の状況だと、85%程度のリクエストがキャンペーン粒度の
データ利用で実際は集計できた。
RDSなので同時実行数の懸念もなし!
© Opt, Inc. All Rights Reserved.
リクエストにより
Redshift(最小粒度を保持)と
RDS(集計データを保持)を使い分け
85%程度のリクエストが大きな粒度のデータ利用でまかなえた
としても、残り15%は最小粒度から集計する必要があったので、
切り分け処理を実装!
【メモ】
RDSもRedshift同様のAWSのサービスですが、中身は通常の
DBです(データベースの種類は選択可能です)
© Opt, Inc. All Rights Reserved.
各システム
各システム
データ蓄積
システム
RDS
(PostgreSQ
L)
Redshift
媒体データを利用す
る各システムより
APIリクエスト
キャンペーン粒度から
の集計で問題なければ
データマートへ
広告やキーワードなど
最小粒度の絞り込みを
したければRedshiftへ
API
API
(約85%のリクエストはこ
ちらに)
サマリデータを
格納
この顧客の
運用状況は
どうかな
・・・?
あの顧客の
最近追加し
たXX広告
の実績はど
うかしら
・・・?
© Opt, Inc. All Rights Reserved.
その結果・・・
© Opt, Inc. All Rights Reserved.
48秒→1秒弱
(計測ツールデータなしならば
15秒→1秒弱)
レスポンス改善時間
© Opt, Inc. All Rights Reserved.
すごく成果がありました!
© Opt, Inc. All Rights Reserved.
今後のイベントでは、
現在のプロジェクト担当者より
より詳細な内容で
各データベースの特徴・性能比較や
データマート対応内容の
ご説明をさせていただきます!
(ビックデータに詳しくない方にも分かりやすく
を目指します)
© Opt, Inc. All Rights Reserved.
ぜひ来てくださいね♥

Más contenido relacionado

La actualidad más candente

Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...DataWorks Summit/Hadoop Summit
 
[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...
[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...
[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...Insight Technology, Inc.
 
Hcm cloudをpaasでカスタマイズ
Hcm cloudをpaasでカスタマイズHcm cloudをpaasでカスタマイズ
Hcm cloudをpaasでカスタマイズ幹雄 小川
 
db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉 db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉 Insight Technology, Inc.
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~NTT DATA OSS Professional Services
 
データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングデータ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングRecruit Lifestyle Co., Ltd.
 
Investment in Yahoo! JAPAN's dataplatform and business growth by big data
Investment in Yahoo! JAPAN's dataplatform and business growth by big dataInvestment in Yahoo! JAPAN's dataplatform and business growth by big data
Investment in Yahoo! JAPAN's dataplatform and business growth by big dataDataWorks Summit/Hadoop Summit
 
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fallビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo FallYusukeKuramata
 
Hadoop Summit 2016 San Jose レポート
Hadoop Summit 2016  San Jose レポートHadoop Summit 2016  San Jose レポート
Hadoop Summit 2016 San Jose レポートKimihiko Kitase
 
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術Yahoo!デベロッパーネットワーク
 
Smart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructureSmart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructureDataWorks Summit
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworksKimihiko Kitase
 
Oracle advanced analyticsによる機械学習full version
Oracle advanced analyticsによる機械学習full versionOracle advanced analyticsによる機械学習full version
Oracle advanced analyticsによる機械学習full version幹雄 小川
 
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloudクラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud幹雄 小川
 
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)Atsushi Kurumada
 

La actualidad más candente (20)

Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
 
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo! JAPANのデータ基盤とHadoop #dbts2016Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
 
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreadingApache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
 
[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...
[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...
[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...
 
Hcm cloudをpaasでカスタマイズ
Hcm cloudをpaasでカスタマイズHcm cloudをpaasでカスタマイズ
Hcm cloudをpaasでカスタマイズ
 
db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉 db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングデータ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリング
 
Investment in Yahoo! JAPAN's dataplatform and business growth by big data
Investment in Yahoo! JAPAN's dataplatform and business growth by big dataInvestment in Yahoo! JAPAN's dataplatform and business growth by big data
Investment in Yahoo! JAPAN's dataplatform and business growth by big data
 
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fallビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
 
Hadoop Summit 2016 San Jose レポート
Hadoop Summit 2016  San Jose レポートHadoop Summit 2016  San Jose レポート
Hadoop Summit 2016 San Jose レポート
 
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術
 
Smart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructureSmart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructure
 
The real world use of Big Data to change business
The real world use of Big Data to change businessThe real world use of Big Data to change business
The real world use of Big Data to change business
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
 
Oracle advanced analyticsによる機械学習full version
Oracle advanced analyticsによる機械学習full versionOracle advanced analyticsによる機械学習full version
Oracle advanced analyticsによる機械学習full version
 
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介
 
「Data Infrastructure at Scale 」#yjdsw4
「Data Infrastructure at Scale 」#yjdsw4「Data Infrastructure at Scale 」#yjdsw4
「Data Infrastructure at Scale 」#yjdsw4
 
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloudクラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
 
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
 

Similar a ビッグデータとデータマート

20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法Amazon Web Services Japan
 
おすすめインフラ! for スタートアップ
おすすめインフラ! for スタートアップおすすめインフラ! for スタートアップ
おすすめインフラ! for スタートアップKoichiro Sumi
 
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...Insight Technology, Inc.
 
マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会伊藤 孝
 
意外に知らない!?Amazon Redshiftの常套手段とノンプログラミングによる自動化
意外に知らない!?Amazon Redshiftの常套手段とノンプログラミングによる自動化意外に知らない!?Amazon Redshiftの常套手段とノンプログラミングによる自動化
意外に知らない!?Amazon Redshiftの常套手段とノンプログラミングによる自動化Kazuya Mori
 
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...Insight Technology, Inc.
 
【Logic Apps編】ノンコーディングでデキる!お問い合わせフォーム機能拡張
【Logic Apps編】ノンコーディングでデキる!お問い合わせフォーム機能拡張【Logic Apps編】ノンコーディングでデキる!お問い合わせフォーム機能拡張
【Logic Apps編】ノンコーディングでデキる!お問い合わせフォーム機能拡張典子 松本
 
オレ流クラウドデザイン
オレ流クラウドデザインオレ流クラウドデザイン
オレ流クラウドデザインAtsushi Kojima
 
[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight
[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight
[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonightAmazon Web Services Japan
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也Insight Technology, Inc.
 
AWS IoT Eventsで遊んでみた
AWS IoT Eventsで遊んでみたAWS IoT Eventsで遊んでみた
AWS IoT Eventsで遊んでみたKen'ichirou Kimura
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift UpdateAmazon Web Services Japan
 
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)NTT DATA OSS Professional Services
 
AWS Black Belt Techシリーズ AWS Data Pipeline
AWS Black Belt Techシリーズ  AWS Data PipelineAWS Black Belt Techシリーズ  AWS Data Pipeline
AWS Black Belt Techシリーズ AWS Data PipelineAmazon Web Services Japan
 
ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視
ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視
ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視Takanori Suzuki
 
Stream processing on AWS
Stream processing on AWSStream processing on AWS
Stream processing on AWSMitsuharu Hamba
 

Similar a ビッグデータとデータマート (20)

20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
 
ログについて改めて考えてみた
ログについて改めて考えてみたログについて改めて考えてみた
ログについて改めて考えてみた
 
おすすめインフラ! for スタートアップ
おすすめインフラ! for スタートアップおすすめインフラ! for スタートアップ
おすすめインフラ! for スタートアップ
 
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
 
マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会
 
意外に知らない!?Amazon Redshiftの常套手段とノンプログラミングによる自動化
意外に知らない!?Amazon Redshiftの常套手段とノンプログラミングによる自動化意外に知らない!?Amazon Redshiftの常套手段とノンプログラミングによる自動化
意外に知らない!?Amazon Redshiftの常套手段とノンプログラミングによる自動化
 
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
 
【Logic Apps編】ノンコーディングでデキる!お問い合わせフォーム機能拡張
【Logic Apps編】ノンコーディングでデキる!お問い合わせフォーム機能拡張【Logic Apps編】ノンコーディングでデキる!お問い合わせフォーム機能拡張
【Logic Apps編】ノンコーディングでデキる!お問い合わせフォーム機能拡張
 
オレ流クラウドデザイン
オレ流クラウドデザインオレ流クラウドデザイン
オレ流クラウドデザイン
 
[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight
[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight
[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也
 
AWS IoT Eventsで遊んでみた
AWS IoT Eventsで遊んでみたAWS IoT Eventsで遊んでみた
AWS IoT Eventsで遊んでみた
 
YJTC18 A-1 データセンタネットワークの取り組み
YJTC18 A-1 データセンタネットワークの取り組みYJTC18 A-1 データセンタネットワークの取り組み
YJTC18 A-1 データセンタネットワークの取り組み
 
ビッグデータ・データマートとは
ビッグデータ・データマートとはビッグデータ・データマートとは
ビッグデータ・データマートとは
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
 
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
 
Elasticsearch勉強会
Elasticsearch勉強会Elasticsearch勉強会
Elasticsearch勉強会
 
AWS Black Belt Techシリーズ AWS Data Pipeline
AWS Black Belt Techシリーズ  AWS Data PipelineAWS Black Belt Techシリーズ  AWS Data Pipeline
AWS Black Belt Techシリーズ AWS Data Pipeline
 
ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視
ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視
ServerlessConf Tokyo2018 サーバーレスなシステムのがんばらない運用監視
 
Stream processing on AWS
Stream processing on AWSStream processing on AWS
Stream processing on AWS
 

Más de 株式会社オプト 仙台ラボラトリ (8)

クラウド入門(AWS編)
クラウド入門(AWS編)クラウド入門(AWS編)
クラウド入門(AWS編)
 
失敗から学ぶAWSの監視
失敗から学ぶAWSの監視失敗から学ぶAWSの監視
失敗から学ぶAWSの監視
 
フレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃう
フレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃうフレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃう
フレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃう
 
RPAって何、どんなことできるの
RPAって何、どんなことできるのRPAって何、どんなことできるの
RPAって何、どんなことできるの
 
業務の自動化をはじめよう!!
業務の自動化をはじめよう!!業務の自動化をはじめよう!!
業務の自動化をはじめよう!!
 
RPA(ロボティック・プロセ ス・オートメーション) 仮想労働者の雇い方
RPA(ロボティック・プロセ ス・オートメーション) 仮想労働者の雇い方RPA(ロボティック・プロセ ス・オートメーション) 仮想労働者の雇い方
RPA(ロボティック・プロセ ス・オートメーション) 仮想労働者の雇い方
 
各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較
 
一歩前に進める Web開発のスパイス(仙台Geek★Night #1)
一歩前に進めるWeb開発のスパイス(仙台Geek★Night #1)一歩前に進めるWeb開発のスパイス(仙台Geek★Night #1)
一歩前に進める Web開発のスパイス(仙台Geek★Night #1)
 

ビッグデータとデータマート

  • 1. © Opt, Inc. All Rights Reserved. ビッグデータとデータマート 株式会社オプト 仙台ラボラトリ 第1回タガヤス登壇資料 
  • 2. © Opt, Inc. All Rights Reserved. Copyright © 2017 OPT Inc. All Rights Reserved. 目次 ● ビッグデータとは ● データベースについて ● データマート対応した話
  • 3. © Opt, Inc. All Rights Reserved. ビッグデータとは
  • 4. © Opt, Inc. All Rights Reserved. ビッグデータってどんなデータ?
  • 5. © Opt, Inc. All Rights Reserved. ビッグデータとは、通常のツールで は扱えないような、非常に大きな データ量のデータのこと。 wikiによると5年前の定義では、数 十テラ~数ペタバイト。
  • 6. © Opt, Inc. All Rights Reserved. では、オプト仙台ラボラトリで 扱っているデータって?
  • 7. © Opt, Inc. All Rights Reserved. ひとことでいうと 「インターネット広告掲載結果」 のデータ (※弊社はe-marketing companyです) With
  • 8. © Opt, Inc. All Rights Reserved. (株式会社オプトは、 e-marketing companyからINNOVATION AGENCYへ!)
  • 9. © Opt, Inc. All Rights Reserved. (e-marketing company だと堂々と言ってしまいましたが、 今年の夏から INNOVATION AGENCY と名乗っていますので 謹んで訂正させていただきます) ビジネスを革新させ、新しい価値を創造してまいります!
  • 10. © Opt, Inc. All Rights Reserved. それはさておき・・・
  • 11. © Opt, Inc. All Rights Reserved. インターネットの広告って?
  • 12. © Opt, Inc. All Rights Reserved. こことか ここも これは、 ディスプレイ広告
  • 13. © Opt, Inc. All Rights Reserved. こことか キーワード広告。 サーチ、 リスティング広告 といいます
  • 14. © Opt, Inc. All Rights Reserved. ネット上の各種サイトに広告を掲載した 結果のデータをAPI等 様々な方法で集めています。
  • 15. © Opt, Inc. All Rights Reserved. どの広告を いつ どんな端末から 何回表示したか 何回クリックしたか などなど ・・・
  • 16. © Opt, Inc. All Rights Reserved. オプトではたくさんの顧客の広告を 様々な媒体に出しているので その広告実績データは 1日でおよそ11.5 GBです (※データベース取込前の圧縮ファイル状態です)
  • 17. © Opt, Inc. All Rights Reserved. 現在の蓄積されているデータ総量 はというと・・・
  • 18. © Opt, Inc. All Rights Reserved. 4.02 TB Redshiftの総利用量
  • 19. © Opt, Inc. All Rights Reserved. さきほどの「ビックデータの定義」 からすると そんなにビッグデータ でもないのでは・・・?
  • 20. © Opt, Inc. All Rights Reserved. Redshiftが圧縮 してくれているんです!! (圧縮率が最大 4 倍とも言われてます)
  • 21. © Opt, Inc. All Rights Reserved. また、データ量を減らすために 必要項目のみを取得・取込している ためでもあったりします
  • 22. © Opt, Inc. All Rights Reserved. また、 保持期間も絞っています
  • 23. © Opt, Inc. All Rights Reserved. よって、やはり 広告データはビッグデータ といえると思います
  • 24. © Opt, Inc. All Rights Reserved. とはいえ、 4.02TBって想像しづらい・・・?
  • 25. © Opt, Inc. All Rights Reserved. レコード件数でいうと、 だいたい・・・
  • 26. © Opt, Inc. All Rights Reserved. 75億! Redshiftの総データ件数
  • 27. © Opt, Inc. All Rights Reserved. あと、2000万!
  • 28. © Opt, Inc. All Rights Reserved. だいたい地球の人口ぐらいなので 多そうな気はしましたね!
  • 29. © Opt, Inc. All Rights Reserved. だいたいビックデータについて ご理解いただけたところで 次にいきます!
  • 30. © Opt, Inc. All Rights Reserved. データベースについて
  • 31. © Opt, Inc. All Rights Reserved. ビッグデータを扱うデータベースとは?
  • 32. © Opt, Inc. All Rights Reserved. ビッグデータを扱うのに 適したデータベースもあります (一般的にデータウェアハウス)
  • 33. © Opt, Inc. All Rights Reserved. Redshift AWS(Amazon Web Service)というアマゾンのクラウドサービスで 提供されいるデータウェアハウスです。 Amazon Redshiftはペタバイト級の大容量データを高速に処 理することができるデータウェアハウスでコストは従来のソ リューションの1/10未満です。 (AWS公式サイトより引用)
  • 34. © Opt, Inc. All Rights Reserved. Redshiftの特徴 列指向でPostgreSQLベース。 COPYコマンドファイル(CSV,TSV,JSON)から高速にデータ取込が 可能! 更新処理はニガテ・・・ データベーステーブルの列指向ストレージは、必要な総ディスク I/O と、ディスクからロードする必要のあるデータ量が大幅に減 少するので、分析クエリのパフォーマンスの最適化において重 要な要因です。 (AWS公式サイトより引用)
  • 35. © Opt, Inc. All Rights Reserved. BigQuery GCP(Google Cloud Platform)というGoogleのクラウドサービスで 提供されいるデータウェアハウスです。 BigQuery は Google が提供するフルマネージドのエンタープ ライズ向けアナリティクス データ ウェアハウスです。ペタバイト 規模のデータを低料金で格納して処理することができます。 (GCP公式サイトより引用)
  • 36. © Opt, Inc. All Rights Reserved. BigQueryの特徴 列指向です。 データ保存は無料でクエリ単位で課金。恒常的に巨大なデータにク エリを投げるのでなければ結構安い(個人の感想です)。 Googleの他製品とも相性が良く、AdWordsのデータや、Google Spread Sheetのデータをインポートして処理することなどもできる。 (東京本社の開発では使っているらしい)
  • 37. © Opt, Inc. All Rights Reserved. Treasure Data Treasure Dataより提供されているクラウド上のデータウェアハウス です。 ※オプトでは「トレジャーデータサービス by IDCF」を活用しています。 データの収集・分析・連携を目的としたクラウド型データマネー ジメントサービスです。ウェブ、モバイルアプリケーション、セン サーの多構造化・非構造化データなど、様々なソースからの データ収集、分析、連携を簡単に行えるのが特徴です。 (Treasure Data公式サイトより引用)
  • 38. © Opt, Inc. All Rights Reserved. TreasureDataの特徴 列指向です。 どんどんデータを貯めていくのに適している ※削除はDELETE文はないのでニガテ(partial_deleteというコマンド で、時刻カラムでの期間指定した削除は可能)、更新はできない パーティションのため時刻のカラムが必須!
  • 39. © Opt, Inc. All Rights Reserved. 今回は専用のUIもある Treasure Dataについて もう少し説明してみたいと思います
  • 40. © Opt, Inc. All Rights Reserved. まずは データベースを作成しましょう!
  • 41. © Opt, Inc. All Rights Reserved.
  • 42. © Opt, Inc. All Rights Reserved. 空のデータベースが作成されました!
  • 43. © Opt, Inc. All Rights Reserved. つぎに テーブルを作成しましょう!
  • 44. © Opt, Inc. All Rights Reserved.
  • 45. © Opt, Inc. All Rights Reserved. 空のテーブルが作成されました!
  • 46. © Opt, Inc. All Rights Reserved.
  • 47. © Opt, Inc. All Rights Reserved. カラムを追加していきます
  • 48. © Opt, Inc. All Rights Reserved. ひととおり追加したら保存します
  • 49. © Opt, Inc. All Rights Reserved. テーブルが作成できました!
  • 50. © Opt, Inc. All Rights Reserved. つぎに データを取り込んでみましょう!
  • 51. © Opt, Inc. All Rights Reserved. ファイルから取り込んで みたいと思います
  • 52. © Opt, Inc. All Rights Reserved. 取込対象ファイルを選択します
  • 53. © Opt, Inc. All Rights Reserved. 取込対象は テスト用のサンプルデータです
  • 54. © Opt, Inc. All Rights Reserved.
  • 55. © Opt, Inc. All Rights Reserved.
  • 56. © Opt, Inc. All Rights Reserved.
  • 57. © Opt, Inc. All Rights Reserved. TreasureDataでは時刻カラムは必須! (パーティションで使われる)
  • 58. © Opt, Inc. All Rights Reserved. 同じ名前のカラムは自動でマッピング
  • 59. © Opt, Inc. All Rights Reserved. 同じ名前のカラムは自動でマッピング
  • 60. © Opt, Inc. All Rights Reserved. 名前が違うものも手動でマッピング可能
  • 61. © Opt, Inc. All Rights Reserved.
  • 62. © Opt, Inc. All Rights Reserved.
  • 63. © Opt, Inc. All Rights Reserved. 取込が成功しました!
  • 64. © Opt, Inc. All Rights Reserved. 取込したデータも入っているようです
  • 65. © Opt, Inc. All Rights Reserved. 「スキップ」を選択しなかったので テーブル定義しなかったカラムも 自動で取り込まれました!
  • 66. © Opt, Inc. All Rights Reserved. 取込項目のマッピング時 不要項目は「skip」にチェックしましょう!
  • 67. © Opt, Inc. All Rights Reserved. ちなみに まったくテーブルにカラムを定義 しないで取り込むこともできます!
  • 68. © Opt, Inc. All Rights Reserved.
  • 69. © Opt, Inc. All Rights Reserved.
  • 70. © Opt, Inc. All Rights Reserved.
  • 71. © Opt, Inc. All Rights Reserved. カラム定義してないので Columnsに何もでない
  • 72. © Opt, Inc. All Rights Reserved. 自動でファイル内の項目が カラム候補として出てきます
  • 73. © Opt, Inc. All Rights Reserved.
  • 74. © Opt, Inc. All Rights Reserved. client_list1を定義した際の カラム以外に「skip」をつけてみます
  • 75. © Opt, Inc. All Rights Reserved.
  • 76. © Opt, Inc. All Rights Reserved.
  • 77. © Opt, Inc. All Rights Reserved.
  • 78. © Opt, Inc. All Rights Reserved.
  • 79. © Opt, Inc. All Rights Reserved. 必要項目のみ無事取込できました!
  • 80. © Opt, Inc. All Rights Reserved. データ抽出してみましょう
  • 81. © Opt, Inc. All Rights Reserved. Web上からSELECT文を書き実行できます
  • 82. © Opt, Inc. All Rights Reserved.
  • 83. © Opt, Inc. All Rights Reserved. データが抽出できました!
  • 84. © Opt, Inc. All Rights Reserved.
  • 85. © Opt, Inc. All Rights Reserved. データが出力も簡単にできます
  • 86. © Opt, Inc. All Rights Reserved. 今回はサンプルデータの取込でしたが 大容量のログデータの分析など テーブル定義なしで高速に行えるので 便利なものとなってます
  • 87. © Opt, Inc. All Rights Reserved. オプトで使っているもの以外にも、 OracleやIBMのRed Brick などなど 様々なデータウェアハウスがあります
  • 88. © Opt, Inc. All Rights Reserved. なんとなく 利用しているデータベースが 特殊かもと思った(かもしれない) ところで次にいきます!
  • 89. © Opt, Inc. All Rights Reserved. データマート対応した話
  • 90. © Opt, Inc. All Rights Reserved. データマートとは?
  • 91. © Opt, Inc. All Rights Reserved. データマートとは、頻繁に利用する データのみ集計したデータにしてお いたもの。 同時利用数・データ量削減などから レスポンスの向上が期待できる。
  • 92. © Opt, Inc. All Rights Reserved. 実際どんなことをしたの?
  • 93. © Opt, Inc. All Rights Reserved. 経緯 最小粒度(広告業界でいうと、広告やキーワードなどのこと。より大きな粒度は広告グ ループ、キャンペーンなど)のデータからの計算だったため、各アプリケー ションからのリクエストに対して理想的とはいえないパフォーマンス。 Redshiftの同時実行数はデフォルトが5、設定自体は50まで増 やすことが可能ですが、「15以下推奨」とされています。(同時 接続数の制限は500) ⇒OLTP(オンライントランザクション処理)にはやはり不向きだっ たか・・・?
  • 94. © Opt, Inc. All Rights Reserved. やはり、集計しておいたデータがあった 方が良いよね! (※複数システムでデータを活用しており、様々な 条件で分析するので 最終系を事前準備はむずかしい)
  • 95. © Opt, Inc. All Rights Reserved. よく使われる粒度の大きい単位で集計し てRDS(PostgreSQL)に格納 広告やキーワードといった最も細かい粒度を、キャンペーンとい うより大きな粒度にサマリしたものにするだけで、 データ件数は24分の1ぐらいに減ります! 当時の状況だと、85%程度のリクエストがキャンペーン粒度の データ利用で実際は集計できた。 RDSなので同時実行数の懸念もなし!
  • 96. © Opt, Inc. All Rights Reserved. リクエストにより Redshift(最小粒度を保持)と RDS(集計データを保持)を使い分け 85%程度のリクエストが大きな粒度のデータ利用でまかなえた としても、残り15%は最小粒度から集計する必要があったので、 切り分け処理を実装! 【メモ】 RDSもRedshift同様のAWSのサービスですが、中身は通常の DBです(データベースの種類は選択可能です)
  • 97. © Opt, Inc. All Rights Reserved. 各システム 各システム データ蓄積 システム RDS (PostgreSQ L) Redshift 媒体データを利用す る各システムより APIリクエスト キャンペーン粒度から の集計で問題なければ データマートへ 広告やキーワードなど 最小粒度の絞り込みを したければRedshiftへ API API (約85%のリクエストはこ ちらに) サマリデータを 格納 この顧客の 運用状況は どうかな ・・・? あの顧客の 最近追加し たXX広告 の実績はど うかしら ・・・?
  • 98. © Opt, Inc. All Rights Reserved. その結果・・・
  • 99. © Opt, Inc. All Rights Reserved. 48秒→1秒弱 (計測ツールデータなしならば 15秒→1秒弱) レスポンス改善時間
  • 100. © Opt, Inc. All Rights Reserved. すごく成果がありました!
  • 101. © Opt, Inc. All Rights Reserved. 今後のイベントでは、 現在のプロジェクト担当者より より詳細な内容で 各データベースの特徴・性能比較や データマート対応内容の ご説明をさせていただきます! (ビックデータに詳しくない方にも分かりやすく を目指します)
  • 102. © Opt, Inc. All Rights Reserved. ぜひ来てくださいね♥