SlideShare una empresa de Scribd logo
1 de 38
Descargar para leer sin conexión
既存Redshift/ETLから
Spectrum/Glueへの移⾏を
徹底解明!
秋本 ⼤樹
ネットビジネス本部
データマネジメントグループ
データプラットフォームチーム
1
秋本 ⼤樹
株式会社 リクルートライフスタイル
ネットビジネス本部
データマネジメントグループ
データプラットフォームT
Facebook: daiki.akimoto.50
2011年 ユーザ系SIerに⼊社
• 客先常駐でインフラ構築のPM
• 購買データを⽤いたデータ分析
2014年 ゲーム会社に転職
• ゲームデータ分析基盤の構築
• 社内KPI算出の⾃動化
2017年12⽉より現職
2/38
3/38
会社紹介
4/38
保持するデータ
5/38
HPB HPG
JLN
事業データ
CSV
外部データ
S3
Redshift
Redshift (mirror)
BigQuery
Cloud Storage
アクセスログ
アプリログ Treasure Data
ORACLE
Exadata
データ分析基盤
6/38
BigQuery
Cloud Storage
アプリログ Treasure Data
ORACLE
Exadata
CSV
外部データ
S3
Redshift
Redshift (mirror)
アクセスログ
事業データ
HPB HPG
JLN
今回はRedshiftにフォーカス
7/38
実データ容量
約120TB
(クラスタは
ds2.8xlarge(16TB)*11node=176TB
で構成)
ユーザアカウント数
1,200
クエリ数
20,000/day
テーブル数(データマートも含む)
約4,000
Redshift利⽤状況
ETL処理
JP1によりETL処理を制御しており
オンプレDBデータをS3を経由して
RedshiftにCOPYしている
HPB HPG
JLN
S3
Redshift
JP1により
スケジュール実行
データ抽出
COPY
.end
オンプレサーバ
.endファイルを
ポーリングし
完了次第COPY
EC2
オンプレDB
アップロード
TSV
8/38
ETL処理の単位
複数テーブルを
事業領域と優先度でグループ化して
毎⽇のロードを⾏なっている。
後続のマート作成で使⽤するものの
優先度を⾼くしている。
HPG
優先度⾼
ロード
HPB
優先度⾼
ロード
HPG
優先度低
ロード
JP1
ロード開始
早朝 夜
ロード開始
HPG
マートA
作成
HPG
マートC
作成
HPG
マートB
作成
HPB
優先度低
ロード
HPB
マートAʼ
作成
HPB
マートCʼ
作成
HPB
マートBʼ
作成
…
9/38
マート作成処理
各優先ロードが完了次第
外部DWHからのデータマート抽出、
CTAS等を⽤いたマート作成処理が動く
優先ロードの完了を
トリガーにしてJP1から
マート作成処理を実行
Redshift
オンプレサーバ
ORACLE
Exadata
BigQuery
マートデータ
抽出
外部DWHから
抽出したマートデータを
書き込み
CTAS等を用いて
Redshift内部で
マートを作成
マートデータ
抽出
10/38
Redshiftに対する⼀⽇の処理
事業毎に並列して
複数の処理が動き
終⽇Redshiftに対する負荷を
引き上げている
HPG
優先度⾼
ロード
HPB
優先度⾼
ロード
HPG
優先度低
ロード
JP1
ロード開始
早朝 夜
ロード開始
HPG
マートA
作成
HPG
マートC
作成
HPG
マートB
作成
HPB
優先度低
ロード
HPB
マートAʼ
作成
HPB
マートCʼ
作成
HPB
マートBʼ
作成
…
11/38
Redshiftへの負荷は過⼤
Redshiftへの負荷が⾼く
例えばETL処理は夜23時過ぎまでかかる
ETL処理 マート作成処理
ユーザからの
アドホック
クエリ
Redshift
12/38
⼀時間あたりのコミット数
⽇中帯のコミット数は⼀時間あたり300を超え
また待ち時間も30秒を超えることがある
0
10
20
30
40
50
60
70
80
90
100
0
100
200
300
400
500
600
700
800 6/50
6/56
6/512
6/518
6/60
6/66
6/612
6/618
6/70
6/76
コミット数
コミット平均待ち秒数
秒
13/38
ユーザレスポンス
軽い分析クエリでも
10秒以上かかることがあり
体感的にもかなり遅い
14/38
退避Redshiftの導⼊
2013年にRedshift導入
2016年にユーザレスポンス悪化
業務に影響が出始める
ユーザクエリとバッチ処理を
一時的に分離する措置が取られる
ユーザクエリ実行を一時的に退避する
退避クラスタを構築
(現在はds2.8xlarge(16TB)*6node=96TBで構築)
15/38
退避Redshiftの仕組み
S3
本番
Redshift
⼀⽇⼀回
ロード
退避
Redshift
毎週⼟曜
同期
毎週⼟曜に本番Redshiftの
スナップショットを⽤いて
退避Redshiftを作成する
16/38
退避Redshift
S3
本番
Redshift
⼀⽇⼀回
ロード
鮮度を求めないデータに関しては
退避を使うことで
ユーザはレスポンスを早くできる
退避
Redshift
毎週⼟曜
同期
本番Redshift
(⼀⽇⼀回)
退避Redshift
(毎週⼟曜)
データの
鮮度
新鮮なデータ 古いデータ
負荷 ⾼い 低い
レスポンス 遅い 速い
17/38
Slackによるデータロード
本番Redshift
(⼀⽇⼀回)
退避Redshift
(毎週⼟曜)
データの
鮮度
新鮮なデータ
負荷 ⾼い 低い
レスポンス 遅い 速い
ユーザがSlackで呟くことで
S3を介して新鮮なデータが
退避Redshiftにも⼊る
呟く
Slack
S3
新鮮なデータ
18/38
退避Redshiftの課題
• 約100TBのRedshiftを⼀時的な環境として
持ち続けている
コスト増
• データが⼀元化されてないことの管理の負担
• 週に⼀度の作り変え作業の負担
運⽤の負担増
• アドホックなクエリはBigQueryで実⾏する
ようになっており役割が失われつつある
BigQueryとの競合
19/38
よし、
Spectrumを使おう
20/38
昨年発表されたSpectrum
• Redshift上で外部スキーマと外部テーブルを
定義することで使える
• 結合処理についてはRedshift本体を⽤いるため
遅くなる傾向がある
RedshiftからS3に直接クエリ
• 他のRedshiftクラスタからも参照可能
GlueCatalogによる⼀元管理
• 1TBのS3読み出しあたり5ドルかかる
クエリ課⾦
21/38
マート作成に⽤いるテーブルは
結合処理に多く⽤いるために
Spectrumを使⽤せずに本体に持つ
Spectrumの導⼊(本番)
HPB HPG
JLN
S3
本番Redshift
JP1により
スケジュール実行
データ抽出
優先度高のみ
COPY
オンプレサーバオンプレDB
アップロード
TSV
or
Parquet
マートは作成後
UNLOAD
優先度低テーブルは
Spectrum参照
22/38
全てのテーブルがS3に配置されるので
検証クラスタからは
全テーブルをSpectrum参照する
Spectrumの導⼊(検証)
HPB HPG
JLN
S3
検証Redshift
JP1により
スケジュール実行
データ抽出
全テーブルを
Spectrum参照
オンプレサーバオンプレDB
アップロード
TSV
or
Parquet
23/38
ETL負荷の変化推測
Spectrum参照により
COPYに関するコミットが減るので
ETL処理による負荷は半分になるはず
事業側DBより
テーブルデータ抽出
S3にアップロード
RedshiftにCOPY
Spectrumテーブルの
S3Pathを付け替えるのみ
約2000テーブル
優先度低
約1000テーブル
優先度⾼
約1000テーブル
24/38
Spectrum化に伴う⽅針
• コミット数を減らし負荷を下げる
負荷を下げる
• 数年前に書かれたものであり変更が困難
• ETLの失敗による業務影響が⼤きい
既存のETL処理への影響を
最⼩限にする
• ETL処理が23時まで及んでおりスケジュール
での実⾏が困難
イベントドリブンな
データパイプラインの構築
25/38
Spectrum実践上の課題1
Aginityで外部スキーマが認識されないので
Late Binding Viewを⽤いて
通常スキーマから参照可能にしている
26/38
Spectrum実践上の課題2
schema.table
コミットを減らすつもりだったのに
Redshift上でS3Pathを付け替えようとすると
なぜかコミットも⾛る
schema.table
27/38
Spectrum実践上の課題2
直接GlueCatalogを修正する
APIを書くことでRedshiftを経由せずに
S3Pathを変更しコミット数を削減
変更後のPathを
Spectrum参照
オンプレサーバ
アップロード
TSV
or
Parquet Redshift
S3
Glue
Catalog
Lambda
API
Gateway
S3Pathとテーブル名で
CURL
GlueAPIを⽤いて
Catalogを変更
28/38
Spectrum実践上の課題3
COPYコマンドでは
NULL AS句でNULL⽂字の指定ができたが
SpectrumではNULL⽂字の指定ができない
Redshift本体ではNULL AS ʻ<NL>ʼ
とすることでNULLと認識される
Spectrumでは単なる⽂字列として
解釈されてしまう
NULLにするためにはʼ¥Nʼを
⽤いる必要がある
29/38
Spectrum実践上の課題3
抽出されたtsvがS3に置かれた時点で
Lambdaを発⽕し
⽂字列を置き換える変換を加えて
再配置する
S3
Redshift
.end
オンプレサーバ
アップロード
TSV
Lambda
TSV
LambdaでTSVの⽂字列を置き換え
.end
StepFunction
全てのTSVに対する変換が完了したら
endファイルを配置する
Spectrum参照
30/38
Spectrum実践上の課題4
SpectrumのBestPracticeとして
S3上のデータをParquetにするのが良いと
⾔われているが
気軽にParquetに変換できるツールが無い
Batch
Lambda EMR
Glue
いずれかにてParquet変換を⾏いたい
TSV
S3
Parquet
S3
31/38
仮にGlueで変換すると
GlueCatalogからDynamicFrameを
作成することで
わずか2⾏でシンプルに変換することができる
Glue
32/38
仮にGlueで変換すると
最低課⾦が10分からとなっており
仮に2000テーブルを1ヶ⽉間変換すると
$0.44(DPU*h) * 2DPU * 1/6h * 2000tbl * 30days
= $8,800(約100万)
最低でも約100万かかる
※DPU(DataProcessingUnit) Glueのコンピュータリソースの単位
・
・
・
・
・
・
イベントドリブンで設計すると
1テーブルにつき1ジョブが⾛る
Glue
S3
33/38
Spectrum実践上の課題4
良い点 悪い点
実装が簡単(4⾏で書ける) 最低10分課⾦になっておりコスト
がとても⾼い(サイズの⼩さいも
のでも10分間のコスト)
コストが安い
使い慣れている
Parquet変換を⾃前で実装
サイズが⼤きいとLambdaのリソー
スに収まらない
使い慣れていない ロードが23時まで及ぶので常時起
動させなければならずコストが⾼
い
使い慣れている Parquet変換を⾃前で実装
ジョブ間のオーバーヘッドが⼤き
いBatch
Lambda
EMR
Glue
34/38
Spectrum実践上の課題4
ファイルサイズが⼤きいテーブルは
Glueを⽤いてSpectrum化させ
それ以外のテーブルは
直接TSVで⾒せるようにする
オンプレサーバ
アップロード
TSV
Redshift
S3
GlueJob
Lambda
Parquet
小さいサイズのものは
TSVで参照
大きいサイズのものは
Parquetで参照
ファイルサイズを判定し
GlueにてParquetに変換
35/38
Spectrum/Glueを⽤いた
最終的な構成案
36/38
オンプレサーバ
アップロード
TSV
本番Redshift
S3
GlueJob
Lambda
Parquet
TSV
検証RedshiftNULL文字変換
Parquet変換
優先度高テーブルのみ
COPY
小さいテーブルは
TSVでSpectrum参照
大きいテーブルは
ParquetでSpectrum参照
Spectrum参照
まとめ
• NULL⽂字の変換をS3上でかける必要あり
• ⼿軽にParquetに変換できるツールがない
Spectrumの導⼊には課題も多い
• 直接S3Pathを書き換えることでRedshiftへの
負荷を下げられる
• GlueCatalogで⼀元管理されるため他クラスタ
でも容易に参照可能
負荷の低減とデータの可搬性には
⼤きな効果あり
37/38
38/38
http://engineer.recruit-lifestyle.co.jp/recruiting/
⼤募集!!
⼀緒に分析基盤を作ろう!

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方
 
はじめよう DynamoDB ハンズオン
はじめよう DynamoDB ハンズオンはじめよう DynamoDB ハンズオン
はじめよう DynamoDB ハンズオン
 
A5 SQL Mk-2の便利な機能をお教えします
A5 SQL Mk-2の便利な機能をお教えしますA5 SQL Mk-2の便利な機能をお教えします
A5 SQL Mk-2の便利な機能をお教えします
 
RDB開発者のためのApache Cassandra データモデリング入門
RDB開発者のためのApache Cassandra データモデリング入門RDB開発者のためのApache Cassandra データモデリング入門
RDB開発者のためのApache Cassandra データモデリング入門
 
Power Automateを使ってツヨツヨ情報収集ツールを作ろう
Power Automateを使ってツヨツヨ情報収集ツールを作ろうPower Automateを使ってツヨツヨ情報収集ツールを作ろう
Power Automateを使ってツヨツヨ情報収集ツールを作ろう
 
Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)
Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)
Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)
 
全文検索でRedmineをさらに活用!
全文検索でRedmineをさらに活用!全文検索でRedmineをさらに活用!
全文検索でRedmineをさらに活用!
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
 
イミュータブルデータモデルの極意
イミュータブルデータモデルの極意イミュータブルデータモデルの極意
イミュータブルデータモデルの極意
 
マイクロサービスに至る歴史とこれから - XP祭り2021
マイクロサービスに至る歴史とこれから - XP祭り2021マイクロサービスに至る歴史とこれから - XP祭り2021
マイクロサービスに至る歴史とこれから - XP祭り2021
 
PostgreSQL14の pg_stat_statements 改善(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQL14の pg_stat_statements 改善(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)PostgreSQL14の pg_stat_statements 改善(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQL14の pg_stat_statements 改善(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
 
Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築
 
20210127 今日から始めるイベントドリブンアーキテクチャ AWS Expert Online #13
20210127 今日から始めるイベントドリブンアーキテクチャ AWS Expert Online #1320210127 今日から始めるイベントドリブンアーキテクチャ AWS Expert Online #13
20210127 今日から始めるイベントドリブンアーキテクチャ AWS Expert Online #13
 
Redisの特徴と活用方法について
Redisの特徴と活用方法についてRedisの特徴と活用方法について
Redisの特徴と活用方法について
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
 
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
 
20191115-PGconf.Japan
20191115-PGconf.Japan20191115-PGconf.Japan
20191115-PGconf.Japan
 
MQTTとAMQPと.NET
MQTTとAMQPと.NETMQTTとAMQPと.NET
MQTTとAMQPと.NET
 
Oracle Database (CDB) on Docker を動かしてみる
Oracle Database (CDB) on Docker を動かしてみるOracle Database (CDB) on Docker を動かしてみる
Oracle Database (CDB) on Docker を動かしてみる
 
シリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのかシリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのか
 

Similar a 既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!

[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
Insight Technology, Inc.
 

Similar a 既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明! (20)

[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
 
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のりThe Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
 
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
 
Data platformdesign
Data platformdesignData platformdesign
Data platformdesign
 
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)
 
え?まだフルスクラッチで開発してるの!?Power Platform をフル活用すると普通にシステムができるんですよ
え?まだフルスクラッチで開発してるの!?Power Platform をフル活用すると普通にシステムができるんですよえ?まだフルスクラッチで開発してるの!?Power Platform をフル活用すると普通にシステムができるんですよ
え?まだフルスクラッチで開発してるの!?Power Platform をフル活用すると普通にシステムができるんですよ
 
郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう
郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう
郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう
 
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
 
Expectations and reality of hybrid cloud
Expectations and reality of hybrid cloudExpectations and reality of hybrid cloud
Expectations and reality of hybrid cloud
 
The Design for Serverless ETL Pipeline (48:9)
The Design for Serverless ETL Pipeline (48:9)The Design for Serverless ETL Pipeline (48:9)
The Design for Serverless ETL Pipeline (48:9)
 
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
 
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
 
Flow を使って効率的にデータを集めたその後は Power BI に繋げよう
Flow を使って効率的にデータを集めたその後は Power BI に繋げようFlow を使って効率的にデータを集めたその後は Power BI に繋げよう
Flow を使って効率的にデータを集めたその後は Power BI に繋げよう
 
「Data Infrastructure at Scale 」#yjdsw4
「Data Infrastructure at Scale 」#yjdsw4「Data Infrastructure at Scale 」#yjdsw4
「Data Infrastructure at Scale 」#yjdsw4
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
え?まだフルスクラッチで開発してるの!? Power Platformをフル活用すると普通にシステムができるんですよ
え?まだフルスクラッチで開発してるの!? Power Platformをフル活用すると普通にシステムができるんですよえ?まだフルスクラッチで開発してるの!? Power Platformをフル活用すると普通にシステムができるんですよ
え?まだフルスクラッチで開発してるの!? Power Platformをフル活用すると普通にシステムができるんですよ
 
【最小限の学習コスト】効率的なビッグデータ収集・連携とは?
【最小限の学習コスト】効率的なビッグデータ収集・連携とは?【最小限の学習コスト】効率的なビッグデータ収集・連携とは?
【最小限の学習コスト】効率的なビッグデータ収集・連携とは?
 
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来 MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来
 
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
 
マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介
 

Más de Recruit Lifestyle Co., Ltd.

Más de Recruit Lifestyle Co., Ltd. (20)

業務と消費者の体験を同時にデザインするリクルートの価値検証のリアル ー 「Airレジ ハンディ」セルフオーダーのブレない「価値」の確かめ方 ー
業務と消費者の体験を同時にデザインするリクルートの価値検証のリアル ー 「Airレジ ハンディ」セルフオーダーのブレない「価値」の確かめ方 ー業務と消費者の体験を同時にデザインするリクルートの価値検証のリアル ー 「Airレジ ハンディ」セルフオーダーのブレない「価値」の確かめ方 ー
業務と消費者の体験を同時にデザインするリクルートの価値検証のリアル ー 「Airレジ ハンディ」セルフオーダーのブレない「価値」の確かめ方 ー
 
分散トレーシングAWS:X-Rayとの上手い付き合い方
分散トレーシングAWS:X-Rayとの上手い付き合い方分散トレーシングAWS:X-Rayとの上手い付き合い方
分散トレーシングAWS:X-Rayとの上手い付き合い方
 
OOUIを実践してわかった、9つの大切なこと
OOUIを実践してわかった、9つの大切なことOOUIを実践してわかった、9つの大切なこと
OOUIを実践してわかった、9つの大切なこと
 
Flutter移行の苦労と、乗り越えた先に得られたもの
Flutter移行の苦労と、乗り越えた先に得られたものFlutter移行の苦労と、乗り越えた先に得られたもの
Flutter移行の苦労と、乗り越えた先に得られたもの
 
CTIサービスを支える裏側 〜物理デバイスとの戦い〜 | iOSDC Japan 2020
CTIサービスを支える裏側 〜物理デバイスとの戦い〜 | iOSDC Japan 2020CTIサービスを支える裏側 〜物理デバイスとの戦い〜 | iOSDC Japan 2020
CTIサービスを支える裏側 〜物理デバイスとの戦い〜 | iOSDC Japan 2020
 
「進化し続けるインフラ」のためのマルチアカウント管理
「進化し続けるインフラ」のためのマルチアカウント管理「進化し続けるインフラ」のためのマルチアカウント管理
「進化し続けるインフラ」のためのマルチアカウント管理
 
Air事業のデザイン組織とデザイナー
Air事業のデザイン組織とデザイナーAir事業のデザイン組織とデザイナー
Air事業のデザイン組織とデザイナー
 
リクルートライフスタイル AirシリーズでのUXリサーチ
リクルートライフスタイル AirシリーズでのUXリサーチリクルートライフスタイル AirシリーズでのUXリサーチ
リクルートライフスタイル AirシリーズでのUXリサーチ
 
ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割
ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割
ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割
 
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
データサイエンティストが力を発揮できるアジャイルデータ活用基盤データサイエンティストが力を発揮できるアジャイルデータ活用基盤
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
 
Real-time personalized recommendation using embedding
Real-time personalized recommendation using embeddingReal-time personalized recommendation using embedding
Real-time personalized recommendation using embedding
 
データから価値を生み続けるには
データから価値を生み続けるにはデータから価値を生み続けるには
データから価値を生み続けるには
 
データプロダクト開発を成功に導くには
データプロダクト開発を成功に導くにはデータプロダクト開発を成功に導くには
データプロダクト開発を成功に導くには
 
Jupyter だけで機械学習を実サービス展開できる基盤
Jupyter だけで機械学習を実サービス展開できる基盤Jupyter だけで機械学習を実サービス展開できる基盤
Jupyter だけで機械学習を実サービス展開できる基盤
 
SQLを書くだけでAPIが作れる基盤
SQLを書くだけでAPIが作れる基盤SQLを書くだけでAPIが作れる基盤
SQLを書くだけでAPIが作れる基盤
 
BtoBサービスならではの顧客目線の取り入れ方
BtoBサービスならではの顧客目線の取り入れ方BtoBサービスならではの顧客目線の取り入れ方
BtoBサービスならではの顧客目線の取り入れ方
 
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
 
ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡
 
Refactoring point of Kotlin application
Refactoring point of Kotlin applicationRefactoring point of Kotlin application
Refactoring point of Kotlin application
 
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めて
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めてデータサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めて
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めて
 

既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!