kafkaのデータをRedshiftへ入れるパイプライン作ってみた

kafkaのデータをredshiftに入れ
るパイプライン作ってみた
RJAWS
12/08 2016
山田雄
ネットビジネス本部
データ基盤T

■山田雄（ヤマダユウ）
株式会社リクルートライフスタイル
ネットビジネス本部
データ基盤T
Twitter:@nii_yan
Github: https://github.com/yu-yamada
Blog:イクジニアブログ
・元々フリーランスエンジニア
縁があってリクルートライフスタイルにお世話になることになった。
ビックデータ、Ruby、ビールが好き。
自己紹介

約300人の分析者
データサイエンティスト
IBM Netezza
Amazon Redshift
TreasureData
ETLフレームワーク
リクルートライフスタイルのデータ基盤

約300人の分析者
データサイエンティスト
IBM Netezza
Amazon Redshift
TreasureData
ETLフレームワーク
リクルートライフスタイルのデータ基盤
日次
batch

サイトDBのデータだけでなく、logファイルのデータとかも
redshift入れたいんだけど！
なるべくレイテンシーも低いといいよね！！
はい、喜んで！
とある日こんな要望が・・・

DynamoDB Lambda
API
Gateway
Kafka
on-premises
Configuration
Management
Monitoring
Grafana
ストリーミングデータ基盤はすでにある

DynamoDB Lambda
API
Gateway
on-premises
Configuration
Management
Monitoring
Grafana
Kafka
ストリーミングデータ基盤
データハブの部分はこれで
良さそう

RedshiftKafka
on-premises
大枠の設計
ストリーミングでRedshiftに入れると負荷高いの
で、一旦どっかに逃がしてから入れるとかしたい。

RedshiftKafka
on-premises
大枠の設計

Kafkaのデータを継続的にファイルに
• Camus
Linkedinが作っているOSS
Hadoop上で動く
データソースは様々なもの対応(RDB,API,FTP…)
スケールも出来る
https://github.com/linkedin/camus
• Secor
pinterestの作っているOSS
EC2上などで動く
データソースはkafkaのみ
スケール出来る
https://github.com/pinterest/secor

Kafkaのデータを継続的にS3に
• Camus
Linkedinが作っているOSS
Hadoop上で動く
データソースは様々なもの対応(RDB,API,FTP…)
スケールも出来る
https://github.com/linkedin/camus
• Secor
pinterestの作っているOSS
EC2上などで動く
データソースはkafkaのみ
スケール出来る
https://github.com/pinterest/secor
コスト面を考えてsecorを採用

Secorのアーキテクチャ
Kafka
secor
secor S3
パーティション単位で、分割してそれ
ぞれのsecorがデータを取得。
gzファイルに随時書き込みを行う。
secorサーバのローカルに置かれた
ファイルを、１時間置き、または２００
MB超えたときなどの条件でS3へput

ファイルデータを継続的にRedshiftへ
• Blueshit
uswitchが作っているOSS
closure製
データソースはS3のみ
スケールは？？？
https://github.com/uswitch/blueshift
• S4QS-RS
フィンランドのおっさん(?)が作っているOSS
JavaScript製
スケールするようなものじゃない
https://github.com/ORBAT/S4QS-RS

ファイルデータを継続的にRedshiftへ
• Blueshit
uswitchが作っているOSS
closure製
スケールは？？？
https://github.com/uswitch/blueshift
• S4QS-RS
フィンランドの個人(?)が作っているOSS
JavaScript製
スケールするようなものじゃない
https://github.com/ORBAT/S4QS-RS
closureを避け…

S4QS-RSのアーキテクチャ
S3
1.ファイルが置かれた
際にQueをpush 2.1分置きにPolling
SQS
S4QS-RS
3.manifest ファイルを
put
Redshift
4.copy 実行

ちなみに・・・
S4QS-RS圧倒的に使われてないです！
なので、mustって書いてある設定が内部では使われてな
いとか、怪しいとこ色々。

がっちゃんこして出来上がり
S3
SQS S4QS-RS
Redshift
Kafka
secor
secor
(ﾉ〃＾▽)ﾉﾜｰｲﾜｰｲﾜｰｲ♪.

Kinesis使えばいいじゃないかって？？

(∩ ﾟдﾟ)アーアーきこえなーい

ストリーミングデータ扱う際の注意点
Kafkaなどat least onceのミドルウェアが多いです。
(exactly once は夢)
なので、データには必ずuuidなどの一意に識別出来る識別子を付け
ましょう。
データ復旧時もこれがないと死にます。
• fluentdの場合
fluent-plugin-add使うと簡単に付けれます
https://github.com/yu-yamada/fluent-plugin-add
http://qiita.com/nii_yan/items/35376464bb26169e4433

ご清聴ありがとうございました
(@nii_yan)

kafkaのデータをRedshiftへ入れるパイプライン作ってみた

Recommended

Recommended

More Related Content

What's hot

What's hot (15)

Viewers also liked

Viewers also liked (20)

Similar to kafkaのデータをRedshiftへ入れるパイプライン作ってみた

Similar to kafkaのデータをRedshiftへ入れるパイプライン作ってみた (20)

Recently uploaded

Recently uploaded (11)

kafkaのデータをRedshiftへ入れるパイプライン作ってみた

Editor's Notes