More Related Content
Similar to kafkaのデータをRedshiftへ入れるパイプライン作ってみた (20)
kafkaのデータをRedshiftへ入れるパイプライン作ってみた
- 2. ■山田 雄(ヤマダ ユウ)
株式会社 リクルートライフスタイル
ネットビジネス本部
データ基盤T
Twitter:@nii_yan
Github: https://github.com/yu-yamada
Blog:イクジニアブログ
・元々フリーランスエンジニア
縁があってリクルートライフスタイルにお世話になることになった。
ビックデータ、Ruby、ビールが好き。
自己紹介
Editor's Notes
- こちらが、現在の共通分析基盤となります。
RawデータをTreasureに入れている
サイカタのデータはでかすぎて入らないのでHadoopに入れていた。
全てのデータをredshiftに入れるとコスト的に辛い
Tresureのデータは現在2000億件以上。毎月100億件増えている
- Waterプロジェクトで実現したいことをグランドデザインとして検討しました
作らない技術
構成管理にはANSIBLE
SparkなどのmonitoringにはGrafana InfluxDB