SlideShare una empresa de Scribd logo
1 de 60
Descargar para leer sin conexión
© 2020, Amazon Web Services, Inc. or its Affiliates.
Noritaka Sekiyama
Big Data Architect, AWS Glue & Lake Formation
2020/3/5
Modernizing Big Data Workload
Using Amazon EMR & AWS Glue
© 2020, Amazon Web Services, Inc. or its Affiliates.
⾃⼰紹介
関⼭ 宜孝
Big Data Architect
AWS Glue & Lake Formation
• 5年間 AWS サポートにて技術⽀援を担当
• 2019年からプロダクト開発チームにジョイン
• GlueとLake Formationに関する
ユーザーに近い部分の開発を担当
@moomindani moomindaniNoritakaS-AWS
Forum
© 2020, Amazon Web Services, Inc. or its Affiliates.
アジェンダ
• バッチジョブのモダン化
• 伝統的なバッチジョブの課題
• AWS における Hadoop/Spark ジョブの考え⽅
• EMR によるバッチジョブのモダン化
• Glue によるバッチジョブのモダン化
• ストリーミング処理の進化
• ストリーム処理のユースケース
• EMR におけるストリーム処理
• Glue におけるストリーム処理
• デモ (Spark, Hudi, EMR, Glue Data Catalog)
© 2020, Amazon Web Services, Inc. or its Affiliates.
データの収集・活⽤とデータレイク
OLTP ERP CRM LOB
データウェアハウス
ビジネス
インテリジェンス
データレイク
10011000010010101
11001010101110010
10100001011111011
010
00111100101100101
10
0100011000010
デバイス Web センサー SNS
カタログ
機械学習
アドホック
クエリ
ビッグデータ
処理
インタラク
ティブ
リアルタイム
© 2020, Amazon Web Services, Inc. or its Affiliates.
バッチ処理とストリーミング処理
バッチ処理バッチ処理
ストリーム処理
バッチ処理
収集 変換 分析
収集 変換 分析
保存
© 2020, Amazon Web Services, Inc. or its Affiliates.
Batch Job Modernization
バッチジョブのモダン化
© 2020, Amazon Web Services, Inc. or its Affiliates.
伝統的なバッチジョブの課題
• HDFS ストレージのメンテンスの課題
• Hadoop のバージョンアップに追従できない
• ディスクの追加・交換に時間がかかる
• 古い Pig/Hive/MR ジョブのメンテナンスと移⾏の課題
• パフォーマンス不⾜
メンテできず塩漬け
された古のHadoop
HDFS
App
© 2020, Amazon Web Services, Inc. or its Affiliates.
AWS における Hadoop/Spark ジョブの考え⽅
• ⼊⼒も出⼒もストレージには Amazon S3 を活⽤する
• ジョブに使⽤するクラスタには状態やデータを持たせない
• ノード数・スペックを固定せず、実⾏時間の要件を優先する
⼀時的に
起動した
クラスタ
S3
HDFS
App
© 2020, Amazon Web Services, Inc. or its Affiliates.
⼊⼒も出⼒もストレージには Amazon S3 を活⽤する
• 空き容量管理とメンテナンスからの解放
• HDFS の空き容量が不⾜した場合、従来はノードやディスクの追加が
必要だった
• S3 はマネージドサービスのため、これらのメンテナンス作業が不要
• 耐障害性、可⽤性を向上しつつ、ストレージコストを削減
• HDFS は⼀時ストレージとして併⽤可能
• Spark/Hive/DistCp 等により HDFS・S3 間でデータを移動
© 2020, Amazon Web Services, Inc. or its Affiliates.
参考: HDFS が適したワークロード・データ
• 極めて⾼い I/O パフォーマンスが必要な場合
• データのアクセス頻度が⾼い場合
• ⼀時データを配置する場合
• ⾼い整合性が必要な場合
• S3 の結果整合性が許容できず、いずれの対処⽅法*も許容できない場合
• データ保管と I/O のコストを固定したい場合
• ノード間のネットワーク帯域が1G以下の場合
• この程度のネットワーク帯域の場合、ネットワークがボトルネックにな
りやすいため、HDFS によるデータローカリティが効く
• データ配置先の機器の物理的な配置をコントロールしたい場合
*EMRでの結果整合性の影響への緩和⽅法はこちら︓https://www.slideshare.net/ssuserca76a5/hcj2019-Hadoop-sparks3/25
© 2020, Amazon Web Services, Inc. or its Affiliates.
参考: S3 が適したワークロード・データ (1/2)
• 極めて⾼い可⽤性・耐障害性が必要な場合
• 耐障害性︓ 99.999999999%
• 可⽤性︓99.99%
• アクセス頻度の低いコールドデータを⻑期間保存する場合
• “S3 標準” 以外に、”標準 –IA” 等の安価なストレージクラスも利⽤可能
• データサイズに対するコストを抑えたい場合
• 同じサイズの HDFS に⽐べてサイズ単価のコストが⼩さい
(外部の試算では 1/5 以下)
• データサイズが巨⼤または⼤きく増え続ける場合
• ストレージ容量の限界がないため、空き容量等の管理が不要
© 2020, Amazon Web Services, Inc. or its Affiliates.
参考: S3 が適したワークロード・データ (2/2)
• コンピューティング⽤クラスタとストレージを分離したい場合
• 処理が終わったクラスタを廃棄してもデータは S3 上に残る
• 複数のクラスタ/アプリケーションから共⽤したい場合
• 複数の Hadoop/Spark クラスタから同⼀のファイルシステムを使⽤
• EMR, Glue, Athena, Redshift Spectrum, Hadoop/Spark on EC2 等
• (Hadoop の仕組み以外を含めて) セキュリティを⼀元管理したい場合
• IAM, S3 バケットポリシー, S3 Access points, VPC Endpoint, Glue
Data Catalog, Lake Formation 等
© 2020, Amazon Web Services, Inc. or its Affiliates.
ジョブに使⽤するクラスタには状態やデータを持たせない
• パフォーマンス向上をしつつ、コストを削減
• 必要なときに必要なサイズのクラスタを起動して処理する
• 処理が終わったらクラスタをすぐ消す
• バージョンアップ・メンテナンスからの解放
• 既存のクラスタをバージョンアップするのは⼤変
• 既存のクラスタを削除して、新しいバージョンの新規クラスタを起動
するのは⾮常にスムーズ
© 2020, Amazon Web Services, Inc. or its Affiliates.
ノード数・スペックを固定せず、実⾏時間の要件を優先する
• クラウドではノード数・スペックを固定する必要がない
• これらを固定してクラスタを利⽤するのはオンプレミスの考え
• クラウドでは、必要に応じてノード数・スペックを調整するべき
• バッチ処理の SLA は多くの場合、完了予定⽇時に間に合うかどうか
• 処理に時間がかかってこの完了予定⽇時を過ぎた場合、後続のクエリ
やレポーティング等のビジネスに影響を与えてしまう
• 優先すべきは(ノード数固定ではなく)実⾏時間
• 実⾏時間に対する課⾦=⾼速に処理すれば安くなる
• 仮にノードを増やしても、処理がその分早く終わればコストは同じか、
さらに安くなる可能性すらある
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon EMR
簡単に利⽤可能
クラスタを数分で起動
低コスト
秒単位の課⾦
多様な OSS に対応
新しいバージョンに積極的に対応
マネージドフレームワーク
監視や管理が簡単
セキュア
設定を有効化するだけ
フレキシブル
設定を柔軟にコントロール
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon EMR
• 20 の OSS プロジェクト
• Apache Hadoop
• Hive
• Spark
• HBase
• Presto
• TensorFlow
etc.
© 2020, Amazon Web Services, Inc. or its Affiliates.
EMR 上でバッチジョブを実⾏する⽅法
• アプリケーション固有のインタフェース
• Hadoop クライアント
• HiveServer2
• spark-submit
• Livy, etc.
• EMR Step API
• EMR コンソール
• AWS CLI / SDK
• AWS サービス
• Step Functions
© 2020, Amazon Web Services, Inc. or its Affiliates.
EMR によるバッチジョブのモダン化
• スポットインスタンスによるコスト最適化
• EMR Spark ランタイム
• EMR Step の並列実⾏
• Step Functions によるワークフロー管理
• マネージドリサイズ (プライベートベータ)
© 2020, Amazon Web Services, Inc. or its Affiliates.
スポットインスタンスによるコスト最適化
10 ノードクラスタ
実⾏時間: 14 時間
Cost = 1.0 * 10 * 14 = $140
© 2020, Amazon Web Services, Inc. or its Affiliates.
スポットインスタンスによるコスト最適化
スポットインスタンスを
10ノード追加
© 2020, Amazon Web Services, Inc. or its Affiliates.
スポットインスタンスによるコスト最適化
20 ノードクラスタ
実⾏時間: 7 時間
Cost = 1.0 * 10 * 7 = $70
= 0.5 * 10 * 7 = $35
Total $105
© 2020, Amazon Web Services, Inc. or its Affiliates.
スポットインスタンスによるコスト最適化
結果
実⾏時間 50 %削減
( 14時間 à 7時間)
コスト 25% 削減
($140 à $105)
© 2020, Amazon Web Services, Inc. or its Affiliates.
スポットインスタンスによるコスト最適化
停⽌が許容できない
ノードにオンデマンド
コスト削減に
スポットインスタンス
© 2020, Amazon Web Services, Inc. or its Affiliates.
スポットインスタンスによるコスト最適化
停⽌が許容できない
ノードにオンデマンド
コスト削減に
スポットインスタンス
Savings Plan により
最⼤ 60%のコスト削減
© 2020, Amazon Web Services, Inc. or its Affiliates.
EMR Spark ランタイム
• Sparkに最適化したランタイム
• ⾼いパフォーマンス
• 導⼊前のEMRより2.6 倍⾼速
• 3rdパーティマネージドSpark
より1.6倍⾼速
• 低コスト
• 3rdパーティマネージドSpark
より1/10のコスト
*TPC-DS 3TB ベンチマーク結果
( 6ノード, c4.8xlarge クラスタ, EMR 5.28, Spark 2.4
10,164
16,478
26,478
0 5,000 10,000 15,000 20,000 25,000 30,000
Spark with EMR (with
runtime)
3rd party Managed Spark
(with their runtime)
Spark with EMR (without
runtime)
104クエリの合計実⾏時間 (秒)
© 2020, Amazon Web Services, Inc. or its Affiliates.
EMR のバージョンを上げるだけで⾼速化・コスト削減
427.68
113.13
169.41
46.28
0.00
50.00
100.00
150.00
200.00
250.00
300.00
350.00
400.00
450.00
Runtime for 102 TPC-DS queries Geomean for 104 TPC-DS queries
合計実⾏時間 (分)
EMR 5.16 with Spark 2.4 EMR 5.28 with Spark 2.4
2.5x
2.4x
© 2020, Amazon Web Services, Inc. or its Affiliates.
⻑時間クエリで平均約5倍の⾼速化
.5X
5.5X
10.5X
15.5X
20.5X
25.5X
30.5X
35.5X
q72
q25
q17
q80
q98
q15
q54
q6
q29
q40
q13
q9
q49
q24b
q24a
q11
q85
q74
q78
q16
q23a
q4
q94
q64
q23b
q14a
q75
q14b
q5
q95
q28
q97
q50
q93
q67
Speedup
Query number
© 2020, Amazon Web Services, Inc. or its Affiliates.
短時間クエリで平均約2倍の⾼速化
1X
2X
3X
4X
5X
6X
7X q2
q38
q87
q88
q59
q76
q84
q65
q58
q99
q51
q81
q96
q35
q62
q1
q57
q44
q30
q83
q39a
q39b
q47
q66
q90
q8
q22
q10
q69
q86
q77
q21
q43
q70
q26
q18
q89
q91
q34
q53
q46
q31
q63
q3
q79
q73
q36
q7
q60
q48
q92
q27
q19
q33
q56
q71
q32
q68
q52
q55
q42
q61
q12
q45
q20
Relativespeedup(RuntimeinEMR5.16comparedtoRuntimeinEMR5.28)
Query number
© 2020, Amazon Web Services, Inc. or its Affiliates.
ジョブ開始時間 - Executor 割り当ての最適化
0.9x
1.0x
1.1x
1.2x
1.3x
1.4x
1.5x
0 200 400 600 800 1000 1200 1400
Job Runtime (Seconds)
© 2020, Amazon Web Services, Inc. or its Affiliates.
プラン/最適化 – 動的パーティションプルーニング
1x
2x
4x
8x
TPC-DS Queries
© 2020, Amazon Web Services, Inc. or its Affiliates.
クエリ実⾏ – データプリフェッチ
0%
5%
10%
15%
20%
25%
TPC-DS Queries
© 2020, Amazon Web Services, Inc. or its Affiliates.
EMR Spark ランタイムにおける最適化
• コンフィグ
• CPU/ディスク、Driver/Executor 設定、Java ヒープ/GC、ネイティ
ブオーバーヘッド、インスタンスデフォルト
• プラン/最適化
• パーティションプルーニング、JOIN順の⼊れ替え等
• クエリ実⾏
• データのプリフェッチ
• ジョブ開始
• Executor の割り当ての最適化
© 2020, Amazon Web Services, Inc. or its Affiliates.
EMR Step の並列実⾏
• これまで
• すべての Step は直列実⾏
• 前の Step が終わらないと次の Step は開始されない
• 現在
• Step を並列実⾏可能に
• スケジューリングは YARN にまかせる
© 2020, Amazon Web Services, Inc. or its Affiliates.
Step Functions によるワークフロー管理
コンソールによ
る可視化
JSON または
Python で定義
実⾏の監視
© 2020, Amazon Web Services, Inc. or its Affiliates.
Step Functions によるオートメーション
1. クラスタの作成・スケー
ル・変更
2. ステップの追加、キャン
セル、並列実⾏
3. 同期・⾮同期ステップ
4. 例外/失敗のハンドル
5. クラスタのスケールアウ
ト/スケールイン
6. クラスタの再利⽤
7. クラスタの削除
© 2020, Amazon Web Services, Inc. or its Affiliates.
マネージドリサイズ(プライベートベータ)
• ⾃動的にクラスタをリサイズする完全マネージドな仕組み
• 設定不要(最⼩と最⼤を決めるだけ)
• 素早いリサイズ
• ワークロードによって20-60%程度のコストを削減
• Auto Scaling との違い
• Auto Scaling: カスタムメトリクスにもとづいた DIY Scaling
• マネージドリサイズ: 完全マネージドなオプション
© 2020, Amazon Web Services, Inc. or its Affiliates.
AWS Glue
様々なデータソースのメタデータを収集・活⽤した、
フルマネージドでサーバーレスな分散処理サービス
© 2020, Amazon Web Services, Inc. or its Affiliates.
AWS Glue の特徴
AWS Glue
サーバーレス 柔軟な起動⽅法
コードに集中
データソースの
メタデータ管理
VPC内からのアクセス
他のAWSサービスと
容易に連携
Notebookでの開発セキュア
© 2020, Amazon Web Services, Inc. or its Affiliates.
Glue によるバッチジョブのモダン化
• ランタイム: Spark ジョブと Python Shell ジョブ
• ETL に適したスキーマ・オン・ザ・フライ
• 多数のスモールファイルによる影響の緩和
• 繰り返しのジョブ実⾏を⽀えるジョブブックマーク
© 2020, Amazon Web Services, Inc. or its Affiliates.
ランタイム: Spark ジョブと Python Shell ジョブ
AWS Glue
Python Shell
AWS Glue
Apache Spark
• 実⾏時間の制限なし
• 並列分散処理が得意
• Glue ETL関数群を利⽤可能
• 主なユースケース
• ⼤量データのETL・分析
• 実⾏時間の制限なし
• Lambdaに⽐べてメモリ量が多い
• 1GBまたは16GB
• Pandas等のライブラリが利⽤可能
• 主なユースケース
• ⼩中規模データのETL
• RedshiftやEMR、Athenaに対するSQL
ベースの分析
⼩・中規模処理
クエリ実⾏
⼤規模処理
© 2020, Amazon Web Services, Inc. or its Affiliates.
Apache Spark で ETL する際によくある課題
DataFrame
データをテーブル構造で扱うための Spark のデータ構造
データをロードする前にスキーマを指定する必要がある
Col_a Col_b Col_c
1
2
3
・・・
・・・
1,000,000
“1000001”
“1000002”
bigint(数値型)
string(⽂字列)
同⼀カラムに異なる型が混在
DataFrame のスキーマ推定は限定的で、推定した型が適していない場合がある
実世界の煩雑なデータの ETL には、スキーマの不⼀致を細かく制御する必要がある
© 2020, Amazon Web Services, Inc. or its Affiliates.
DynamicFrame とは
• Spark DataFrame と似た Glue 特有のデータ表現
• Spark で ETL する際によくある課題を解決するために設計
• DataFrame と DynamicFrame 間で相互に変換可能
• データをロード時する際にスキーマ定義が不要
• ”Schema on the Fly” を採⽤
• 複数の型の可能性を残して、後から選択可能(Choice型)
© 2020, Amazon Web Services, Inc. or its Affiliates.
Spark DataFrame と Glue DynamicFrame の違い
• Spark DataFrame
• SparkSQL のコアデータ構造
• 構造化テーブルのために設計
• 事前にスキーマ定義が必要
• 各⾏は同⼀の構造
• SQL による分析に最適
• Glue DynamicFrame
• DataFrame に似たデータ構造
• 半構造化データのために設計
• 事前のスキーマ定義が不要
• 例: JSON, Avro, Apache logs
• ETL 処理に最適
© 2020, Amazon Web Services, Inc. or its Affiliates.
Choice 型
• DynamicFrame の列に複数の型を発⾒した場合は Choice 型となる
struct
root
|-- uuid: string
|
|-- device id: choice
| |-- long
| |-- string
project
(型を廃棄する)
cast
(単⼀の型にキャストする)
make_cols
(すべての型を別の列に保持する)
deviceid: choice型
long string long long long stringlong
deviceid deviceid deviceid deviceid_long deviceid_string
long
deviceid
make_struct
(struct型にする)
string
long と string の両⽅のデータ型を持つ
例: 数値の 1234 と⽂字列の ”1234” が同じカラムに存在
© 2020, Amazon Web Services, Inc. or its Affiliates.
多数のスモールファイルによる影響の緩和
• DynamicFrame によるファイルのグルーピング
• Spark Driver によるファイルのリスティングの最適化
© 2020, Amazon Web Services, Inc. or its Affiliates.
繰り返しのジョブ実⾏を⽀えるジョブブックマーク
• ブックマーク機能
• ジョブの実⾏状態を保持
• Timestamp を⾒て処理済みデータを再度処理しないように回避
• 処理結果のデータをターゲットに重複出⼒しないように回避
• 定常的にETL処理が必要な場合において有効
s3://path_to_prefix/
|-- file 1 (updated: 2020/03/05 15:00)
|-- file 2 (updated: 2020/03/05 10:00)
|-- file 3 (updated: 2020/03/05 13:00)
s3://path_to_prefix/
|-- file 1 (updated: 2020/03/05 15:00)
|-- file 2 (updated: 2020/03/05 10:00)
|-- file 3 (updated: 2020/03/05 13:00)
|-- file 4 (updated: 2020/03/05 14:30)
実⾏ (2020/03/05 14:00) 実⾏ (2020/03/05 15:00)
new
□
□
□
☑
☑
☑
□
© 2020, Amazon Web Services, Inc. or its Affiliates.
Glue におけるバッチ処理へのアップデート
• Reduced start times for AWS Glue Spark jobs (Public Preview)
© 2020, Amazon Web Services, Inc. or its Affiliates.
バッチジョブにおける EMR と Glue の使い分け
• ワークロード
• EMR: 汎⽤
• Glue: ETL に強い
• ランタイム
• EMR: MR/Hive/Spark/Presto..
• Glue: Spark only
• カスタマイズ性 vs メンテナンス性
• EMR: 柔軟にカスタマイズ可能
• Glue: マネージドサービスのためメンテナンス要らず
© 2020, Amazon Web Services, Inc. or its Affiliates.
Stream Processing Evolution
ストリーミング処理の進化
© 2020, Amazon Web Services, Inc. or its Affiliates.
ストリーム処理のユースケース
• ストリーミングデータ挿⼊
• 挿⼊、更新、削除のキャプチャ
• ストリーミング ETL
• リアルタイム分析
© 2020, Amazon Web Services, Inc. or its Affiliates.
ストリーミングデータ挿⼊
• イベントストリームはあらゆるところに
• ⼤量の時系列データ
• 重複は分析を複雑化してしまう
• S3 への⾼速なデータ挿⼊が必要
• スキーマの管理、チェックポイント
• 書き込み vs 読み取りに最適化した
ストレージフォーマット
• バランスのとれたアプローチが重要
• ファイルサイズを管理
• データの到達時間と順序を保存
インプレッション
Apache Kafka
Amazon S3
フィールド 型
event_id string
datestr string
time long
© 2020, Amazon Web Services, Inc. or its Affiliates.
挿⼊、更新、削除のキャプチャ
• データベースに保管された⼤量のデータ
• ほとんど変更ストリームに流れる
• 変更ストリームをS3に反映
• バルクロードはスケールしない
• UPSERT が困難
• トランザクション性
• データの品質はシビアな懸念点
• データベースと近い保証が必要
INSERT,
UPDATE,
DELETE
キャプチャ
反映
Amazon S3
Data Lake
カラム 型
userID int
country string
last_modified long
… …
ユーザー
© 2020, Amazon Web Services, Inc. or its Affiliates.
Apache Hudi (incubating)
Queries
Hudi Spark
データソース
© 2020, Amazon Web Services, Inc. or its Affiliates.
Apache Hudi for Amazon EMR
データプライバシー規約の準拠
リアルタイムストリームの読み取り、変更のキャプチャ
遅れて到着したデータの再評価
履歴の追跡とロールバック
Apache Hudi
オープンソースの、データレイクのためのビルディングブロック
© 2020, Amazon Web Services, Inc. or its Affiliates.
Hudi の特徴
• UPSERT 対応
• ロールバック、セーブポイント
• スナップショットアイソレーション
• ファイルサイズとレイアウトの管理
• ⾏・カラムデータのコンパクション
• データリネージ
• Spark, Hive, Presto に対応
© 2020, Amazon Web Services, Inc. or its Affiliates.
Glue におけるストリーム処理
• Streaming ETL (Public Preview)
© 2020, Amazon Web Services, Inc. or its Affiliates.
Demo
Apache Spark, Apache Hudi, EMR,
Glue Data Catalog
© 2020, Amazon Web Services, Inc. or its Affiliates.
関連スライド
https://www.slideshare.net/ssuserca76a5/hcj2019-hadoop-sparks3
https://www.slideshare.net/ssuserca76a5/effective-data-lakeshttps://www.slideshare.net/ssuserca76a5/running-apache-spark-on-aws
© 2020, Amazon Web Services, Inc. or its Affiliates.
まとめ
• バッチジョブのモダン化
• 伝統的なバッチジョブの課題
• AWS における Hadoop/Spark ジョブの考え⽅
• EMR によるバッチジョブのモダン化
• Glue によるバッチジョブのモダン化
• ストリーミング処理の進化
• ストリーム処理のユースケース
• EMR におけるストリーム処理
• Glue におけるストリーム処理
• デモ (Spark, Hudi, EMR, Glue Data Catalog)
© 2020, Amazon Web Services, Inc. or its Affiliates.
Q&A

Más contenido relacionado

La actualidad más candente

Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理Amazon Web Services Japan
 
20201207 AWS Black Belt Online Seminar AWS re:Invent 2020 速報 Part1
20201207 AWS Black Belt Online Seminar AWS re:Invent 2020 速報 Part120201207 AWS Black Belt Online Seminar AWS re:Invent 2020 速報 Part1
20201207 AWS Black Belt Online Seminar AWS re:Invent 2020 速報 Part1Amazon Web Services Japan
 
データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介Amazon Web Services Japan
 
AWSのインフラはプログラミングコードで構築!AWS Cloud Development Kit 入門
AWSのインフラはプログラミングコードで構築!AWS Cloud Development Kit 入門AWSのインフラはプログラミングコードで構築!AWS Cloud Development Kit 入門
AWSのインフラはプログラミングコードで構築!AWS Cloud Development Kit 入門Amazon Web Services Japan
 
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法Amazon Web Services Japan
 
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonightAmazon Web Services Japan
 
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介Amazon Web Services Japan
 
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことマルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことAmazon Web Services Japan
 
AWS Lake Formation で実現、マイクロサービスのサーバーレスな分散トレーシング
AWS Lake Formation で実現、マイクロサービスのサーバーレスな分散トレーシングAWS Lake Formation で実現、マイクロサービスのサーバーレスな分散トレーシング
AWS Lake Formation で実現、マイクロサービスのサーバーレスな分散トレーシング江藤 武司
 
20201214 AWS Black Belt Online Seminar 2020 年 AWS re:Invent 速報 Part2
20201214 AWS Black Belt Online Seminar 2020 年 AWS re:Invent 速報 Part220201214 AWS Black Belt Online Seminar 2020 年 AWS re:Invent 速報 Part2
20201214 AWS Black Belt Online Seminar 2020 年 AWS re:Invent 速報 Part2Amazon Web Services Japan
 
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデートAmazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデートAmazon Web Services Japan
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Noritaka Sekiyama
 
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Amazon Web Services Japan
 
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクスAmazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクスAmazon Web Services Japan
 
20200617 AWS Black Belt Online Seminar Amazon Athena
20200617 AWS Black Belt Online Seminar Amazon Athena20200617 AWS Black Belt Online Seminar Amazon Athena
20200617 AWS Black Belt Online Seminar Amazon AthenaAmazon Web Services Japan
 

La actualidad más candente (20)

AWS ML Update
AWS ML UpdateAWS ML Update
AWS ML Update
 
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理
 
20201207 AWS Black Belt Online Seminar AWS re:Invent 2020 速報 Part1
20201207 AWS Black Belt Online Seminar AWS re:Invent 2020 速報 Part120201207 AWS Black Belt Online Seminar AWS re:Invent 2020 速報 Part1
20201207 AWS Black Belt Online Seminar AWS re:Invent 2020 速報 Part1
 
データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介
 
AWSのインフラはプログラミングコードで構築!AWS Cloud Development Kit 入門
AWSのインフラはプログラミングコードで構築!AWS Cloud Development Kit 入門AWSのインフラはプログラミングコードで構築!AWS Cloud Development Kit 入門
AWSのインフラはプログラミングコードで構築!AWS Cloud Development Kit 入門
 
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
 
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
 
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
 
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことマルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
 
AWS Lake Formation で実現、マイクロサービスのサーバーレスな分散トレーシング
AWS Lake Formation で実現、マイクロサービスのサーバーレスな分散トレーシングAWS Lake Formation で実現、マイクロサービスのサーバーレスな分散トレーシング
AWS Lake Formation で実現、マイクロサービスのサーバーレスな分散トレーシング
 
20201214 AWS Black Belt Online Seminar 2020 年 AWS re:Invent 速報 Part2
20201214 AWS Black Belt Online Seminar 2020 年 AWS re:Invent 速報 Part220201214 AWS Black Belt Online Seminar 2020 年 AWS re:Invent 速報 Part2
20201214 AWS Black Belt Online Seminar 2020 年 AWS re:Invent 速報 Part2
 
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデートAmazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
 
Running Apache Spark on AWS
Running Apache Spark on AWSRunning Apache Spark on AWS
Running Apache Spark on AWS
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
 
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
 
Data Lake Security on AWS
Data Lake Security on AWSData Lake Security on AWS
Data Lake Security on AWS
 
AWS re:Mind for CTOs
AWS re:Mind for CTOsAWS re:Mind for CTOs
AWS re:Mind for CTOs
 
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクスAmazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
 
20200617 AWS Black Belt Online Seminar Amazon Athena
20200617 AWS Black Belt Online Seminar Amazon Athena20200617 AWS Black Belt Online Seminar Amazon Athena
20200617 AWS Black Belt Online Seminar Amazon Athena
 
20201125 EC Solution Seminar Recommend
20201125 EC Solution Seminar Recommend20201125 EC Solution Seminar Recommend
20201125 EC Solution Seminar Recommend
 

Similar a Modernizing Big Data Workload Using Amazon EMR & AWS Glue

20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container Services20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container ServicesAmazon Web Services Japan
 
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpacesAmazon Web Services Japan
 
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティングAmazon Web Services Japan
 
Best Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWSBest Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWSAmazon Web Services Japan
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift UpdateAmazon Web Services Japan
 
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL CompatibilityAmazon Web Services Japan
 
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう! Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう! Yoichi Kawasaki
 
20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説
20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説
20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説Amazon Web Services Japan
 
AWS Black Belt Online Seminar 2018 Amazon WorkSpaces
AWS Black Belt Online Seminar 2018 Amazon WorkSpacesAWS Black Belt Online Seminar 2018 Amazon WorkSpaces
AWS Black Belt Online Seminar 2018 Amazon WorkSpacesAmazon Web Services Japan
 
20180207 AWS blackbelt online seminar Amazon Workspaces
20180207 AWS blackbelt online seminar Amazon Workspaces20180207 AWS blackbelt online seminar Amazon Workspaces
20180207 AWS blackbelt online seminar Amazon WorkspacesAmazon Web Services Japan
 
【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA ! ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専...
【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA !  ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専...【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA !  ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専...
【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA ! ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専...TakeshiFukae
 
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallShinpei Ohtani
 
AWS Black Belt Online Seminar 2016 クラウドのためのアーキテクチャ設計 -ベストプラクティス-
AWS Black Belt Online Seminar 2016 クラウドのためのアーキテクチャ設計 -ベストプラクティス-AWS Black Belt Online Seminar 2016 クラウドのためのアーキテクチャ設計 -ベストプラクティス-
AWS Black Belt Online Seminar 2016 クラウドのためのアーキテクチャ設計 -ベストプラクティス-Amazon Web Services Japan
 
Amazon Web Services 最新事例集
Amazon Web Services 最新事例集Amazon Web Services 最新事例集
Amazon Web Services 最新事例集SORACOM, INC
 
Containers + EC2 Spot: AWS Batch による大規模バッチ処理でのスポットインスタンス活用
Containers + EC2 Spot: AWS Batch による大規模バッチ処理でのスポットインスタンス活用Containers + EC2 Spot: AWS Batch による大規模バッチ処理でのスポットインスタンス活用
Containers + EC2 Spot: AWS Batch による大規模バッチ処理でのスポットインスタンス活用Daisuke Miyamoto
 
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-Amazon Web Services Japan
 
SAP on AWS最新情報とデジタルトランスフォーメーションに関する取組み
SAP on AWS最新情報とデジタルトランスフォーメーションに関する取組みSAP on AWS最新情報とデジタルトランスフォーメーションに関する取組み
SAP on AWS最新情報とデジタルトランスフォーメーションに関する取組みBeeX.inc
 
Architecting on Alibaba Cloud - 超基礎編 -
Architecting on Alibaba Cloud - 超基礎編 -Architecting on Alibaba Cloud - 超基礎編 -
Architecting on Alibaba Cloud - 超基礎編 -真吾 吉田
 

Similar a Modernizing Big Data Workload Using Amazon EMR & AWS Glue (20)

20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container Services20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container Services
 
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
 
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
 
Best Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWSBest Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWS
 
Migration to AWS part2
Migration to AWS part2Migration to AWS part2
Migration to AWS part2
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
 
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
 
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう! Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう!
 
20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説
20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説
20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説
 
AWS Black Belt Online Seminar 2018 Amazon WorkSpaces
AWS Black Belt Online Seminar 2018 Amazon WorkSpacesAWS Black Belt Online Seminar 2018 Amazon WorkSpaces
AWS Black Belt Online Seminar 2018 Amazon WorkSpaces
 
20180207 AWS blackbelt online seminar Amazon Workspaces
20180207 AWS blackbelt online seminar Amazon Workspaces20180207 AWS blackbelt online seminar Amazon Workspaces
20180207 AWS blackbelt online seminar Amazon Workspaces
 
HPC on AWS 2020 Summer
HPC on AWS 2020 Summer HPC on AWS 2020 Summer
HPC on AWS 2020 Summer
 
【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA ! ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専...
【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA !  ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専...【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA !  ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専...
【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA ! ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専...
 
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
 
AWS Black Belt Online Seminar 2016 クラウドのためのアーキテクチャ設計 -ベストプラクティス-
AWS Black Belt Online Seminar 2016 クラウドのためのアーキテクチャ設計 -ベストプラクティス-AWS Black Belt Online Seminar 2016 クラウドのためのアーキテクチャ設計 -ベストプラクティス-
AWS Black Belt Online Seminar 2016 クラウドのためのアーキテクチャ設計 -ベストプラクティス-
 
Amazon Web Services 最新事例集
Amazon Web Services 最新事例集Amazon Web Services 最新事例集
Amazon Web Services 最新事例集
 
Containers + EC2 Spot: AWS Batch による大規模バッチ処理でのスポットインスタンス活用
Containers + EC2 Spot: AWS Batch による大規模バッチ処理でのスポットインスタンス活用Containers + EC2 Spot: AWS Batch による大規模バッチ処理でのスポットインスタンス活用
Containers + EC2 Spot: AWS Batch による大規模バッチ処理でのスポットインスタンス活用
 
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
 
SAP on AWS最新情報とデジタルトランスフォーメーションに関する取組み
SAP on AWS最新情報とデジタルトランスフォーメーションに関する取組みSAP on AWS最新情報とデジタルトランスフォーメーションに関する取組み
SAP on AWS最新情報とデジタルトランスフォーメーションに関する取組み
 
Architecting on Alibaba Cloud - 超基礎編 -
Architecting on Alibaba Cloud - 超基礎編 -Architecting on Alibaba Cloud - 超基礎編 -
Architecting on Alibaba Cloud - 超基礎編 -
 

Más de Noritaka Sekiyama

5分ではじめるApache Spark on AWS
5分ではじめるApache Spark on AWS5分ではじめるApache Spark on AWS
5分ではじめるApache Spark on AWSNoritaka Sekiyama
 
VPC Reachability Analyzer 使って人生が変わった話
VPC Reachability Analyzer 使って人生が変わった話VPC Reachability Analyzer 使って人生が変わった話
VPC Reachability Analyzer 使って人生が変わった話Noritaka Sekiyama
 
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the CloudAmazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the CloudNoritaka Sekiyama
 
Introduction to New CloudWatch Agent
Introduction to New CloudWatch AgentIntroduction to New CloudWatch Agent
Introduction to New CloudWatch AgentNoritaka Sekiyama
 
Security Operations and Automation on AWS
Security Operations and Automation on AWSSecurity Operations and Automation on AWS
Security Operations and Automation on AWSNoritaka Sekiyama
 
運用視点でのAWSサポート利用Tips
運用視点でのAWSサポート利用Tips運用視点でのAWSサポート利用Tips
運用視点でのAWSサポート利用TipsNoritaka Sekiyama
 
基礎から学ぶ? EC2マルチキャスト
基礎から学ぶ? EC2マルチキャスト基礎から学ぶ? EC2マルチキャスト
基礎から学ぶ? EC2マルチキャストNoritaka Sekiyama
 
Floodlightってぶっちゃけどうなの?
Floodlightってぶっちゃけどうなの?Floodlightってぶっちゃけどうなの?
Floodlightってぶっちゃけどうなの?Noritaka Sekiyama
 

Más de Noritaka Sekiyama (8)

5分ではじめるApache Spark on AWS
5分ではじめるApache Spark on AWS5分ではじめるApache Spark on AWS
5分ではじめるApache Spark on AWS
 
VPC Reachability Analyzer 使って人生が変わった話
VPC Reachability Analyzer 使って人生が変わった話VPC Reachability Analyzer 使って人生が変わった話
VPC Reachability Analyzer 使って人生が変わった話
 
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the CloudAmazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
 
Introduction to New CloudWatch Agent
Introduction to New CloudWatch AgentIntroduction to New CloudWatch Agent
Introduction to New CloudWatch Agent
 
Security Operations and Automation on AWS
Security Operations and Automation on AWSSecurity Operations and Automation on AWS
Security Operations and Automation on AWS
 
運用視点でのAWSサポート利用Tips
運用視点でのAWSサポート利用Tips運用視点でのAWSサポート利用Tips
運用視点でのAWSサポート利用Tips
 
基礎から学ぶ? EC2マルチキャスト
基礎から学ぶ? EC2マルチキャスト基礎から学ぶ? EC2マルチキャスト
基礎から学ぶ? EC2マルチキャスト
 
Floodlightってぶっちゃけどうなの?
Floodlightってぶっちゃけどうなの?Floodlightってぶっちゃけどうなの?
Floodlightってぶっちゃけどうなの?
 

Modernizing Big Data Workload Using Amazon EMR & AWS Glue

  • 1. © 2020, Amazon Web Services, Inc. or its Affiliates. Noritaka Sekiyama Big Data Architect, AWS Glue & Lake Formation 2020/3/5 Modernizing Big Data Workload Using Amazon EMR & AWS Glue
  • 2. © 2020, Amazon Web Services, Inc. or its Affiliates. ⾃⼰紹介 関⼭ 宜孝 Big Data Architect AWS Glue & Lake Formation • 5年間 AWS サポートにて技術⽀援を担当 • 2019年からプロダクト開発チームにジョイン • GlueとLake Formationに関する ユーザーに近い部分の開発を担当 @moomindani moomindaniNoritakaS-AWS Forum
  • 3. © 2020, Amazon Web Services, Inc. or its Affiliates. アジェンダ • バッチジョブのモダン化 • 伝統的なバッチジョブの課題 • AWS における Hadoop/Spark ジョブの考え⽅ • EMR によるバッチジョブのモダン化 • Glue によるバッチジョブのモダン化 • ストリーミング処理の進化 • ストリーム処理のユースケース • EMR におけるストリーム処理 • Glue におけるストリーム処理 • デモ (Spark, Hudi, EMR, Glue Data Catalog)
  • 4. © 2020, Amazon Web Services, Inc. or its Affiliates. データの収集・活⽤とデータレイク OLTP ERP CRM LOB データウェアハウス ビジネス インテリジェンス データレイク 10011000010010101 11001010101110010 10100001011111011 010 00111100101100101 10 0100011000010 デバイス Web センサー SNS カタログ 機械学習 アドホック クエリ ビッグデータ 処理 インタラク ティブ リアルタイム
  • 5. © 2020, Amazon Web Services, Inc. or its Affiliates. バッチ処理とストリーミング処理 バッチ処理バッチ処理 ストリーム処理 バッチ処理 収集 変換 分析 収集 変換 分析 保存
  • 6. © 2020, Amazon Web Services, Inc. or its Affiliates. Batch Job Modernization バッチジョブのモダン化
  • 7. © 2020, Amazon Web Services, Inc. or its Affiliates. 伝統的なバッチジョブの課題 • HDFS ストレージのメンテンスの課題 • Hadoop のバージョンアップに追従できない • ディスクの追加・交換に時間がかかる • 古い Pig/Hive/MR ジョブのメンテナンスと移⾏の課題 • パフォーマンス不⾜ メンテできず塩漬け された古のHadoop HDFS App
  • 8. © 2020, Amazon Web Services, Inc. or its Affiliates. AWS における Hadoop/Spark ジョブの考え⽅ • ⼊⼒も出⼒もストレージには Amazon S3 を活⽤する • ジョブに使⽤するクラスタには状態やデータを持たせない • ノード数・スペックを固定せず、実⾏時間の要件を優先する ⼀時的に 起動した クラスタ S3 HDFS App
  • 9. © 2020, Amazon Web Services, Inc. or its Affiliates. ⼊⼒も出⼒もストレージには Amazon S3 を活⽤する • 空き容量管理とメンテナンスからの解放 • HDFS の空き容量が不⾜した場合、従来はノードやディスクの追加が 必要だった • S3 はマネージドサービスのため、これらのメンテナンス作業が不要 • 耐障害性、可⽤性を向上しつつ、ストレージコストを削減 • HDFS は⼀時ストレージとして併⽤可能 • Spark/Hive/DistCp 等により HDFS・S3 間でデータを移動
  • 10. © 2020, Amazon Web Services, Inc. or its Affiliates. 参考: HDFS が適したワークロード・データ • 極めて⾼い I/O パフォーマンスが必要な場合 • データのアクセス頻度が⾼い場合 • ⼀時データを配置する場合 • ⾼い整合性が必要な場合 • S3 の結果整合性が許容できず、いずれの対処⽅法*も許容できない場合 • データ保管と I/O のコストを固定したい場合 • ノード間のネットワーク帯域が1G以下の場合 • この程度のネットワーク帯域の場合、ネットワークがボトルネックにな りやすいため、HDFS によるデータローカリティが効く • データ配置先の機器の物理的な配置をコントロールしたい場合 *EMRでの結果整合性の影響への緩和⽅法はこちら︓https://www.slideshare.net/ssuserca76a5/hcj2019-Hadoop-sparks3/25
  • 11. © 2020, Amazon Web Services, Inc. or its Affiliates. 参考: S3 が適したワークロード・データ (1/2) • 極めて⾼い可⽤性・耐障害性が必要な場合 • 耐障害性︓ 99.999999999% • 可⽤性︓99.99% • アクセス頻度の低いコールドデータを⻑期間保存する場合 • “S3 標準” 以外に、”標準 –IA” 等の安価なストレージクラスも利⽤可能 • データサイズに対するコストを抑えたい場合 • 同じサイズの HDFS に⽐べてサイズ単価のコストが⼩さい (外部の試算では 1/5 以下) • データサイズが巨⼤または⼤きく増え続ける場合 • ストレージ容量の限界がないため、空き容量等の管理が不要
  • 12. © 2020, Amazon Web Services, Inc. or its Affiliates. 参考: S3 が適したワークロード・データ (2/2) • コンピューティング⽤クラスタとストレージを分離したい場合 • 処理が終わったクラスタを廃棄してもデータは S3 上に残る • 複数のクラスタ/アプリケーションから共⽤したい場合 • 複数の Hadoop/Spark クラスタから同⼀のファイルシステムを使⽤ • EMR, Glue, Athena, Redshift Spectrum, Hadoop/Spark on EC2 等 • (Hadoop の仕組み以外を含めて) セキュリティを⼀元管理したい場合 • IAM, S3 バケットポリシー, S3 Access points, VPC Endpoint, Glue Data Catalog, Lake Formation 等
  • 13. © 2020, Amazon Web Services, Inc. or its Affiliates. ジョブに使⽤するクラスタには状態やデータを持たせない • パフォーマンス向上をしつつ、コストを削減 • 必要なときに必要なサイズのクラスタを起動して処理する • 処理が終わったらクラスタをすぐ消す • バージョンアップ・メンテナンスからの解放 • 既存のクラスタをバージョンアップするのは⼤変 • 既存のクラスタを削除して、新しいバージョンの新規クラスタを起動 するのは⾮常にスムーズ
  • 14. © 2020, Amazon Web Services, Inc. or its Affiliates. ノード数・スペックを固定せず、実⾏時間の要件を優先する • クラウドではノード数・スペックを固定する必要がない • これらを固定してクラスタを利⽤するのはオンプレミスの考え • クラウドでは、必要に応じてノード数・スペックを調整するべき • バッチ処理の SLA は多くの場合、完了予定⽇時に間に合うかどうか • 処理に時間がかかってこの完了予定⽇時を過ぎた場合、後続のクエリ やレポーティング等のビジネスに影響を与えてしまう • 優先すべきは(ノード数固定ではなく)実⾏時間 • 実⾏時間に対する課⾦=⾼速に処理すれば安くなる • 仮にノードを増やしても、処理がその分早く終わればコストは同じか、 さらに安くなる可能性すらある
  • 15. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon EMR 簡単に利⽤可能 クラスタを数分で起動 低コスト 秒単位の課⾦ 多様な OSS に対応 新しいバージョンに積極的に対応 マネージドフレームワーク 監視や管理が簡単 セキュア 設定を有効化するだけ フレキシブル 設定を柔軟にコントロール
  • 16. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon EMR • 20 の OSS プロジェクト • Apache Hadoop • Hive • Spark • HBase • Presto • TensorFlow etc.
  • 17. © 2020, Amazon Web Services, Inc. or its Affiliates. EMR 上でバッチジョブを実⾏する⽅法 • アプリケーション固有のインタフェース • Hadoop クライアント • HiveServer2 • spark-submit • Livy, etc. • EMR Step API • EMR コンソール • AWS CLI / SDK • AWS サービス • Step Functions
  • 18. © 2020, Amazon Web Services, Inc. or its Affiliates. EMR によるバッチジョブのモダン化 • スポットインスタンスによるコスト最適化 • EMR Spark ランタイム • EMR Step の並列実⾏ • Step Functions によるワークフロー管理 • マネージドリサイズ (プライベートベータ)
  • 19. © 2020, Amazon Web Services, Inc. or its Affiliates. スポットインスタンスによるコスト最適化 10 ノードクラスタ 実⾏時間: 14 時間 Cost = 1.0 * 10 * 14 = $140
  • 20. © 2020, Amazon Web Services, Inc. or its Affiliates. スポットインスタンスによるコスト最適化 スポットインスタンスを 10ノード追加
  • 21. © 2020, Amazon Web Services, Inc. or its Affiliates. スポットインスタンスによるコスト最適化 20 ノードクラスタ 実⾏時間: 7 時間 Cost = 1.0 * 10 * 7 = $70 = 0.5 * 10 * 7 = $35 Total $105
  • 22. © 2020, Amazon Web Services, Inc. or its Affiliates. スポットインスタンスによるコスト最適化 結果 実⾏時間 50 %削減 ( 14時間 à 7時間) コスト 25% 削減 ($140 à $105)
  • 23. © 2020, Amazon Web Services, Inc. or its Affiliates. スポットインスタンスによるコスト最適化 停⽌が許容できない ノードにオンデマンド コスト削減に スポットインスタンス
  • 24. © 2020, Amazon Web Services, Inc. or its Affiliates. スポットインスタンスによるコスト最適化 停⽌が許容できない ノードにオンデマンド コスト削減に スポットインスタンス Savings Plan により 最⼤ 60%のコスト削減
  • 25. © 2020, Amazon Web Services, Inc. or its Affiliates. EMR Spark ランタイム • Sparkに最適化したランタイム • ⾼いパフォーマンス • 導⼊前のEMRより2.6 倍⾼速 • 3rdパーティマネージドSpark より1.6倍⾼速 • 低コスト • 3rdパーティマネージドSpark より1/10のコスト *TPC-DS 3TB ベンチマーク結果 ( 6ノード, c4.8xlarge クラスタ, EMR 5.28, Spark 2.4 10,164 16,478 26,478 0 5,000 10,000 15,000 20,000 25,000 30,000 Spark with EMR (with runtime) 3rd party Managed Spark (with their runtime) Spark with EMR (without runtime) 104クエリの合計実⾏時間 (秒)
  • 26. © 2020, Amazon Web Services, Inc. or its Affiliates. EMR のバージョンを上げるだけで⾼速化・コスト削減 427.68 113.13 169.41 46.28 0.00 50.00 100.00 150.00 200.00 250.00 300.00 350.00 400.00 450.00 Runtime for 102 TPC-DS queries Geomean for 104 TPC-DS queries 合計実⾏時間 (分) EMR 5.16 with Spark 2.4 EMR 5.28 with Spark 2.4 2.5x 2.4x
  • 27. © 2020, Amazon Web Services, Inc. or its Affiliates. ⻑時間クエリで平均約5倍の⾼速化 .5X 5.5X 10.5X 15.5X 20.5X 25.5X 30.5X 35.5X q72 q25 q17 q80 q98 q15 q54 q6 q29 q40 q13 q9 q49 q24b q24a q11 q85 q74 q78 q16 q23a q4 q94 q64 q23b q14a q75 q14b q5 q95 q28 q97 q50 q93 q67 Speedup Query number
  • 28. © 2020, Amazon Web Services, Inc. or its Affiliates. 短時間クエリで平均約2倍の⾼速化 1X 2X 3X 4X 5X 6X 7X q2 q38 q87 q88 q59 q76 q84 q65 q58 q99 q51 q81 q96 q35 q62 q1 q57 q44 q30 q83 q39a q39b q47 q66 q90 q8 q22 q10 q69 q86 q77 q21 q43 q70 q26 q18 q89 q91 q34 q53 q46 q31 q63 q3 q79 q73 q36 q7 q60 q48 q92 q27 q19 q33 q56 q71 q32 q68 q52 q55 q42 q61 q12 q45 q20 Relativespeedup(RuntimeinEMR5.16comparedtoRuntimeinEMR5.28) Query number
  • 29. © 2020, Amazon Web Services, Inc. or its Affiliates. ジョブ開始時間 - Executor 割り当ての最適化 0.9x 1.0x 1.1x 1.2x 1.3x 1.4x 1.5x 0 200 400 600 800 1000 1200 1400 Job Runtime (Seconds)
  • 30. © 2020, Amazon Web Services, Inc. or its Affiliates. プラン/最適化 – 動的パーティションプルーニング 1x 2x 4x 8x TPC-DS Queries
  • 31. © 2020, Amazon Web Services, Inc. or its Affiliates. クエリ実⾏ – データプリフェッチ 0% 5% 10% 15% 20% 25% TPC-DS Queries
  • 32. © 2020, Amazon Web Services, Inc. or its Affiliates. EMR Spark ランタイムにおける最適化 • コンフィグ • CPU/ディスク、Driver/Executor 設定、Java ヒープ/GC、ネイティ ブオーバーヘッド、インスタンスデフォルト • プラン/最適化 • パーティションプルーニング、JOIN順の⼊れ替え等 • クエリ実⾏ • データのプリフェッチ • ジョブ開始 • Executor の割り当ての最適化
  • 33. © 2020, Amazon Web Services, Inc. or its Affiliates. EMR Step の並列実⾏ • これまで • すべての Step は直列実⾏ • 前の Step が終わらないと次の Step は開始されない • 現在 • Step を並列実⾏可能に • スケジューリングは YARN にまかせる
  • 34. © 2020, Amazon Web Services, Inc. or its Affiliates. Step Functions によるワークフロー管理 コンソールによ る可視化 JSON または Python で定義 実⾏の監視
  • 35. © 2020, Amazon Web Services, Inc. or its Affiliates. Step Functions によるオートメーション 1. クラスタの作成・スケー ル・変更 2. ステップの追加、キャン セル、並列実⾏ 3. 同期・⾮同期ステップ 4. 例外/失敗のハンドル 5. クラスタのスケールアウ ト/スケールイン 6. クラスタの再利⽤ 7. クラスタの削除
  • 36. © 2020, Amazon Web Services, Inc. or its Affiliates. マネージドリサイズ(プライベートベータ) • ⾃動的にクラスタをリサイズする完全マネージドな仕組み • 設定不要(最⼩と最⼤を決めるだけ) • 素早いリサイズ • ワークロードによって20-60%程度のコストを削減 • Auto Scaling との違い • Auto Scaling: カスタムメトリクスにもとづいた DIY Scaling • マネージドリサイズ: 完全マネージドなオプション
  • 37. © 2020, Amazon Web Services, Inc. or its Affiliates. AWS Glue 様々なデータソースのメタデータを収集・活⽤した、 フルマネージドでサーバーレスな分散処理サービス
  • 38. © 2020, Amazon Web Services, Inc. or its Affiliates. AWS Glue の特徴 AWS Glue サーバーレス 柔軟な起動⽅法 コードに集中 データソースの メタデータ管理 VPC内からのアクセス 他のAWSサービスと 容易に連携 Notebookでの開発セキュア
  • 39. © 2020, Amazon Web Services, Inc. or its Affiliates. Glue によるバッチジョブのモダン化 • ランタイム: Spark ジョブと Python Shell ジョブ • ETL に適したスキーマ・オン・ザ・フライ • 多数のスモールファイルによる影響の緩和 • 繰り返しのジョブ実⾏を⽀えるジョブブックマーク
  • 40. © 2020, Amazon Web Services, Inc. or its Affiliates. ランタイム: Spark ジョブと Python Shell ジョブ AWS Glue Python Shell AWS Glue Apache Spark • 実⾏時間の制限なし • 並列分散処理が得意 • Glue ETL関数群を利⽤可能 • 主なユースケース • ⼤量データのETL・分析 • 実⾏時間の制限なし • Lambdaに⽐べてメモリ量が多い • 1GBまたは16GB • Pandas等のライブラリが利⽤可能 • 主なユースケース • ⼩中規模データのETL • RedshiftやEMR、Athenaに対するSQL ベースの分析 ⼩・中規模処理 クエリ実⾏ ⼤規模処理
  • 41. © 2020, Amazon Web Services, Inc. or its Affiliates. Apache Spark で ETL する際によくある課題 DataFrame データをテーブル構造で扱うための Spark のデータ構造 データをロードする前にスキーマを指定する必要がある Col_a Col_b Col_c 1 2 3 ・・・ ・・・ 1,000,000 “1000001” “1000002” bigint(数値型) string(⽂字列) 同⼀カラムに異なる型が混在 DataFrame のスキーマ推定は限定的で、推定した型が適していない場合がある 実世界の煩雑なデータの ETL には、スキーマの不⼀致を細かく制御する必要がある
  • 42. © 2020, Amazon Web Services, Inc. or its Affiliates. DynamicFrame とは • Spark DataFrame と似た Glue 特有のデータ表現 • Spark で ETL する際によくある課題を解決するために設計 • DataFrame と DynamicFrame 間で相互に変換可能 • データをロード時する際にスキーマ定義が不要 • ”Schema on the Fly” を採⽤ • 複数の型の可能性を残して、後から選択可能(Choice型)
  • 43. © 2020, Amazon Web Services, Inc. or its Affiliates. Spark DataFrame と Glue DynamicFrame の違い • Spark DataFrame • SparkSQL のコアデータ構造 • 構造化テーブルのために設計 • 事前にスキーマ定義が必要 • 各⾏は同⼀の構造 • SQL による分析に最適 • Glue DynamicFrame • DataFrame に似たデータ構造 • 半構造化データのために設計 • 事前のスキーマ定義が不要 • 例: JSON, Avro, Apache logs • ETL 処理に最適
  • 44. © 2020, Amazon Web Services, Inc. or its Affiliates. Choice 型 • DynamicFrame の列に複数の型を発⾒した場合は Choice 型となる struct root |-- uuid: string | |-- device id: choice | |-- long | |-- string project (型を廃棄する) cast (単⼀の型にキャストする) make_cols (すべての型を別の列に保持する) deviceid: choice型 long string long long long stringlong deviceid deviceid deviceid deviceid_long deviceid_string long deviceid make_struct (struct型にする) string long と string の両⽅のデータ型を持つ 例: 数値の 1234 と⽂字列の ”1234” が同じカラムに存在
  • 45. © 2020, Amazon Web Services, Inc. or its Affiliates. 多数のスモールファイルによる影響の緩和 • DynamicFrame によるファイルのグルーピング • Spark Driver によるファイルのリスティングの最適化
  • 46. © 2020, Amazon Web Services, Inc. or its Affiliates. 繰り返しのジョブ実⾏を⽀えるジョブブックマーク • ブックマーク機能 • ジョブの実⾏状態を保持 • Timestamp を⾒て処理済みデータを再度処理しないように回避 • 処理結果のデータをターゲットに重複出⼒しないように回避 • 定常的にETL処理が必要な場合において有効 s3://path_to_prefix/ |-- file 1 (updated: 2020/03/05 15:00) |-- file 2 (updated: 2020/03/05 10:00) |-- file 3 (updated: 2020/03/05 13:00) s3://path_to_prefix/ |-- file 1 (updated: 2020/03/05 15:00) |-- file 2 (updated: 2020/03/05 10:00) |-- file 3 (updated: 2020/03/05 13:00) |-- file 4 (updated: 2020/03/05 14:30) 実⾏ (2020/03/05 14:00) 実⾏ (2020/03/05 15:00) new □ □ □ ☑ ☑ ☑ □
  • 47. © 2020, Amazon Web Services, Inc. or its Affiliates. Glue におけるバッチ処理へのアップデート • Reduced start times for AWS Glue Spark jobs (Public Preview)
  • 48. © 2020, Amazon Web Services, Inc. or its Affiliates. バッチジョブにおける EMR と Glue の使い分け • ワークロード • EMR: 汎⽤ • Glue: ETL に強い • ランタイム • EMR: MR/Hive/Spark/Presto.. • Glue: Spark only • カスタマイズ性 vs メンテナンス性 • EMR: 柔軟にカスタマイズ可能 • Glue: マネージドサービスのためメンテナンス要らず
  • 49. © 2020, Amazon Web Services, Inc. or its Affiliates. Stream Processing Evolution ストリーミング処理の進化
  • 50. © 2020, Amazon Web Services, Inc. or its Affiliates. ストリーム処理のユースケース • ストリーミングデータ挿⼊ • 挿⼊、更新、削除のキャプチャ • ストリーミング ETL • リアルタイム分析
  • 51. © 2020, Amazon Web Services, Inc. or its Affiliates. ストリーミングデータ挿⼊ • イベントストリームはあらゆるところに • ⼤量の時系列データ • 重複は分析を複雑化してしまう • S3 への⾼速なデータ挿⼊が必要 • スキーマの管理、チェックポイント • 書き込み vs 読み取りに最適化した ストレージフォーマット • バランスのとれたアプローチが重要 • ファイルサイズを管理 • データの到達時間と順序を保存 インプレッション Apache Kafka Amazon S3 フィールド 型 event_id string datestr string time long
  • 52. © 2020, Amazon Web Services, Inc. or its Affiliates. 挿⼊、更新、削除のキャプチャ • データベースに保管された⼤量のデータ • ほとんど変更ストリームに流れる • 変更ストリームをS3に反映 • バルクロードはスケールしない • UPSERT が困難 • トランザクション性 • データの品質はシビアな懸念点 • データベースと近い保証が必要 INSERT, UPDATE, DELETE キャプチャ 反映 Amazon S3 Data Lake カラム 型 userID int country string last_modified long … … ユーザー
  • 53. © 2020, Amazon Web Services, Inc. or its Affiliates. Apache Hudi (incubating) Queries Hudi Spark データソース
  • 54. © 2020, Amazon Web Services, Inc. or its Affiliates. Apache Hudi for Amazon EMR データプライバシー規約の準拠 リアルタイムストリームの読み取り、変更のキャプチャ 遅れて到着したデータの再評価 履歴の追跡とロールバック Apache Hudi オープンソースの、データレイクのためのビルディングブロック
  • 55. © 2020, Amazon Web Services, Inc. or its Affiliates. Hudi の特徴 • UPSERT 対応 • ロールバック、セーブポイント • スナップショットアイソレーション • ファイルサイズとレイアウトの管理 • ⾏・カラムデータのコンパクション • データリネージ • Spark, Hive, Presto に対応
  • 56. © 2020, Amazon Web Services, Inc. or its Affiliates. Glue におけるストリーム処理 • Streaming ETL (Public Preview)
  • 57. © 2020, Amazon Web Services, Inc. or its Affiliates. Demo Apache Spark, Apache Hudi, EMR, Glue Data Catalog
  • 58. © 2020, Amazon Web Services, Inc. or its Affiliates. 関連スライド https://www.slideshare.net/ssuserca76a5/hcj2019-hadoop-sparks3 https://www.slideshare.net/ssuserca76a5/effective-data-lakeshttps://www.slideshare.net/ssuserca76a5/running-apache-spark-on-aws
  • 59. © 2020, Amazon Web Services, Inc. or its Affiliates. まとめ • バッチジョブのモダン化 • 伝統的なバッチジョブの課題 • AWS における Hadoop/Spark ジョブの考え⽅ • EMR によるバッチジョブのモダン化 • Glue によるバッチジョブのモダン化 • ストリーミング処理の進化 • ストリーム処理のユースケース • EMR におけるストリーム処理 • Glue におけるストリーム処理 • デモ (Spark, Hudi, EMR, Glue Data Catalog)
  • 60. © 2020, Amazon Web Services, Inc. or its Affiliates. Q&A