More Related Content Similar to [Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介! 2018年11月15日 放送 (20) More from Google Cloud Platform - Japan (20) [Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介! 2018年11月15日 放送13. Cloud OnAir
Dataflow とは
● Cloud Dataflow は、さまざまなデータ処理パターンの実
行に対応したマネージド サービス
● 大量データに対する ETL(Extract, Transform, Load)
処理を実行する。
● バッチ、ストリーミングの両方のモデルに適用可能。
● Apache Beam のプログラミングモデルを利用し、
開発を行う。
16. Cloud OnAir
BigQuery とは
● 億件レベルの大規模データセットに対する
高速クエリー
● 分析用のデータウェアハウス
○ UPDATE, DELETE, INSERT は制限あり
● セットアップ、パフォーマンスチューニングや
クラスタ拡張といったインフラ作業不要
● ストレージ容量無制限。自動スケールアウト
17. Cloud OnAir
BigQuery とは
● BI ツールを使って非技術者でも操作可能
○ Tableau, QlikView, Google Data Portal, Google
スプレッドシート / Microsoft Excel
● ETL
○ クエリー結果をテーブルに出力可能
○ JSON 関数/正規表現関数
● データ処理エンジンとの連携
○ Cloud Dataflow, Cloud Dataproc, Hadoop
18. Cloud OnAir
BigQuery - New -
Google スプレッドシート連携
Google スプレッドシートで SQLを書くと
BigQuery からデータを取り出し、表示が可能に。
クエリ スケジューリング(ベータ)
BigQuery Web UI で直接クエリをスケジューリング
できるように。
コスト管理システムの正式リリース
コスト管理システムが正式リリース。利用可能な上限を
カスタム クォータで設定可能。
NUMERIC データ型の正式リリース
BigQuery で大きな整数と浮動小数点数の利用が可能に。
19. Cloud OnAir
Cloud ML Engine
機械学習モデルを
トレーニングし、
モデルを使用して新しい
データに関する予測を行う。
基本的なアーキテクチャ
ログ オン
プレミス
イベント
メトリックス
ストリーミング
バッチ
バッチ
24. Cloud OnAir
Cloud Dataprep by Trifacta のライフサイクル
Raw Data Clean Data
Cloud Pub/Sub
Cloud Dataflow
1. データの登録 2. データの加工
Cloud Dataprep
by Trifacta
3. データの分析
Google BigQuery
Data Portal
Cloud ML
28. Cloud OnAir
Cloud Storage から BigQuery へのデータロードを行いたい!
Google App Engine (GAE)
で Cron を利用
Google Cloud Functions
(GCF) を使う
cron:
- url: /retry
schedule: every 10 mins
retry_parameters:
min_backoff_seconds:
2.5
max_doublings: 5
Serverless で 定時処理 Function as a Service を使った
Event driven 的な処理
Cloud Composerを
使う
Serverless、かつDAGを利用した
ジョブの管理で 定時処理 & メッセー
ジングによるEvent Driven的な処理
task1 = BashOperator(
task_id='print_date',
bash_command='date',)
task2 = DataFlowPythonOperator(task_id
py_file=DATAFLOW_FILE,)
task1>> task2
GCS → BigQueryのスケ
ジュールロードを使う
スケジューラによる
定期実行
29. Cloud OnAir
Cloud Composer
Managed
Airflow の各種コンポーネントをマネージドで提供
Airflow worker, scheduler, webserver , database, etc.
開発者は DAG を書いて GCS にアップロードするだけで OK
GCP の連携により使いやすく
IAM, IAP, service account, Cloud Function 連携,
auto-scaling, labelling, stackdriver
GCP との連携
環境管理
API による環境の CRUD
GUI による環境の操作
いつでもバージョンアップ、クラスタ再作成が可能
31. Cloud OnAir
Data Portal (旧 Data Studio) による さらなる BI 機能の拡張
ワンクリックでの可視化
のデータをワンクリックで
で探索できるように
Data Portal データブレンディング
複数のデータソースをシンプルな右クリックだけ
で結合することが可能に
Data Portalカスタムビジュアライゼーショ
ン DEVELOPER PREVIEW
人気の高い フレームワークを用いた
カスタムビジュアライゼーションが可能に