19. Azure の多様なビッグデータソリューション
Azure Data Lake
Analytics
Azure Data Lake Store
Azure Storage
Any Hadoop technology,
any distribution
Workload optimized,
managed clusters
Data Engineering in a
Job-as-a-service model
Azure Marketplace
HDP | CDH | MapR
Azure Data Lake
Analytics
IaaS Clusters Managed Clusters Big Data as-a-Service
Azure HDInsight
Frictionless & Optimized
Spark clusters
Azure Databricks
BIGDATA
STORAGE
BIGDATA
ANALYTICS
ReducedAdministration
CONTROL EASE OF USE
1st パーティーサービス
20. Azure の他のサービスとの比較
HDInsight with
Spark
Azure Databricks
Azure Data Lake
Analytics
マネージドサービス Yes Yes Yes
オートスケール No Yes Yes
スケール時停止不要 No Yes Yes
開発言語 Python, Scala, Java,
R, SQL
Python, Scala, Java,
R, SQL
C#/U-SQL
スケールアウト 単位 クラスター クラスター ジョブ単位
数分以内の スケールア
ウト No Yes Yes
インメモリ 処理 Yes Yes No
21. Azure ストレージサービスへのダイレクトデータアクセス
Azure ストレージサービスを Databricks に直接マウントして集約された
データを処理
IoT デバイスやメディアなどの非構造化データ、オンプレミスの構造化データを Azure ストレージ
サービスに集約
Blob
Storage
基幹系アプリ
(構造化データ)
r
センサーデータ
(非構造化データ)
ログ/ファイル/メ
ディア
(非構造化データ)
Azure Databricks
Data Lake
Store
Data
Factory
IoT
Hub
Stream
Analytics
22. Azure PaaS サービスへのダイレクトアクセス
Azure Databricks で加工された構造化データを Azure Data
Warehouse へロード(Polybase データロードをサポート)
Blob Storage
Azure Databricks
Data Lake Store
SQL Data
Warehouse
Azure Machine
Learning
Azure Analysis
Services
34. New data
Cosmos DB
Azure Databricks
(Spark)
Change Feed Processed data
https://github.com/Azure/azure-cosmosdb-spark/blob/master/samples/lambda/readme.md
Notebook: Twitter with Spark and Azure Cosmos DB Change Feed.ipynb