Inicio
Explorar
Enviar búsqueda
Cargar
Iniciar sesión
Registrarse
Publicidad
Check these out next
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
Ryoma Nagata
Amazon DynamoDB(初心者向け 超速マスター編)JAWSUG大阪
崇之 清水
Azure Datalake 大全
Daiyu Hatakeyama
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
Google Cloud Platform - Japan
The Twelve-Factor Appで考えるAWSのサービス開発
Amazon Web Services Japan
Cassandraのしくみ データの読み書き編
Yuki Morishita
Vacuum徹底解説
Masahiko Sawada
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
Miki Shimogai
1
de
28
Top clipped slide
Databricksを初めて使う人に向けて.pptx
4 de Mar de 2023
•
0 recomendaciones
0 recomendaciones
×
Sé el primero en que te guste
ver más
•
118 vistas
vistas
×
Total de vistas
0
En Slideshare
0
De embebidos
0
Número de embebidos
0
Descargar ahora
Descargar para leer sin conexión
Denunciar
Datos y análisis
クラスター構成のベストプラクティス Databricks SQLとは
otato
Seguir
Publicidad
Publicidad
Publicidad
Recomendados
Data platformdesign
Ryoma Nagata
1.4K vistas
•
51 diapositivas
AWSで作る分析基盤
Yu Otsubo
7K vistas
•
118 diapositivas
平成最後の1月ですし、Databricksでもやってみましょうか
Ryuichi Tokugami
1.4K vistas
•
19 diapositivas
アプリケーション開発者のためのAzure Databricks入門
Yoichi Kawasaki
3.8K vistas
•
36 diapositivas
SQL大量発行処理をいかにして高速化するか
Shogo Wakayama
56.6K vistas
•
27 diapositivas
Hiveを高速化するLLAP
Yahoo!デベロッパーネットワーク
8.4K vistas
•
37 diapositivas
Más contenido relacionado
Presentaciones para ti
(20)
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
Ryoma Nagata
•
932 vistas
Amazon DynamoDB(初心者向け 超速マスター編)JAWSUG大阪
崇之 清水
•
53.3K vistas
Azure Datalake 大全
Daiyu Hatakeyama
•
2.6K vistas
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
Google Cloud Platform - Japan
•
16.1K vistas
The Twelve-Factor Appで考えるAWSのサービス開発
Amazon Web Services Japan
•
24K vistas
Cassandraのしくみ データの読み書き編
Yuki Morishita
•
30.6K vistas
Vacuum徹底解説
Masahiko Sawada
•
4.4K vistas
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
Miki Shimogai
•
114.6K vistas
アーキテクチャから理解するPostgreSQLのレプリケーション
Masahiko Sawada
•
29.4K vistas
ゼロから始めるSparkSQL徹底活用!
Nagato Kasaki
•
6.5K vistas
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Web Services Japan
•
13.6K vistas
StreamPaaSのご紹介
Yahoo!デベロッパーネットワーク
•
532 vistas
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
NTT DATA Technology & Innovation
•
756 vistas
Spring Cloud Data Flow の紹介 #streamctjp
Yahoo!デベロッパーネットワーク
•
3.2K vistas
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
NTT DATA Technology & Innovation
•
3.1K vistas
KafkaとAWS Kinesisの比較
Yoshiyasu SAEKI
•
14.5K vistas
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
Amazon Web Services Japan
•
4.3K vistas
Apache Arrow - データ処理ツールの次世代プラットフォーム
Kouhei Sutou
•
7.5K vistas
PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...
NTT DATA Technology & Innovation
•
13.5K vistas
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
•
865 vistas
Similar a Databricksを初めて使う人に向けて.pptx
(20)
A Tour of PostgreSQL
EDB
•
316 vistas
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
•
2.4K vistas
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
日本マイクロソフト株式会社
•
452 vistas
経済学のための実践的データ分析 4.SQL ことはじめ
Yasushi Hara
•
936 vistas
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Hideo Takagi
•
822 vistas
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Daiyu Hatakeyama
•
1.2K vistas
Spark Summit 2014 の報告と最近の取り組みについて
Recruit Technologies
•
2.7K vistas
Azure Antenna はじめての Azure Data Lake
Hideo Takagi
•
2.2K vistas
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
Cloudera Japan
•
2.1K vistas
Microsoft AI Solution Update / DLL community Update
Hirono Jumpei
•
798 vistas
実はとても面白い...Documentation library
Kouta Shiobara
•
1.5K vistas
Jubatusでマルウェア分類
Shuzo Kashihara
•
5.4K vistas
超高速な機械学習を Oracle Database で実現!
オラクルエンジニア通信
•
5K vistas
PostgreSQL 12の話
Masahiko Sawada
•
7.5K vistas
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
Hideo Takagi
•
781 vistas
Azure Stack 受け入れ準備_20180630
Hiroshi Matsumoto
•
3.1K vistas
Sql server data store data access internals
Masayuki Ozawa
•
1.2K vistas
Oracle Cloud Developers Meetup@東京
tuchimur
•
2K vistas
Building asp.net core blazor and elasticsearch elasticsearch using visual stu...
Shotaro Suzuki
•
341 vistas
Seas で語られたこととは?
Masayuki Ozawa
•
806 vistas
Publicidad
Último
(20)
☀️《马尔堡大学毕业证仿真》
hjhgg1
•
2 vistas
47北达科他大学.pdf
LorettaPrice2
•
2 vistas
#国外留学文凭购买约克大学假毕业证书
fc2c0f2b1mymailol
•
2 vistas
#国外留学文凭购买Brandon假毕业证书
fc2c0f2b1mymailol
•
2 vistas
21威斯康星麦迪逊分校.pdf
fdhrtf
•
3 vistas
143-南卫理公会大学.pdf
LorettaPrice2
•
2 vistas
28西澳.pdf
fdhrtf
•
2 vistas
九大_DS実践_Python基礎その1
RyomaBise1
•
0 vistas
52魁北克大学.pdf
fdhrtf
•
2 vistas
10南十字星大学.pdf
fdhrtf
•
2 vistas
【추천인: AAKK】 Top7588`c0m 홀덤게임
yqwggcy3463
•
2 vistas
207-南达科他大学.pdf
LorettaPrice2
•
2 vistas
九大_DS実践_距離とクラスタリング
RyomaBise1
•
0 vistas
74拉萨尔学院.pdf
fdhrtf
•
2 vistas
173-天普大学.pdf
LorettaPrice2
•
2 vistas
20230610ビジネス実務学会_基調講演.pdf
東京工業大学
•
4 vistas
11墨尔本.pdf
dsadasd17
•
2 vistas
13UIUC.pdf
fdhrtf
•
3 vistas
#国外留学文凭购买Tulane假毕业证书
14zw8z53qmm
•
2 vistas
九大_DS実践_主成分分析
RyomaBise1
•
0 vistas
Databricksを初めて使う人に向けて.pptx
Databricksを初めて 使う人に向けて
2 Databricksを始めるとき、こんな疑問を抱くことがないでしょうか? クラスター構成の最適解が わからない。 分散処理に使用するワーカー 数ってどのくらいが妥当? Databricks SQLとSpark
SQL はどう使い分ける?
3 そもそも 「Databricks」っ て何?
4 そもそも「Databricks」って何? 端的に言うと、 「データ分析に必要な機能をオールインワンパッケージで提供している分析プラットフォーム」 です。 データ取込 ETL 分析
可視化
5 そもそも「Databricks」って何? Databricksを実行する際に要となるのが「クラスター」です。 Spark programming, Spark
Batchジョブを実行する計算のリソースと設定をセットにしたものです。 Driver Worker Worker Worker Worker Executor Executor Executor Executor Cor e Cor e Cor e Cor e Cor e Cor e Cor e Cor e Task Task Task Task Task
6 クラスター構成の ベストプラクティス
7 クラスター構成のベストプラクティス 構成を決定する際に考慮する点 ユーザーの種類
ワークロードの種類 Service Level Agreement(SLA)の程度 予算の制約 クラスターの構成は、コストとパフォーマンスのバランスを考慮して行います。 コスト: クラスターによって消費されるDatabricksユニット クラスターの実行に必要な基本リソース ⇒二次的なコストがはっきりせず、考慮に入れにくいケースもあります。
8 クラスター構成のベストプラクティス クラスターのサイズ設定 クラスターのサイズを設定する際に考慮すべきポイント ワークロードで消費されるデータ量
コンピューティングの複雑さ データの読み取り元 外部ストレージでのデータのパーティションの方法 どの程度の並列処理が必要であるか
9 クラスターの構成
10 クラスターの構成 クラスターを新規作成する際には、以下の項目を選択する クラスターポリシー
マルチノード/シングルノード アクセスモード Runtimeバージョン クラスターノードの型
11 クラスターの構成 クラスターポリシー 規則に基づいてユーザー・グループの クラスター作成のアクセス許可を制御する。 マルチノード
/ シングルノード 複数のワーカーで分散処理をさせるか単一ワー カーで集中処理させるかを定義する。
12 クラスターの構成 アクセスモード Unity Catalogで保護されたデータへのアクセス方法を 設定する。
Runtimeバージョン クラスターで実行されるコアコンポーネントのセット。 すべてのバージョンにApache Sparkが含まれている。
13 クラスターの構成 クラスターノードの型 ドライバーノード・ワーカーノードに対して 別々のクラウドプロバイダーインスタンスの 種類を選択することができる。 マルチノードを選択している場合、ワーカー 数は固定数での指定や、自動スケーリングが 可能。
14 【補足】ワーカー数の設定
15 ワーカー数の設定 多くすればいいとは限らない 以下の設定をしているクラスターは同じコンピューティングとメモリを持つ ことになる。 2つのワーカー(16コアと112GBのRAM)
8つのワーカー(4コアと28GBのRAM) ワーカーの数とワーカー インスタンスタイプのサイズとの間でバランスを考慮 する必要がある。
16 クラスター構成 の考慮ポイント
17 クラスター構成の考慮ポイント 最適なクラスター構成を目指すうえで考慮すべきこと 反復パフォーマンステストによるクラスターサイズの最適化
シャッフルの調整 データのパーティション分割
18 クラスター構成の考慮ポイント パフォーマンステストを反復することで最適サイズのクラスターを 構成する 1. 中規模(2~8ノード)のクラスターで開発を行う。 2.
機能要件を満たしたら、CPU、メモリ、およびI/Oを集計レベルで測定し、 より大きなデータに対してテストを行う。 3. クラスターを最適化して、手順2で見つかったボトルネックを取り除く ⇒ボトルネックが解決されるまで手順2と3を繰り返す。
19 クラスター構成の考慮ポイント パフォーマンスを最適化するにはシャッフルの調整が必要 データ量が大きいクエリを実行する際に、シャッフルがクエリ性能に影 響を及ぼす。 ⇒適切なパーティション数の設定が重要になってくる。
20 クラスター構成まとめ データのパーティションによる影響を考慮する 適切なパーティションを設定することでスケーラビリティの向上や競合の 低減、パフォーマンスの最適化へとつながる。 均等にデータが分散されるようなパーティションを設定する
パーティションあたり数十GB データセットが小さい場合は不必要にパーティション分割しない 過剰なパーティション分割を行わない
21 Databricks SQLについて
22 そもそもDatabricks SQL とは
Databricks Lakehouse Platformにビルトインされている エンタープライズデータウェアハウス Lakehouseに直接クエリを実行できる。
23 そもそもDatabricks SQL とは Databricks
SQLではダッシュボードの作成も可能であるため、 SQLクエリやBIツールをメインで使用するデータアナリストなどにとって 直感的に分析を行う環境として用いられる。 ダッシュボードの例
24 Databricks SQL と
Spark SQLの使い分け 下図のように、データアナリスト・データサイエンティストなどの役割に応じて Databricks SQLとSpark SQLを使い分けることにより、データインフラストラク チャの簡素化、データソースの信頼性を確保することができる。
25 まとめ
26 まとめ Databricksを構築する際に悩ましい部分をピックアップしてベストプラクティス を紹介しました。 「これだ!」という方式はなく、試行錯誤して最適解を見つけていく必要がある ということをイメージしてもらえたかと思います。 試行錯誤する幅が広く、慣れないと敬遠してしまいそうになるかもしれませんが、 それは「自由度の高さ」というDatabricksの強みでもあります。
27 参考リンク集 【クラスター構成のベストプラクティス】 https://learn.microsoft.com/ja-jp/azure/databricks/clusters/cluster-config-best-practices 【クラスターポリシー】 https://learn.microsoft.com/ja-jp/azure/databricks/administration-guide/clusters/policies 【アクセスモードとは】 https://learn.microsoft.com/ja-jp/azure/databricks/clusters/cluster-ui-preview#--what-is-cluster-access-mode 【クラスターノードの型】 https://learn.microsoft.com/ja-jp/azure/databricks/clusters/create-cluster#--cluster-node-type 【Runtimeバージョン】 https://learn.microsoft.com/ja-jp/azure/databricks/runtime/?source=recommendations 【クラスターの最適化】 AzureDatabricksBestPractices/toc.md at master
· Azure/AzureDatabricksBestPractices · GitHub 【Databricks SQLとは】 Databricks SQLとは何か? - Qiita SQL開発者向けDatabricksのご紹介 - Qiita
28 Thank You for
Watching.
Notas del editor
疑問解消の一助になれるよう、ベストプラクティスを紹介していきます。
データ量が多くなるということは、その分Executorで処理する情報量も多くなる 大規模なインスタンスを減らすことにより、シャッフル負荷の高いワークロードの実行中にデータを転送する際のI/Oを削減することが可能。
クラスターポリシー:クラスターを作成するときに使用できる構成オプションを制限するための一連のルール。規則に基づいてユーザーまたはグループのクラスター作成のアクセス許可を制御する。クラスターポリシーによってできること ・指定された設定でユーザーがクラスターを作成できるように制限をかける ・ユーザーが特定のクラスターを作成するように制限する ・ユーザーインターフェースを単純化して、多くのユーザーが独自のクラスターを作成できるようにする ・クラスターあたりの最大コストを制御することで全体のコストをコントロールする https://learn.microsoft.com/ja-jp/azure/databricks/administration-guide/clusters/policies マルチノード / シングルノード:スライドの通り。
アクセスモード:Unity Catalogで保護されたデータへのアクセス方法を設定する。 https://learn.microsoft.com/ja-jp/azure/databricks/clusters/cluster-ui-preview#--what-is-cluster-access-mode シングルユーザーを指定した場合、指定されたユーザーのみがUnity Catalog内のデータにアクセスすることができる。 共有を指定した場合、対象のクラスターを利用できるユーザーがUnity Catalog内のデータにアクセスできる。(サードパーティ製ライブラリ、JARSがサポートされていないなど、制約あり) Runtimeバージョン: https://learn.microsoft.com/ja-jp/azure/databricks/runtime/?source=recommendations
クラスターノードの型: https://learn.microsoft.com/ja-jp/azure/databricks/clusters/create-cluster#--cluster-node-type ※Sparkジョブを実行する際には、少なくとも1台のワーカーノードが必要。
データ量が多くなるということは、その分Executorで処理する情報量も多くなる 大規模なインスタンスを減らすことにより、シャッフル負荷の高いワークロードの実行中にデータを転送する際のI/Oを削減することが可能。 ・データ分析:データアナリスト向けのクラスターは多くのシャッフル操作が発生する。シャッフルを実行するために必要なNWおよびディスクI/Oを削減するため、ノード数が少ないクラスターが推奨される。 ・バッチETL(単純):大規模な変換を必要としない場合、コンピューティングに最適化されたクラスターが推奨される。 ・バッチETL(複雑):シャッフルされるデータ量を最小限に抑えることで最適実行される。データ分析同様ノード数を少なくするクラスターが推奨される。 ・機械学習トレーニングモデル:導入初期は小規模なクラスターを使用し、シャッフルの影響を小さくする。安定性が求められる場合はクラスターの規模を大きくする。しかしシャッフルが大量に発生するような構成はおススメされない。
中規模(2~8ノード)のクラスターで開発を行う。 機能要件を満たしたら、CPU、メモリ、およびI/Oを集計レベルで測定し、より大きなデータに対してテストを行う。 クラスターを最適化して、手順2で見つかったボトルネックを取り除く ボトルネックで考えられるのは、 ・CPUバウンド:ノードを追加してコアを追加する ・NWバウンド:使用するSSDベースのマシンの数を減らし、NWサイズを縮小、リモート読み取りパフォーマンスを向上させる ・ディスクI/Oバウンド:ジョブがディスクに流出してしまう場合、より多くのメモリを搭載しているVMを使用する。 これにより、SLAを満たすことができるベースラインクラスターサイズに到達できる。
ボトルネックで考えられるのは、 ・CPUバウンド:ノードを追加してコアを追加する ・NWバウンド:使用するSSDベースのマシンの数を減らし、NWサイズを縮小、リモート読み取りパフォーマンスを向上させる ・ディスクI/Oバウンド:ジョブがディスクに流出してしまう場合、より多くのメモリを搭載しているVMを使用する。 これにより、SLA(Service Level Agreement)を満たすことができるベースラインクラスターサイズに到達できる。
シャッフルにおいてキーとなる属性はパーティションの数です。パーティションの最適な数はデータに依存しますが、データサイズはステージごと、クエリーごとに大きく異なるため、数をチューニングすることが困難。
抽象的ですが…。
ペルソナは、Data Science & Data Engineer / Machine Learning / SQLの3つで構成されている。 Data Science & Data Engineer、Machine Learningは名前の通り利用イメージができるかと思う。SQL はSpark SQLがData Science & Data Engineerでも使えるので、どう使えば?となりがち(著者が苦笑)
Databricks SQLとは何か? - Qiita
SQL開発者向けDatabricksのご紹介 - Qiita
Publicidad