Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Cloudera in the Cloud #CWT2017

2.586 visualizaciones

Publicado el

Cloudera in the Cloud (Lunch Session Presentation) @CWT2017

Publicado en: Ingeniería
  • Sé el primero en comentar

Cloudera in the Cloud #CWT2017

  1. 1. 1© Cloudera, Inc. All rights reserved. Cloudera in the Cloud Tsuyoshi Miyake | Sr. Systems Engineer | Cloudera
  2. 2. 2© Cloudera, Inc. All rights reserved. ⾃⼰紹介 三宅 剛史(みやけ つよし / Tsuyoshi Miyake) Sr. Systems Engineer & SE Specialization - Cloud Career: Sun, GS, Pivotal, AWS etc. @tsuyokb | tsuyo@cloudera.com | github.com/tsuyo
  3. 3. 3© Cloudera, Inc. All rights reserved. アジェンダ • なぜデータ分析をクラウドでやるのか? • Why Cloudera in the Cloud? • デプロイパターンとストレージオプション • Cloudera Director • Cloudera Altus • Workload Analytics • まとめ
  4. 4. 4© Cloudera, Inc. All rights reserved. なぜデータ分析をクラウドでやるのか?
  5. 5. 5© Cloudera, Inc. All rights reserved. ⼤規模データが⽣ 成・保存されアプ リケーションがデ プロイされる場所 である
  6. 6. 6© Cloudera, Inc. All rights reserved. いつでも使えて 「伸縮可能」 「従量課⾦」
  7. 7. 7© Cloudera, Inc. All rights reserved. データがどこからで もアクセスできる
  8. 8. 8© Cloudera, Inc. All rights reserved. Why Cloudera in the Cloud?
  9. 9. 9© Cloudera, Inc. All rights reserved. ハイブリッド・マルチクラウドに対応 アプリケーションがどんな環境でも透過的に動くことが必須
  10. 10. 10© Cloudera, Inc. All rights reserved. 様々なユースケースに対応 Modern data processing (ETL) at scale Data Engineering Explore, analyze, and understand all your data Analytic DB Data-driven applications to deliver real-time insights Operational DB Multi-Storage, Multi-Environment Exploratory data science and machine learning Data Science 特に⼀時的・⻑期的なクラスターの使い分けは必須
  11. 11. 11© Cloudera, Inc. All rights reserved. 商⽤利⽤可能な環境 OPERATIONS DATA+MANAGEMENT UNIFIED+SERVICES PROCESS,+ANALYZE,+SERVE STORE INTEGRATE Impala Navigator Navigator Optimizer Hive-on- Spark Hue BI Partners
  12. 12. 12© Cloudera, Inc. All rights reserved. デプロイパターンと ストレージオプション
  13. 13. 13© Cloudera, Inc. All rights reserved. ⼀時的なクラスター (Cloud-native) デプロイモデルの選択 Object Store ⻑時間稼働のクラスター (Lift and Shift)
  14. 14. 14© Cloudera, Inc. All rights reserved. Pets vs. Cattle
  15. 15. 15© Cloudera, Inc. All rights reserved. ⻑時間クラスター (Lift-and-shift) ユースケース ⻑時間クラスターへの要求 • ⾼可⽤性とディザスタリカバリ • 運⽤管理(リソース管理・パッチ・ローリングアップグレード) • セキュリティ • クラスターの動的な伸縮 ユースケース • HBase/Kudu/Kafka clusters • Persistent Batch/BI (>50-60% Usage) • Large, multi-user clusters
  16. 16. 16© Cloudera, Inc. All rights reserved. Cloud-native アプリケーションパターン クラスタの短期利⽤、 コスト削減 リソース競合を回避、 ワークロードの最適化 Object Store ストレージと計算の分離 ストレージ 計算
  17. 17. 17© Cloudera, Inc. All rights reserved. ⼀時的なクラスター (Cloud-native) ユースケース ⼀時的なクラスターへの要求 • Cloud-native アプリケーション(前掲) ユースケース • ⾮定期的な Batch/BI (<50% Usage) • 突発的な ETL に対応 • 開発・テスト環境の複製(稼働率によって⻑ 期的なクラスターへの移⾏も)
  18. 18. 18© Cloudera, Inc. All rights reserved. アーキテクチャー・パターン (1) HDFS S3 Persistent Transient #2 Persistent Batch (最もコントロー ルしやすい) Cloud デプロイ・パターン ストレージオプション クラスターライフサイクル デフォルト #3 Persistent Batch on HDFS (最も速い) #1 Transient Batch (最も柔軟)
  19. 19. 19© Cloudera, Inc. All rights reserved. アーキテクチャー・パターン (2) Native Support
  20. 20. 20© Cloudera, Inc. All rights reserved. ハイブリッド・ストレージオプション (HDFS + S3) • S3 をバックアップとして都度 HDFS にコピーする Hybrid 型(下図) • 中間データは HDFS に書き、最終結果を S3 に格納する Hybrid 型 S3 Run jobStart Cluster Stop Cluster Copy to HDFSStart Cluster Run Job Copy to S3 Stop Cluster HDFS Time S3 Only Hybrid
  21. 21. 21© Cloudera, Inc. All rights reserved. Cloudera Director
  22. 22. 22© Cloudera, Inc. All rights reserved. Overview (1) オンデマンドのクラスター 起動・拡張・縮⼩・終了 ● Cloudera Manager との連携 ● 既存クラスターへ新規ノードの 追加や削除が可能 ● 外部の DB や RDS をサポート ● Transient クラスター⽤の従量 課⾦モデル
  23. 23. 23© Cloudera, Inc. All rights reserved. Overview (2) マルチクラウドのサポート ● AWS, Azure, GCP ● ハイブリッド ● OSS SPI で独⾃のプラグイン
  24. 24. 24© Cloudera, Inc. All rights reserved. Overview (3) プログラム化・反復可能 ● クラスターを反復可能な設定 ファイルベースで定義 ● 様々なベストプラクティスが存 在 (director-scripts) ● クラスターの⽴ち上げ時や シャットダウン時にカスタムの スクリプトを流すことが可能
  25. 25. 25© Cloudera, Inc. All rights reserved. Overview (4) Long-Running クラスター ● CDH & CM のアップグレード ● クラスターのトポロジー変更や 再構成 ● != 24 hrs クラスター
  26. 26. 26© Cloudera, Inc. All rights reserved. Overview (5) セキュリティー ● Cloudera Director DB の⾃動暗 号化 ● CM & CDH の Kerberos 認証サ ポート ● Cloudera Navigator のデプロイ サポート(監査・リネージ)
  27. 27. 27© Cloudera, Inc. All rights reserved. Overview (6) 強⼒な Web UI ● マルチクラウドにまたがったク ラスターと CM の⼀元管理 ● クラスターのオペレーション全 般(作成・拡張・縮⼩・終了)
  28. 28. 28© Cloudera, Inc. All rights reserved. Overview (7) 安定したライフサイクル ● ワーカーノードの Auto-Repair ● クラスターのライフサイクル全 般においてインスタンスロス (Spot, Preemptible) に対する安 定した対応 ● S3Guard
  29. 29. 29© Cloudera, Inc. All rights reserved. クラスターのライフサイクル管理 Cloudera Director AWS Azure GCP Plugins CM CM CM CM BU1 – VPC1 BU2 – VPC2 BU3 BU4 CDH Cluster 1 CDH Cluster 2 CDH Cluster CDH Cluster CDH Cluster
  30. 30. 30© Cloudera, Inc. All rights reserved. Azure Director Architecture with Java SPI (plugins) Web UI API console SDKs Director ServerAPI SPI CM-2CDH5 CDH5 AWS GCP Director Client.conf file local state bootstrap SPI CM-1CDH5 CDH5 bootstrap-remote terminate-remote import
  31. 31. 31© Cloudera, Inc. All rights reserved. Let’s get started with cloudera-boot まずはサクッと試してみたい⽅に ● https://github.com/tsuyo/cloudera-boot/
  32. 32. 32© Cloudera, Inc. All rights reserved. Cloudera Altus
  33. 33. 33© Cloudera, Inc. All rights reserved. ユーザーがフォーカスしたいのは クラスター管理ではなくジョブ ログを失うとクラスター起動の失 敗や実⾏時のパフォーマンス問題 への対処が不可能 独⾃のストレージ・ファイル構造 がインフラのロックインを引き起 こす 運⽤の負荷 アプリのトラブルシューティング サイロなサービス・ロックイン クラウドでビッグデータを扱う際の課題
  34. 34. 34© Cloudera, Inc. All rights reserved. ● Cloudera PaaS のブラン ド名 ● サービスを構築するため のフレームワークの基礎 要素(右図) ● サービスの第⼀弾が Altus for Data Engineering Analytic DBMS Operational DBMS Data Engineering Altus Platform Services Altus PaaS Foundation = 現在 = 計画中 Cloudera Altus はビッグデータ分析⽤の PaaS
  35. 35. 35© Cloudera, Inc. All rights reserved. Data Engineering のための Cloudera Altus AWS 上での ETL・機械学習・ データ処理⽤の PaaS ● MR2, Hive, Spark, Hive-on-Spark のサポート ● Job ファースト ● 迅速かつ容易なワークロードト ラブルシューティング・分析 ● Cloudera プラットフォーム・ パートナーテクノロジーとの運 ⽤互換性
  36. 36. 36© Cloudera, Inc. All rights reserved. Altus でユーザーが解放されること ソフトウェアのインストール ハードウェアのインストール クラスターの構成 クラスターのアップグレード・再構成 OS のアップグレード・パッチ適⽤ リソース管理
  37. 37. 37© Cloudera, Inc. All rights reserved. ジョブを中⼼にエンドユーザーに焦点を ワークロードトラブルシュー ティング・分析 ● クラスター終了後のログ・構成 を⽤いたジョブのトラブル シューティング ● ジョブ失敗の直接的原因の表⽰ ● 遅いジョブの特定及び根本原因 の分析
  38. 38. 38© Cloudera, Inc. All rights reserved. Altus サービスアーキテクチャー
  39. 39. 39© Cloudera, Inc. All rights reserved. ジョブのリアルタイム監視 via Cloudera Manager
  40. 40. 40© Cloudera, Inc. All rights reserved. Altus UI から終了したジョブの確認 過去に実⾏された ジョブの⼀覧を表⽰ 特定のクラスタで 実⾏されたジョブ の⼀覧を表⽰
  41. 41. 41© Cloudera, Inc. All rights reserved. Workload Analytics
  42. 42. 42© Cloudera, Inc. All rights reserved. What is ‘Workload Analytics’ (WA) ? • パブリッククラウドサービス上の Cloudera 管理のマネージドサービス • オプトイン形式(デフォルトではオフ)、利⽤に際してコストは発⽣しない • Altus クラスターから分析に必要な情報を収集 • 失敗・遅いワークロードに対してのトラブルシューティング及びパフォーマン ス管理を提供 • ⼀時的なクラスターをシャットダウンした後にも利⽤可能 • 特に繰り返し実⾏されるワークロードに関して最適化されている
  43. 43. 43© Cloudera, Inc. All rights reserved. WA がない場合
  44. 44. 44© Cloudera, Inc. All rights reserved. ジョブ終了時、Telemetry Publisher が最新のワークロード情報を Altus に送信 • YARN アプリケーションログ(AM、task/executor logs) • メトリック • MR-based: .jhist files • Spark : event logs • Oozie workflow (XML) • Job 構成情報など • Hive post-execution hook info(クエリレベルの情報を取得可能) 収集されるデータ
  45. 45. 45© Cloudera, Inc. All rights reserved. ヘルスチェック(致命的エラー)
  46. 46. 46© Cloudera, Inc. All rights reserved. • パフォーマンスの問題を特定 • ステージレベルでボトルネックを特定 ヘルスチェック(データの偏り) 2シグマ (σ) 外であれば Outlier(外れ値)として表⽰
  47. 47. 47© Cloudera, Inc. All rights reserved. • Hadoop history server (SHS/JHS) 同等機能 • クラスター停⽌後もデータを利⽤可能 • Spark と MR で統⼀のインタフェース ログ・メトリック・構成
  48. 48. 48© Cloudera, Inc. All rights reserved. • 同じ名前のジョブをトラック • 異常値(± 2σ)の検知 ジョブのトレンドと異常検知
  49. 49. 49© Cloudera, Inc. All rights reserved. まとめ
  50. 50. 50© Cloudera, Inc. All rights reserved. まとめ: Why Cloudera in the Cloud? - アプリケーションのポータビ リティを保持 - 単に複数の環境を使うことで はない - ベンダーロックインを避ける - 特に⼀時的・⻑期的なユース ケース両⽅に対応していること が重要(詳細は後述) - 統合的な管理性 - 可⽤性 - セキュリティ - データガバナンス など商⽤環境に求められる要件 を保持したままリスクを低減 ハイブリッド・マルチクラウド 様々なユースケース 商⽤利⽤可能
  51. 51. 51© Cloudera, Inc. All rights reserved. まとめ: Altus 低コスト • ノードごとの時間課⾦ • Spot インスタンスとセルフヒーリング対応 エンドユーザーに焦点 • クラスター管理をユーザーから解放 • エンドユーザーがセルフサービスで利⽤可能 • Workload 統合プラットフォーム • オンプレ・クラウドで同⼀の Cloudera プラット フォーム セキュア • AWS セキュリティとの統合 • Cloudera は顧客データに⼀切アクセス不可能 • 複数 AWS アカウントのサポート
  52. 52. 52© Cloudera, Inc. All rights reserved. 最後に: Pets “&” Cattle Cloudera はお客様のワークロー ドが最も価値のある場所で実⾏ されることを信じています
  53. 53. 53© Cloudera, Inc. All rights reserved. Thank you! tsuyo@cloudera.com

×