SlideShare una empresa de Scribd logo
1 de 45
機械学習の定番プラットフォームSparkのご紹介
Cloudera株式会社
川崎 達夫
kawasaki@cloudera.com
2 © Cloudera, Inc. All rights reserved.
• Clouderaと機械学習の関わり
• プラットフォーム
• Apache Spark
• 機械学習 on Spark
• 生産性を高めるためのツール
• Cloudera Data Science Workbench
本日のアジェンダ
参考資料) https://www.slideshare.net/Cloudera_jp/spark-cwt2015
3 © Cloudera, Inc. All rights reserved.
MACHINE LEARNING IS A GROWTH ENGINE
CONNECT
products &
services (IoT)
PROTECT
business
DRIVE
customer insights
機械学習とはデータから有益なパターンを抽出するためのアルゴリズムと手法を指す
既存のシステムを近代化するだけでなく、完全に新しいビジネスを可能にする
4 © Cloudera, Inc. All rights reserved.
巨大でヘテロジアスな計算
資源に簡単にアクセスでき
る
機械学習のアルゴリズムは
無償で利用でき、頻繁に更
新される
手頃な価格で、任意の量、
種類のデータを保存してア
クセス
なぜ今なの?
破壊的なトレンドは変化のオポチュニティを生み出す
CLOUD BIG DATA OPEN SOURCE
5 © Cloudera, Inc. All rights reserved.
進化するマーケット
不確実性とオポチュニティ
未熟なマーケット
コモディティ化と過剰な
宣伝への技術的な挑戦は、
市場の定義を明らかにす
る
標準的な技法はない
機械学習には一般的に受
け入れられているベスト
プラクティスはない
急速に進む技術
新しい機能が定期的に登
場し、他のコストを劇的
に変える
6 © Cloudera, Inc. All rights reserved.
AI
MACHINE
LEARNING
DATA SCIENCE
ANALYTICS
"BIG DATA"
7 © Cloudera, Inc. All rights reserved.
• 私たちはオープンプラットフォーム
で、データに基づいてビジネスを進
めるためにお客様に力を与えます
• お客様のデータ
• オープンなアルゴリズム
• どこでも実行できる
• Clouderaはエンタープライズデータ
サイエンスを加速します
MACHINE LEARNING AT CLOUDERA
Clouderaの理念
8 © Cloudera, Inc. All rights reserved.
Clouderaのアプローチ
Clouderaはデータサイエンスと機械学習をどう支援しているのか
不確実性 データのサイロ化 生産性の課題
Fast Forward Labs
.
Enterprise Data Hub with SDX
.
Data Science Workbench
.
9 © Cloudera, Inc. All rights reserved.
プラットフォーム
10 © Cloudera, Inc. All rights reserved.
データ管理基盤上に構築される機械学習
データ、ワークフロー、メタデータ、セキュリティ、ガバナンスなどを統合
Amazon S3
Microsoft
ADLS HDFS KUDU
SECURITY GOVERNANCE
WORKLOAD
MANAGEMENT
INGEST &
REPLICATION
DATA CATALOG
Core
Services
Storage
Services
ANALYTIC
DATABASE
DATA
SCIENCE
EXTENSIBLE
SERVICES
OPERATIONAL
DATABASE
DATA
ENGINEERING
DATA
WAREHOUSE
11 © Cloudera, Inc. All rights reserved.
Apache Spark
12 © Cloudera, Inc. All rights reserved.
• Apache Sparkは
• 高速で汎用目的、かつ大規模データ処理用のエンジン
• さまざまな異なるデータ処理のワークロードを実行できる
• クラスター環境で実行できる
• Apache Hadoop YARN
• Apache Mesos
• Spark Standalone
• ローカル実行もできる
Apache Spark
13 © Cloudera, Inc. All rights reserved.
• Sparkアプリケーションの開始時:
• アプリケーションを管理する「ドライ
バー」という処理が起動
• データを処理する「エグゼキューター」と
いう複数のワーカープロセスが起動
• YARNクラスターでは、エグゼキューターを管理
する「Application Master」プロセスが開始
• YARNの動的割り当て機能を使用すると、アプリ
ケーションのライフサイクル中の処理の増加と
減少に応じて、エグゼキューターを開始、停止
できる
• Sparkアプリケーションが停止すると、
これらの処理は終了する
Sparkはどのように動作するのか
http://spark.apache.org/docs/latest/cluster-overview.html
14 © Cloudera, Inc. All rights reserved.
Spark スタック
http://spark.apache.org/
15 © Cloudera, Inc. All rights reserved.
Spark スタック (現在)
Apache Spark Core
Spark SQL
Spark
Streaming
MLlib
(OLD)
(Machine
learning)
GraphX
(graph)
MLlib
(New)
Structured
Streaming
(Graph
Frames)
DataFrame/DataSet
RDD
DStream
16 © Cloudera, Inc. All rights reserved.
• Resilient Distributed Dataset(耐障害性分散データセット)
• Spark Core内でのデータ形式
• 並列で操作できる、イミュータブルで耐障害性のある要素の集合
RDD
Apache Spark Core
Spark SQL
Spark
Streaming
MLlib
(OLD)
(Machine
learning)
GraphX
(graph)
MLlib
(New)
Structure
d
Streamin
g
(Graph
Frames)
RDD
17 © Cloudera, Inc. All rights reserved.
• Spark SQLは構造化データを扱うためのSparkライブラリ
• Spark SQLが提供するもの:
• DataFrame API
• SQL クエリエンジン
• Catalystオプティマイザー
Spark SQL
Apache Spark Core
Spark SQL
Spark
Streaming
MLlib
(OLD)
(Machine
learning)
GraphX
(graph)
MLlib
(New)
Structure
d
Streamin
g
(Graph
Frames)
18 © Cloudera, Inc. All rights reserved.
• 名前付きの列に編成された、イミュータブルな分散データコレクション
• RとPython (Pandas)のデータフレームに影響を受けているが、ビッグデータや
データサイエンスアプリケーションをサポートするように設計されている
• 構造化されているデータファイルやHiveテーブル、データベース、既存のRDD
などから構築できる
• オプティマイザーによる最適化
DataFrame
Apache Spark Core
Spark SQL
Spark
Streaming
MLlib
(OLD)
(Machine
learning)
GraphX
(graph)
MLlib
(New)
Structure
d
Streamin
g
(Graph
Frames)
DataFrame
19 © Cloudera, Inc. All rights reserved.
• Sparkで利用できる言語
• Scala
• Java
• Python (PySpark)
• R (SparkR)
• Rの代替インターフェース = sparklyr
• RStudioで開発された
• dplyrと互換性がある
Sparkで利用できる言語
20 © Cloudera, Inc. All rights reserved.
CDHとSPARKの
関連
1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12
CDH5
5.0
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
5.10
5.11
5.12
5.13
5.14
5.15
(5.16?)
CDH6
6.0
6.1?
CDH and Spark release history
2014 2015 2016 2017 2018
0.9 1.0 1.1 1.2 1.3 1.5 1.6
2.0 2.1 2.2 2.3
2.2
21 © Cloudera, Inc. All rights reserved.
• Spark 2.3
• https://spark.apache.org/releases/spark-release-2-3-0.html
• 例
• Support on Kubernetes
• Continuous Streaming
• Streaming – Streaming Joins
• Image Data Support (ImageSchema)
Spark 2.3
Clouderaは全ての機能を商用サポートしているわけではないことに注意
https://www.cloudera.com/documentation/spark2/latest/topics/spark2_known_issues.html
22 © Cloudera, Inc. All rights reserved.
例: ImageSchema
23 © Cloudera, Inc. All rights reserved.
• Spark 2.4rc5 (2018/11/5現在)
• Native Spark App in k8s (SPARK-23984, SPARK-23146, etc..)
• Pandas UDF – Grouped Aggregate (SPARK-25328, etc)
• Earger Evaluation (for Notebook) (SPARK-24215)
• Kafka 2.0.0 (SPARK-28057, etc)
• その他数多く….
Spark 2.4 (not yet released)
https://github.com/apache/spark/compare/branch-2.3...v2.4.0-rc5
24 © Cloudera, Inc. All rights reserved.
機械学習 on Spark
25 © Cloudera, Inc. All rights reserved.
(再掲)Spark スタック (現在)
Apache Spark Core
Spark SQL
Spark
Streaming
MLlib
(OLD)
(Machine
learning)
GraphX
(graph)
MLlib
(New)
Structured
Streaming
(Graph
Frames)
26 © Cloudera, Inc. All rights reserved.
• Spark用のスケーラブルな機械学習ライブラリ
• 非常に大規模なデータセットで動作するように設計されている
• 多くのポピュラーな機械学習ライブラリの実装を含んでいる
• 教師あり学習
• 教師なし学習
• 機械学習モデルの構築前にデータを準備するユーティリティーを提供
• Extraction
• Transformation
• Selection
Spark MLlib
https://spark.apache.org/docs/latest/ml-features.html
27 © Cloudera, Inc. All rights reserved.
• MLlibは機械学習のアルゴリズムのAPIを標準化し、複数の機械学習アルゴリズ
ムを単一のパイプライン、ワークフローで簡単に組み合わせることができる
• パイプラインのコンセプトは、ほとんどが scikit-learn プロジェクトに影響を受
けている
• DataFrameベースのMLlibとRDDベースのMLlibがある
• RDDベースのMLlibは、現在 (Spark 2.0 以降)メンテナンスモード
• Spark 3.0 で削除される予定
Spark MLlib (続き)
28 © Cloudera, Inc. All rights reserved.
例: KMeansのコード比較 (Python)
http://spark.apache.org/docs/latest/mllib-clustering.html
http://spark.apache.org/docs/latest/ml-clustering.html
RDD based KMeans DataFrame based KMeans
29 © Cloudera, Inc. All rights reserved.
(再掲)データ管理基盤上に構築される機械学習
Amazon S3
Microsoft
ADLS HDFS KUDU
SECURITY GOVERNANCE
WORKLOAD
MANAGEMENT
INGEST &
REPLICATION
DATA CATALOG
Core
Services
Storage
Services
ANALYTIC
DATABASE
DATA
SCIENCE
EXTENSIBLE
SERVICES
OPERATIONAL
DATABASE
DATA
ENGINEERING
DATA
WAREHOUSE
30 © Cloudera, Inc. All rights reserved.
CLOUDERA DATA SCIENCE
WORKBENCH
31 © Cloudera, Inc. All rights reserved.
Clouderaのアプローチ
Clouderaはデータサイエンスと機械学習をどのように支援しているのか
不確実性 データのサイロ化 生産性の課題
Fast Forward Labs
.
Enterprise Data Hub with SDX
.
Data Science Workbench
.
32 © Cloudera, Inc. All rights reserved.
機械学習用の
プラットフォーム
• オープンなプラット
フォーム
• 完全なライフサイクル
• チームコラボレーション
• エンタープライズ対応
• どこでも実行可能
RESEARCH | PRODUCTION
LOCAL | SPARK | IMPALA
DEPLOYMEN
T
COMPUT
E
OPEN SOURCE ECOSYSTEMALGORITHM
S
SELF-SERVICE
TOOLS
SOLUTIONS | USE CASESAPP
S
CLOUD ON-PREMISES
ADL
S
S
3
HDF
S
KUD
U
CATALOG | SECURITY |
GOVERNANCE
SHARED
CONTEXT
33 © Cloudera, Inc. All rights reserved.
課題
これらの要望のバランスをとるには
DATA SCIENCE
• きめ細かなデータアクセス
• 柔軟性
• 好みのオープンソースツール
• エラスティックなプロビジョニン
グ
• 計算
• ストレージ
• 再現可能なリサーチ
• 本番環境に向けた道すじ
DATA MANAGEMENT
• セキュリティ
• ガバナンス
• 標準化
• 低メンテナンス
• 低コスト
• セルフサービスアクセス
34 © Cloudera, Inc. All rights reserved.
よくあるソリューション
“好みのツールを使うことができなけれ
ば…”
• ラップトップにデータをコピー
• データサイエンスアプライアンスにデー
タをコピー
• クラウドサービスにデータをコピー
← これらが問題になるのは:
• 複雑なセキュリティ要件
• データガバナンスを壊す
• 処理の待ち時間が加わる
• コラボレーションがますます困難に
• 複雑なモデル管理とデプロイ
• インフラのサイロが作られてしまう
35 © Cloudera, Inc. All rights reserved.
CLOUDERA DATASCIENCE WORKBENCH
実験環境から本番環境へと機械学習を加速する
データサイエンティスト向け
• 実験を高速に
R、Python、あるいはScalaを
使用して、オンデマンドでの
計算資源、およびセキュアな
CDHのデータにアクセス
• 共同作業
チーム全体で再現可能な実験
環境を共有
• 信頼のあるデプロイ
再コーディングなしに繰り返
して本番環境で実行
IT プロフェッショナル向け
• データサイエンティストを
データに連れて行く
リスクとサイロのコストを削
減しつつデータサイエンティ
ストに自由を与える
• デフォルトでセキュア
共通のセキュリティとガバナ
ンスをワークロード全体で活
用
• どこでも実行
オンプレまたはクラウド
36 © Cloudera, Inc. All rights reserved.
37 © Cloudera, Inc. All rights reserved.
38 © Cloudera, Inc. All rights reserved.
39 © Cloudera, Inc. All rights reserved.
40 © Cloudera, Inc. All rights reserved.
MODERN DATA SCIENCE ARCHITECTURE
スケーラブルでオンデマンドな計算処理を備えるコンテナ化された環境
• DockerとKubernetesで構築
• 独立し、再生可能なユーザー環境
• ビッグデータ、スモールデータの両方
に対応
• ローカルの Python, R, Scala ランタイム
• GPUリソースのスケジューリングと共有
• Spark, Impala, その他 CDH サービスを実行
• デフォルトでセキュア化、ガバナンス
• Kerberos化されたクラスターに、簡単かつ
監査されたアクセス
• Cloudera Managerでデプロイ
CDH CDH
Cloudera Manager
gateway node(s) CDH nodes
Hive, HDFS, ...
CDSW CDSW
...
Master
...
Engine
EngineEngine
EngineEngine
41 © Cloudera, Inc. All rights reserved.
ACCELERATED DEEP LEARNING WITH GPUS
• 深層学習にCDSWを拡張
• GPUリソースをスケジュール、共有
• GPUでトレーニングし、CPUにデプ
ロイ
• オンプレまたはクラウドで動作
CDSW
GPUCPU
CDH
CPU
CDH
CPU
single-node
training
distributed
training, scoring
“データサイエンティストはGPUを
求めているが、私たち(管理者)に
はマルチテナントが必要だ。彼らが
それぞれクラウドに向かうと、高価
でありガバナンスを失ってしまう”
GPU On CDH coming in C6
42 © Cloudera, Inc. All rights reserved.
データサイエンティストチームが行うこと
データを大規模に取り込む
データを保存しセキュア化
分析のためにデータを綺麗
にして変換
データを調査し、オフライ
ンで予測モデルを構築
モデルの評価とチューニン
グ
モデリングパイプラインを
開発して提供
デプロイのためにモデルを
テスト、検証、および承認
バッチ、ストリーミングパ
イプライン、組み込みモデ
ル、APIを作成して維持
本番環境でモデルを更新
データの準備 モデルの構築 モデルのデプロイ
43 © Cloudera, Inc. All rights reserved.
NEW: CLOUDERA DATA SCIENCE WORKBENCH 1.4
Accelerate and simplify machine learning from research to production
ANALYZE DATA
• Explore data securely and
share insights with the team
TRAIN MODELS
• Run, track, and compare
reproducible experiments
DEPLOY APIs
• Deploy and monitor models
as APIs to serve predictions
NEW! NEW!
MANAGE SHARED RESOURCES
• Provide a secure, collaborative, self-service platform for your data science teams
44 © Cloudera, Inc. All rights reserved.
本日のまとめ:Clouderaのアプローチ
不確実性 データのサイロ化 生産性の課題
Fast Forward Labs
.
Enterprise Data Hub with SDX
.
Data Science Workbench
.
研修に興味がある方はウェブへ!受講したい方は
配布資料のディスカウントコードをご利用ください!
http://jp.cloudera.com/more/training.html#?loc=JP-Tokyo
THANK YOU

Más contenido relacionado

La actualidad más candente

MLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめMLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめKenichi Sonoda
 
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)NTT DATA Technology & Innovation
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Noritaka Sekiyama
 
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)NTT DATA Technology & Innovation
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Cloudera Japan
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~NTT DATA OSS Professional Services
 
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話Kumazaki Hiroki
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
今からでも遅くないDBマイグレーション - Flyway と SchemaSpy の紹介 -
今からでも遅くないDBマイグレーション - Flyway と SchemaSpy の紹介 -今からでも遅くないDBマイグレーション - Flyway と SchemaSpy の紹介 -
今からでも遅くないDBマイグレーション - Flyway と SchemaSpy の紹介 -onozaty
 
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)NTT DATA Technology & Innovation
 
ネットワークでなぜ遅延が生じるのか
ネットワークでなぜ遅延が生じるのかネットワークでなぜ遅延が生じるのか
ネットワークでなぜ遅延が生じるのかJun Kato
 
忙しい人の5分で分かるMesos入門 - Mesos って何だ?
忙しい人の5分で分かるMesos入門 - Mesos って何だ?忙しい人の5分で分かるMesos入門 - Mesos って何だ?
忙しい人の5分で分かるMesos入門 - Mesos って何だ?Masahito Zembutsu
 
単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介AdvancedTechNight
 
ストリーム処理プラットフォームにおけるKafka導入事例 #kafkajp
ストリーム処理プラットフォームにおけるKafka導入事例 #kafkajpストリーム処理プラットフォームにおけるKafka導入事例 #kafkajp
ストリーム処理プラットフォームにおけるKafka導入事例 #kafkajpYahoo!デベロッパーネットワーク
 
ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方Yoshiyasu SAEKI
 

La actualidad más candente (20)

NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
 
MLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめMLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめ
 
RDF Semantic Graph「RDF 超入門」
RDF Semantic Graph「RDF 超入門」RDF Semantic Graph「RDF 超入門」
RDF Semantic Graph「RDF 超入門」
 
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
 
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
 
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
今からでも遅くないDBマイグレーション - Flyway と SchemaSpy の紹介 -
今からでも遅くないDBマイグレーション - Flyway と SchemaSpy の紹介 -今からでも遅くないDBマイグレーション - Flyway と SchemaSpy の紹介 -
今からでも遅くないDBマイグレーション - Flyway と SchemaSpy の紹介 -
 
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
At least onceってぶっちゃけ問題の先送りだったよね #kafkajpAt least onceってぶっちゃけ問題の先送りだったよね #kafkajp
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
 
MLOpsはバズワード
MLOpsはバズワードMLOpsはバズワード
MLOpsはバズワード
 
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
 
ネットワークでなぜ遅延が生じるのか
ネットワークでなぜ遅延が生じるのかネットワークでなぜ遅延が生じるのか
ネットワークでなぜ遅延が生じるのか
 
忙しい人の5分で分かるMesos入門 - Mesos って何だ?
忙しい人の5分で分かるMesos入門 - Mesos って何だ?忙しい人の5分で分かるMesos入門 - Mesos って何だ?
忙しい人の5分で分かるMesos入門 - Mesos って何だ?
 
単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介
 
ストリーム処理プラットフォームにおけるKafka導入事例 #kafkajp
ストリーム処理プラットフォームにおけるKafka導入事例 #kafkajpストリーム処理プラットフォームにおけるKafka導入事例 #kafkajp
ストリーム処理プラットフォームにおけるKafka導入事例 #kafkajp
 
分散トレーシング技術について(Open tracingやjaeger)
分散トレーシング技術について(Open tracingやjaeger)分散トレーシング技術について(Open tracingやjaeger)
分散トレーシング技術について(Open tracingやjaeger)
 
ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方
 

Similar a 機械学習の定番プラットフォームSparkの紹介

G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006Cloudera Japan
 
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)オラクルエンジニア通信
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera Japan
 
OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304Shinichiro Arai
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Japan
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014Cloudera Japan
 
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)NTT DATA Technology & Innovation
 
本当にできるの?ミッションクリティカルシステムのクラウド移行ダイジェスト (Oracle Cloudウェビナーシリーズ: 2021年7月7日)
本当にできるの?ミッションクリティカルシステムのクラウド移行ダイジェスト (Oracle Cloudウェビナーシリーズ: 2021年7月7日)本当にできるの?ミッションクリティカルシステムのクラウド移行ダイジェスト (Oracle Cloudウェビナーシリーズ: 2021年7月7日)
本当にできるの?ミッションクリティカルシステムのクラウド移行ダイジェスト (Oracle Cloudウェビナーシリーズ: 2021年7月7日)オラクルエンジニア通信
 
MicrosoftのOSSへの取り組み
MicrosoftのOSSへの取り組みMicrosoftのOSSへの取り組み
MicrosoftのOSSへの取り組みShinichiro Arai
 
本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...
本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...
本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...オラクルエンジニア通信
 
Oracle APEXユーザー会の紹介
Oracle APEXユーザー会の紹介Oracle APEXユーザー会の紹介
Oracle APEXユーザー会の紹介Nakakoshi Yuji
 
201312 scalr[oss] installation_idcf
201312 scalr[oss] installation_idcf201312 scalr[oss] installation_idcf
201312 scalr[oss] installation_idcfIDC Frontier
 
SCALR OSS版のインストール手順のご紹介 20131204 01
SCALR OSS版のインストール手順のご紹介 20131204 01SCALR OSS版のインストール手順のご紹介 20131204 01
SCALR OSS版のインストール手順のご紹介 20131204 01Haruhiko KAJIKAWA
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...オラクルエンジニア通信
 
自律型データベース Oracle Autonomous Database 最新情報
自律型データベース Oracle Autonomous Database 最新情報自律型データベース Oracle Autonomous Database 最新情報
自律型データベース Oracle Autonomous Database 最新情報オラクルエンジニア通信
 
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送Google Cloud Platform - Japan
 

Similar a 機械学習の定番プラットフォームSparkの紹介 (20)

G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
 
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
 
OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
 
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
 
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
 
本当にできるの?ミッションクリティカルシステムのクラウド移行ダイジェスト (Oracle Cloudウェビナーシリーズ: 2021年7月7日)
本当にできるの?ミッションクリティカルシステムのクラウド移行ダイジェスト (Oracle Cloudウェビナーシリーズ: 2021年7月7日)本当にできるの?ミッションクリティカルシステムのクラウド移行ダイジェスト (Oracle Cloudウェビナーシリーズ: 2021年7月7日)
本当にできるの?ミッションクリティカルシステムのクラウド移行ダイジェスト (Oracle Cloudウェビナーシリーズ: 2021年7月7日)
 
MicrosoftのOSSへの取り組み
MicrosoftのOSSへの取り組みMicrosoftのOSSへの取り組み
MicrosoftのOSSへの取り組み
 
本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...
本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...
本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...
 
Oracle APEXユーザー会の紹介
Oracle APEXユーザー会の紹介Oracle APEXユーザー会の紹介
Oracle APEXユーザー会の紹介
 
201312 scalr[oss] installation_idcf
201312 scalr[oss] installation_idcf201312 scalr[oss] installation_idcf
201312 scalr[oss] installation_idcf
 
SCALR OSS版のインストール手順のご紹介 20131204 01
SCALR OSS版のインストール手順のご紹介 20131204 01SCALR OSS版のインストール手順のご紹介 20131204 01
SCALR OSS版のインストール手順のご紹介 20131204 01
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 
20161125 Asakusa Framework Day オラクル講演資料
20161125 Asakusa Framework Day オラクル講演資料20161125 Asakusa Framework Day オラクル講演資料
20161125 Asakusa Framework Day オラクル講演資料
 
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
 
自律型データベース Oracle Autonomous Database 最新情報
自律型データベース Oracle Autonomous Database 最新情報自律型データベース Oracle Autonomous Database 最新情報
自律型データベース Oracle Autonomous Database 最新情報
 
[Japan Tech summit 2017] MAI 003
[Japan Tech summit 2017] MAI 003[Japan Tech summit 2017] MAI 003
[Japan Tech summit 2017] MAI 003
 
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送
 

Más de Cloudera Japan

Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Cloudera Japan
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsCloudera Japan
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とはCloudera Japan
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Cloudera Japan
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DMCloudera Japan
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera Japan
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelCloudera Japan
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Cloudera Japan
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方Cloudera Japan
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Cloudera Japan
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017Cloudera Japan
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechCloudera Japan
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpCloudera Japan
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera Japan
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloudera Japan
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計Cloudera Japan
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング Cloudera Japan
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSCloudera Japan
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltCloudera Japan
 

Más de Cloudera Japan (20)

Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DM
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
 

Último

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 

Último (11)

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 

機械学習の定番プラットフォームSparkの紹介

  • 2. 2 © Cloudera, Inc. All rights reserved. • Clouderaと機械学習の関わり • プラットフォーム • Apache Spark • 機械学習 on Spark • 生産性を高めるためのツール • Cloudera Data Science Workbench 本日のアジェンダ 参考資料) https://www.slideshare.net/Cloudera_jp/spark-cwt2015
  • 3. 3 © Cloudera, Inc. All rights reserved. MACHINE LEARNING IS A GROWTH ENGINE CONNECT products & services (IoT) PROTECT business DRIVE customer insights 機械学習とはデータから有益なパターンを抽出するためのアルゴリズムと手法を指す 既存のシステムを近代化するだけでなく、完全に新しいビジネスを可能にする
  • 4. 4 © Cloudera, Inc. All rights reserved. 巨大でヘテロジアスな計算 資源に簡単にアクセスでき る 機械学習のアルゴリズムは 無償で利用でき、頻繁に更 新される 手頃な価格で、任意の量、 種類のデータを保存してア クセス なぜ今なの? 破壊的なトレンドは変化のオポチュニティを生み出す CLOUD BIG DATA OPEN SOURCE
  • 5. 5 © Cloudera, Inc. All rights reserved. 進化するマーケット 不確実性とオポチュニティ 未熟なマーケット コモディティ化と過剰な 宣伝への技術的な挑戦は、 市場の定義を明らかにす る 標準的な技法はない 機械学習には一般的に受 け入れられているベスト プラクティスはない 急速に進む技術 新しい機能が定期的に登 場し、他のコストを劇的 に変える
  • 6. 6 © Cloudera, Inc. All rights reserved. AI MACHINE LEARNING DATA SCIENCE ANALYTICS "BIG DATA"
  • 7. 7 © Cloudera, Inc. All rights reserved. • 私たちはオープンプラットフォーム で、データに基づいてビジネスを進 めるためにお客様に力を与えます • お客様のデータ • オープンなアルゴリズム • どこでも実行できる • Clouderaはエンタープライズデータ サイエンスを加速します MACHINE LEARNING AT CLOUDERA Clouderaの理念
  • 8. 8 © Cloudera, Inc. All rights reserved. Clouderaのアプローチ Clouderaはデータサイエンスと機械学習をどう支援しているのか 不確実性 データのサイロ化 生産性の課題 Fast Forward Labs . Enterprise Data Hub with SDX . Data Science Workbench .
  • 9. 9 © Cloudera, Inc. All rights reserved. プラットフォーム
  • 10. 10 © Cloudera, Inc. All rights reserved. データ管理基盤上に構築される機械学習 データ、ワークフロー、メタデータ、セキュリティ、ガバナンスなどを統合 Amazon S3 Microsoft ADLS HDFS KUDU SECURITY GOVERNANCE WORKLOAD MANAGEMENT INGEST & REPLICATION DATA CATALOG Core Services Storage Services ANALYTIC DATABASE DATA SCIENCE EXTENSIBLE SERVICES OPERATIONAL DATABASE DATA ENGINEERING DATA WAREHOUSE
  • 11. 11 © Cloudera, Inc. All rights reserved. Apache Spark
  • 12. 12 © Cloudera, Inc. All rights reserved. • Apache Sparkは • 高速で汎用目的、かつ大規模データ処理用のエンジン • さまざまな異なるデータ処理のワークロードを実行できる • クラスター環境で実行できる • Apache Hadoop YARN • Apache Mesos • Spark Standalone • ローカル実行もできる Apache Spark
  • 13. 13 © Cloudera, Inc. All rights reserved. • Sparkアプリケーションの開始時: • アプリケーションを管理する「ドライ バー」という処理が起動 • データを処理する「エグゼキューター」と いう複数のワーカープロセスが起動 • YARNクラスターでは、エグゼキューターを管理 する「Application Master」プロセスが開始 • YARNの動的割り当て機能を使用すると、アプリ ケーションのライフサイクル中の処理の増加と 減少に応じて、エグゼキューターを開始、停止 できる • Sparkアプリケーションが停止すると、 これらの処理は終了する Sparkはどのように動作するのか http://spark.apache.org/docs/latest/cluster-overview.html
  • 14. 14 © Cloudera, Inc. All rights reserved. Spark スタック http://spark.apache.org/
  • 15. 15 © Cloudera, Inc. All rights reserved. Spark スタック (現在) Apache Spark Core Spark SQL Spark Streaming MLlib (OLD) (Machine learning) GraphX (graph) MLlib (New) Structured Streaming (Graph Frames) DataFrame/DataSet RDD DStream
  • 16. 16 © Cloudera, Inc. All rights reserved. • Resilient Distributed Dataset(耐障害性分散データセット) • Spark Core内でのデータ形式 • 並列で操作できる、イミュータブルで耐障害性のある要素の集合 RDD Apache Spark Core Spark SQL Spark Streaming MLlib (OLD) (Machine learning) GraphX (graph) MLlib (New) Structure d Streamin g (Graph Frames) RDD
  • 17. 17 © Cloudera, Inc. All rights reserved. • Spark SQLは構造化データを扱うためのSparkライブラリ • Spark SQLが提供するもの: • DataFrame API • SQL クエリエンジン • Catalystオプティマイザー Spark SQL Apache Spark Core Spark SQL Spark Streaming MLlib (OLD) (Machine learning) GraphX (graph) MLlib (New) Structure d Streamin g (Graph Frames)
  • 18. 18 © Cloudera, Inc. All rights reserved. • 名前付きの列に編成された、イミュータブルな分散データコレクション • RとPython (Pandas)のデータフレームに影響を受けているが、ビッグデータや データサイエンスアプリケーションをサポートするように設計されている • 構造化されているデータファイルやHiveテーブル、データベース、既存のRDD などから構築できる • オプティマイザーによる最適化 DataFrame Apache Spark Core Spark SQL Spark Streaming MLlib (OLD) (Machine learning) GraphX (graph) MLlib (New) Structure d Streamin g (Graph Frames) DataFrame
  • 19. 19 © Cloudera, Inc. All rights reserved. • Sparkで利用できる言語 • Scala • Java • Python (PySpark) • R (SparkR) • Rの代替インターフェース = sparklyr • RStudioで開発された • dplyrと互換性がある Sparkで利用できる言語
  • 20. 20 © Cloudera, Inc. All rights reserved. CDHとSPARKの 関連 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 CDH5 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 5.15 (5.16?) CDH6 6.0 6.1? CDH and Spark release history 2014 2015 2016 2017 2018 0.9 1.0 1.1 1.2 1.3 1.5 1.6 2.0 2.1 2.2 2.3 2.2
  • 21. 21 © Cloudera, Inc. All rights reserved. • Spark 2.3 • https://spark.apache.org/releases/spark-release-2-3-0.html • 例 • Support on Kubernetes • Continuous Streaming • Streaming – Streaming Joins • Image Data Support (ImageSchema) Spark 2.3 Clouderaは全ての機能を商用サポートしているわけではないことに注意 https://www.cloudera.com/documentation/spark2/latest/topics/spark2_known_issues.html
  • 22. 22 © Cloudera, Inc. All rights reserved. 例: ImageSchema
  • 23. 23 © Cloudera, Inc. All rights reserved. • Spark 2.4rc5 (2018/11/5現在) • Native Spark App in k8s (SPARK-23984, SPARK-23146, etc..) • Pandas UDF – Grouped Aggregate (SPARK-25328, etc) • Earger Evaluation (for Notebook) (SPARK-24215) • Kafka 2.0.0 (SPARK-28057, etc) • その他数多く…. Spark 2.4 (not yet released) https://github.com/apache/spark/compare/branch-2.3...v2.4.0-rc5
  • 24. 24 © Cloudera, Inc. All rights reserved. 機械学習 on Spark
  • 25. 25 © Cloudera, Inc. All rights reserved. (再掲)Spark スタック (現在) Apache Spark Core Spark SQL Spark Streaming MLlib (OLD) (Machine learning) GraphX (graph) MLlib (New) Structured Streaming (Graph Frames)
  • 26. 26 © Cloudera, Inc. All rights reserved. • Spark用のスケーラブルな機械学習ライブラリ • 非常に大規模なデータセットで動作するように設計されている • 多くのポピュラーな機械学習ライブラリの実装を含んでいる • 教師あり学習 • 教師なし学習 • 機械学習モデルの構築前にデータを準備するユーティリティーを提供 • Extraction • Transformation • Selection Spark MLlib https://spark.apache.org/docs/latest/ml-features.html
  • 27. 27 © Cloudera, Inc. All rights reserved. • MLlibは機械学習のアルゴリズムのAPIを標準化し、複数の機械学習アルゴリズ ムを単一のパイプライン、ワークフローで簡単に組み合わせることができる • パイプラインのコンセプトは、ほとんどが scikit-learn プロジェクトに影響を受 けている • DataFrameベースのMLlibとRDDベースのMLlibがある • RDDベースのMLlibは、現在 (Spark 2.0 以降)メンテナンスモード • Spark 3.0 で削除される予定 Spark MLlib (続き)
  • 28. 28 © Cloudera, Inc. All rights reserved. 例: KMeansのコード比較 (Python) http://spark.apache.org/docs/latest/mllib-clustering.html http://spark.apache.org/docs/latest/ml-clustering.html RDD based KMeans DataFrame based KMeans
  • 29. 29 © Cloudera, Inc. All rights reserved. (再掲)データ管理基盤上に構築される機械学習 Amazon S3 Microsoft ADLS HDFS KUDU SECURITY GOVERNANCE WORKLOAD MANAGEMENT INGEST & REPLICATION DATA CATALOG Core Services Storage Services ANALYTIC DATABASE DATA SCIENCE EXTENSIBLE SERVICES OPERATIONAL DATABASE DATA ENGINEERING DATA WAREHOUSE
  • 30. 30 © Cloudera, Inc. All rights reserved. CLOUDERA DATA SCIENCE WORKBENCH
  • 31. 31 © Cloudera, Inc. All rights reserved. Clouderaのアプローチ Clouderaはデータサイエンスと機械学習をどのように支援しているのか 不確実性 データのサイロ化 生産性の課題 Fast Forward Labs . Enterprise Data Hub with SDX . Data Science Workbench .
  • 32. 32 © Cloudera, Inc. All rights reserved. 機械学習用の プラットフォーム • オープンなプラット フォーム • 完全なライフサイクル • チームコラボレーション • エンタープライズ対応 • どこでも実行可能 RESEARCH | PRODUCTION LOCAL | SPARK | IMPALA DEPLOYMEN T COMPUT E OPEN SOURCE ECOSYSTEMALGORITHM S SELF-SERVICE TOOLS SOLUTIONS | USE CASESAPP S CLOUD ON-PREMISES ADL S S 3 HDF S KUD U CATALOG | SECURITY | GOVERNANCE SHARED CONTEXT
  • 33. 33 © Cloudera, Inc. All rights reserved. 課題 これらの要望のバランスをとるには DATA SCIENCE • きめ細かなデータアクセス • 柔軟性 • 好みのオープンソースツール • エラスティックなプロビジョニン グ • 計算 • ストレージ • 再現可能なリサーチ • 本番環境に向けた道すじ DATA MANAGEMENT • セキュリティ • ガバナンス • 標準化 • 低メンテナンス • 低コスト • セルフサービスアクセス
  • 34. 34 © Cloudera, Inc. All rights reserved. よくあるソリューション “好みのツールを使うことができなけれ ば…” • ラップトップにデータをコピー • データサイエンスアプライアンスにデー タをコピー • クラウドサービスにデータをコピー ← これらが問題になるのは: • 複雑なセキュリティ要件 • データガバナンスを壊す • 処理の待ち時間が加わる • コラボレーションがますます困難に • 複雑なモデル管理とデプロイ • インフラのサイロが作られてしまう
  • 35. 35 © Cloudera, Inc. All rights reserved. CLOUDERA DATASCIENCE WORKBENCH 実験環境から本番環境へと機械学習を加速する データサイエンティスト向け • 実験を高速に R、Python、あるいはScalaを 使用して、オンデマンドでの 計算資源、およびセキュアな CDHのデータにアクセス • 共同作業 チーム全体で再現可能な実験 環境を共有 • 信頼のあるデプロイ 再コーディングなしに繰り返 して本番環境で実行 IT プロフェッショナル向け • データサイエンティストを データに連れて行く リスクとサイロのコストを削 減しつつデータサイエンティ ストに自由を与える • デフォルトでセキュア 共通のセキュリティとガバナ ンスをワークロード全体で活 用 • どこでも実行 オンプレまたはクラウド
  • 36. 36 © Cloudera, Inc. All rights reserved.
  • 37. 37 © Cloudera, Inc. All rights reserved.
  • 38. 38 © Cloudera, Inc. All rights reserved.
  • 39. 39 © Cloudera, Inc. All rights reserved.
  • 40. 40 © Cloudera, Inc. All rights reserved. MODERN DATA SCIENCE ARCHITECTURE スケーラブルでオンデマンドな計算処理を備えるコンテナ化された環境 • DockerとKubernetesで構築 • 独立し、再生可能なユーザー環境 • ビッグデータ、スモールデータの両方 に対応 • ローカルの Python, R, Scala ランタイム • GPUリソースのスケジューリングと共有 • Spark, Impala, その他 CDH サービスを実行 • デフォルトでセキュア化、ガバナンス • Kerberos化されたクラスターに、簡単かつ 監査されたアクセス • Cloudera Managerでデプロイ CDH CDH Cloudera Manager gateway node(s) CDH nodes Hive, HDFS, ... CDSW CDSW ... Master ... Engine EngineEngine EngineEngine
  • 41. 41 © Cloudera, Inc. All rights reserved. ACCELERATED DEEP LEARNING WITH GPUS • 深層学習にCDSWを拡張 • GPUリソースをスケジュール、共有 • GPUでトレーニングし、CPUにデプ ロイ • オンプレまたはクラウドで動作 CDSW GPUCPU CDH CPU CDH CPU single-node training distributed training, scoring “データサイエンティストはGPUを 求めているが、私たち(管理者)に はマルチテナントが必要だ。彼らが それぞれクラウドに向かうと、高価 でありガバナンスを失ってしまう” GPU On CDH coming in C6
  • 42. 42 © Cloudera, Inc. All rights reserved. データサイエンティストチームが行うこと データを大規模に取り込む データを保存しセキュア化 分析のためにデータを綺麗 にして変換 データを調査し、オフライ ンで予測モデルを構築 モデルの評価とチューニン グ モデリングパイプラインを 開発して提供 デプロイのためにモデルを テスト、検証、および承認 バッチ、ストリーミングパ イプライン、組み込みモデ ル、APIを作成して維持 本番環境でモデルを更新 データの準備 モデルの構築 モデルのデプロイ
  • 43. 43 © Cloudera, Inc. All rights reserved. NEW: CLOUDERA DATA SCIENCE WORKBENCH 1.4 Accelerate and simplify machine learning from research to production ANALYZE DATA • Explore data securely and share insights with the team TRAIN MODELS • Run, track, and compare reproducible experiments DEPLOY APIs • Deploy and monitor models as APIs to serve predictions NEW! NEW! MANAGE SHARED RESOURCES • Provide a secure, collaborative, self-service platform for your data science teams
  • 44. 44 © Cloudera, Inc. All rights reserved. 本日のまとめ:Clouderaのアプローチ 不確実性 データのサイロ化 生産性の課題 Fast Forward Labs . Enterprise Data Hub with SDX . Data Science Workbench . 研修に興味がある方はウェブへ!受講したい方は 配布資料のディスカウントコードをご利用ください! http://jp.cloudera.com/more/training.html#?loc=JP-Tokyo