MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015

1
©
Cloudera,
Inc.
All
rights
reserved.

MapReduce
を置き換えるSpark

～ Hadoop
とSpark
の統合～
The One Platform Initiative
Doug Cutting | チーフアーキテクト | Cloudera
@cutting

2
©
Cloudera,
Inc.
All
rights
reserved.

アジェンダ
•  Apache Spark の歴史
•  Spark の優位点
•  MapReduce を置き換える Spark
•  One Platform Initiative
•  Hadoop のデータ処理理の将来

3
©
Cloudera,
Inc.
All
rights
reserved.

MapReduce は多く分野の課題に有効ですが...
さまざまな課題の解決に利利⽤用されてきましたが
•  限定的な表現⼒力力 / プログラミングの難しさ
•  設計に起因するパフォーマンスの限界
MapReduce
実⾏行行エンジン
Hive Pig Mahout SolrCrunch

4
©
Cloudera,
Inc.
All
rights
reserved.

... しかし、望むらくは
課題に応じて、改善できる別の⽅方法があります：
特定⽤用途の
システム
•  特定の課題に対して優れた解決⼒力力
•  例例: Giraph/Graphlab (グラフ処理理)、
Impala (インタラクティブ SQL)
汎⽤用化した MapReduce の機能
•  課題解決のためにより機能豊富な基盤を提供
•  例例:Hama (バルク同期並列列)、 Dryad
(Arbitrary DAG)

5
©
Cloudera,
Inc.
All
rights
reserved.

Apache Spark の登場
MapReduce より柔軟な汎⽤用処理理フレームワーク
主な特性：
•  分散メモリを使⽤用
•  データ並列列処理理のための、全有向グラフ表現
(Full Directed Graph expressions)
•  開発者のエクスペリエンスの向上
残された課題 :
•  リニアな拡張性
•  フォールトトレランス
•  データローカリティベースの処理理

6
©
Cloudera,
Inc.
All
rights
reserved.

Apache Spark
Hadoop のための柔軟なインメモリデータ処理理
導⼊入が容易易
柔軟で拡張の⾼高い
API
⾼高速なバッチおよび
ストリーム処理理
•  Scala,Java,Python向けの
API
•  対話的なシェル
•  さまざまなワークロード
の種類向けのAPI：
•  バッチ
•  ストリーミング
•  機械学習
•  グラフ
•  インメモリ処理理と
キャッシング

7
©
Cloudera,
Inc.
All
rights
reserved.

容易易な導⼊入
⽣生産性の⾼高い⾔言語をサポート
•  同⼀一の API で複数の⾔言語をネイティブに
サポート
•  Scala, Java, Python
•  コードを最⼩小限に抑えるため、
クロージャー、イテレーションなど
⼀一般的な⾔言語構造を利利⽤用
•  2~∼5倍コードを削減
Python

lines = sc.textFile(...)
lines.filter(lambda s: “ERROR” in s).count()
Scala

val lines = sc.textFile(...)
lines.filter(s => s.contains(“ERROR”)).count()
Java

JavaRDD<String> lines = sc.textFile(...);
lines.filter(new Function<String, Boolean>() {
Boolean call(String s) {
return s.contains(“error”);
}
}).count();

8
©
Cloudera,
Inc.
All
rights
reserved.

容易易な開発
インタラクティブな開発が可能
•  データサイエンティストのための
インタラクティブな探索索機能
•  「アプリケーション」の開発は不不要

•  本番稼動中のシステムでプロトタイプア
プリケーションを開発可能
percolateur:spark srowen$ ./bin/spark-shell --master local[*]
...
Welcome to
____ __
/ __/__ ___ _____/ /__
_ / _ / _ `/ __/ '_/
/___/ .__/_,_/_/ /_/_ version 1.5.0-SNAPSHOT
/_/
Using Scala version 2.10.4
(Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_51)
Type in expressions to have them evaluated.
Type :help for more information.
...
scala> val words = sc.textFile("file:/usr/share/dict/words")
...
words: org.apache.spark.rdd.RDD[String] =
MapPartitionsRDD[1] at textFile at <console>:21
scala> words.count
...
res0: Long = 235886
scala>

9
©
Cloudera,
Inc.
All
rights
reserved.

メモリの優位性を活⽤用する Spark
RDD（Resilient Distributed Dataset)
•  分散したフォールトトレラントなキャッシュにデータを保存する、
メモリキャッシュレイヤ
•  データセットがメモリに収まらない場合、ディスクにフォールバック
•  安定的なストレージ内でデータを並列列変換して⽣生成
•  データのリネージ（データの系統）の概念念でフォールトトレランスを提供

10
©
Cloudera,
Inc.
All
rights
reserved.

Spark のエコシステムと Hadoop
Spark
Streaming
MLlib SparkSQL GraphX Data-‐‑‒frames SparkR
ストレージ
HDFS, HBase
リソース管理理
YARN
Spark Impala MR OthersSearch

11
©
Cloudera,
Inc.
All
rights
reserved.

Cloudera が Spark の動性を牽引
2013 2014 2015 2016
Spark の可能性
を早くから認識識
CDH 4.4 で
Spark の出荷と
サポートを開始
YARN 連携に
Spark を追加
Spark を標準処理理エンジン
にする取り組みを発表
初のSpark
トレーニングを開始
セキュリティ
統合を追加
Cloudera のエンジニアが
Oʼ’Reilly Spark を出版
パフォーマンス、利利便便性、
エンタープライズ機能の
向上を牽引

12
©
Cloudera,
Inc.
All
rights
reserved.

Cloudera における Spark
•  ClouderaはSparkを最初に出荷、サポートした Hadoop ベンダー
•  SparkはCloudera プラットフォームに完全統合
•  共有データ、メタデータ、リソース管理理、アドミニストレーション、セキュリティおよびガバナンス
•  総合的なビッグデータプラットフォームのための、特定⽤用途の分析ツールを補完
•  Cloudera はSpark のトレーニングを提供している最初の Hadoop ベンダー
•  他のすべてのベンダーよりも数多くのお客様をトレーニング
•  もっとも著名なトレーニングコース
•  Cloudera は第2位の競合相⼿手の5倍のエンジニアリングリソースを保有
•  最⼤大のコミッターを抱え、改善に最⼤大の貢献
•  ⼗十分にトレーニングされ、Spark ユースケースの幅広い導⼊入専⾨門知識識を有する、世界中のスタッフ

13
©
Cloudera,
Inc.
All
rights
reserved.

Cloudera の Spark エンジニアリングに対するコミットメント
Cloudera
67%
Intel
17%
Hortonworks
17%
Hadoop ディストリビューション別 Spark のコミッター*
＊ IBM と MapR の
コミッターはゼロ
Hadoop ディストリビューター別パッチ提供数
Cloudera,
370

Hortonworks,
4

IBM,
12

MapR,
1

Intel,
400

14
©
Cloudera,
Inc.
All
rights
reserved.

Cloudera のカスタマー
•  他のベンダーのすべてを合わせた数以上のお客様環境でSparkが稼働
•  150 以上のお客様
•  800 ノードもの Spark クラスター
•  さまざまな業界で多様なユースケース
•  調査のパーソナライズ
•  ゲノム研究
•  保険のモデル作成
•  広告の最適化
•  疾患状況の予測モデリング

15
©
Cloudera,
Inc.
All
rights
reserved.

Cloudera カスタマーの適⽤用事例例
Core Spark Spark Streaming
•  ポートフォリオリスク分析
•  ETL パイプラインの⾼高速化
•  20年年超の株式データ⾦金金融
サービス
ヘルス
•  ⼈人間の遺伝⼦子中における病原
遺伝⼦子の特定
•  ヘルスケアデータセットから
Jaccard 指数を計算
ERP
•  光学⽂文字認識識と紙幣分類
•  傾向分析
•  ⽂文書分類 (LDA)
•  不不正⾏行行為分析データ
サービス
1010
•  オンライン不不正⾏行行為検知
⾦金金融
サービス
ヘルス
•  敗⾎血症インシデント予測
⼩小売
•  オンラインレコメンデーションシステ
•  リアルタイム在庫管理理
広告
•  リアルタイム広告パフォーマンス分析

17
©
Cloudera,
Inc.
All
rights
reserved.

コミュニティイニシャティブ：Spark が MapReduce に取って替わる
ステージ1
• Crunch on Spark
• Search on Spark
ステージ2
• Hive on Spark (beta)
• Spark on HBase (beta)
ステージ3
• Pig on Spark (alpha)
• Sqoop on Spark
Cloudera が、コンポーネントを Spark に移植するコミュニティの開発を牽引

18
©
Cloudera,
Inc.
All
rights
reserved.

Spark と Hadoop の統合
One Platform Initiative の投資分野
管理理
Hadoop ネイティブのリソース
管理理機能を利利⽤用
セキュリティ
Hadoop のセキュリティ以上の
機能を完全にサポート
拡張性
1万ノード以上のクラスターを可能に
ストリーミング
⼀一般的なストリーミング処理理
ワークロードの 80% をサーポート

19
©
Cloudera,
Inc.
All
rights
reserved.

Hadoop のデータ処理理の将来
特定⽬目的⽤用途のエンジンが Spark を補完
汎⽤用データ処理理
Spark
⾼高速バッチ処理理、機械学習、
ストリーミング処理理
分析
データベース
Impala
低レイテンシLow-‐‑‒Latency
⼤大規模並列列クエリ
全⽂文検索索 Solr
テキストデータのクエリ
オンディスク処理理
MapReduce
超⼤大規模なジョブ、極めてディスク
I/O インテンシブなジョブ
共有 :
•  データストレージ
•  メタデータ
•  リソース管理理
•  アドミニ
ストレーション
•  セキュリティ
•  ガバナンス

20
©
Cloudera,
Inc.
All
rights
reserved.

実業務のために構築された Cloudera
Hadoop が提供：
•  無制限のデータを1か所から
•  統合マルチフレームワークデータアクセス
Cloudera が提供：
•  優れたパフォーマンス
•  エンタープライズ向けセキュリティ機能
•  データ管理理機能
•  シンプルな運⽤用管理理機能
セキュリティと運⽤用管理理
無制限のストレージ
プロセスディスカバーモデルサーブ
柔軟な構築
オンプレミス
アプライアンス
エンジニアドシステム
パブリッククラウド
プライベートクラウド
ハイブリッドクラウド
最新のデータプラットフォームにエンタープライズの要件をプラス

21
©
Cloudera,
Inc.
All
rights
reserved.

Spark に関するリソース
•  Spark を学ぶ
•  Oʼ’Reilly Advanced Analytics with Spark eBook (Clouderaの社員が執筆)
•  Cloudera Developer Blog
•  cloudera.com/spark
•  トレーニング
•  Cloudera Spark Training
•  試しに使ってみる
•  Cloudera Live Spark Tutorial

MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (17)

Similar a MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015

Similar a MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015 (20)

Más de Cloudera Japan

Más de Cloudera Japan (8)

Último

Último (9)

MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015

Notas del editor