SlideShare una empresa de Scribd logo
1 de 22
Descargar para leer sin conexión
1	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
MapReduce	
  を置き換えるSpark	
  
~ Hadoop	
  とSpark	
  の統合 ~
The  One  Platform  Initiative
Doug  Cutting  |  チーフアーキテクト  |  Cloudera
@cutting
2	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
アジェンダ
•  Apache  Spark  の歴史
•  Spark  の優位点
•  MapReduce  を置き換える  Spark  
•  One  Platform  Initiative
•  Hadoop  のデータ処理理の将来
3	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
MapReduce  は多く分野の課題に有効ですが...
さまざまな課題の解決に利利⽤用されてきましたが
•  限定的な表現⼒力力  /  プログラミングの難しさ
•  設計に起因するパフォーマンスの限界
MapReduce  
実⾏行行エンジン
Hive Pig Mahout SolrCrunch
4	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
...  しかし、望むらくは
課題に応じて、改善できる別の⽅方法があります:
特定⽤用途の  
システム
•  特定の課題に対して優れた解決⼒力力
•  例例:  Giraph/Graphlab  (グラフ処理理)、  
Impala  (インタラクティブ  SQL)
汎⽤用化した  MapReduce  の機能
•  課題解決のためにより機能豊富な基盤を提供
•  例例:Hama  (バルク同期並列列)、  Dryad  
(Arbitrary  DAG)
5	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Apache  Spark  の登場
MapReduce  より柔軟な  汎⽤用処理理フレームワーク
主な特性:
•  分散メモリを使⽤用
•  データ並列列処理理のための、全有向グラフ表現
(Full  Directed  Graph  expressions)
•  開発者のエクスペリエンスの向上
残された課題  :
•  リニアな拡張性
•  フォールトトレランス
•  データローカリティベースの処理理
6	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Apache  Spark
Hadoop  のための柔軟なインメモリデータ処理理
導⼊入が容易易
柔軟で拡張の⾼高い
API
⾼高速なバッチおよび
ストリーム処理理
•  Scala,Java,Python向けの  
API
•  対話的なシェル
•  さまざまなワークロード
の種類向けのAPI:
•  バッチ  
•  ストリーミング
•  機械学習
•  グラフ
•  インメモリ処理理と
キャッシング
7	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
容易易な導⼊入
⽣生産性の⾼高い⾔言語をサポート
•  同⼀一の  API  で複数の⾔言語をネイティブに
サポート
•  Scala,  Java,  Python
•  コードを最⼩小限に抑えるため、
クロージャー、イテレーションなど
⼀一般的な⾔言語構造を利利⽤用
•  2~∼5倍  コードを削減
Python	
  
lines = sc.textFile(...)
lines.filter(lambda s: “ERROR” in s).count()
Scala	
  
val lines = sc.textFile(...)
lines.filter(s => s.contains(“ERROR”)).count()
Java	
  
JavaRDD<String> lines = sc.textFile(...);
lines.filter(new Function<String, Boolean>() {
Boolean call(String s) {
return s.contains(“error”);
}
}).count();
8	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
容易易な開発
インタラクティブな開発が可能
•  データサイエンティストのための
インタラクティブな探索索機能
•  「アプリケーション」の開発は不不要	
  
•  本番稼動中のシステムでプロトタイプア
プリケーションを開発可能
percolateur:spark srowen$ ./bin/spark-shell --master local[*]
...
Welcome to
____ __
/ __/__ ___ _____/ /__
_ / _ / _ `/ __/ '_/
/___/ .__/_,_/_/ /_/_ version 1.5.0-SNAPSHOT
/_/
Using Scala version 2.10.4
(Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_51)
Type in expressions to have them evaluated.
Type :help for more information.
...
scala> val words = sc.textFile("file:/usr/share/dict/words")
...
words: org.apache.spark.rdd.RDD[String] =
MapPartitionsRDD[1] at textFile at <console>:21
scala> words.count
...
res0: Long = 235886
scala>
9	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
メモリの優位性を活⽤用する  Spark
RDD(Resilient  Distributed  Dataset)
•  分散したフォールトトレラントなキャッシュにデータを保存する、
メモリキャッシュレイヤ
•  データセットがメモリに収まらない場合、ディスクにフォールバック
•  安定的なストレージ内でデータを並列列変換して⽣生成
•  データのリネージ(データの系統)の概念念でフォールトトレランスを提供
10	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Spark  のエコシステムと  Hadoop
Spark  
Streaming
MLlib SparkSQL GraphX Data-‐‑‒frames SparkR
ストレージ
HDFS,  HBase
リソース管理理
YARN
Spark Impala MR OthersSearch
11	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera  が  Spark  の動性を牽引
2013 2014 2015 2016
Spark  の可能性
を早くから認識識
CDH  4.4  で
Spark  の出荷と
サポートを開始
YARN  連携に  
Spark  を追加
Spark  を標準処理理エンジン
にする取り組みを発表
初のSpark
トレーニングを開始
セキュリティ
統合を追加
Cloudera  のエンジニアが
Oʼ’Reilly  Spark  を出版
パフォーマンス、利利便便性、
エンタープライズ機能の
向上を牽引
12	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera  における  Spark
•  ClouderaはSparkを最初に出荷、サポートした  Hadoop  ベンダー
•  SparkはCloudera  プラットフォームに完全統合
•  共有データ、メタデータ、リソース管理理、アドミニストレーション、セキュリティおよびガバナンス
•  総合的なビッグデータプラットフォームのための、特定⽤用途の分析ツールを補完
•  Cloudera  はSpark  のトレーニングを提供している最初の  Hadoop  ベンダー
•  他のすべてのベンダーよりも数多くのお客様をトレーニング
•  もっとも著名なトレーニングコース
•  Cloudera  は第2位の競合相⼿手の5倍のエンジニアリングリソースを保有
•  最⼤大のコミッターを抱え、改善に最⼤大の貢献
•  ⼗十分にトレーニングされ、Spark  ユースケースの幅広い導⼊入専⾨門知識識を有する、世界中のスタッフ
13	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera  の  Spark  エンジニアリングに対するコミットメント
Cloudera
67%
Intel
17%
Hortonworks
17%
Hadoop  ディストリビューション別  Spark  のコミッター*
*  IBM  と  MapR  の
コミッターはゼロ
Hadoop  ディストリビューター別  パッチ提供数
Cloudera,	
  370	
  
Hortonworks,	
  4	
  
IBM,	
  12	
  
MapR,	
  1	
  
Intel,	
  400	
  
14	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera  のカスタマー
•  他のベンダーのすべてを合わせた数以上のお客様環境でSparkが稼働
•  150  以上のお客様
•  800  ノードもの  Spark  クラスター
•  さまざまな業界で多様なユースケース
•  調査のパーソナライズ
•  ゲノム研究
•  保険のモデル作成
•  広告の最適化
•  疾患状況の予測モデリング
15	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera  カスタマーの適⽤用事例例
Core  Spark Spark  Streaming
•  ポートフォリオリスク分析
•  ETL  パイプラインの⾼高速化
•  20年年超の株式データ⾦金金融
サービス
ヘルス
•  ⼈人間の遺伝⼦子中における病原
遺伝⼦子の特定
•  ヘルスケアデータセットから
Jaccard  指数を計算
ERP
•  光学⽂文字認識識と紙幣分類
•  傾向分析  
•  ⽂文書分類  (LDA)
•  不不正⾏行行為分析データ
サービス
1010
•  オンライン不不正⾏行行為検知
⾦金金融
サービス
ヘルス
•  敗⾎血症インシデント予測
⼩小売
•  オンラインレコメンデーションシステ
•  リアルタイム在庫管理理
広告
•  リアルタイム広告パフォーマンス分析
16	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Spark  が  MapReduce  を置き換える
Hadoop  の標準実⾏行行エンジンへ
17	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
コミュニティイニシャティブ:Spark  が  MapReduce  に取って替わる
ステージ1
• Crunch  on  Spark
• Search  on  Spark
ステージ2
• Hive  on  Spark  (beta)
• Spark  on  HBase  (beta)
ステージ3
• Pig  on  Spark  (alpha)
• Sqoop  on  Spark
Cloudera  が、コンポーネントを  Spark  に移植するコミュニティの開発を牽引
18	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Spark  と  Hadoop  の統合
One  Platform  Initiative  の投資分野
管理理
Hadoop  ネイティブのリソース
管理理機能を利利⽤用
セキュリティ
Hadoop  のセキュリティ以上の
機能を完全にサポート
拡張性
1万ノード以上のクラスターを可能に
ストリーミング
⼀一般的なストリーミング処理理
ワークロードの  80%  をサーポート
19	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Hadoop  のデータ処理理の将来
特定⽬目的⽤用途のエンジンが  Spark  を補完
汎⽤用データ処理理
Spark
⾼高速バッチ処理理、機械学習、
ストリーミング処理理
分析
データベース
Impala
低レイテンシLow-‐‑‒Latency
⼤大規模並列列クエリ
全⽂文検索索    Solr  
テキストデータのクエリ
オンディスク処理理
MapReduce
超⼤大規模なジョブ、極めてディスク  
I/O  インテンシブなジョブ
共有  :
•  データストレージ
•  メタデータ
•  リソース管理理
•  アドミニ
ストレーション
•  セキュリティ
•  ガバナンス
20	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
実業務のために構築された  Cloudera
Hadoop  が提供:
•  無制限のデータを1か所から
•  統合マルチフレームワークデータアクセス
Cloudera  が提供:
•  優れたパフォーマンス
•  エンタープライズ向けセキュリティ機能
•  データ管理理機能
•  シンプルな運⽤用管理理機能
セキュリティと運⽤用管理理
無制限のストレージ
プロセス ディスカバー モデル サーブ
柔軟な構築
オンプレミス
アプライアンス
エンジニアドシステム
パブリッククラウド
プライベートクラウド
ハイブリッドクラウド
最新のデータプラットフォームにエンタープライズの要件をプラス
21	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Spark  に関するリソース
•  Spark  を学ぶ
•  Oʼ’Reilly  Advanced  Analytics  with  Spark  eBook  (Clouderaの社員が執筆)
•  Cloudera  Developer  Blog
•  cloudera.com/spark  
•  トレーニング
•  Cloudera  Spark  Training
•  試しに使ってみる
•  Cloudera  Live  Spark  Tutorial
22	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
ありがとうございました
@cuMng	
  

Más contenido relacionado

La actualidad más candente

Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015Cloudera Japan
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方Cloudera Japan
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltCloudera Japan
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006Cloudera Japan
 
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化Takahiro Moteki
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSCloudera Japan
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Cloudera Japan
 
HBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpHBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpCloudera Japan
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 
HBase活用事例 #hbase_ca
HBase活用事例 #hbase_caHBase活用事例 #hbase_ca
HBase活用事例 #hbase_caCloudera Japan
 
認証/認可が実現する安全で高速分析可能な分析処理基盤
認証/認可が実現する安全で高速分析可能な分析処理基盤認証/認可が実現する安全で高速分析可能な分析処理基盤
認証/認可が実現する安全で高速分析可能な分析処理基盤Masahiro Kiura
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpCloudera Japan
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Cloudera Japan
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介Cloudera Japan
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計Cloudera Japan
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014Cloudera Japan
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Cloudera Japan
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Cloudera Japan
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DMCloudera Japan
 
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015Cloudera Japan
 

La actualidad más candente (20)

Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
 
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
HBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpHBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejp
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 
HBase活用事例 #hbase_ca
HBase活用事例 #hbase_caHBase活用事例 #hbase_ca
HBase活用事例 #hbase_ca
 
認証/認可が実現する安全で高速分析可能な分析処理基盤
認証/認可が実現する安全で高速分析可能な分析処理基盤認証/認可が実現する安全で高速分析可能な分析処理基盤
認証/認可が実現する安全で高速分析可能な分析処理基盤
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DM
 
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
 

Destacado

Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015Cloudera Japan
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera Japan
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltImpala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltCloudera Japan
 
基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015Cloudera Japan
 
Hadoopの標準GUI Hueの最新情報2
Hadoopの標準GUI Hueの最新情報2Hadoopの標準GUI Hueの最新情報2
Hadoopの標準GUI Hueの最新情報2Cloudera Japan
 
Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Cloudera Japan
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015Cloudera Japan
 
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのsparkRyuji Tamagawa
 
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015Cloudera Japan
 
Hadoopことはじめ
HadoopことはじめHadoopことはじめ
HadoopことはじめKatsunori Kanda
 
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Manager 5 (hadoop運用)  #cwt2013Cloudera Manager 5 (hadoop運用)  #cwt2013
Cloudera Manager 5 (hadoop運用) #cwt2013Cloudera Japan
 
Hadoop Operations #cwt2013
Hadoop Operations #cwt2013Hadoop Operations #cwt2013
Hadoop Operations #cwt2013Cloudera Japan
 
ビッグじゃなくても使えるSpark Streaming
ビッグじゃなくても使えるSpark Streamingビッグじゃなくても使えるSpark Streaming
ビッグじゃなくても使えるSpark Streamingchibochibo
 
Apache Sparkについて
Apache SparkについてApache Sparkについて
Apache SparkについてBrainPad Inc.
 

Destacado (17)

Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015
 
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltImpala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
 
基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015
 
Hadoopの標準GUI Hueの最新情報2
Hadoopの標準GUI Hueの最新情報2Hadoopの標準GUI Hueの最新情報2
Hadoopの標準GUI Hueの最新情報2
 
Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Evolution of Impala #hcj2014
Evolution of Impala #hcj2014
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
 
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
 
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
 
Hadoopことはじめ
HadoopことはじめHadoopことはじめ
Hadoopことはじめ
 
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Manager 5 (hadoop運用)  #cwt2013Cloudera Manager 5 (hadoop運用)  #cwt2013
Cloudera Manager 5 (hadoop運用) #cwt2013
 
Hadoop Operations #cwt2013
Hadoop Operations #cwt2013Hadoop Operations #cwt2013
Hadoop Operations #cwt2013
 
Apache Sparkの紹介
Apache Sparkの紹介Apache Sparkの紹介
Apache Sparkの紹介
 
ビッグじゃなくても使えるSpark Streaming
ビッグじゃなくても使えるSpark Streamingビッグじゃなくても使えるSpark Streaming
ビッグじゃなくても使えるSpark Streaming
 
Apache Sparkについて
Apache SparkについてApache Sparkについて
Apache Sparkについて
 

Similar a MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015

Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)NTT DATA OSS Professional Services
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例terurou
 
Spark on sql server?
Spark on sql server?Spark on sql server?
Spark on sql server?Oda Shinsuke
 
[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...
[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...
[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...Insight Technology, Inc.
 
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係datastaxjp
 
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~decode2016
 
地に足がついたクラウドのお話
地に足がついたクラウドのお話地に足がついたクラウドのお話
地に足がついたクラウドのお話Toshiaki Baba
 
20180217 hackertackle geode
20180217 hackertackle geode20180217 hackertackle geode
20180217 hackertackle geodeMasaki Yamakawa
 
Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会Dai Utsui
 
201312 scalr[oss] installation_idcf
201312 scalr[oss] installation_idcf201312 scalr[oss] installation_idcf
201312 scalr[oss] installation_idcfIDC Frontier
 
SCALR OSS版のインストール手順のご紹介 20131204 01
SCALR OSS版のインストール手順のご紹介 20131204 01SCALR OSS版のインストール手順のご紹介 20131204 01
SCALR OSS版のインストール手順のご紹介 20131204 01Haruhiko KAJIKAWA
 
Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析Tanaka Yuichi
 
エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]
エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]
エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]オラクルエンジニア通信
 
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなす
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなすMapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなす
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなすMapR Technologies Japan
 
AIIT学生会主催勉強会 クラウドのお話
AIIT学生会主催勉強会 クラウドのお話AIIT学生会主催勉強会 クラウドのお話
AIIT学生会主催勉強会 クラウドのお話Toshiaki Baba
 
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...NTT DATA Technology & Innovation
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎Insight Technology, Inc.
 
Open stack reference architecture v1 2
Open stack reference architecture v1 2Open stack reference architecture v1 2
Open stack reference architecture v1 2Dell TechCenter Japan
 
SparkやBigQueryなどを用いた モバイルゲーム分析環境
SparkやBigQueryなどを用いたモバイルゲーム分析環境SparkやBigQueryなどを用いたモバイルゲーム分析環境
SparkやBigQueryなどを用いた モバイルゲーム分析環境yuichi_komatsu
 

Similar a MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015 (20)

Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
 
Spark on sql server?
Spark on sql server?Spark on sql server?
Spark on sql server?
 
[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...
[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...
[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...
 
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
 
Apache spark 2.3 and beyond
Apache spark 2.3 and beyondApache spark 2.3 and beyond
Apache spark 2.3 and beyond
 
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
 
地に足がついたクラウドのお話
地に足がついたクラウドのお話地に足がついたクラウドのお話
地に足がついたクラウドのお話
 
20180217 hackertackle geode
20180217 hackertackle geode20180217 hackertackle geode
20180217 hackertackle geode
 
Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会
 
201312 scalr[oss] installation_idcf
201312 scalr[oss] installation_idcf201312 scalr[oss] installation_idcf
201312 scalr[oss] installation_idcf
 
SCALR OSS版のインストール手順のご紹介 20131204 01
SCALR OSS版のインストール手順のご紹介 20131204 01SCALR OSS版のインストール手順のご紹介 20131204 01
SCALR OSS版のインストール手順のご紹介 20131204 01
 
Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析
 
エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]
エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]
エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]
 
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなす
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなすMapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなす
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなす
 
AIIT学生会主催勉強会 クラウドのお話
AIIT学生会主催勉強会 クラウドのお話AIIT学生会主催勉強会 クラウドのお話
AIIT学生会主催勉強会 クラウドのお話
 
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
 
Open stack reference architecture v1 2
Open stack reference architecture v1 2Open stack reference architecture v1 2
Open stack reference architecture v1 2
 
SparkやBigQueryなどを用いた モバイルゲーム分析環境
SparkやBigQueryなどを用いたモバイルゲーム分析環境SparkやBigQueryなどを用いたモバイルゲーム分析環境
SparkやBigQueryなどを用いた モバイルゲーム分析環境
 

Más de Cloudera Japan

Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Cloudera Japan
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsCloudera Japan
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とはCloudera Japan
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera Japan
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelCloudera Japan
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017Cloudera Japan
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechCloudera Japan
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 

Más de Cloudera Japan (8)

Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 

Último

SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 

Último (9)

SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 

MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015

  • 1. 1  ©  Cloudera,  Inc.  All  rights  reserved.   MapReduce  を置き換えるSpark   ~ Hadoop  とSpark  の統合 ~ The  One  Platform  Initiative Doug  Cutting  |  チーフアーキテクト  |  Cloudera @cutting
  • 2. 2  ©  Cloudera,  Inc.  All  rights  reserved.   アジェンダ •  Apache  Spark  の歴史 •  Spark  の優位点 •  MapReduce  を置き換える  Spark   •  One  Platform  Initiative •  Hadoop  のデータ処理理の将来
  • 3. 3  ©  Cloudera,  Inc.  All  rights  reserved.   MapReduce  は多く分野の課題に有効ですが... さまざまな課題の解決に利利⽤用されてきましたが •  限定的な表現⼒力力  /  プログラミングの難しさ •  設計に起因するパフォーマンスの限界 MapReduce   実⾏行行エンジン Hive Pig Mahout SolrCrunch
  • 4. 4  ©  Cloudera,  Inc.  All  rights  reserved.   ...  しかし、望むらくは 課題に応じて、改善できる別の⽅方法があります: 特定⽤用途の   システム •  特定の課題に対して優れた解決⼒力力 •  例例:  Giraph/Graphlab  (グラフ処理理)、   Impala  (インタラクティブ  SQL) 汎⽤用化した  MapReduce  の機能 •  課題解決のためにより機能豊富な基盤を提供 •  例例:Hama  (バルク同期並列列)、  Dryad   (Arbitrary  DAG)
  • 5. 5  ©  Cloudera,  Inc.  All  rights  reserved.   Apache  Spark  の登場 MapReduce  より柔軟な  汎⽤用処理理フレームワーク 主な特性: •  分散メモリを使⽤用 •  データ並列列処理理のための、全有向グラフ表現 (Full  Directed  Graph  expressions) •  開発者のエクスペリエンスの向上 残された課題  : •  リニアな拡張性 •  フォールトトレランス •  データローカリティベースの処理理
  • 6. 6  ©  Cloudera,  Inc.  All  rights  reserved.   Apache  Spark Hadoop  のための柔軟なインメモリデータ処理理 導⼊入が容易易 柔軟で拡張の⾼高い API ⾼高速なバッチおよび ストリーム処理理 •  Scala,Java,Python向けの   API •  対話的なシェル •  さまざまなワークロード の種類向けのAPI: •  バッチ   •  ストリーミング •  機械学習 •  グラフ •  インメモリ処理理と キャッシング
  • 7. 7  ©  Cloudera,  Inc.  All  rights  reserved.   容易易な導⼊入 ⽣生産性の⾼高い⾔言語をサポート •  同⼀一の  API  で複数の⾔言語をネイティブに サポート •  Scala,  Java,  Python •  コードを最⼩小限に抑えるため、 クロージャー、イテレーションなど ⼀一般的な⾔言語構造を利利⽤用 •  2~∼5倍  コードを削減 Python   lines = sc.textFile(...) lines.filter(lambda s: “ERROR” in s).count() Scala   val lines = sc.textFile(...) lines.filter(s => s.contains(“ERROR”)).count() Java   JavaRDD<String> lines = sc.textFile(...); lines.filter(new Function<String, Boolean>() { Boolean call(String s) { return s.contains(“error”); } }).count();
  • 8. 8  ©  Cloudera,  Inc.  All  rights  reserved.   容易易な開発 インタラクティブな開発が可能 •  データサイエンティストのための インタラクティブな探索索機能 •  「アプリケーション」の開発は不不要   •  本番稼動中のシステムでプロトタイプア プリケーションを開発可能 percolateur:spark srowen$ ./bin/spark-shell --master local[*] ... Welcome to ____ __ / __/__ ___ _____/ /__ _ / _ / _ `/ __/ '_/ /___/ .__/_,_/_/ /_/_ version 1.5.0-SNAPSHOT /_/ Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_51) Type in expressions to have them evaluated. Type :help for more information. ... scala> val words = sc.textFile("file:/usr/share/dict/words") ... words: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:21 scala> words.count ... res0: Long = 235886 scala>
  • 9. 9  ©  Cloudera,  Inc.  All  rights  reserved.   メモリの優位性を活⽤用する  Spark RDD(Resilient  Distributed  Dataset) •  分散したフォールトトレラントなキャッシュにデータを保存する、 メモリキャッシュレイヤ •  データセットがメモリに収まらない場合、ディスクにフォールバック •  安定的なストレージ内でデータを並列列変換して⽣生成 •  データのリネージ(データの系統)の概念念でフォールトトレランスを提供
  • 10. 10  ©  Cloudera,  Inc.  All  rights  reserved.   Spark  のエコシステムと  Hadoop Spark   Streaming MLlib SparkSQL GraphX Data-‐‑‒frames SparkR ストレージ HDFS,  HBase リソース管理理 YARN Spark Impala MR OthersSearch
  • 11. 11  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  が  Spark  の動性を牽引 2013 2014 2015 2016 Spark  の可能性 を早くから認識識 CDH  4.4  で Spark  の出荷と サポートを開始 YARN  連携に   Spark  を追加 Spark  を標準処理理エンジン にする取り組みを発表 初のSpark トレーニングを開始 セキュリティ 統合を追加 Cloudera  のエンジニアが Oʼ’Reilly  Spark  を出版 パフォーマンス、利利便便性、 エンタープライズ機能の 向上を牽引
  • 12. 12  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  における  Spark •  ClouderaはSparkを最初に出荷、サポートした  Hadoop  ベンダー •  SparkはCloudera  プラットフォームに完全統合 •  共有データ、メタデータ、リソース管理理、アドミニストレーション、セキュリティおよびガバナンス •  総合的なビッグデータプラットフォームのための、特定⽤用途の分析ツールを補完 •  Cloudera  はSpark  のトレーニングを提供している最初の  Hadoop  ベンダー •  他のすべてのベンダーよりも数多くのお客様をトレーニング •  もっとも著名なトレーニングコース •  Cloudera  は第2位の競合相⼿手の5倍のエンジニアリングリソースを保有 •  最⼤大のコミッターを抱え、改善に最⼤大の貢献 •  ⼗十分にトレーニングされ、Spark  ユースケースの幅広い導⼊入専⾨門知識識を有する、世界中のスタッフ
  • 13. 13  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  の  Spark  エンジニアリングに対するコミットメント Cloudera 67% Intel 17% Hortonworks 17% Hadoop  ディストリビューション別  Spark  のコミッター* *  IBM  と  MapR  の コミッターはゼロ Hadoop  ディストリビューター別  パッチ提供数 Cloudera,  370   Hortonworks,  4   IBM,  12   MapR,  1   Intel,  400  
  • 14. 14  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  のカスタマー •  他のベンダーのすべてを合わせた数以上のお客様環境でSparkが稼働 •  150  以上のお客様 •  800  ノードもの  Spark  クラスター •  さまざまな業界で多様なユースケース •  調査のパーソナライズ •  ゲノム研究 •  保険のモデル作成 •  広告の最適化 •  疾患状況の予測モデリング
  • 15. 15  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  カスタマーの適⽤用事例例 Core  Spark Spark  Streaming •  ポートフォリオリスク分析 •  ETL  パイプラインの⾼高速化 •  20年年超の株式データ⾦金金融 サービス ヘルス •  ⼈人間の遺伝⼦子中における病原 遺伝⼦子の特定 •  ヘルスケアデータセットから Jaccard  指数を計算 ERP •  光学⽂文字認識識と紙幣分類 •  傾向分析   •  ⽂文書分類  (LDA) •  不不正⾏行行為分析データ サービス 1010 •  オンライン不不正⾏行行為検知 ⾦金金融 サービス ヘルス •  敗⾎血症インシデント予測 ⼩小売 •  オンラインレコメンデーションシステ •  リアルタイム在庫管理理 広告 •  リアルタイム広告パフォーマンス分析
  • 16. 16  ©  Cloudera,  Inc.  All  rights  reserved.   Spark  が  MapReduce  を置き換える Hadoop  の標準実⾏行行エンジンへ
  • 17. 17  ©  Cloudera,  Inc.  All  rights  reserved.   コミュニティイニシャティブ:Spark  が  MapReduce  に取って替わる ステージ1 • Crunch  on  Spark • Search  on  Spark ステージ2 • Hive  on  Spark  (beta) • Spark  on  HBase  (beta) ステージ3 • Pig  on  Spark  (alpha) • Sqoop  on  Spark Cloudera  が、コンポーネントを  Spark  に移植するコミュニティの開発を牽引
  • 18. 18  ©  Cloudera,  Inc.  All  rights  reserved.   Spark  と  Hadoop  の統合 One  Platform  Initiative  の投資分野 管理理 Hadoop  ネイティブのリソース 管理理機能を利利⽤用 セキュリティ Hadoop  のセキュリティ以上の 機能を完全にサポート 拡張性 1万ノード以上のクラスターを可能に ストリーミング ⼀一般的なストリーミング処理理 ワークロードの  80%  をサーポート
  • 19. 19  ©  Cloudera,  Inc.  All  rights  reserved.   Hadoop  のデータ処理理の将来 特定⽬目的⽤用途のエンジンが  Spark  を補完 汎⽤用データ処理理 Spark ⾼高速バッチ処理理、機械学習、 ストリーミング処理理 分析 データベース Impala 低レイテンシLow-‐‑‒Latency ⼤大規模並列列クエリ 全⽂文検索索    Solr   テキストデータのクエリ オンディスク処理理 MapReduce 超⼤大規模なジョブ、極めてディスク   I/O  インテンシブなジョブ 共有  : •  データストレージ •  メタデータ •  リソース管理理 •  アドミニ ストレーション •  セキュリティ •  ガバナンス
  • 20. 20  ©  Cloudera,  Inc.  All  rights  reserved.   実業務のために構築された  Cloudera Hadoop  が提供: •  無制限のデータを1か所から •  統合マルチフレームワークデータアクセス Cloudera  が提供: •  優れたパフォーマンス •  エンタープライズ向けセキュリティ機能 •  データ管理理機能 •  シンプルな運⽤用管理理機能 セキュリティと運⽤用管理理 無制限のストレージ プロセス ディスカバー モデル サーブ 柔軟な構築 オンプレミス アプライアンス エンジニアドシステム パブリッククラウド プライベートクラウド ハイブリッドクラウド 最新のデータプラットフォームにエンタープライズの要件をプラス
  • 21. 21  ©  Cloudera,  Inc.  All  rights  reserved.   Spark  に関するリソース •  Spark  を学ぶ •  Oʼ’Reilly  Advanced  Analytics  with  Spark  eBook  (Clouderaの社員が執筆) •  Cloudera  Developer  Blog •  cloudera.com/spark   •  トレーニング •  Cloudera  Spark  Training •  試しに使ってみる •  Cloudera  Live  Spark  Tutorial
  • 22. 22  ©  Cloudera,  Inc.  All  rights  reserved.   ありがとうございました @cuMng  

Notas del editor

  1. A bit like Haiku: Limited expressivity But can be used to approach diverse problem domains
  2. * MapReduce struggles from performance optimization for individual systems because of its design Google has used both techniques in-house quite a bit and the future will contain both MPI predates MR significantly Special purpose systems to solve one problem domain well. Ex: Giraph / Graphlab (graph processing), Impala (interactive SQL) Generalize the capabilities of MapReduce to provide a richer foundation to solve problems. Ex: MPI, Hama (BSP), Dryad (arbitrary DAGs)
  3. Interactive exploration of data for data scientists – no need to develop “applications” Developers can prototype application on live system as they build application
  4. Modules Spark Core (batch processing) Spark Streaming (stream processing) MLlib (machine learning) GraphX (graph processing - Alpha)
  5. Not just bundling another component
  6. Cloudera Spark Committers: 4 Intel (our close partner): 1 Hortonworks: 1 IBM: 0 MapR: 0 8 full-time engineers working on Spark Contributed over 370 patches and 43,000 lines of code to Spark Compare to Hortonworks (4), IBM (12), and MapR (1)
  7. Spark is suited for iterative workloads such as ML models and is fast becoming good at general purpose computational workloads with more integrations coming down the road with frameworks like HBase, Solr etc. MapReduce is suited for I/O intensive workloads where a high level of fault tolerance and scale is required. Spark is slowly eating into the MapReduce workloads as it is maturing up.
  8. Problems: Management Spark is difficult to deploy and operate in production, especially at scale. Good management tooling is critical. Security Strong security is a must for any enterprise tool. Spark needs fine-grained access controls, data access tracking and reporting, and data privacy. Scale Spark outperforms MapReduce on latency and throughput, but can’t compete on scale. Spark needs to work on the largest multi-tenant clusters. Streaming Streaming workloads are increasing and Spark needs to be able to support all of the common stream processing use cases with production-grade guarantees. What’s Required: Management Resource Management (YARN integration); Automation; Metrics and visibility; Accessibility Security Authentication; Authorization; Governance Visibility (Audit/Lineage); Data Protection (Encryption) Scale Handle jobs on thousands of executors each, running simultaneously on large multi-tenant clusters with over 10k nodes (Fault-Tolerance; Stability; Performance) Streaming Zero data loss; ingest integration; zero downtime management; performance; accessibility
  9. In response, many organizations have turned to a new architecture – an enterprise data hub – to complement and extend existing investments. An enterprise data hub can store unlimited data, cost-effectively and reliably, for as long as you need, and lets users access that data in a variety of ways. Data can be collected, stored, processed, explored, modeled, and served in one unified platform. It’s connected to the systems you already rely on. Cloudera’s enterprise data hub, powered by Apache Hadoop, the popular open source distributed data platform, is differentiated in several crucial areas. We provide: Leading query performance. The enterprise management and governance that you require of all of your mission-critical infrastructure. Comprehensive, transparent, compliance-ready security at the core. An open source platform that is also built of open standards – projects that are supported by multiple vendors to ensure sustainability, portability, and compatibility. Our platform runs in your choice of environment, whether on-premises or in the cloud. === Cheat Sheet version: Our enterprise data hub is: One place for unlimited data Accessible to anyone Connected to the systems you already depend on Secure, governed, managed & compliant Built on open source and open standards Deployed however you want Coupled with the support and enablement you need to succeed. Important Note: Our EDH emphasizes “unified analytics” over “unified data”: It’s not practical or probable that customers will actually unify all their data. Much of it lives in the cloud or on storage (e.g. Isilon), in remote datacenters, is of uncertain value vs. cost of moving it to a hub, or security mandates preclude collocation. We enable customers to gather unlimited data, while bringing diverse processing and analytics to that data.