SlideShare una empresa de Scribd logo
1 de 34
Descargar para leer sin conexión
ビッグデータ処理の
プラットフォームとして注目されている
Apache Sparkのご紹介
玉川竜司
本日の内容
• 少しだけ自己紹介
• Hadoopとそのエコシステムの説明
• Sparkの概要説明
少しだけ自己紹介
• 大阪のソフトウェア開発企業
(Sky株式会社)勤務。
• コンピュータの技術書翻訳を
やってます。
• ビッグデータ、ソフトウェア開
発に関する本が中心。
既刊書の一部
今年の本
7月 8月 年内
「ビッグデータ」の定義
• 実は広く認められている定義はない
• マーケティング的には言ったもん勝ち的な・・・
• 純粋に量のこともあれば、レコード数のこともある
• 個人的には「数台のサーバーでは扱いきれない量のデータ」
という感覚を持っています
• 技術的には、運用上障害の発生の可能性が無視できなくな
ると、一気に難易度が上がる
Hadoopの登場
2000年頃の状況
• もくろみ:山盛りのデータを捨てずに活用したらいいことあるのでは?
• 状況:そうはいってもコストが合わない。

   コンピュータ単体の性能向上は行き詰まり気味。
• ブレークスルー : スケールアウト型の分散処理フレームワーク。
ブレークスルーになったのが

GoogleのGFS / MapReduce 
Hadoopが実現・解決したこと
多台数のPCによる分散処理のカジュアル化

「それまでに比べれば」はるかに低いコスト・労力で、


分散処理が利用可能に
Hadoop 0.x
• 分散ファイルシステム:HDFS
• 分散コンピューティングフレー
ムワーク:MapReduce
• 生MapReduceでプログラムを書
くのは非常に大変
HadoopRDB
OS
ファイルI/O
メモリバッファ
クエリ実行エンジン
SQL
ドライバ
OS
HDFS
MapReduce
注:この対比はちょっと無理矢理です
Hadoop 1.x
• HBase(NoSQLデータベース)、
Hive(SQLクエリエンジン)など
が登場し、エコシステムができは
じめる
HadoopRDB
OS
ファイルI/O
メモリバッファ
クエリ実行エンジン
SQL
ドライバ
OS
HDFS
Hive e.t.c.
HBase
MapReduce
ドライバ
HBase
• HDFS上で動作するNoSQLデータベースエ
ンジン
• 「生」のHadoop(HDFS)は徹底した
バッチ指向で、大量のデータをまとめて
書き、一気に読み込んで処理をすること
に対してチューニングされている。
• これに対し、HBaseはHDFSを基盤にしつ
つも、小さいデータのランダムな書き込
み・更新・読み取りに高い性能を発揮で
きる。スケーラビリティも極めて高い。
Hive
• HDFS+MapReduce上で動作するSQLクエリエ
ンジン
• MapReduceは処理のスケーラビリティや耐障
害性を担保するものの、「生」MapReduceは
プログラミングが大変
• おなじみのSQLを使って、HDFS上に保存され
ているデータに対してアクセスできるようになっ
た
• しかし意外と速くない(特に小さいクエリ)
ことが問題視されることに・・・
• Schema on Read関連はエコシステムの他の
ツールからも利用されます
Hadoop 2.x
• クラスタのリソースマネージャー
としてYARN(Yet Another
Resource Manager)が登場、
MapReduce以外の分散コンピュー
ティングフレームワークの誕生の
素地となる
• そして新たに登場したのがSpark
• 別のトレンドとして、インメモリ
系のSQLエンジンが増えてきた
OS
HDFS
Hive e.t.c.
HBaseMapReduce
YARN
Spark
(Spark Streaming, MLlib,
GraphX, Spark SQL)
注:この階層図は技術的に正確ではありません。

複雑すぎて正確に描くことはたぶん無理・・・
Impalaなど
(インメモ
リ系SQL)
「Hadoopって何?」という問いに対する答はどんどん難しく
なっていて、狭義ではHDFS+YARN+MapReduceあたりで
す。ただ、全部ひっくるめて「エコシステム」と表現するこ
とが多くなりました。
ここからSparkの話
Sparkとは
• 分散処理のコンピューティングフレームワーク
• あえて言うなら相当するのはMapReduceのところ
• 特徴となるのは高速性とプログラミングの容易さ
OS
HDFS
Hive e.t.c.
HBaseMapReduce
YARN
Impalaなど
(インメモ
リ系SQL)
Spark
(Spark Streaming, MLlib,
GraphX, Spark SQL)
Sparkとは
• エンジンそのものはScalaで書かれています。
• ScalaはJVM上で動作する関数型言語で、型推論や高度なデー
タ型をサポートしているおり、複雑なアルゴリズムを簡潔なコー
ドで表現できます。
• Spark上で動作するアプリケーションを書くための言語として
は、Scala、Java、Pythonが標準。ただし、Javaはコードが
冗長になりがちで、Pythonはいろいろと制約があります。
Sparkの狙い
• CPUの利用効率の向上
• Hadoop(HDFS+MapReduce)ではCPUを使い切れていなかった
• mapフェーズ、reduceフェーズごとのHDFSへのI/OとJVMの起動
が問題
• 抽象度の高いプログラミングモデルの提供による開発効率の向上
• インタラクティブな利用(Spark-shellやPySpark、SparkR、Spark-
SQLなど)からバッチ処理までサポートする
Sparkの高速性
map
JVM起動
読み書き
HDFS
reduce
JVM起動
読み書き
map
JVM起動
読み書き
reduce
JVM起動
読み書き
f1
(データを読んでRDDへ展開)
Executor(JVM)起動
HDFS
読み書き
f2
f3
f4(ストレージへの永続化)
f5(シャッフルを伴う処理)
読み書き
f6
f7
MapReduceの処理の流れ Sparkの処理の流れ
メモリ(RDD群)
読み書き
読み書き
読み書き
読み書き 読み書き
読み書き
読み書き
開発の容易性
public void map(….) … {
String line = value.toString();
StringTokenizer tokenizer = new StringTokenizer(line);
while (tokenizer.hasMoreTokens()) {
word.set(tokenizer.nextToken());
output.collect(word, one);
}
}
public void reduce(…) … {
int sum = 0;
while (values.hasNext()) {
sum += values.next().get();
}
output.collect(key, new IntWritable(sum));
}
val textFile = spark.textFile("hdfs://...")
val counts = textFile.flatMap(line => line.split(" "))
.map(word => (word, 1))
.reduceByKey(_ + _)
counts.saveAsTextFile("hdfs://...")
Spark
MapReduce
シェルから

直接実行可能
Sparkの様々なモジュール
Spark SQL
(DataFrameAPI)
RDDをデータベースのテーブルのように扱うためのモジュー
ル。SQL(HiveQL)でRDDのデータにアクセスできる。1.4
からは、さらに汎用的なDataFrame APIが提供されている。
Spark Streaming
ストリーミングデータ処理を行うためのモジュール。センサ
ーデータなどの処理に。
MLlib
機械学習のライブラリ。特に並列処理が活用できるアルゴリ
ズムを中心に、活発に開発が続けられている。
GraphX グラフデータベースのモジュール。
Sparkの動作環境
• ローカルモード(単一のPCでも一応動作します。開発OK)
• Standaloneクラスタ(10台くらいまでならなんとか使えるかも。た
だし分散ストレージがないのはハンデ)
• 本命はYARN(Hadoop 2.x)上での運用
• Mesos(Apache Software Foundationのクラスタマネージャ)上で
も動作するものの、ケースとしては少なさそう
Sparkのインタラクティブな利用

(シェルとノートブック)
• Sparkのインタラクティブシェル
• spark-shell / spark-sql(Scala)
• PySpark(Python)
• SparkR(R)
• 「ノートブック」系のツールは要注目
• Jupyter(ipython notebook)
• Apache Zeppelin
http://ipython.org/notebook.html
Sparkの実行モデル
• ユーザーが起動するアプリケーションは’Driver’と呼ばれます
• Driverは、クラスタ内のExecutor群(実体はJVMのプロセス)を使って処理を進めます
• ユーザーのコードは、必要に応じてDriverからExecutorに配布され、分散実行されます
Slave
Executor
Storage
Master
Driver
Cluster Manager
Slave
Executor
Storage
Slave
Executor
Storage
Slave
Executor
Storage
SparkR
• Rの強み:豊富なライブラリ、既存のユーザー
• Hadoop/Sparkの強み:スケーラビリティ
• SparkR : RによるSparkシェル
• SparkのDataFrameをRから操作できる
• SparkのDataFrameをRのDataFrameと変換できる
SparkRの実行モデル
• DriverとしてRが動作する
• Rからは、SparkのDataFrameを扱える
• SparkのDataFrameとRのDataFrameを相互変換できる
Slave
Executor
Storage
Master
SparkR
Cluster Manager
Slave
Executor
Storage
Slave
Executor
Storage
Slave
Executor
Storage
RDD(Resilient Distributed Dataset)
• 論理的にはコレクション
• 物理的にはクラスタ内のノードに分散配置される
• RDDに対して「変換」をかけて、新たなRDDを生成する。その際に生
成されるのはRDD間の系統グラフであり、まだ演算処理は行われない
• RDDに対して「アクション」を行うと、系統グラフをさかのぼって計
算が実行される
# テキストを読んでRDDを生成
rmRDD = sc.textfile(‘readme.md’)
#フィルタをかけて次のRDDを生成
spRDD = rmRDD.filter(…)
#もう1つフィルタ。
sp10RDD = spRDD.filter(…)
#この時点ではまだテキストファイルも読まれていない
#行数のカウント。この時点ですべての処理が走る
count = sp10RDD.count()
元のファイル
rmRDD
spRDD
sp10RDD
RDD(Resilient Distributed Dataset)
• アクションを実行すると、各エクゼキュータ内で一気に系統グラフの計算が行われる。
• JVMの再起動は伴わず、ディスクへのアクセスも少ない。
• CPUのI/O待ちが少なく、使用効率が上がる
# テキストを読んでRDDを生成
rmRDD = sc.textfile(‘readme.md’)
#フィルタをかけて次のRDDを生成
spRDD = rmRDD.filter(…)
#もう1つフィルタ。
sp10RDD = spRDD.filter(…)
#この時点ではまだテキストファイルも読まれていない
#行数のカウント。この時点ですべての処理が走る
count = sp10RDD.count()
元のファイル
rmRDD
spRDD
sp10RDD
123
RDD(Resilient Distributed Dataset)
• 計算されたRDDの内容は、メモリもしくはディスクにキャッシュできる
• 初回のアクション実行時にキャッシュが行われ、それ以降のアクション実行時
には、キャッシュされたところまでしか系統グラフはさかのぼらない

rmRDD = sc.textfile(‘readme.md’)
spRDD = rmRDD.filter(…)
#キャッシュの指示。この時点ではまだキャッシュされない
spRDD.persist()
sp10RDD = spRDD.filter(…)
sp20RDD = spRDD.filter(…)
#行数のカウント。この時点でspRDDがキャッシュされる
count10 = sp10RDD.count()
#行数のカウント。spRDDの再計算は走らない
count20 = sp20RDD.count()
元のファイル
rmRDD
spRDD
sp10RDD
123
RDD(Resilient Distributed Dataset)
• 計算されたRDDの内容は、メモリもしくはディスクにキャッシュできる
• 初回のアクション実行時にキャッシュが行われ、それ以降のアクション実行時には、キャッシュされ
たところまでしか系統グラフはさかのぼらない
• 繰り返しの処理を伴うアルゴリズムを効率的に実行できるため、機械学習との相性がいい

rmRDD = sc.textfile(‘readme.md’)
spRDD = rmRDD.filter(…)
#キャッシュの指示。この時点ではまだキャッシュされない
spRDD.persist()
sp10RDD = spRDD.filter(…)
sp20RDD = spRDD.filter(…)
#行数のカウント。この時点でspRDDがキャッシュされる
count10 = sp10RDD.count()
#行数のカウント。spRDDの再計算は走らない
count20 = sp20RDD.count()
元のファイル
rmRDD
spRDD
sp10RDD
123
sp20RDD
456
試用と運用について
Hadoopエコシステムの利用
• 自前での運用と構築は大変です。
• 一番お勧めなのは、クラウドのHadoopのサービスを使うこと(AWSの
Elastic MapReduceとかAzureのHDInsight)。
• たいていの場合、「Hadoopの運用力」がビジネスの競争力の源泉ではない
はずなので、そこはプロバイダに任せるほうが合理的だと思います(よほ
どクリティカルな部分でHadoopを使うのでなければ)。
• データセンターで運用する場合、あるいはお試し的に手元でクラスタ組む
場合は、Clouderaのディストリビューション(http://www.cloudera.co.jp/
products-services/cdh/cdh.html)が第一候補になると思います。
Sparkの試用
• ローカルで動かしてみる、あ
るいは開発してみるだけなら
かなりお手軽です。
• ぜひトライしてみてください。
ご清聴ありがとうございました。

Más contenido relacionado

La actualidad más candente

インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門
Akihiro Kuwano
 

La actualidad más candente (20)

Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
 
事例で学ぶApache Cassandra
事例で学ぶApache Cassandra事例で学ぶApache Cassandra
事例で学ぶApache Cassandra
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
がっつりMongoDB事例紹介
がっつりMongoDB事例紹介がっつりMongoDB事例紹介
がっつりMongoDB事例紹介
 
インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門
 
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
 
トランザクションの設計と進化
トランザクションの設計と進化トランザクションの設計と進化
トランザクションの設計と進化
 
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法  ※講演は翻訳資料にて行います。 - Getting the Best...PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法  ※講演は翻訳資料にて行います。 - Getting the Best...
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
 
グラフデータベース入門
グラフデータベース入門グラフデータベース入門
グラフデータベース入門
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
 
Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編
 
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
 
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
 
Apache Kafka 0.11 の Exactly Once Semantics
Apache Kafka 0.11 の Exactly Once SemanticsApache Kafka 0.11 の Exactly Once Semantics
Apache Kafka 0.11 の Exactly Once Semantics
 
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
 
Ceph アーキテクチャ概説
Ceph アーキテクチャ概説Ceph アーキテクチャ概説
Ceph アーキテクチャ概説
 
Apache Spark 2.4 and 3.0 What's Next?
Apache Spark 2.4 and 3.0  What's Next? Apache Spark 2.4 and 3.0  What's Next?
Apache Spark 2.4 and 3.0 What's Next?
 
2018 builderscon airflowを用いて、 複雑大規模なジョブフロー管理 に立ち向かう
2018 builderscon airflowを用いて、 複雑大規模なジョブフロー管理 に立ち向かう2018 builderscon airflowを用いて、 複雑大規模なジョブフロー管理 に立ち向かう
2018 builderscon airflowを用いて、 複雑大規模なジョブフロー管理 に立ち向かう
 

Similar a Apache Sparkの紹介

Similar a Apache Sparkの紹介 (20)

20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
 
足を地に着け落ち着いて考える
足を地に着け落ち着いて考える足を地に着け落ち着いて考える
足を地に着け落ち着いて考える
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
 
Hadoopとは
HadoopとはHadoopとは
Hadoopとは
 
Databricks の始め方
Databricks の始め方Databricks の始め方
Databricks の始め方
 
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
 
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめBigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
 
Big datauniversity
Big datauniversityBig datauniversity
Big datauniversity
 
Jjug ccc
Jjug cccJjug ccc
Jjug ccc
 
鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料
 
Spark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについてSpark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについて
 
Serverless Meetup Japan Virtual #6
Serverless Meetup Japan Virtual #6Serverless Meetup Japan Virtual #6
Serverless Meetup Japan Virtual #6
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014
 
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
 
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
ビッグデータ関連Oss動向調査とニーズ分析
ビッグデータ関連Oss動向調査とニーズ分析ビッグデータ関連Oss動向調査とニーズ分析
ビッグデータ関連Oss動向調査とニーズ分析
 
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
 
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
 
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!
 

Más de Ryuji Tamagawa

20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
Ryuji Tamagawa
 

Más de Ryuji Tamagawa (20)

20171012 found IT #9 PySparkの勘所
20171012 found  IT #9 PySparkの勘所20171012 found  IT #9 PySparkの勘所
20171012 found IT #9 PySparkの勘所
 
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所
 
hbstudy 74 Site Reliability Engineering
hbstudy 74 Site Reliability Engineeringhbstudy 74 Site Reliability Engineering
hbstudy 74 Site Reliability Engineering
 
PySparkの勘所(20170630 sapporo db analytics showcase)
PySparkの勘所(20170630 sapporo db analytics showcase) PySparkの勘所(20170630 sapporo db analytics showcase)
PySparkの勘所(20170630 sapporo db analytics showcase)
 
20170210 sapporotechbar7
20170210 sapporotechbar720170210 sapporotechbar7
20170210 sapporotechbar7
 
20161215 python pandas-spark四方山話
20161215 python pandas-spark四方山話20161215 python pandas-spark四方山話
20161215 python pandas-spark四方山話
 
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
 
20160708 データ処理のプラットフォームとしてのpython 札幌
20160708 データ処理のプラットフォームとしてのpython 札幌20160708 データ処理のプラットフォームとしてのpython 札幌
20160708 データ処理のプラットフォームとしてのpython 札幌
 
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
 
Performant data processing with PySpark, SparkR and DataFrame API
Performant data processing with PySpark, SparkR and DataFrame APIPerformant data processing with PySpark, SparkR and DataFrame API
Performant data processing with PySpark, SparkR and DataFrame API
 
ヘルシープログラマ・翻訳と実践
ヘルシープログラマ・翻訳と実践ヘルシープログラマ・翻訳と実践
ヘルシープログラマ・翻訳と実践
 
Google Big Query
Google Big QueryGoogle Big Query
Google Big Query
 
BigQueryの課金、節約しませんか
BigQueryの課金、節約しませんかBigQueryの課金、節約しませんか
BigQueryの課金、節約しませんか
 
You might be paying too much for BigQuery
You might be paying too much for BigQueryYou might be paying too much for BigQuery
You might be paying too much for BigQuery
 
Google BigQueryについて 紹介と推測
Google BigQueryについて 紹介と推測Google BigQueryについて 紹介と推測
Google BigQueryについて 紹介と推測
 
lessons learned from talking at rakuten technology conference
lessons learned from talking at rakuten technology conferencelessons learned from talking at rakuten technology conference
lessons learned from talking at rakuten technology conference
 
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
丸の内MongoDB勉強会#20LT 2.8のストレージエンジン動かしてみました
 
Mongo dbを知ろう devlove関西
Mongo dbを知ろう   devlove関西Mongo dbを知ろう   devlove関西
Mongo dbを知ろう devlove関西
 
Seleniumをもっと知るための本の話
Seleniumをもっと知るための本の話Seleniumをもっと知るための本の話
Seleniumをもっと知るための本の話
 
データベース勉強会 In 広島 mongodb
データベース勉強会 In 広島  mongodbデータベース勉強会 In 広島  mongodb
データベース勉強会 In 広島 mongodb
 

Apache Sparkの紹介