20151205 Japan.R SparkRとParquet

SparkR and Parquet
Ryuji Tamagawa from Osaka
Japan.R 2015

Works of 2015
Sparkによる
実践データ解析
2016年1月発売予定

前処理、困っていませんか？

SparkR
Rの環境からSparkでデー
タ処理できます
Rで処理しやすい（主にサ
イズ）ところまでデータ
を前処理するのに便利！
SparkRのDataFrameをR
のDataFrameに変換可能高柳さん・牧山さんの
「SparkRについて」
収録

Parquet
ビッグデータ関係で一般的になりつ
つあるデータフォーマット
列指向
高度な圧縮
SparkRから簡単に読み書きできます
高速
http://parquet.apache.org

Demonstration
CSVを変換してみました
10GBのデータが300MB程度になりました
いったんParquetにするのにノートPCで数時間（Pythonでやってます）
変換できてしまえば、3000万件のデータからダウンサンプリングも楽勝
https://spark.apache.org/docs/latest/sparkr.html#selecting-rows-columns
Sys.setenv(SPARK_HOME="/usr/local/opt/spark")
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"),"R","lib"), .libPaths()))
library(SparkR)
sc <- sparkR.init(master="local")
sqlContext <- sparkRSQL.init(sc)
df = read.df(sqlContext, ‘/Users/…/foo.parquet’)
count(df)
df_sel <- select(df, “bar”, “baz”)
df_sampled <- sample(df_sel, FALSE, 0.01)
dfR <- collect(df_sampled)

ご静聴ありがとうござい
ました。

20151205 Japan.R SparkRとParquet

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (11)

Similar a 20151205 Japan.R SparkRとParquet

Similar a 20151205 Japan.R SparkRとParquet (20)

Más de Ryuji Tamagawa

Más de Ryuji Tamagawa (20)

20151205 Japan.R SparkRとParquet