SlideShare una empresa de Scribd logo
1 de 54
Descargar para leer sin conexión
本日のアジェンダ
• 1. 19:00-19:15 分析コンペ「人工知能は名刺をどこまで解読できるのか」開催概要
• クラウド名刺管理サービスを展開するSansan主催の、名刺レイアウトの解析コンペについて説明をします。
• Speaker: Sansan株式会社 江崎 日淑
• 2. 19:15-19:45 Python/PySpark で始めるデータ分析の基本 ~ハンズオン編~
• Jupyter NotebookでPython/PySpark を使ったデータ分析の始め方をハンズオンを通して学びます。
• Speaker: 日本アイ・ビー・エム株式会社 貝嶋 創
• 3. 19:45-20:15 Python/Scikit-learnを使った画像処理の基本
• JupyterNotebookによる画像処理をPython/Scikit-learnでどのようにできるのか?を説明します。
• Speaker: 株式会社オプトホールディング 中林 紀彦
• 4. 20:15-20:35 Sparkの基礎とSparkによる機械学習の基本
• Sparkの最新情報とSparkを使った機械学習の基本をお伝えします。
• Speaker: 日本アイ・ビー・エム株式会社 土屋 敦
• 5. 20:35-21:00 ネットワーキング・タイム
1
Big Data University Tokyo Meetup #6 2016年07月29日
https://www.meetup.com/BDU-Tokyo/
事前ダウンロード資料(オプション)
資料は以下のリンクからダウンロードすることができます:
0. 本資料(Slideshare)
http://www.slideshare.net/eatsushi/big-data-university-tokyo-
meetup-6-mlwithspark
1. 手書き文字認識のノートブック
• https://share.datascientistworkbench.com/jupyter/v1/10.114.214.84/LCx5X2R0xg9sJ
vA/A%20Deep%20Learning%20Example%20for%20Image%20Classification.ipynb
2. Sparkの機械学習サンプル ノートブック
• 「詳解Apache Spark (技術評論社)」の共著者が語るApache Sparkの勘所
http://eventdots.jp/eventreport/593031 にある、
• 日本アイ・ビー・エム株式会社 田中 裕一
資料4 Jupyter Notebook
• http://bit.ly/ds_Spark
2
データサイエンティスト実践セミナー
Python/Sparkで始める分析の実際
~30分でわかる! Sparkの基礎とSparkによる機械学習の基本~
Atsushi Tsuchiya
Technical Lead, Analytics Client Architect
IBM Analytics
@eatsushi
@bigdatauBig Data University Tokyo Meetup #6 20160729
https://www.meetup.com/BDU-Tokyo/
自己紹介
> 土屋 敦 eatsushi@jp.ibm.com
> 日本アイ・ビー・エム株式会社 アナリティクス事業本部
> アナリティクス・クライアント・アーキテクト部
> テクニカル・リード
> ストリーム・コンピューティング、分散並列処理 テクニカル・スペシャリスト
> 法政大学大学院 情報科学研究科 兼任教員
|
4
2015年~ Open for Dataを中心としたアーキテクト、先端テクノロジーのエバンジェリスト活動
2014年~、Spark (IBM Analytics for Apache Spark)
2011年~、法政大学兼任教員”エンタープライズシステムにおける先端データベース技術”担当
2010年~、Hadoop (IBM BigInsights)
2009年~、ストリーム処理(IBM Streams)
2008年~2014年 組込インメモリ・データベース (IBM solidDB)テクニカルスタッフ
Agenda
• Sparkの基礎
• Sparkを使った機械学習
• Sparkを学習するには
5
Agenda
• Sparkの基礎
• Sparkを使った機械学習
• Sparkを学習するには
6
• 2009年にUC Berkeley AMPLabのプロジェクトとしてスタート、
2010年にオープンソース化され、現在では、Apache Software
Foundationで現在最もアクティブなプロジェクト。
• AMPLabで開発していたメンバーが中心となってDatabricks社を設立
し、コミュニティをリード。
IBMは、Founding Sponsorsの1つ。Sparkテクノロジセンタを設立。
Sparkの歴史
Activity for 6 months in 2014
(from Matei Zaharia – 2014 Spark Summit)
July 26th, 2016
• 大量データ処理のための統合データ処理エンジン ~Unified engine for big data processing~
• バッチ処理、インターラクティブ処理、繰り返し処理、ストリーム処理(ミニバッチ)
• 統合されたプログラミング言語/API
• Scala/Python/Java関数手続き型
Sparkが開発されたモチベーション
Hadoopは、汎用バッチ
専用だったので・・・
それぞれの特化技術が
出現した・・・
1つの
統合エンジン 多くの探索や分析はインターラクティブである
Spark 2.0からはRDDではなくDataSetがPrimaryに。
• Hadoopでやったこと+α
• バッチ(集計)/ストリーム(ミニバッチ)/グラフ処理や、分析(SPSS,Rでできる事)など
• データストアは、HDFSに限定されない
• ファイルシステム、DBなどなど
• 言語は、SQL,R,Java,Scala,Pythonなどが使える
• インターラクティブな分析も
• Jupyter notebook , Apache zeppelin
• Hadoopとは異なり、バッチが終わるまで待ち続けることはありません。
※とは言っても、DBじゃない。。。
Sparkでできること
インターラクティブ分析が可能に!
Thrid-
Party
Packages
• Sparkが「インメモリ処理」ができると言っているのは・・・
HDFS (ディスク) (ディスク) (ディスク)
処理1
(Map→Reduce)
処理1
(Map/Cache)
処理2
(Map→Reduce)
処理3
(Map→Reduce)
処理3
(Transform)
MapReduce
処理2
(Join/Cache)
キャッシュ
キャッシュ
Apache Sparkの処理の仕組み ~従来のMapReduceとSparkの違いの観点から~
☆ただし、ディスク書き込みが全く無いわけではない. 明示的(persist() /checkpoint())および, 暗黙的(shuffle – reduceBykeyなど)
にディスク読み書きがある。早いのはインメモリだけではなく、小さな最適化が積み上げられた結果。
Sparkが「イン・メモリ処理」で速いと言われている理由は・・・
• Apache Sparkは、汎用的(多目的)
で柔軟性があります。
その理由は:
• 複数言語(SQL, R, Java, Python,
Scala)、HDFSだけではなく複数デー
タストア、YARNとの連携(MESOS)
ができる
• Sparkコア・エンジンを利用して、複
数のエントリー・ポイント; SQL, スト
リーム処理, R,機械学習, および、グ
ラフ処理
Apache Sparkの構成
Apache Sparkの構成
Spark
R
Spark
core
Unified engine across
diverse workloads
and environments
Thrid-
Party
Packages
MESOS
YARN
Sparkと周辺のエコシステム
現在:
今後:
カスタム
アプリケーション
• コマンドライン
• インターフェイス
• アプリ
Sparkにどのようにアクセスするのか?
Standalone
Cluster
Zeppelin
Laptopで試せます!
ノートブック
CMD
• 「Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク」で
説明されている内容がわかりやすいです;
Sparkクラスタの構成コンポーネント
■一般的には、各サーバにHDFSと
YARNのコンポーネント(DataNodeと
NodeManager)をインストールします。
これは、データ・ローカリティを活用するた
めにです。
■NameNodeとResourceManager
は、可用性の観点や運用保守観点を考
慮し、同一マシーンにインストールする
ケース(ノード台数を減らせる)と、物理
的に異なるマシーン(ノード台数が増え
る)ケースがあります。
■この左の図は、Sparkマスタノードに
NameNodeとResourceManagerを
同居させている例です。
• Java, Scala, Pythonを実行
• SparkSQL, SparkR, Spark Streaming,
Spark Mllib/ML, Graph X, Packages
• 分散処理する際にはパーティション毎に
並列に処理をする。
実際のスケーラビリティはベンチマークが実施されています。
val csv = spark.textFile("tokyo.csv")
val pairs = csv.map(line => (line.split(",")))
.map(x => (x(0).take(8), (x(4).toFloat, 1)))
.reduceByKey( (x,y) => (x._1 + y._1, x._2 + y._2) )
.map(x => (x._1, x._2._1/x._2._2) )
.sortByKey()
• SparkコアはSparkのエンジン
Spark コア
20150614 22:00:00,0,1,8,20.9,8,3.0,8,南南西,8,85,8
20150614 23:00:00,0,1,8,20.9,8,2.6,8,南南西,8,86,8
20150615 00:00:00,0,1,8,20.5,8,1.0,8,南,8,86,8
20150615 1:00:00,0,1,8,20.4,8,0.7,8,南,8,88,8
(2015/6/14,22.565218)
(2015/6/15,24.550001)
(2015/6/16,23.358332)
(2015/6/17,21.583334)
例:平均気温の計算
• SQLを利用したデータ操作が可能
• 現状は参照処理メイン
• トランザクションなし
• Parquet 、Json、Hive だけでなく
JDBCやODBCもサポート
• Hiveを利用しない新規のSQL実行エ
ンジン(Spark1.4)
• Shark(クエリの実行プランにHive
依存)は利用しない
{"name":"貝嶋", "address":{"city":"川崎", "state":"神奈川"}}
{"name":"土屋", "address":{"city":"豊洲", "state":"東京"}}
{“name”:“山田", "address":{"city":"横浜", "state":"神奈川"}}
{"name":"岸代", "address":{"city":"後楽園", "state":"東京"}}
val people = sqlContext.jsonFile("test.json")
people.registerTempTable("people")
val nameAndAddress =
sqlContext.sql("SELECT name, address.city, address.state FROM
people WHERE address.state=¥"神奈川¥"")
nameAndAddress.collect.foreach(println)
{"name":"貝嶋", "address":{"city":"川崎", "state":"神奈川"}}
{“name”:“山田", "address":{"city":"横浜", "state":"神奈川"}}
Spark SQL
例:住所データ(json)からの特定データの抽出
• SparkSQLによるデータ操作
• グラフデータを並列分散環境で処理するための
フレームワーク
• グラフ構造データを用いた解析を行う
• 「点」と「辺」からなるデータ
• SNSでのつながり、データ間の関連性など
• 表構造では扱うことが難しい関係を見つけ出す
• データ間のつながりの抽出
• 輪の抽出
• 距離の計測
• 影響の計測
• グラフDBとの兼ね合い(これから)
val graphWithDistance = Pregel(
graph.mapVertices((id:VertexId, attr:Int) => List((id, 0))),
List[(VertexId, Int)](),
Int.MaxValue,EdgeDirection.Out)((id, attr, msg) =>
mergeVertexRoute(attr, msg.map(a=> (a._1, a._2 + 1))),edge => {
val isCyclic = edge.srcAttr.filter(_._1 == edge.dstId).nonEmpty
if(isCyclic) Iterator.empty
else Iterator((edge.dstId, edge.srcAttr))
},(m1, m2) => m1 ++ m2
)
• Sparkでグラフ処理を
Spark GraphX
つながりの検索
例: つながりと距離を見つけ出す
1,((1,0), (6,1), (9,1), (7,1), (4,2))
1
2 3
4
5
6
7
89
• MLlib・MLとRが利用可能
MLlibはScala(SQL)で、
SparkRはRで記述可能
• 2つの実装:
MLlib
ML
• 2つは同じではない。SVM、ロジ
スティック回帰、決定木、K-
means、ALSなどがある。
val data = spark.textFile("kdata.txt")
val parsedData = data.map(x =>
Vectors.dense(x.split(',').map(_.toDouble))).cache()
val numClusters = 3
val numIterations = 10
val clusters = KMeans.train(parsedData, numClusters, numIterations)
• Sparkで機械学習
機械学習【MLlibとSparkML】
データ: ( 直近購買月[nヶ月前], 期間内購買回数 )
(5,1),(4,2),(5,3),(1,2),(2,4),(2,5),(2,6),(1,4),(1,5),(1,2),(1,5),(5,5)
クラスタ結果: ([中心], 人数)
([1.0, 2.0], 2), ([1.5, 4.833333333333333], 6),
([4.666666666666666, 2.0], 3), ([5.0, 5.0], 1)
例:顧客の分析による
0
2
4
6
0 2 4 6
• MLlibはSparkの機械学習ライブラリで、その目的は、容易に実践的な機械学習をスケーラ
ブルにすることです。
• MLlibは一般的な機械学習アルゴリズムとユーティリティからなるSparkのスケール可能な機
械学習ライブラリで、classification, regression, clustering, collaborative
filtering, dimensionality reduction そして 低レベル optimization primitivesとハ
イレベル・パイプラインAPI を含んでいます。
• 2つのSpark MLlib;
• spark.mllib
• RDDでビルドされたAPIを含む
• spark.ml
• MLパイプライン※を構築するため、
DataFramesでビルドされたハイレベル
APIを含む
• 参考URL
• English:http://spark.apache.org/docs/latest/mllib-guide.html
• 翻訳サイト:http://mogile.web.fc2.com/spark/mllib-guide.html
MLlib (機械学習ライブラリ)
Thrid-
Party
Packages
ML
Pipeline
[ML]
Spark2.0からはDataSetsがPrimaryです。
RDDを使ったMllibはSpark 3でDeprecateされる予定です。
• Sparkによるミニ(マイクロ)バッチの実行
• DStreamと呼ばれるRDDを操作
• 指定間隔ごとにまとめられたRDDを処理
(Windows処理も可能)
• 通常のSparkプログラミングとほぼ同様
たとえば、定期的に流入するデータの「移動平均値」の連続計算
⇒Apache Stormとの違いは・・・?
val tstream = ssc.socketTextStream(hostname, port)
var mdtxt = tstream.map(x => x.split(","))
.map(x => ( x(0), (x(0), x(1), x(2).toInt) ) )
.updateStateByKey(updateFunc _)
mdtxt.print()
センサーデータ:
(Dev1, 201501010000, 0)
(Dev2, 201501010000, 0)
(Dev1, 201501010001, 1)
Alert: Dev1 Status changed : 1
• Sparkでストリーム処理
Spark Streaming
例:センサーデータの出力値変更時にアラート
DStream
RDD
data
data
RDD
data
data
RDD
data
data
SilentLogアプリ特徴
1日の活動を自動で記録する手軽さから、高い継続率を得ています
■アプリケーション名:
SilentLog(サイレントログ) ※現在はiPhoneのみ対応
https://silentlog.com
■アプリケーションの特徴:
・移動手段、距離、時間、歩数を自動で記録し続ける
ライフログ(生活記録)アプリケーションです
・バッテリーの消費を国内外の競合アプリよりも抑えた上で
同程度以上の記録精度を確保しています
■利用者の傾向:
・30代男性を中心に、40代や50代の健康や記憶に関心の
高いユーザー様にご利用いただいています
・30日継続率が約30%と、ユーザー様の定着率が高いです
・ライフログ分野の代表的なアプリとして、複数の書籍や
雑誌、ウェブメディアで取り上げられております
・ユーザーレビュー平均評価4.5(Ver2.4.1/評価24人)
SDKにより収集された行動情報を分析することができます
SilentLog SDK
御社
ソリューション
・自家用車管理
・道路プローブ測定
・交通情報分析
・DSP連携(アドテク)
・顧客行動調査
・パネルリサーチ
・屋外広告の効果測定
・健康情報管理
・訪日外国人調査
・高齢者向けスマート
シティの設計
・労働者の遠隔管理
など
弊社アプリ
御社サービス
SilentLog SDKを
組み込んだアプリ
行動情報群
弊社アプリ
統計データ
御社サービス
統計データ
オープンデータ
弊社追加データ
・行動情報(位置情報)
・個人属性データ
・アプリ利用データ
・人口・地価などの
公開済み動態情報
行動分析基盤
SilentLog
Analytics
・行動パターン推定
・属性の推定
・滞在情報の分析
・歩行情報の分析
・乗物情報の分析
行動情報データプラットフォーム
行動情報
行動情報
通知
可視化
iOS, Android
アクション人工知能で行動を分析行動収集
SilentLog Analytics における、Spark(Bluemix)活用
弊社アプリ
御社サービス
SilentLog SDKを
組み込んだアプリ
行動情報群
弊社アプリ
統計データ
御社サービス
統計データ
オープンデータ
弊社追加データ
・行動情報(位置情報)
・個人属性データ
・アプリ利用データ
・人口・地価などの
公開済み動態情報
行動分析基盤
SilentLog Analytics
行動情報データプラットフォーム
行動情報
行動情報
データクレンジング
機械学習 / オンライン学習
推定結果
可視化
地図
グラフ
SilentLog SDK
アクション人工知能で行動を分析行動収集
24
SilentLog Analytics
行動情報を可視化。高い視点から人や物の動きが把握できます
同地区のヒートマップ表示
同地区の流入元表示
Agenda
• Sparkの基礎
• Sparkを使った機械学習
• Sparkを学習するには
• まとめ
25
Sparkの機械学習
• 本日話すこと
• Sparkの機械学習の仕組み
• MllibとSparkML
• 実際のプロジェクトで使った分析手法セレクション(SPSSのケース)
• 本日はなさないこと、しないこと
• 機械学習の深い話・・・
• Sparkでの実践
• 次回のMeetup 8月26日(予定)で実践編を開催する予定です。
• こちらはリンクに実践編へのjupyter notebookがあります。
26
SparkにはMllibとSparkMLの2つがある
• MLlibとsparkmlの話
• 何がちがうのか?
• MLlib : RDDsをベースに機械学習のアルゴリズムを各種実装
• →Spark 2.0からは、DataSetがPrimaryになる
つまり、RDDベースは将来的にDeprecateする(→Spark 3.0から)
• SparkML : DataFramesをベースにPipeLineなど、機械学習をより
使いやすい形に実装
• で、問題は二つの実装に今でも別々に実装され続けるアルゴリズム・・・
• 以下、一例です。
27
教師あり
アルゴリズム MLlib Sparkml
ロジスティック回帰
LogisticRegressionWithSGD
LogisticRegressionWithBFGS
LogisticRegression
サポートベクタマシン SVMWithSDG -
決定木 DecisionTree DecisionTreeClassifier
単純ベイズ分類器 NaiveBayes NaiveBayes
ランダムフォレスト RandomForest RandomForestClassifier
勾配ブースティングツリー GradientBoostedTrees GBTClassifier
多層パーセプトロン - MultilayerPerceptronClassifier
28
教師あり:分類
Spark 1.6前提の情報https://spark.apache.org/docs/1.6.2/mllib-guide.html
最新情報は:https://spark.apache.org/docs/latest/ml-guide.html
教師なし
アルゴリズム MLlib Sparkml
線形回帰
LinerRegressionWithSGD
RidgeRegressionWithSGD
LassoWithSGD
LinerRegression(Ridge/Lasso/Elastic
Net)
lsotonic回帰 IsotonicRegression IsotonicRegression
決定木 DecisionTree DecisionTreeRegressor
ランダムフォレスト RandomForest RandomForestRegressor
勾配ブースティングツリー GradientBoostedTrees GBTRegressor
生存回帰(加速故障時間モデル) - AFTSurvivalRegression
29
アルゴリズム MLlib Sparkml
K-means KMeans KMeans
Bisecting K-means BisectingKMeans -
混合ガウスモデル GaussianMixture -
PIC(power iteration clustering) PoserIterationClustering -
LDA(latent dirichlet allocation) LDA LDA
教師なし:クラスタリング
教師あり:回帰
Spark 1.6前提の情報https://spark.apache.org/docs/1.6.2/mllib-guide.html
最新情報は:https://spark.apache.org/docs/latest/ml-guide.html
Spark 2.0 MLlibのライブラリ
30
• Classification 〔分類〕
• Logistic regression
• Decision tree classifier
• Random forest classifier
• Gradient-boosted tree classifier
• Multilayer perceptron classifier
• One-vs-Rest classifier (a.k.a. One-vs-All)
• Naive Bayes
• K-means 〔k-平均法〕
• Latent Dirichlet allocation (LDA)
• Bisecting k-means
• Gaussian Mixture Model (GMM)
• Collaborative Filtering 〔協調フィルタリング〕
• Alternating least squares (ALS)
• Regression 〔回帰〕
• Linear regression
• Generalized linear regression
• Available families
• Decision tree regression
• Random forest regression
• Gradient-boosted tree regression
• Survival regression
• Isotonic regression
• Linear methods 〔リニア〕
• Decision trees 〔決定木〕
• Tree Ensembles 〔ツリー・アンサンブル〕
• Random Forests
• Gradient-Boosted Trees (GBTs)
Spark 2.0 MLlib ガイド:
https://spark.apache.org/docs/latest/ml-guide.html
教師あり、なし
• 概念的に説明すると、
• 教師あり:与えられたラベルによって、その”教えられた”構造を判定する
• 教師なし:与えられたデータから何らかの規則性を見つけて判定する
• 例えば、「手書き文字を認識する」ケースで考えると
31
0~9までが、どの数字なのか?というラベ
ルを人間が与えて(正解データ)、それ
を学習するのが教師ありの考え方です。
つまり、人間が正解を教えてあげると、それ
に近くなるように学習を行っていきます。
学習が終わった際には、新しい手書き文
字がどの数値なのかという判定を行うことが
できるようになります。
5041
9213
教師あり、なし
• 概念的に説明すると、
• 教師あり:与えられたラベル着けによって、その”教えられた”構造を判定する
• 教師なし:与えられたデータから何らかの規則性を見つけて判定する
• 例えば、「手書き文字を認識する」ケースで考えると
32
ラベル(正解データ)がないため、データの
パターンから何らかの性質がないか?を
探し出します。
例えば、0~9までの10パターンが見つかり、
その規則性を見て学習をする考え方が
教師なしです。
• スコア算出の問題は、マイニングの各種手法の中で、に2項分類予測の問題として定式化
できます。主な分析手法 説明 主要アルゴリズム
教師あり
手法
数値予測
(回帰)
販売数、在庫量などの連続値を予測する
予測するために着目すべき主な特徴を発見する
線型回帰
決定木
ニューラルネットワーク
サポートベクターマシン
分類予測
(2項、多項)
2項:「買う/買わない」、「離反する/しない」などを判別予測する
多項:3項以上の分類のどれに当てはまるかを予測する
判別するために着目すべき主な特徴を発見する
ロジスティック回帰
判別分析
決定木
ニューラルネットワーク
サポートベクターマシン
ベイジアンネットワーク
教師なし
手法
クラスタリング 多次元空間の中で、データが密集している部分を発見する
複数の軸の中から、データをうまく分類できる軸と切れ目を発見する
K-Mean
TwoStep
Kohonen
外れ値 多次元空間の中で、外れ値のデータ(不正者等)を発見する 外れ値検知
その他
相関ルール
(アソシエーション)
データ集合の中から,高頻度で発生する特徴的なパターン(併売等)を見つ
ける
アプリオリ
CARMA
時系列予測
過去のトレンドから将来の連続値を予測する
予測するために着目すべき主な特徴を発見する
指数平滑法
ARIMA
スコア算出で使う分析手法
スコア算出の解き方
○○品質低下の原因箇所の特定を、「経験に基づく特定」から「 「データ分
析で算出したスコアに基づく特定」へ。これにより、この障害の原因箇所の
早期発見を実現する。
• どこが故障原因箇所であるかスコア化するモデルを作成します。作成した
モデルを使うと、どの機器が疑わしいかのスコアが算出されます。
機器# 発生日時
障害原因
Yes/No
○○○量
設置後
年数
△△△
時間帯(朝、
日中、夜間
風速 気温 ・・・
id163 12/6/5 6:52 1 198 3 朝 5 24
id992 12/7/5 20:52 1 254 8 夜間 3 18
id532 12/10/2 22:52 1 62 7 夜間 18 9
id456 12/8/2 12:52 0 43 12 日中 12 12
例)スコア算出モデルの作成
34
目的変数 説明変数
ノード 機器 スコア(%)
#1 #1 42.3
#2 86.2
#3 78.4
・・・ ・・・
#2 #1 32.4
#2 56.2
・・・
1)スコア算出モデルの作成
2)モデルを使ったスコア算出
○○ルール化の解き方
• ○○ルール化問題は、データマイニングの各種分析手法の中で、2項分類予測、もし
くは相関ルールの問題として定式化できます。
35
主な分析手法 説明 主要アルゴリズム
教師あり
手法
数値予測
(回帰)
販売数、在庫量などの連続値を予測する
予測するために着目すべき主な特徴を発見する
線型回帰
決定木
ニューラルネットワーク
サポートベクターマシン
分類予測
(2項、多項)
2項:「買う/買わない」、「離反する/しない」などを判別予測する
多項:3項以上の分類のどれに当てはまるかを予測する
判別するために着目すべき主な特徴を発見する
ロジスティック回帰
判別分析
決定木
ニューラルネットワーク
サポートベクターマシン
ベイジアンネットワーク
教師なし
手法
クラスタリング 多次元空間の中で、データが密集している部分を発見する
複数の軸の中から、データをうまく分類できる軸と切れ目を発見する
K-Mean
TwoStep
Kohonen
外れ値 多次元空間の中で、外れ値のデータ(不正者等)を発見する 外れ値検知
その他
相関ルール
(アソシエーション)
データ集合の中から,高頻度で発生する特徴的なパターン(併売等)を見つける
アプリオリ
CARMA
時系列予測
過去のトレンドから将来の連続値を予測する
予測するために着目すべき主な特徴を発見する
指数平滑法
ARIMA
○○○ルール化で使う分析手法
「単純な閾値判定による○○実施基準」から、「□○△毎の個別の状況に応
じた○○実施基準」へ。これにより、例えば○○保守イドラインの基準を適正
化する。
• 障害発生件数が、お客様の不満の高さ示すとの仮定をおき、障害発生件数が多い条件を分析技術
を活用して求めます。この条件に逸脱する○○○を行わないように、ルール化します。
例)○○のルール化
36
Node 0
300100.0Total
15050.00No■
15050.00Yes■
n%Category
Node 0
300100.0Total
15050.00No■
15050.00Yes■
n%Category
Node 0
24080.0Total
21690.00No■
2410.00Yes■
n%Category
Node 0
24080.0Total
21690.00No■
2410.00Yes■
n%Category
Node 0
6020.0Total
1220.00No■
4880.00Yes■
n%Category
Node 0
6020.0Total
1220.00No■
4880.00Yes■
n%Category
通信量
128>通信量
2)決定木モデルの構築1)障害発生件数を目的変数、それに影響を与えそう
な変数を説明変数に設定
128<=通信量
機器# 障害発生件数 通信量
ヘビーユーザ
比率(%)
解約数 ・・・
id163 高 198 15% 28
id992 中 254 8% 3
id532 高 62 35% 8
id456 低 43 5% 5
目的変数 説明変数
解約数
12>解約数 12<=解約数
ルール例:通信量が128より大きく、
過去の解約数が12件より多い場合、
障害発生リスクが高くなる。
出力
(判定結果)
アラート
検査データ
生産データ
センサーデータ
フィード
バック先
入力データ
モデルの学習
合否判定基準 ②取得したデータからモデルを作る
④作成したモデルと新たなデータ
とを比較し合否を予測する
⑤合否の予測を
アラートとして発信する
①データを取得する
⑥アラートを受け取り意思決定
#1~100の過去
データでモデル作成
異常検知の考え方の例
モデル
スコア計算
#101のデータ
に対して判定
事前準備フェーズ
検知フェーズ
検査データ
生産データ
センサーデータ ③データを取得する
DWH/File Store/Hadoop
一時
データストア
ODS
加工・
ロード処理
サーバー
ETL
分析用
データベース
DWH
Spark
I/F
プロコン/
センサー
Spark生産
システム
検査結果
入力
フィード
バック先
ステップ 利用シーン 各Stepの狙い データ基盤・分析システム
Step0 【試行・計画策定】
•予測分析タスクで有用性/精度を検証
•効果出るエリアを選定し、ユースケース(仮
説)を作成する
•Spark Mllib /
Rstudio(R)/SparkR
Step1 【静的データ活用】
•品質検査結果から不合格品の原因を分析
•引合い検討(成分検討)時に類似製品の製造デー
タを参照し、生産仕様
•対象ケース(対象製品)を広げ、モデルの
精度を高める
•分析作業の効率をあげる
•Spark Mllib /
Rstudio(R)/SparkR
•DWH/Hadoop
Step2 【リアルタイムデータ活用】
•リアルタイムでスコア計算/アラート発信を行い、製造
途中のオーダーに対して、破棄やオーダーの付け替え
(汎用材として)判断を支援する
•リアルタイムにデータの取り込みからフィードバッ
クまでを行う
•Spark Streaming
•Spark Mllib /
Rstudio(R)/SparkR
アラート
?
MLlib
データ取り込み
スコア計算
モニタリングフィード
バック先
システムイメージと展開ステップ
kafka
Apache Sparkとストリーム処理の組み合わせ
39
Incident
Calls for
Service
311
Code
Violation Permit
Building
s Apache SparkApache Spark
MLlibMLlib
HDFSHDFS
ヒストリカル・データ
Model2 :
どのアクショ
ンを実行すべ
きか?
Model2 :
どのアクショ
ンを実行すべ
きか?
Model1 :
これは同じ
方向に進ん
でいる?
Model1 :
これは同じ
方向に進ん
でいる?
リアルタイム
インプットデータ
リアルタイム
インプットデータ
リアルタイム
予測分析&コンテキスト解析
リアルタイム
予測分析&コンテキスト解析
リアルタイム・ダッシュボード
• USA Cycling team
• https://www.youtube.com/watch?v=rKED2m_ml3w
• https://www.youtube.com/watch?v=8-9OJ0G8usQ&feature=youtu.be
40
Agenda
• Sparkの基礎
• Sparkを使った機械学習
• Sparkを学習するには
• まとめ
41
Copyright 2015 IBM Corporation42
• IBMは、100万人のデータサイエンティストとデータ活用の技術者育成を目指して、投資を継続
• Spark Technology Centerの設立を通じて、Databricks社やAMPLab等とのパートナーシップを
維持・強化し、Sparkテクノロジーの活用を加速します
• MOOC(Massive Open Online Courseの略、
大規模オープンオンライン講座)のBig Data
University上で、教育プログラムを提供
• ビジネス機会を創出すると共に、ビジネス課題の解
決に適したSpark活用の動機付け
• 日本語の技術情報拡充と、セミナーでの
講演を通じたグローバルのIBMの事例紹介
Sparkの勉強方法はWEBと書籍、とBigdataUniversity.com 参考
• Apache Spark入門
動かして学ぶ最新並列
分散処理フレームワーク
(NEXT ONE)
Sparkの勉強方法はWEBと書籍、とBigdataUniversity.com
Learning Spark Holden Karau (著), Andy Konwinski
(著), Patrick Wendell (著)
初めてのSpark - IBMは東京基礎研究所から寄稿)
より分析よりの
内容はこれ⇒
参考
←【推奨】→
詳解Apache Spark - IBMは
Sparkエキスパートである田中が
共著者)
Holdenは、IBM Sparkテクノロジーセンタで勤務
Agenda
• Sparkの基礎
• Sparkを使った機械学習
• Sparkを学習するには
• まとめ
44
まとめ
• Sparkの基本とSparkの機械学習
• 勉強してみる契機。一通り、実施してみることが重要です。
• その際は、Big Data University と Data Scientist Workbenchが勉強ツー
ルとして利用可能です。
45
Skills Tools
補足資料
46
インフラ:
• Apache Spark – オープンソース版
• スタンドアローン、クラスタ構成
• IBM BigInsights for Hadoop with Apache Spark
• ODPi提供のソースベースのIOPに含まれる
• 無償(フリー or サブスクリプション)
• 有償(サブスクリプション,もしくは商用ライセンス)
• IBM Spark as a Service
• セットアップ不要、インフラ可用性あり!
ツール:
• Data Scientist Workbench
• RStudio/Shiny, Python, Scala, Jupyter notebook, Zepplinが1つになったツール。無償で
Sparkへも接続・JOB実行ができる。
• Data Science Experience (有償版企業利用向け)
• SPSS v18
Sparkを使うには?
Sparkを試す簡単な方法-Spark as a Service
$0.07*(¥7.35)/GB/HourからはじめるSpark: 30日間無償/フリーミアム方式
ibm.com/spark
参考
提供される内容:
“Sparkスターター・キット”
- Apache Sparkサービス本体
- OpenStack SWIFT Objectストレージ
- Ipython Notebooks (Jupyter)
(Pythonランタイム)
- サンプル
Spark as a Serviceに含まれる内容
ストレージ
(OpenStack SWIFT
ベース)
Sparkサービス
(pythonランタイム
/Jupyter)
参考
• Sparkの導入・セットアップは必要なし!
• 3つのチュートリアル;データのロード,Pythonサンプル,Scalaサンプルで
ステップ・バイ・ステップで試せます。
サンプルがあるので、まずはトライができます
データのロード
Pythonのサンプル
Scalaのサンプル
Jupyterを利用
参考
• SPSSは、どうなるの?
• SPSSをリプレイスする位置づけではない。Spark MLlib(機械学習)との連携。事前
データ加工部分や、新しいアルゴリズム、自作部分で威力があるかも・・・
Sparkの使いどころと、SPSSの関係
1.システム部から基幹取引データ
をCSVファイルでもらう
2.文字コード変換する(ホストか
らのデータの場合は注意が必
要)
3.不要なレコードを条件抽出で
排除
4.列と行を入れ替え
5. 顧客マスターをCSVでもらう
6. また文字コード変換、不要レコー
ド、列と行・・
7. 住所をGoogleMapAPIを使っ
て緯度経度に変換
8. 緯度経度から最寄り駅の距離を
算出するPythonのプログラム
ここでやっと
アルゴリズム
データの型が
あわずエラー!
Sparkの使いどころ②
機械学習
最も手間がかかるのはデータの加工です。ビッグデータ分析の多くを占める処理は、実は「データ整形」です。
~作業の80%はデータ整備、それは基幹データが分析のために作られていないから、とも言われています。~
Sparkの使いどころ①
参考:SPSS(統計解析ミドルウェア)を利用した分析工程の内訳
クライアント
R
(R Studio IDE)
今までは・・・
データウェアハウス(PDA)SPSS Modeler Server
分析指示
分析結果表示
RDBデータリクエスト
分析指示
処理結果返信
ストリームイメージ
ローカル
クライアント
分析ツールとSpark連携
SPSS Client
R
(R Studio IDE)
Sparkユーザ
データウェアハウス(DB)SPSS Modeler Server
SPSS Analytics ServerInfosphere BigInsights with SPSS Analytics Server
(Hadoopクラスタ基盤)
分析指示
分析結果表示
Hadoopデータ
リクエスト
処理結果返信
処理結果返信
Hadoopデータ
分析指示
RスクリプトをHadoopクラスタで実行(R),もしくは
Sparkクラスタ(SparkR)で実行
RDBデータリクエスト
分析指示
処理結果返信
SPSS
Analytics
Server
Big R/SparkR
SPSSからRコード
を生成することも可能
データ待避
Jupyterノートブックなどで、データを取り込んで
データ加工、分析、ストリーム(ミニバッチ処理)
EOF
54

Más contenido relacionado

La actualidad más candente

ARC-009_RDB 技術者のための NoSQL ガイド
ARC-009_RDB 技術者のための NoSQL ガイドARC-009_RDB 技術者のための NoSQL ガイド
ARC-009_RDB 技術者のための NoSQL ガイドdecode2016
 
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築Tanaka Yuichi
 
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告Spark Summit 2015 参加報告
Spark Summit 2015 参加報告Katsunori Kanda
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-Makoto SHIMURA
 
Apache drillを業務利用してみる(までの道のり)
Apache drillを業務利用してみる(までの道のり)Apache drillを業務利用してみる(までの道のり)
Apache drillを業務利用してみる(までの道のり)Keigo Suda
 
Apache Sparkを使った感情極性分析
Apache Sparkを使った感情極性分析Apache Sparkを使った感情極性分析
Apache Sparkを使った感情極性分析Tanaka Yuichi
 
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話Shohei Kobayashi
 
Watson summit 2016_j2_5
Watson summit 2016_j2_5Watson summit 2016_j2_5
Watson summit 2016_j2_5Tanaka Yuichi
 
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけRDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけRecruit Technologies
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料Recruit Technologies
 
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)Atsushi Kurumada
 
サービス改善はログデータ分析から
サービス改善はログデータ分析からサービス改善はログデータ分析から
サービス改善はログデータ分析からKenta Suzuki
 
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介cyberagent
 
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016Tatsuya Atsumi
 
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートakeDaiyu Hatakeyama
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-Keigo Suda
 
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」Kazuki Taniguchi
 
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
SparkとJupyterNotebookを使った分析処理 [Html5 conference]SparkとJupyterNotebookを使った分析処理 [Html5 conference]
SparkとJupyterNotebookを使った分析処理 [Html5 conference]Tanaka Yuichi
 
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめBigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめTanaka Yuichi
 

La actualidad más candente (20)

ARC-009_RDB 技術者のための NoSQL ガイド
ARC-009_RDB 技術者のための NoSQL ガイドARC-009_RDB 技術者のための NoSQL ガイド
ARC-009_RDB 技術者のための NoSQL ガイド
 
Jjug ccc
Jjug cccJjug ccc
Jjug ccc
 
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築
 
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
 
Apache drillを業務利用してみる(までの道のり)
Apache drillを業務利用してみる(までの道のり)Apache drillを業務利用してみる(までの道のり)
Apache drillを業務利用してみる(までの道のり)
 
Apache Sparkを使った感情極性分析
Apache Sparkを使った感情極性分析Apache Sparkを使った感情極性分析
Apache Sparkを使った感情極性分析
 
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話
 
Watson summit 2016_j2_5
Watson summit 2016_j2_5Watson summit 2016_j2_5
Watson summit 2016_j2_5
 
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけRDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
 
サービス改善はログデータ分析から
サービス改善はログデータ分析からサービス改善はログデータ分析から
サービス改善はログデータ分析から
 
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介
 
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
 
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
 
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
 
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
SparkとJupyterNotebookを使った分析処理 [Html5 conference]SparkとJupyterNotebookを使った分析処理 [Html5 conference]
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
 
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめBigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
 

Destacado

Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Atsushi Tsuchiya
 
20130612 ibm big_dataseminar_streams
20130612 ibm big_dataseminar_streams20130612 ibm big_dataseminar_streams
20130612 ibm big_dataseminar_streamsAtsushi Tsuchiya
 
AITC 女子部 第一回 Web 技術 Html5
AITC 女子部 第一回 Web 技術 Html5AITC 女子部 第一回 Web 技術 Html5
AITC 女子部 第一回 Web 技術 Html5Natsumi Irimura
 
将来どうなるかを予測しながら作るマーケティングモデル
将来どうなるかを予測しながら作るマーケティングモデル将来どうなるかを予測しながら作るマーケティングモデル
将来どうなるかを予測しながら作るマーケティングモデルTakatsugu Kobayashi
 
統計学の良著 データサイエンティストのひよこになるまで
統計学の良著 データサイエンティストのひよこになるまで統計学の良著 データサイエンティストのひよこになるまで
統計学の良著 データサイエンティストのひよこになるまでNatsumi Irimura
 
ネットワークマイニング(グラフ構造分析)
ネットワークマイニング(グラフ構造分析)ネットワークマイニング(グラフ構造分析)
ネットワークマイニング(グラフ構造分析)Katsuhiro Takata
 
DATUM STUDIO PyCon2016 Turorial
DATUM STUDIO PyCon2016 TurorialDATUM STUDIO PyCon2016 Turorial
DATUM STUDIO PyCon2016 TurorialTatsuya Tojima
 
Python twitter data_150709
Python twitter data_150709Python twitter data_150709
Python twitter data_150709BrainPad Inc.
 
アジャイル開発を支える開発環境 公開用
アジャイル開発を支える開発環境 公開用アジャイル開発を支える開発環境 公開用
アジャイル開発を支える開発環境 公開用ESM SEC
 
Amazon Machine Learing と機械学習
Amazon Machine Learing と機械学習Amazon Machine Learing と機械学習
Amazon Machine Learing と機械学習Kei Hirata
 
Amazon Machine Learning Tutorial
Amazon Machine Learning TutorialAmazon Machine Learning Tutorial
Amazon Machine Learning TutorialYoshimi Tominaga
 
PyconJP: Building a data preparation pipeline with Pandas and AWS Lambda
PyconJP: Building a data preparation pipeline with Pandas and AWS LambdaPyconJP: Building a data preparation pipeline with Pandas and AWS Lambda
PyconJP: Building a data preparation pipeline with Pandas and AWS LambdaFabian Dubois
 
bottle.pyをつかったチャットアプリ作成チュートリアル
bottle.pyをつかったチャットアプリ作成チュートリアルbottle.pyをつかったチャットアプリ作成チュートリアル
bottle.pyをつかったチャットアプリ作成チュートリアルSatoshi Yamada
 
PyLadies Tokyo - 初心者向けPython体験ワークショップ開催の裏側
PyLadies Tokyo - 初心者向けPython体験ワークショップ開催の裏側PyLadies Tokyo - 初心者向けPython体験ワークショップ開催の裏側
PyLadies Tokyo - 初心者向けPython体験ワークショップ開催の裏側Katayanagi Nobuko
 
How to Apply Machine Learning with R, H20, Apache Spark MLlib or PMML to Real...
How to Apply Machine Learning with R, H20, Apache Spark MLlib or PMML to Real...How to Apply Machine Learning with R, H20, Apache Spark MLlib or PMML to Real...
How to Apply Machine Learning with R, H20, Apache Spark MLlib or PMML to Real...Kai Wähner
 
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京Koichi Hamada
 
kintone Café 東京 Vol.4 ハンズオン資料(kintone & AWS API Gateway/Lambda/Machine Learning)
kintone Café 東京 Vol.4 ハンズオン資料(kintone & AWS API Gateway/Lambda/Machine Learning)kintone Café 東京 Vol.4 ハンズオン資料(kintone & AWS API Gateway/Lambda/Machine Learning)
kintone Café 東京 Vol.4 ハンズオン資料(kintone & AWS API Gateway/Lambda/Machine Learning)JOYZO
 

Destacado (20)

Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
 
20130612 ibm big_dataseminar_streams
20130612 ibm big_dataseminar_streams20130612 ibm big_dataseminar_streams
20130612 ibm big_dataseminar_streams
 
AITC 女子部 第一回 Web 技術 Html5
AITC 女子部 第一回 Web 技術 Html5AITC 女子部 第一回 Web 技術 Html5
AITC 女子部 第一回 Web 技術 Html5
 
将来どうなるかを予測しながら作るマーケティングモデル
将来どうなるかを予測しながら作るマーケティングモデル将来どうなるかを予測しながら作るマーケティングモデル
将来どうなるかを予測しながら作るマーケティングモデル
 
統計学の良著 データサイエンティストのひよこになるまで
統計学の良著 データサイエンティストのひよこになるまで統計学の良著 データサイエンティストのひよこになるまで
統計学の良著 データサイエンティストのひよこになるまで
 
ネットワークマイニング(グラフ構造分析)
ネットワークマイニング(グラフ構造分析)ネットワークマイニング(グラフ構造分析)
ネットワークマイニング(グラフ構造分析)
 
DATUM STUDIO PyCon2016 Turorial
DATUM STUDIO PyCon2016 TurorialDATUM STUDIO PyCon2016 Turorial
DATUM STUDIO PyCon2016 Turorial
 
Python twitter data_150709
Python twitter data_150709Python twitter data_150709
Python twitter data_150709
 
アジャイル開発を支える開発環境 公開用
アジャイル開発を支える開発環境 公開用アジャイル開発を支える開発環境 公開用
アジャイル開発を支える開発環境 公開用
 
Amazon Machine Learing と機械学習
Amazon Machine Learing と機械学習Amazon Machine Learing と機械学習
Amazon Machine Learing と機械学習
 
Amazon Machine Learning Tutorial
Amazon Machine Learning TutorialAmazon Machine Learning Tutorial
Amazon Machine Learning Tutorial
 
PyconJP: Building a data preparation pipeline with Pandas and AWS Lambda
PyconJP: Building a data preparation pipeline with Pandas and AWS LambdaPyconJP: Building a data preparation pipeline with Pandas and AWS Lambda
PyconJP: Building a data preparation pipeline with Pandas and AWS Lambda
 
Project Facilitation
Project FacilitationProject Facilitation
Project Facilitation
 
bottle.pyをつかったチャットアプリ作成チュートリアル
bottle.pyをつかったチャットアプリ作成チュートリアルbottle.pyをつかったチャットアプリ作成チュートリアル
bottle.pyをつかったチャットアプリ作成チュートリアル
 
PyLadies Tokyo - 初心者向けPython体験ワークショップ開催の裏側
PyLadies Tokyo - 初心者向けPython体験ワークショップ開催の裏側PyLadies Tokyo - 初心者向けPython体験ワークショップ開催の裏側
PyLadies Tokyo - 初心者向けPython体験ワークショップ開催の裏側
 
How to Apply Machine Learning with R, H20, Apache Spark MLlib or PMML to Real...
How to Apply Machine Learning with R, H20, Apache Spark MLlib or PMML to Real...How to Apply Machine Learning with R, H20, Apache Spark MLlib or PMML to Real...
How to Apply Machine Learning with R, H20, Apache Spark MLlib or PMML to Real...
 
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
 
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
 
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
 
kintone Café 東京 Vol.4 ハンズオン資料(kintone & AWS API Gateway/Lambda/Machine Learning)
kintone Café 東京 Vol.4 ハンズオン資料(kintone & AWS API Gateway/Lambda/Machine Learning)kintone Café 東京 Vol.4 ハンズオン資料(kintone & AWS API Gateway/Lambda/Machine Learning)
kintone Café 東京 Vol.4 ハンズオン資料(kintone & AWS API Gateway/Lambda/Machine Learning)
 

Similar a Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料

大阪市オープンデータポータルAPI(SPARQL)勉強会
大阪市オープンデータポータルAPI(SPARQL)勉強会大阪市オープンデータポータルAPI(SPARQL)勉強会
大阪市オープンデータポータルAPI(SPARQL)勉強会Kouji Kozaki
 
Html5とアクセシビリティ
Html5とアクセシビリティHtml5とアクセシビリティ
Html5とアクセシビリティMasakazu Muraoka
 
横浜でのオープンデータ実践
横浜でのオープンデータ実践横浜でのオープンデータ実践
横浜でのオープンデータ実践Iwao KOBAYASHI
 
pg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいことpg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいことMasahiko Sawada
 
20150209 甲府-web新世紀2
20150209 甲府-web新世紀220150209 甲府-web新世紀2
20150209 甲府-web新世紀2Taisuke Fukuno
 
ピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築するピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築するTakahito Tejima
 
SmartPhone development guide with CoffeeScript + Node + HTML5 Technology, for...
SmartPhone development guide with CoffeeScript + Node + HTML5 Technology, for...SmartPhone development guide with CoffeeScript + Node + HTML5 Technology, for...
SmartPhone development guide with CoffeeScript + Node + HTML5 Technology, for...Naoya Ito
 
20150912わんくま大阪-Firefox OSの「いま」と「これから」
20150912わんくま大阪-Firefox OSの「いま」と「これから」20150912わんくま大阪-Firefox OSの「いま」と「これから」
20150912わんくま大阪-Firefox OSの「いま」と「これから」Takahiro Uemura
 
アプリだけじゃない!チームも一緒に成長させる開発
アプリだけじゃない!チームも一緒に成長させる開発アプリだけじゃない!チームも一緒に成長させる開発
アプリだけじゃない!チームも一緒に成長させる開発Yuichiro Takahashi
 
IoT(Bluetooth mesh) × サーバーレス
IoT(Bluetooth mesh) × サーバーレスIoT(Bluetooth mesh) × サーバーレス
IoT(Bluetooth mesh) × サーバーレスMasahiro NAKAYAMA
 
Creative Cloud デザインツールの便利な8つの機能 - ADC MEETUP ROUND 08 SESSION2 -
Creative Cloud デザインツールの便利な8つの機能 - ADC MEETUP ROUND 08 SESSION2 -Creative Cloud デザインツールの便利な8つの機能 - ADC MEETUP ROUND 08 SESSION2 -
Creative Cloud デザインツールの便利な8つの機能 - ADC MEETUP ROUND 08 SESSION2 -Hideki Akiba
 
JSON Value into Power Automate
JSON Value into Power AutomateJSON Value into Power Automate
JSON Value into Power AutomateTomoyuki Obi
 
Osc2008tokyo秋 なでしこ勉強会
Osc2008tokyo秋 なでしこ勉強会Osc2008tokyo秋 なでしこ勉強会
Osc2008tokyo秋 なでしこ勉強会kujirahand kujira
 
Java 9 and Future #jjug
Java 9 and Future #jjugJava 9 and Future #jjug
Java 9 and Future #jjugYuji Kubota
 
スクレイピングその後
スクレイピングその後スクレイピングその後
スクレイピングその後Tomoki Hasegawa
 
PySpark Intro Part.2 with SQL Graph
PySpark Intro Part.2 with SQL GraphPySpark Intro Part.2 with SQL Graph
PySpark Intro Part.2 with SQL GraphOshitari_kochi
 
Spark Streaming + Amazon Kinesis
Spark Streaming + Amazon KinesisSpark Streaming + Amazon Kinesis
Spark Streaming + Amazon KinesisYuta Imai
 

Similar a Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料 (20)

大阪市オープンデータポータルAPI(SPARQL)勉強会
大阪市オープンデータポータルAPI(SPARQL)勉強会大阪市オープンデータポータルAPI(SPARQL)勉強会
大阪市オープンデータポータルAPI(SPARQL)勉強会
 
Html5とアクセシビリティ
Html5とアクセシビリティHtml5とアクセシビリティ
Html5とアクセシビリティ
 
横浜でのオープンデータ実践
横浜でのオープンデータ実践横浜でのオープンデータ実践
横浜でのオープンデータ実践
 
pg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいことpg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいこと
 
20150209 甲府-web新世紀2
20150209 甲府-web新世紀220150209 甲府-web新世紀2
20150209 甲府-web新世紀2
 
ピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築するピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築する
 
SmartPhone development guide with CoffeeScript + Node + HTML5 Technology, for...
SmartPhone development guide with CoffeeScript + Node + HTML5 Technology, for...SmartPhone development guide with CoffeeScript + Node + HTML5 Technology, for...
SmartPhone development guide with CoffeeScript + Node + HTML5 Technology, for...
 
Unreal engine4を使ったVRコンテンツ製作で 120%役に立つtips集+GDC情報をご紹介
Unreal engine4を使ったVRコンテンツ製作で 120%役に立つtips集+GDC情報をご紹介Unreal engine4を使ったVRコンテンツ製作で 120%役に立つtips集+GDC情報をご紹介
Unreal engine4を使ったVRコンテンツ製作で 120%役に立つtips集+GDC情報をご紹介
 
20150912わんくま大阪-Firefox OSの「いま」と「これから」
20150912わんくま大阪-Firefox OSの「いま」と「これから」20150912わんくま大阪-Firefox OSの「いま」と「これから」
20150912わんくま大阪-Firefox OSの「いま」と「これから」
 
アプリだけじゃない!チームも一緒に成長させる開発
アプリだけじゃない!チームも一緒に成長させる開発アプリだけじゃない!チームも一緒に成長させる開発
アプリだけじゃない!チームも一緒に成長させる開発
 
IoT(Bluetooth mesh) × サーバーレス
IoT(Bluetooth mesh) × サーバーレスIoT(Bluetooth mesh) × サーバーレス
IoT(Bluetooth mesh) × サーバーレス
 
Creative Cloud デザインツールの便利な8つの機能 - ADC MEETUP ROUND 08 SESSION2 -
Creative Cloud デザインツールの便利な8つの機能 - ADC MEETUP ROUND 08 SESSION2 -Creative Cloud デザインツールの便利な8つの機能 - ADC MEETUP ROUND 08 SESSION2 -
Creative Cloud デザインツールの便利な8つの機能 - ADC MEETUP ROUND 08 SESSION2 -
 
Ibm data science experience
Ibm data science experienceIbm data science experience
Ibm data science experience
 
JSON Value into Power Automate
JSON Value into Power AutomateJSON Value into Power Automate
JSON Value into Power Automate
 
Osc2008tokyo秋 なでしこ勉強会
Osc2008tokyo秋 なでしこ勉強会Osc2008tokyo秋 なでしこ勉強会
Osc2008tokyo秋 なでしこ勉強会
 
JAWSUG 20180413
JAWSUG 20180413JAWSUG 20180413
JAWSUG 20180413
 
Java 9 and Future #jjug
Java 9 and Future #jjugJava 9 and Future #jjug
Java 9 and Future #jjug
 
スクレイピングその後
スクレイピングその後スクレイピングその後
スクレイピングその後
 
PySpark Intro Part.2 with SQL Graph
PySpark Intro Part.2 with SQL GraphPySpark Intro Part.2 with SQL Graph
PySpark Intro Part.2 with SQL Graph
 
Spark Streaming + Amazon Kinesis
Spark Streaming + Amazon KinesisSpark Streaming + Amazon Kinesis
Spark Streaming + Amazon Kinesis
 

Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料