SlideShare una empresa de Scribd logo
1 de 23
2023年3月9日
嬉野 由
SAPジャパン
DWCで機械学習をやってみた
SAP Inside Track 2023
TOKYO
2
1. SAP Data Warehouse Cloud / HANA Cloud 概要
2. シナリオ紹介
3. デモ
4. やってみて感じたこと
DWCで機械学習をやってみた
3
1. SAP Data Warehouse Cloud / HANA Cloud 概要
2. シナリオ紹介
3. デモ
4. やってみて感じたこと
DWCで機械学習をやってみた
4
テクノロジー
アプリケーション開発 自動化 インテグレーション データ管理&分析 AI
Intelligent, Sustainable Enterprise
Intelligent, sustainable
enterprise
Lead to cash
Recruit to retire
Design to operate
Source to pay
ビジネスネットワーク インダストリ ー クラウド エクスペリエンス管理 計画
ソリューション領域
業種固有の
エンドツーエンドプロセス
ビジネスプロセス
ビジネスプロセス管理
一貫性の
あるUX
One ワークフ
ローインボックス
E2Eのプロセス
設計図
共通のドメイン
モデル
統合されたセキュ
リティ&ID管理
コーディネイトさ
れたライフサイク
ル管理
組み込み/
クロスアプリの
アナリティクス
エンタープライズリソース管理 (ERP)
支出管理
人事・人材管理 (HCM)
顧客管理 (CRM)
5
SAP Data
Warehouse Cloud
クラウドシステム
データベース データレイク オンプレミスシステム
ファイル
ビジネスユーザ ITユーザ
簡単な操作でデータを
収集・統合・加工でき
る
セルフサービスモデリ
ング
必要な情報を迅速に共有で
き、データに基づくコラボ
レーションを促進
データの定義、目的、形
式、責任者を明確にし、
企業全体の情報をカタロ
グ化
SAP Data Warehouse Cloud
クラウドネイティブなデータ活用プラットフォームサービス
SAP S/4HANA
SAP BW/4HANA
6
企業システムにおけるリアルタイムデータ活用基盤
データを価値に変える、SAPの "Data-to-Value" プラットフォーム
SAP Business Technology Platform
高速なインメモリーデータベース
SAP HANA Cloud データレイク
SAP Data Warehouse Cloud
SAP BW/4HANA
クラウドストレージ IoT
Sensors
Devices
Log Files
Flat Files
Image
Text
SNS
Video
etc.
関連システム
SaaS
PaaS
SaaS
Embedded
Analytics
全社統合ERP
SAP S/4HANA
AI/機械学習
予測分析
SAP HANA
業務オペレーション
ダッシュボード 予測分析 予算計画
SAP Analytics Cloud
アナリティクス
セルフサービスBI
MS Office
統合
SAP BW Bridge Data Marketplace
長期データ保存機能 社外データの活用
ビジネスコンテンツ
: 透過アクセス
: データのコピー
7
SAP HANAの主な特徴
• インメモリーテクノロジーによる卓越した情報処理性能
• データ仮想統合による情報入手のリードタイム短縮
o 企業システムのデータアクセスをシングルゲートウェイ化
• マルチモデルデータ処理による新たなインサイト
o 地理空間データ、非構造データ
o 予測分析、グラフエンジン、機械学習機能などの高度な分析機能を内包
SAP HANAがもたらすお客様価値
• 意思決定の迅速化、正確性の向上
• ビジネスプロセス実行の高速化
• 所要ITコストの低減
SAP HANA : インメモリーデータベース
企業システムの“あるべき姿”を実現
Automated Predictive
Library
Python/R
機械学習クライアント
SQL データベー
スと開発者クライア
ント
SAP HANA Cloud
高度な分析処理
SAP Application Function Library (AFL)
6
機械学習
検索
ドキュメン
トストア
グラフ
地理空間
情報
Predictive Analysis
Library
テキスト
分析
8
SAP HANA Cloudのマルチモデル処理
クリック
ストリー
ム
顧客デー
タ
コネク
テッド
カー
スマー
ト
メータ
ー
販売の
ポイン
ト
モバイ
ル
構造
データ
地理空間
データ
テキス
ト
データ
RFID マシン
データ
SNS
すべてのデータ
 構造化データ:業務アプリケーションで発生する顧客情報、取引情報などを集計してレポート作成
 地理空間データ: HANAの地理空間エンジンを使用し、すべての種類の空間データを調和、業務データのリッチ化、業務プロセスへの位置情報インテリジェンスの組
み込み、等を実施
 グラフデータ: HANAのグラフエンジンとアルゴリズムを使用し、ハイパー接続データやその関係性から、より深いインサイトを抽出
 JSONデータ: ネイティブSQLを使用し非構造化データを処理 - JSONドキュメント向けのACID完全サポートのエンタープライズ対応ドキュメントストアを使用
 テキストデータ: SQLを使用してテキストデータに対してあいまい検索をすることが可能。テキストマイニングを実施して言語的に類似している言葉や文章、同義
を求めることなども可能
 ストリーミングデータ: HANAのストリーミングエンジン(On-premise HANA Platformのみ)や外部ストリーミングエンジンを活用してライブデータストリームを
取り込んで分析
SAP HANA
Embed graph analysis in same SQL
Embed geospatial in same SQL
Embed fuzzy text search in same SQL
1 CREATE FULLTEXT INDEX i1 ON PSA_TRANSACTION( 2 AMOUNT,
TRAN_DATE, POST_DATE, DESCRIPTION,
3 CATEGORY_TEXT ) FUZZY SEARCH INDEX ON SYNC;
4
5 SELECT SCORE() AS SCR, * FROM
6 "SYSTEM"."PSA_TRANSACTION" WHERE CONTAINS
7 (*, 'Sarvice', fuzzy) ORDER BY SCR DESC;
10
HANAの機械学習の利点
 古典的なMLシナリオのための最先端のアルゴリズム
– Classification, regression, forecasting, clustering, …
– 自動化されたML機能(APL)およびエキスパートML機能(PAL)(ランダ
ム決定木、グラディエントブースティングなどのトレンド機能を含む
 データおよびデータベーストランザクションと同じ場所でMLが実行される
– HANAのインメモリ処理の性能と恩恵を受ける
– 非機能要件の実現が同一DB内で可能
– S/4HANAのトランザクション処理内でクイックなML推論が可能
 シンプルなアーキテクチャ
– 追加のサービスやマシンが不要で、追加のソフトウェアライフサイクルを管
理する必要がない
– 空間、グラフ、テキスト分析処理との併用など、マルチモデルなコンテキス
トでの適用が可能
 マルチロールとユーザーインターフェース
– データベース開発者向けのSQL
– データサイエンティスト向けのPAL/APLを介したPythonおよびRクライアン
トAPI
– SAP Data Intelligenceを介したパイプラインのモデリング
– ABAP/HANA-SQL機能によるSAPアプリケーションへの統合
11
 HANAのEngineを使いHANAのデータを対象に機械学習を実現する機能(Embedded Machine learning)で
す。
 Embedded Machine learningは予測や学習を行うPALと自動化を行うAPLに分かれています
HANA Cloudの機械学習とは?
Advanced analytical processing
Graph ML & Predictive Search Series
data
Streaming
analytics
Spatial Text
analytics
SAP HANA Platform
Serving Server
Active
Model(s)
R-Server
R-Serve
External Machine Learning
TensorFlow
Integration
Embedded Machine Learning
Predictive
Analysis Library
Automated
Predictive Library
R Integration
/
Cloud
12
Classification Analysis
 Decision Tree Analysis (CART, C4.5, CHAID) ,
Logistic Regression, Support Vector Machine,
K-Nearest Neighbor, Naïve Bayes, Confusion
Matrix, AUC,
Online multi-class Logistic Regression*
 Multilayer Perception (back propagation Neural
Network)
 Random Decision Trees, Hybrid Gradient
Boosting Tree (HGBT)#,, Continuous HGBT*
 Unified Classification#
 Model explainability#
Regression
 Multiple Linear Regression,
Online Linear Regression*
 Polynomial-, Exponential-, Bi-Variate
Geometric-, Bi-Variate Natural Logarithmic-
Regression
 Generalized Linear Model (GLM)
 Cox Proportional Hazards Model
 Random Decision Trees, Hybrid Gradient
Boosting Tree (HGBT) #, Continuous HGBT*
 Unified Regression* incl. explainability
Association Analysis
 Apriori, Apriori Lite, FP-Growth
 K-Optimal Rule Discovery (KORD)
Discovery, Sequential Pattern Mining
Link Prediction
 Link Prediction (Common Neighbors,
Jaccard’s Coefficient, Adamic/Adar, Katzβ),
PageRank
Recommender Systems
 Factorized Polynomial Regression Models,
Alternating least squares, Field-aware
Factorization Machines (FFM)
Text Processing
 Conditional Random Field, Latent Dirichlet
Allocation
 TF-IDF*, term analysis*, text
classification*, get related terms /
documents*, get relevant terms /
documents*, get suggested terms*
Data Preprocessing
 Sampling, Partitioning, SMOTE, TomekLink,
SMOTETomek# *
 Binning / Discretize, Missing Value Handling,
Scaling, Feature Selection*
Statistical & Multivariate Analysis
 Univariate Analysis (Data Summary, Mean,
Median, Variance, Stand. Deviation, Kurtosis,
Skewness, ..)
 Kernel Density Estimation, Entropy
 Correlation Function
 Multivariate Analysis (Covariance Matrix,
Pearson Correlations Matrix),
Condition Index
 Principal Component Analysis (PCA)/PCA
Projection, TSNE, Categorial PCA
 Linear Discriminant Analysis
 Multidimensional scaling,
Factor Analysis
 Chi-squared Tests: Quality of Fit,
Test of Independence, ANOVA, F-test (equal
variance test)
 One-sample Median Test, T Test, Wilcox Signed
Rank Test
 Inter-Quartile Range, Variance Test, Grubbs
Outlier Test , Anomaly Detection (KMeans)
 Random Distribution Sampling, Markov Chain
Monte Carlo (MCMC)#
 Distribution Fitting, Cumulative Distribution
Function, Distribution Quantile
Misc. Functions
 Kaplan-Meier Survival Analysis, Weighted
Scores Table, ABC Analysis, Tree model
visualization#
Cluster Analysis
 K-Means, Accelerated K-Means, K-Medoids, K-
Medians, Geo- / DBSCAN, Agglomerate
Hierarchical Clustering*
 Kohonen Self-Organizing Maps, Affinity
Propagation, Gaussian Mixture Model
 Unified Clustering#, Spectral clustering*
 Slight Silhouette, Cluster Assignment
Time Series Analysis
 Single-, Double-, Triple-, Brown-, Auto
Exponential Smoothing, Unified Exponential
Smoothing (incl. massive segmentation)*
 Auto-ARIMA, Online ARIMA*,
Vector-ARIMA*, ARIMA_EXPLAIN*
 GARCH*, BSTS*
 Croston’s Method, Linear Regression with
damped trend and seasonal adjust,
Intermittent Time Series Forecast*
 Fast Dynamic Time Warping# , DTW*
 Additive Model Analysis#*
 Hierarchical Forecasting
 Fast Fourier Transform (FFT), Discrete
Wavelet/ Wavelet Packet Transform*
 White Noise-, Trend-, Seasonality-Test,
Change Point Detection, Bayesian Change
Point Detection* ,Forecast Accuracy Measures
 LSTM*, Attention*
現在実装されているHANA PALの機能一覧(SPS6時点)
–
#SAP HANA 2 SPS05 | *SAP HANA 2 SPS06 & HANA Cloud | *New in SAP HANA Cloud | As of SAP HANA Cloud 2020 QRC03 (CE2020.36)
13
APLとは?
 APLとはHANAの自動予測ライブラリ(APL)
 自動分類、回帰、時系列予測などの主要なシナリオに対応化
は、「構造的リスクの最小化」の概念に基づき、自動変数選
択、データ準備、変数エンコーディング、欠損値処理、異常
値処理、ビニングとバンディング、モデルテスト、ベストモ
デル選択などの分析ステップをカバーします
 専門家ではないデータサイエンティストでも、HANA上に構
築されたアプリケーションでも、迅速かつ容易に利用するこ
とができます
 APLは、予測モデルの作成、学習、適用、デプロイ、および
クエリを行うためのシンプルなプロシージャ関数を提供しま
す
 注)AutoMLは別のPALをベースにしたものです
SAP HANA Platform
Automated Predictive Library (APL)
Classification
Regression
Cluster
analysis
Time series
forecasting
Association
analysis
Recommendatio
n
Link analysis
* https://blogs.sap.com/2020/04/23/automate-machine-learning-with-apl-now-part-of-sap-
hana-sps04/
** support for Gradient Boosting-based regression and multinomial classification
14
1. SAP Data Warehouse Cloud / HANA Cloud 概要
2. シナリオ紹介
3. デモ
4. やってみて感じたこと
DWCで機械学習をやってみた
15
SAP HANA Cloud マルチモデル処理技術と予測分析ライブラリ (PAL)
の機械学習分類技術を利用して価格をモデル化します。ガソリンスタ
ンドのクラス カテゴリと、ステーション属性 (空間属性を含む) の影響
と、価格に影響があるインジケーターを推測します
• Ex 6.1 平均的な e5 燃料価格レベルに基づいて燃料ステーションの価格クラス ラベル変数を作成
し、ステーション マスター データおよび価格指標属性データフレームを定義します
• Ex 6.2 複数の地理的位置から派生した属性を持つ追加のステーション属性データフレームを定
義します
• Ex 6.3 ステーションの価格クラス分類モデルを構築し、価格クラス ラベルに対する各項目の影
響 (特に位置情報による影響) を確認します
DA180 Exrecise5&6 シナリオ
https://github.com/SAP-samples/teched2022-DA180/tree/main/exercises/ex6
SAP HANA Cloud のマルチモデル処理技術を用いて、ドイツの地理的
に配置された燃料ステーション データを準備および収集します。次に、
予測分析ライブラリ (PAL)を使用してセグメント化された予測手法を適
用し、各ステーションの「e5」自動車燃料価格の予測モデルを構築して
適用します
• Ex 5.1 では、駅と地域の地理データをダウンロードし、 SAP HANA Cloud に保存し、データに HANA
空間フィルタリングを適用して視覚化
• Ex 5.2 で燃料価格データをダウンロードして SAP HANA Cloud に保存し、時系列データを視覚的に探
索
• Ex 5.3 で、空間的にフィルター処理されたステーションで e5 価格予測モデルを構築し、予測された燃
料価格データを視覚化します
https://github.com/SAP-samples/teched2022-DA180
16
SAP Analytics Cloud
SAP Data Warehouse Cloud
Business and Data Layer, Governance
JAPAN_PDM#URESHINO Schema
MLモデル
の作成
HANA ML – PAL / APL, in-memory DB
データフレー
ムの定義・分
類データのト
レーニング
予測テーブ
ルの作成
Imported ML View
データ
JAPAN_PDM Space
ストーリー
DA180 Exrecise5&6 シナリオ
• Ex 6.1 平均的な e5 燃料価格レベルに基づいて燃料ステー
ションの価格クラス ラベル変数を作成し、ステーション マ
スターデータおよび価格指標属性データフレームを定義し
ます
• Ex 6.2 複数の地理的位置から派生した属性を持つ追加のス
テーション属性データフレームを定義します
• Ex 6.3 ステーションの価格クラス分類モデルを構築し、価
格クラス ラベルに対する各項目の影響 (特に位置情報による
影響) を確認します
• Ex 5.1 では、駅と地域の地理データをダウンロードし、 SAP
HANA Cloud に保存し、データに HANA 空間フィルタリング
を適用して視覚化
• Ex 5.2 で燃料価格データをダウンロードして SAP HANA
Cloud に保存し、時系列データを視覚的に探索
• Ex 5.3 で、空間的にフィルター処理されたステーションで e5
価格予測モデルを構築し、予測された燃料価格データを視覚
化します
Exercise.5
Exercise.6
Ex.5 Ex.6
17
1. SAP Data Warehouse Cloud / HANA Cloud 概要
2. シナリオ紹介
3. デモ
4. やってみて感じたこと
DWCで機械学習をやってみた
18
最初の設定
HANA MLをインポート
DWCのOpen SQLスキー
マの接続情報を入力
19
燃料価格の時系列表示
燃料価格のbox plot
ガソリンスタンドごとに時系列解
析を行い、価格を時系列予測した
グラフ
# Build a forecast model per station in parallel using PAL
Additive Model Forecast (aka Prophet)-forecasting function
from hana_ml.algorithms.pal.tsa.additive_model_forecast
import AdditiveModelForecast
amf = AdditiveModelForecast(massive=True,growth='linear',
changepoint_prior_scale=0.06,
weekly_seasonality='True',
daily_seasonality='True'
)
amf.fit(data=train_rnk_hdf, key="date",
group_key="station_uuid", holiday=holiday_data_hdf)
燃料価格の予測をモデル化(Additive-Model-Analysis)
Ex.5 データの準備と時系列予測
20
Ex.6.1 ガソリンスタンド分類データの準備と調査
各インジケーターの相関関係を見
るために混合行列を表示する
SQL ステートメントに基づいて、下記のステーション関連の e5 価格インジ
ケーター属性を導出し、ガソリンスタンドの価格レベルインジケータ属性デー
タフレームを作成する
• *_E5C_D は、毎日の「e5change」カウント派生指標 (合計、分、....) 例:
SUM_E5C = e5 価格変更のすべての毎日のカウントの合計
• *_E5_D は、集計された (VAR、STDDEV、MIN、..) 日次 e5 値に対する集計
(AVG、SUM) 例: AVG_E5_MIN = すべての日次最小 e5 価格値の平均
21
Ex.6.3 ガソリンスタンドのクラシフィケーションモデルの作成と指標の影響分析
# Train the Station classifer model using PAL HybridGradientBoostingTree
from hana_ml.algorithms.pal.unified_classification import UnifiedClassification
# Define the model object
hgbc = UnifiedClassification(func='HybridGradientBoostingTree',
n_estimators = 101, split_threshold=0.1,
learning_rate=0.5, max_depth=5,
resampling_method='cv', fold_num=5,
evaluation_metric = 'error_rate', ref_metric=['auc'],
thread_ratio=1.0)
# Execute the training of the model
hgbc.fit(data=df_trainval, key= 'uuid',
label='STATION_CLASS', categorical_variable='STATION_CLASS',
impute=True, strategy='most_frequent-mean',
ntiles=20, build_report=True,
partition_method='user_defined', purpose='TRAIN_VAL_INDICATOR' )
display(hgbc.runtime)
HybridGradientBoostingTreeモデルを強化
学習データ モデル 学習結果
出力結果
間違えた部分
を重点的に学
習
間違えた部分
を重点的に学
習
各モデルに重
みづけし、合
計したものが
出力結果
勾配ブ―スティング決定木
22
EX.6.3 ステーションの価格クラス分類モデルを構築し、価格に対する各指標の影響 を確認
各ステーションの価格に対
して最も重要な指標は高速
道路からの距離だとわかっ
た
トレーニングモデルと検証モ
デルのパフォーマンス統計も
確認できる
Model Reportで各指標を調べる
23
課題
 製油所は24時間年中無休で稼働しています。
 連続精製はいくつかの重要な機器の通常稼働に依存しています:10個の重要
設備を監視する156個のセンサー
 センサーからの情報を瞬時に収集し、分析する技術が必要です。
ソリューション
 SAP HANA Cloud 2021QRC01 PAL Additive Model algorithmを使用
 1時間ごとに、センサー動作の36時間先読みを予測し、メンテナンスタスク
をプロアクティブにスケジュールします。
利点
 PAL Additive Model Analysisを使用すると、オープンソースソリューション
と比較して時系列予測を最大15倍以上高速化できます
 SAP HANA Cloud用のPython機械学習クライアントを使用した開発の予測に
より、
プロジェクトの本稼働までの時間が大幅に短縮されました。
SAP HANA Cloudの機械学習
顧客事例 – 石油精製における予知保全
https://www.sap.com/documents/2022/07/0cb5e754-f27d-0010-bca6-c68f7e60039b.html
24
センサーデータを時系列で表現
1. 時系列データの変化点を検出
2. 変化点の情報を用いて、Additive Model 分析
3. 36時間先のセンサー動作の予測
SAP HANA Cloudの機械学習
顧客事例 – 石油精製における予知保全

Más contenido relacionado

Similar a sitTokyo2023_DWCで機械学習をやってみた_Shared.pptx

40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) hamaken
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~Developers Summit
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームPreferred Networks
 
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返りSotaro Kimura
 
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lakede:code 2017
 
Map server入門 - FOSS4G 2012 Hokkaido
Map server入門 - FOSS4G 2012 HokkaidoMap server入門 - FOSS4G 2012 Hokkaido
Map server入門 - FOSS4G 2012 HokkaidoHideo Harada
 
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタック
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタックONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタック
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタックKentaro Ebisawa
 
データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」
データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」
データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」Masayuki Matsushita
 
20160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #520160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #5Koichiro Sasaki
 
Guide to Cassandra for Production Deployments
Guide to Cassandra for Production DeploymentsGuide to Cassandra for Production Deployments
Guide to Cassandra for Production Deploymentssmdkk
 
VisualStudio2010ReadyDay Azureセッション資料
VisualStudio2010ReadyDay Azureセッション資料VisualStudio2010ReadyDay Azureセッション資料
VisualStudio2010ReadyDay Azureセッション資料Shinichiro Isago
 
ACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyoACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyoTakefumi MIYOSHI
 
Vertica Brochure_2022April1_v4.pdf
Vertica Brochure_2022April1_v4.pdfVertica Brochure_2022April1_v4.pdf
Vertica Brochure_2022April1_v4.pdfKaito Tonooka
 
[R勉強会][データマイニング] R言語による時系列分析
[R勉強会][データマイニング] R言語による時系列分析[R勉強会][データマイニング] R言語による時系列分析
[R勉強会][データマイニング] R言語による時系列分析Koichi Hamada
 
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」Rescale Japan株式会社
 

Similar a sitTokyo2023_DWCで機械学習をやってみた_Shared.pptx (20)

40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
 
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
 
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
 
Apache spark 2.3 and beyond
Apache spark 2.3 and beyondApache spark 2.3 and beyond
Apache spark 2.3 and beyond
 
Map server入門 - FOSS4G 2012 Hokkaido
Map server入門 - FOSS4G 2012 HokkaidoMap server入門 - FOSS4G 2012 Hokkaido
Map server入門 - FOSS4G 2012 Hokkaido
 
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタック
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタックONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタック
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタック
 
データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」
データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」
データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」
 
20160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #520160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #5
 
Guide to Cassandra for Production Deployments
Guide to Cassandra for Production DeploymentsGuide to Cassandra for Production Deployments
Guide to Cassandra for Production Deployments
 
VisualStudio2010ReadyDay Azureセッション資料
VisualStudio2010ReadyDay Azureセッション資料VisualStudio2010ReadyDay Azureセッション資料
VisualStudio2010ReadyDay Azureセッション資料
 
ACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyoACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyo
 
VIOPS08: Behavior Analysis Solution for Bigdata
VIOPS08: Behavior Analysis Solution for BigdataVIOPS08: Behavior Analysis Solution for Bigdata
VIOPS08: Behavior Analysis Solution for Bigdata
 
Apache geode at-s1p
Apache geode at-s1pApache geode at-s1p
Apache geode at-s1p
 
Vertica Brochure_2022April1_v4.pdf
Vertica Brochure_2022April1_v4.pdfVertica Brochure_2022April1_v4.pdf
Vertica Brochure_2022April1_v4.pdf
 
[R勉強会][データマイニング] R言語による時系列分析
[R勉強会][データマイニング] R言語による時系列分析[R勉強会][データマイニング] R言語による時系列分析
[R勉強会][データマイニング] R言語による時系列分析
 
ICD/CPSY 201412
ICD/CPSY 201412ICD/CPSY 201412
ICD/CPSY 201412
 
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPANSAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
 
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
 

Último

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 

Último (9)

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 

sitTokyo2023_DWCで機械学習をやってみた_Shared.pptx

  • 2. 2 1. SAP Data Warehouse Cloud / HANA Cloud 概要 2. シナリオ紹介 3. デモ 4. やってみて感じたこと DWCで機械学習をやってみた
  • 3. 3 1. SAP Data Warehouse Cloud / HANA Cloud 概要 2. シナリオ紹介 3. デモ 4. やってみて感じたこと DWCで機械学習をやってみた
  • 4. 4 テクノロジー アプリケーション開発 自動化 インテグレーション データ管理&分析 AI Intelligent, Sustainable Enterprise Intelligent, sustainable enterprise Lead to cash Recruit to retire Design to operate Source to pay ビジネスネットワーク インダストリ ー クラウド エクスペリエンス管理 計画 ソリューション領域 業種固有の エンドツーエンドプロセス ビジネスプロセス ビジネスプロセス管理 一貫性の あるUX One ワークフ ローインボックス E2Eのプロセス 設計図 共通のドメイン モデル 統合されたセキュ リティ&ID管理 コーディネイトさ れたライフサイク ル管理 組み込み/ クロスアプリの アナリティクス エンタープライズリソース管理 (ERP) 支出管理 人事・人材管理 (HCM) 顧客管理 (CRM)
  • 5. 5 SAP Data Warehouse Cloud クラウドシステム データベース データレイク オンプレミスシステム ファイル ビジネスユーザ ITユーザ 簡単な操作でデータを 収集・統合・加工でき る セルフサービスモデリ ング 必要な情報を迅速に共有で き、データに基づくコラボ レーションを促進 データの定義、目的、形 式、責任者を明確にし、 企業全体の情報をカタロ グ化 SAP Data Warehouse Cloud クラウドネイティブなデータ活用プラットフォームサービス SAP S/4HANA SAP BW/4HANA
  • 6. 6 企業システムにおけるリアルタイムデータ活用基盤 データを価値に変える、SAPの "Data-to-Value" プラットフォーム SAP Business Technology Platform 高速なインメモリーデータベース SAP HANA Cloud データレイク SAP Data Warehouse Cloud SAP BW/4HANA クラウドストレージ IoT Sensors Devices Log Files Flat Files Image Text SNS Video etc. 関連システム SaaS PaaS SaaS Embedded Analytics 全社統合ERP SAP S/4HANA AI/機械学習 予測分析 SAP HANA 業務オペレーション ダッシュボード 予測分析 予算計画 SAP Analytics Cloud アナリティクス セルフサービスBI MS Office 統合 SAP BW Bridge Data Marketplace 長期データ保存機能 社外データの活用 ビジネスコンテンツ : 透過アクセス : データのコピー
  • 7. 7 SAP HANAの主な特徴 • インメモリーテクノロジーによる卓越した情報処理性能 • データ仮想統合による情報入手のリードタイム短縮 o 企業システムのデータアクセスをシングルゲートウェイ化 • マルチモデルデータ処理による新たなインサイト o 地理空間データ、非構造データ o 予測分析、グラフエンジン、機械学習機能などの高度な分析機能を内包 SAP HANAがもたらすお客様価値 • 意思決定の迅速化、正確性の向上 • ビジネスプロセス実行の高速化 • 所要ITコストの低減 SAP HANA : インメモリーデータベース 企業システムの“あるべき姿”を実現 Automated Predictive Library Python/R 機械学習クライアント SQL データベー スと開発者クライア ント SAP HANA Cloud 高度な分析処理 SAP Application Function Library (AFL) 6 機械学習 検索 ドキュメン トストア グラフ 地理空間 情報 Predictive Analysis Library テキスト 分析
  • 8. 8 SAP HANA Cloudのマルチモデル処理 クリック ストリー ム 顧客デー タ コネク テッド カー スマー ト メータ ー 販売の ポイン ト モバイ ル 構造 データ 地理空間 データ テキス ト データ RFID マシン データ SNS すべてのデータ  構造化データ:業務アプリケーションで発生する顧客情報、取引情報などを集計してレポート作成  地理空間データ: HANAの地理空間エンジンを使用し、すべての種類の空間データを調和、業務データのリッチ化、業務プロセスへの位置情報インテリジェンスの組 み込み、等を実施  グラフデータ: HANAのグラフエンジンとアルゴリズムを使用し、ハイパー接続データやその関係性から、より深いインサイトを抽出  JSONデータ: ネイティブSQLを使用し非構造化データを処理 - JSONドキュメント向けのACID完全サポートのエンタープライズ対応ドキュメントストアを使用  テキストデータ: SQLを使用してテキストデータに対してあいまい検索をすることが可能。テキストマイニングを実施して言語的に類似している言葉や文章、同義 を求めることなども可能  ストリーミングデータ: HANAのストリーミングエンジン(On-premise HANA Platformのみ)や外部ストリーミングエンジンを活用してライブデータストリームを 取り込んで分析 SAP HANA Embed graph analysis in same SQL Embed geospatial in same SQL Embed fuzzy text search in same SQL 1 CREATE FULLTEXT INDEX i1 ON PSA_TRANSACTION( 2 AMOUNT, TRAN_DATE, POST_DATE, DESCRIPTION, 3 CATEGORY_TEXT ) FUZZY SEARCH INDEX ON SYNC; 4 5 SELECT SCORE() AS SCR, * FROM 6 "SYSTEM"."PSA_TRANSACTION" WHERE CONTAINS 7 (*, 'Sarvice', fuzzy) ORDER BY SCR DESC;
  • 9. 10 HANAの機械学習の利点  古典的なMLシナリオのための最先端のアルゴリズム – Classification, regression, forecasting, clustering, … – 自動化されたML機能(APL)およびエキスパートML機能(PAL)(ランダ ム決定木、グラディエントブースティングなどのトレンド機能を含む  データおよびデータベーストランザクションと同じ場所でMLが実行される – HANAのインメモリ処理の性能と恩恵を受ける – 非機能要件の実現が同一DB内で可能 – S/4HANAのトランザクション処理内でクイックなML推論が可能  シンプルなアーキテクチャ – 追加のサービスやマシンが不要で、追加のソフトウェアライフサイクルを管 理する必要がない – 空間、グラフ、テキスト分析処理との併用など、マルチモデルなコンテキス トでの適用が可能  マルチロールとユーザーインターフェース – データベース開発者向けのSQL – データサイエンティスト向けのPAL/APLを介したPythonおよびRクライアン トAPI – SAP Data Intelligenceを介したパイプラインのモデリング – ABAP/HANA-SQL機能によるSAPアプリケーションへの統合
  • 10. 11  HANAのEngineを使いHANAのデータを対象に機械学習を実現する機能(Embedded Machine learning)で す。  Embedded Machine learningは予測や学習を行うPALと自動化を行うAPLに分かれています HANA Cloudの機械学習とは? Advanced analytical processing Graph ML & Predictive Search Series data Streaming analytics Spatial Text analytics SAP HANA Platform Serving Server Active Model(s) R-Server R-Serve External Machine Learning TensorFlow Integration Embedded Machine Learning Predictive Analysis Library Automated Predictive Library R Integration / Cloud
  • 11. 12 Classification Analysis  Decision Tree Analysis (CART, C4.5, CHAID) , Logistic Regression, Support Vector Machine, K-Nearest Neighbor, Naïve Bayes, Confusion Matrix, AUC, Online multi-class Logistic Regression*  Multilayer Perception (back propagation Neural Network)  Random Decision Trees, Hybrid Gradient Boosting Tree (HGBT)#,, Continuous HGBT*  Unified Classification#  Model explainability# Regression  Multiple Linear Regression, Online Linear Regression*  Polynomial-, Exponential-, Bi-Variate Geometric-, Bi-Variate Natural Logarithmic- Regression  Generalized Linear Model (GLM)  Cox Proportional Hazards Model  Random Decision Trees, Hybrid Gradient Boosting Tree (HGBT) #, Continuous HGBT*  Unified Regression* incl. explainability Association Analysis  Apriori, Apriori Lite, FP-Growth  K-Optimal Rule Discovery (KORD) Discovery, Sequential Pattern Mining Link Prediction  Link Prediction (Common Neighbors, Jaccard’s Coefficient, Adamic/Adar, Katzβ), PageRank Recommender Systems  Factorized Polynomial Regression Models, Alternating least squares, Field-aware Factorization Machines (FFM) Text Processing  Conditional Random Field, Latent Dirichlet Allocation  TF-IDF*, term analysis*, text classification*, get related terms / documents*, get relevant terms / documents*, get suggested terms* Data Preprocessing  Sampling, Partitioning, SMOTE, TomekLink, SMOTETomek# *  Binning / Discretize, Missing Value Handling, Scaling, Feature Selection* Statistical & Multivariate Analysis  Univariate Analysis (Data Summary, Mean, Median, Variance, Stand. Deviation, Kurtosis, Skewness, ..)  Kernel Density Estimation, Entropy  Correlation Function  Multivariate Analysis (Covariance Matrix, Pearson Correlations Matrix), Condition Index  Principal Component Analysis (PCA)/PCA Projection, TSNE, Categorial PCA  Linear Discriminant Analysis  Multidimensional scaling, Factor Analysis  Chi-squared Tests: Quality of Fit, Test of Independence, ANOVA, F-test (equal variance test)  One-sample Median Test, T Test, Wilcox Signed Rank Test  Inter-Quartile Range, Variance Test, Grubbs Outlier Test , Anomaly Detection (KMeans)  Random Distribution Sampling, Markov Chain Monte Carlo (MCMC)#  Distribution Fitting, Cumulative Distribution Function, Distribution Quantile Misc. Functions  Kaplan-Meier Survival Analysis, Weighted Scores Table, ABC Analysis, Tree model visualization# Cluster Analysis  K-Means, Accelerated K-Means, K-Medoids, K- Medians, Geo- / DBSCAN, Agglomerate Hierarchical Clustering*  Kohonen Self-Organizing Maps, Affinity Propagation, Gaussian Mixture Model  Unified Clustering#, Spectral clustering*  Slight Silhouette, Cluster Assignment Time Series Analysis  Single-, Double-, Triple-, Brown-, Auto Exponential Smoothing, Unified Exponential Smoothing (incl. massive segmentation)*  Auto-ARIMA, Online ARIMA*, Vector-ARIMA*, ARIMA_EXPLAIN*  GARCH*, BSTS*  Croston’s Method, Linear Regression with damped trend and seasonal adjust, Intermittent Time Series Forecast*  Fast Dynamic Time Warping# , DTW*  Additive Model Analysis#*  Hierarchical Forecasting  Fast Fourier Transform (FFT), Discrete Wavelet/ Wavelet Packet Transform*  White Noise-, Trend-, Seasonality-Test, Change Point Detection, Bayesian Change Point Detection* ,Forecast Accuracy Measures  LSTM*, Attention* 現在実装されているHANA PALの機能一覧(SPS6時点) – #SAP HANA 2 SPS05 | *SAP HANA 2 SPS06 & HANA Cloud | *New in SAP HANA Cloud | As of SAP HANA Cloud 2020 QRC03 (CE2020.36)
  • 12. 13 APLとは?  APLとはHANAの自動予測ライブラリ(APL)  自動分類、回帰、時系列予測などの主要なシナリオに対応化 は、「構造的リスクの最小化」の概念に基づき、自動変数選 択、データ準備、変数エンコーディング、欠損値処理、異常 値処理、ビニングとバンディング、モデルテスト、ベストモ デル選択などの分析ステップをカバーします  専門家ではないデータサイエンティストでも、HANA上に構 築されたアプリケーションでも、迅速かつ容易に利用するこ とができます  APLは、予測モデルの作成、学習、適用、デプロイ、および クエリを行うためのシンプルなプロシージャ関数を提供しま す  注)AutoMLは別のPALをベースにしたものです SAP HANA Platform Automated Predictive Library (APL) Classification Regression Cluster analysis Time series forecasting Association analysis Recommendatio n Link analysis * https://blogs.sap.com/2020/04/23/automate-machine-learning-with-apl-now-part-of-sap- hana-sps04/ ** support for Gradient Boosting-based regression and multinomial classification
  • 13. 14 1. SAP Data Warehouse Cloud / HANA Cloud 概要 2. シナリオ紹介 3. デモ 4. やってみて感じたこと DWCで機械学習をやってみた
  • 14. 15 SAP HANA Cloud マルチモデル処理技術と予測分析ライブラリ (PAL) の機械学習分類技術を利用して価格をモデル化します。ガソリンスタ ンドのクラス カテゴリと、ステーション属性 (空間属性を含む) の影響 と、価格に影響があるインジケーターを推測します • Ex 6.1 平均的な e5 燃料価格レベルに基づいて燃料ステーションの価格クラス ラベル変数を作成 し、ステーション マスター データおよび価格指標属性データフレームを定義します • Ex 6.2 複数の地理的位置から派生した属性を持つ追加のステーション属性データフレームを定 義します • Ex 6.3 ステーションの価格クラス分類モデルを構築し、価格クラス ラベルに対する各項目の影 響 (特に位置情報による影響) を確認します DA180 Exrecise5&6 シナリオ https://github.com/SAP-samples/teched2022-DA180/tree/main/exercises/ex6 SAP HANA Cloud のマルチモデル処理技術を用いて、ドイツの地理的 に配置された燃料ステーション データを準備および収集します。次に、 予測分析ライブラリ (PAL)を使用してセグメント化された予測手法を適 用し、各ステーションの「e5」自動車燃料価格の予測モデルを構築して 適用します • Ex 5.1 では、駅と地域の地理データをダウンロードし、 SAP HANA Cloud に保存し、データに HANA 空間フィルタリングを適用して視覚化 • Ex 5.2 で燃料価格データをダウンロードして SAP HANA Cloud に保存し、時系列データを視覚的に探 索 • Ex 5.3 で、空間的にフィルター処理されたステーションで e5 価格予測モデルを構築し、予測された燃 料価格データを視覚化します https://github.com/SAP-samples/teched2022-DA180
  • 15. 16 SAP Analytics Cloud SAP Data Warehouse Cloud Business and Data Layer, Governance JAPAN_PDM#URESHINO Schema MLモデル の作成 HANA ML – PAL / APL, in-memory DB データフレー ムの定義・分 類データのト レーニング 予測テーブ ルの作成 Imported ML View データ JAPAN_PDM Space ストーリー DA180 Exrecise5&6 シナリオ • Ex 6.1 平均的な e5 燃料価格レベルに基づいて燃料ステー ションの価格クラス ラベル変数を作成し、ステーション マ スターデータおよび価格指標属性データフレームを定義し ます • Ex 6.2 複数の地理的位置から派生した属性を持つ追加のス テーション属性データフレームを定義します • Ex 6.3 ステーションの価格クラス分類モデルを構築し、価 格クラス ラベルに対する各項目の影響 (特に位置情報による 影響) を確認します • Ex 5.1 では、駅と地域の地理データをダウンロードし、 SAP HANA Cloud に保存し、データに HANA 空間フィルタリング を適用して視覚化 • Ex 5.2 で燃料価格データをダウンロードして SAP HANA Cloud に保存し、時系列データを視覚的に探索 • Ex 5.3 で、空間的にフィルター処理されたステーションで e5 価格予測モデルを構築し、予測された燃料価格データを視覚 化します Exercise.5 Exercise.6 Ex.5 Ex.6
  • 16. 17 1. SAP Data Warehouse Cloud / HANA Cloud 概要 2. シナリオ紹介 3. デモ 4. やってみて感じたこと DWCで機械学習をやってみた
  • 18. 19 燃料価格の時系列表示 燃料価格のbox plot ガソリンスタンドごとに時系列解 析を行い、価格を時系列予測した グラフ # Build a forecast model per station in parallel using PAL Additive Model Forecast (aka Prophet)-forecasting function from hana_ml.algorithms.pal.tsa.additive_model_forecast import AdditiveModelForecast amf = AdditiveModelForecast(massive=True,growth='linear', changepoint_prior_scale=0.06, weekly_seasonality='True', daily_seasonality='True' ) amf.fit(data=train_rnk_hdf, key="date", group_key="station_uuid", holiday=holiday_data_hdf) 燃料価格の予測をモデル化(Additive-Model-Analysis) Ex.5 データの準備と時系列予測
  • 19. 20 Ex.6.1 ガソリンスタンド分類データの準備と調査 各インジケーターの相関関係を見 るために混合行列を表示する SQL ステートメントに基づいて、下記のステーション関連の e5 価格インジ ケーター属性を導出し、ガソリンスタンドの価格レベルインジケータ属性デー タフレームを作成する • *_E5C_D は、毎日の「e5change」カウント派生指標 (合計、分、....) 例: SUM_E5C = e5 価格変更のすべての毎日のカウントの合計 • *_E5_D は、集計された (VAR、STDDEV、MIN、..) 日次 e5 値に対する集計 (AVG、SUM) 例: AVG_E5_MIN = すべての日次最小 e5 価格値の平均
  • 20. 21 Ex.6.3 ガソリンスタンドのクラシフィケーションモデルの作成と指標の影響分析 # Train the Station classifer model using PAL HybridGradientBoostingTree from hana_ml.algorithms.pal.unified_classification import UnifiedClassification # Define the model object hgbc = UnifiedClassification(func='HybridGradientBoostingTree', n_estimators = 101, split_threshold=0.1, learning_rate=0.5, max_depth=5, resampling_method='cv', fold_num=5, evaluation_metric = 'error_rate', ref_metric=['auc'], thread_ratio=1.0) # Execute the training of the model hgbc.fit(data=df_trainval, key= 'uuid', label='STATION_CLASS', categorical_variable='STATION_CLASS', impute=True, strategy='most_frequent-mean', ntiles=20, build_report=True, partition_method='user_defined', purpose='TRAIN_VAL_INDICATOR' ) display(hgbc.runtime) HybridGradientBoostingTreeモデルを強化 学習データ モデル 学習結果 出力結果 間違えた部分 を重点的に学 習 間違えた部分 を重点的に学 習 各モデルに重 みづけし、合 計したものが 出力結果 勾配ブ―スティング決定木
  • 22. 23 課題  製油所は24時間年中無休で稼働しています。  連続精製はいくつかの重要な機器の通常稼働に依存しています:10個の重要 設備を監視する156個のセンサー  センサーからの情報を瞬時に収集し、分析する技術が必要です。 ソリューション  SAP HANA Cloud 2021QRC01 PAL Additive Model algorithmを使用  1時間ごとに、センサー動作の36時間先読みを予測し、メンテナンスタスク をプロアクティブにスケジュールします。 利点  PAL Additive Model Analysisを使用すると、オープンソースソリューション と比較して時系列予測を最大15倍以上高速化できます  SAP HANA Cloud用のPython機械学習クライアントを使用した開発の予測に より、 プロジェクトの本稼働までの時間が大幅に短縮されました。 SAP HANA Cloudの機械学習 顧客事例 – 石油精製における予知保全 https://www.sap.com/documents/2022/07/0cb5e754-f27d-0010-bca6-c68f7e60039b.html
  • 23. 24 センサーデータを時系列で表現 1. 時系列データの変化点を検出 2. 変化点の情報を用いて、Additive Model 分析 3. 36時間先のセンサー動作の予測 SAP HANA Cloudの機械学習 顧客事例 – 石油精製における予知保全