Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ～事例とデモから見えてくる、これからのデータ活用のかたち～

【15-B-2】
ストリームとバッチを融合したBigData Analytics
～事例とデモから見えてくる、これからのデータ活用のかたち～
2018/2/15
日本オラクル株式会社
クラウド・テクノロジー事業統括
Cloud Platformビジネス推進本部
Principal Sales Consultant
立山重幸
Developers Summit 2018

Copyright © 2018, Oracle and/or its affiliates. All rights reserved.
Safe Harbor Statement
The following is intended to outline our general product direction. It is intended for
information purposes only, and may not be incorporated into any contract. It is not a
commitment to deliver any material, code, or functionality, and should not be relied upon
in making purchasing decisions. The development, release, and timing of any features or
functionality described for Oracle’s products remains at the sole discretion of Oracle.
2

本日のアジェンダ
1.はじめに
2.データドリブンイノベーション
3.デモ
4.まとめ
3

Copyright © 2018, Oracle and/or its affiliates. All rights reserved.Copyright © 2018, Oracle and/or its affiliates. All rights reserved. |
１．はじめに
4

自己紹介
日本オラクル
立山重幸（たてやましげゆき）
shigeyuki.tateyama@oracle.com
HadoopやSparkなど、ビッグデータ界隈に生息するセールス
エンジニアです。元々は、管理会計や原価計算など、会計
系DWH/BIの構築が専門。5年程前からOSSに魅了され、
今ではすっかりビッグデータな人になりました。キラキラした
アナリティクスな世界に憧れを持つが、現実的にはデータマ
エショリストを生業としています。
5

本日のお話
• 本セッションでは、ストリームとバッチを融合したアナリティクスの事例紹介
をベースにKafkaやHadoopでデータをストアし、Zeppelin上での機械学習を
デモでお伝えします。
6
Object Store
Hadoop/HDFS

2.データドリブン
イノベーション
7

IoT BigData AI RPA
イノベーションの種
(引用・参考)：首相官邸ホームページ
https://www.kantei.go.jp/jp/headline/seicho_senryaku2013.html
(引用) アベノミクス- 未来投資戦略2017 (2017年6月) ページ1 より
https://www.kantei.go.jp/jp/singi/keizaisaisei/pdf/miraitousi2017_t.pdf
8

ビッグデータはオワコン！？
引用：Gartner リサーチ・メソドロジハイプサイクルとは
http://www.gartner.co.jp/research/methodologies/hype_cycle.php
ハイプサイクルのピークを
越えて幻滅期の底へ
ビッグデータ
9

ハイプサイクルとは
引用：Gartner リサーチ・メソドロジハイプサイクルとは
http://www.gartner.co.jp/research/methodologies/hype_cycle.php
「ハイプサイクルにおいて最も注目すべきなのは幻滅期
である。なぜならば、この時期に位置するテクノロジに
対して、需要側と供給側が歩み寄る現象が起こり得る
からだ。それはすなわち、テクノロジが具体的な商品や
サービスになり、市場が形成されていく状態になること
を指す。」
(引用)：ZDNet ガートナーが説く「ハイプサイクルの本当の見方」
https://japan.zdnet.com/article/35090378/
10

Copyright © 2018, Oracle and/or its affiliates. All rights reserved. 1111Copyright © 2018, Oracle and/or its affiliates. All rights reserved. |
For Example: A 300 Year Old Market

Two to four years of study
Written and oral test
Pay test fees
Purchase this vehicle
Pay for the meter

Transformed

Copyright © 2018, Oracle and/or its affiliates. All rights reserved. 14
既存ビジネス＋利便性の向上
新しい視点
充分なリソース（投資）
市場の機会
IT
14Copyright © 2018, Oracle and/or its affiliates. All rights reserved. |
Data

イノベーションは新興企業だけのものではない
従来のシステム基盤コストを削減し、データドリブンへの投資が重要
Change
the Biz
Biz
Run the Biz
コスト↓
投資↑
Dev Ops
データドリブン
15

イノベーションは新興企業だけのものではない
従来のシステム基盤コストを削減し、データドリブンへの投資が重要
Change
the Biz
Biz
↑↑↑
Run the Biz
16

Customer
Success
Story
17

• バッチをHadoopにオフロード
– メインフレームコスト（MIPS）：30％削減
– 処理時間：50%削減
• DB+Hadoopを組み合わせた構成
– 既存データマートの集約（コンソリ）
– 新しいビジネスのためのデータ収集
• データドリブンスタイルへの変革
– 「データありき」 vs 「スキーマ／モデルありき」
– 顧客360°ビューの実現
→ATMのカスタマイズ
→クーポンオファリング
お客様事例
ITコスト削減と、情報の一元化によるビジネス変革実現
La Caixa様（スペインの銀行)メインフレームテープサブシステム・DWHバッチ処理レポート
Data Reservoir
(Hadoop)
ソーシャルデータ
顧客情報
決済情報
バッチ処理の削減による
コスト削減メインフレーム
およびテープ上の
ストレステスト
データの移行
レポート
顧客360°
DWH
(RDBMS)
18

お客様事例
データの民主化により、新事業の収益を生み出す
Telefónica様
• スペインおよびラテンアメリカで最大の
通信事業、世界第5位のプロバイダ
• 事業展開に伴ってバラバラに増えていく、
システムコスト削減と、ビッグデータ対応
– DWHのコンソリデーション、BIツールの統一
– 分析モデルに基づいたリアルタイムオファー
• 効果
– 営業分析の迅速化 2日オンライン
– ネットワーク設備投資の優先度を明確化
– パーソナライズリコメンデーションによる収益拡大
オンライン広告：34%がクリックし、61%が購入
– Hadoopと組み合わせ、コストを1/3に
新事業による
オンラインデータ
OSS/BSS
各事業部
データ分析
DWH+ODS+Big Data
CRM
19

Copyright © 2018, Oracle and/or its affiliates. All rights reserved. |
EXPERIMENT Action
②適材適所の
データマネジメント①必要なデータを
疎結合に収集
③イノベーションに向けた
実験、検証、分析を行う仕組み
④既存システムへの
迅速な反映
AGGREGATE MANAGE
20
事例からの学び：
データドリブンのためには、どのような仕組みが必要か

①必要なデータを疎結合に収集
AGGREGATE
上流システムデータレイク
N:1？
N:N
様々な部署が分析
要件が増える毎に、
データ抽出依頼が
来てうんざり。。。
上流システムに
気を使いながら
データをもらうのは
大変↓↓↓
21

AGGREGATE
N:N
22

AGGREGATE
1:1
kafka
1:1
23

Apache Kafka 分散メッセージングシステム
AGGREGATE
分散型のメッセージングシステム
• Fast
低レイテンシで大量のメッセージを扱うことができる
• Scalable
Kafkaはシングルクラスタで大規模なメッセージを扱うことができ
ダウンタイムなしでElasticにスケールすることができる
• Durable
メッセージはディスクにファイルとして保存され，かつクラスタ内でレ
プリカが作成されるためデータの損失を防げる（パフォーマンスに
影響なくTBのメッセージを扱うことができる）
• Distributed by Design
クラスタは耐障害性のある設計になっている
Broker
Kafkaの本体
Producer
Producer
Producer
メッセージ
送る人
Consumer
Consumer
メッセージ
受け取る人
topic
topic
topic
24

②適材適所のデータマネジメント
MANAGE
• 用途、目的、コストを最適化
– Relational
– Key/Value
– XML
データを統合
• オラクルデータベースは、
マルチモデル永続化をサポート
– Relational
– XML
– JSON
– Text
– Graph & Spatial
- Spatial
- Graph
- OLAP
データマネジメントを統合
Spatial
Graph
OLAP
NoSQL
Relational
XML
近年のDBAは、データベースの管理ではなく、データのマネジメントが求められる
25

Big Data
• センサー/RFID/デバイス
• モバイルWeb
• ユーザー・クリック・ストリーム
• センチメント
• ユーザーが生成したコンテキスト
• ソーシャル・インタラクションとフィード
• 位置情報とGPSの座標
• 外部のデモグラフィック属性
• ビジネスデータ・フィード
• HDビデオ、音声、画像
• スピーチのテキスト変換
• 商品/サービスのロゴ
• SMS/MMS
WEB
• Webログ
• オファー履歴
• A/Bテスティング
• ダイナミック・プライシング
• アフィリエート・ネットワーク
• サーチ・マーケティング
• 行動ターゲティング
• ダイナミック・ファネル
CRM
• セグメンテーション
• オファーの詳細
• 顧客接点
• サポートコンタクト
ERP
• 契約情報
• 取引情報
• 会計情報
PB
TB
GB
MB
データの種類と複雑さ
Oracleの開発部門が想定する将来のデータストア像 MANAGE
26
HDFS,Object Storage
70%
RDBMS
25%
Kafka
4%
NoSQL
1%
HDFS,Object Storage RDBMS Kafka NoSQL

MANAGE
Hadoop RDBMS NOSQL
性
能
レイテンシ × 〇 ◎
スループット ◎ 〇 ×
更新(トランザクション) × ◎ 〇
スケールアウト〇 △ 〇
Good
スキーマ不要でデータ格納
可能
トランザクション処理
クエリ性能
大量の小さいデータを素
早く扱う
Bad
オーバーヘッドが大きい
→小データの処理が遅い
コスト
レコードをまたいだ処理が
苦手（集計、Joinなど）
→分析用途には向かない
主な用途
データレイク
加工・クレンジング処理
OLTPからDWHまで万能選
手
Web/ゲームサイト用DB
IoTデータの受信DB
バッチオンライン
27

Big Data Management System
28
データの特性による典型パターン適材適所のデータ配置例
目的
パターン・データ
特性
Hadoop DWH/Database
ETL処理・
データ加工
ETL処理と
生データ保持
ETL処理、生データ処理後データ
データ
分析
データ密度・
データ価値
低い高い
フォーマット
変更頻度
多い少ない
粒度細かい粗い
参照頻度少ない多い
センサーデータ、
ログデータ、GPSデータ、
SNS等
既存のRDBMS内のデータ
（マスターデータ/
トランザクションデータ）
明細データサマリデータ
経年データアクティブデータ
ETL処理・データ加工前の
生データ
ETL処理・データ加工後の
データ
MANAGE

実験、検証、分析を行う仕組み EXPERIMENT
• 新しいビジネス、製品のためにはR&Dが必要
• ビッグデータによるイノベーションも同じ
• ビッグデータ推進室
• AI戦略室
• ビジネス改革本部
• etc
• ディスカバリーラボ
29

実験、検証、分析を行う仕組み EXPERIMENT
• ディスカバリーラボ実現の難しさ
現状は、
データサイエンティスト個々人、
または少数のグループ毎に存在
専用ツールおよび解析言語は、
ビジネスアナリストや
領域別専門家の生産性の阻害要因
?
30

31
蓄積されたデータに
簡単にアクセス
幅広いチームメンバーに
対するアクセス性の提供
短時間での実験を通し、
失敗の積み重ね（Fail-Fast）を通して
成功を実現
自由に、効率よく、
解析を行える
サンドボックス環境
EXPERIMENT

• 効率的なデータ調査
• データ探索と解析のための言語へのアクセス
• 基本的なデータ可視化機能の内包
• ノートブックを共有し、コラボレーションするための機能
• R Studio は純粋なデータサイエンティスト向け、
Zeppelin はレポート開発者とビジネスユーザーも対象
Notebook による解決
Oracle の Zeppelin に対する取り組み
• サポートの提供
• R へのサポートを含む
• Big Data 環境上での稼働－サンドボックス環境の実現
• Notebook のセキュリティ
• データセットの準備のための機能強化
EXPERIMENT
32

④既存システムへの迅速な反映 Action
NoSQL
データマネジメントコンポーネントの拡大
開発環境及びコネクタの拡大
PythonGraph Rnode.js Java REST
33

④既存システムへの迅速な反映 Action
NoSQL
データマネジメントコンポーネントの拡大
開発環境及びコネクタの拡大
PythonGraph Rnode.js Java REST
34
異なるテクノロジーの
組み合わせはメリットが
大きいが。。。

④既存システムへの迅速な反映
非構造直近データ構造データ非構造履歴データストリームデータ
Action
共通アクセスインターフェース
• SQLによるマルチデータソースへのアクセス（生産性）
• 分析モデルをそのまま利用（ポータビリティ）
• データがある場所で処理（性能）
35

Copyright © 2018, Oracle and/or its affiliates. All rights reserved. |
EXPERIMENT Action
②適材適所の
データマネジメント①必要なデータを
疎結合に収集
④既存システムへの
迅速な反映
AGGREGATE MANAGE
36
事例からの学び（再掲）
データドリブンのためには、どのような仕組みが必要か

3．デモ
37

バッチとストリーミングを融合したOracle Big Data Analytics
自転車シェアリングデータ
Kafka
キュー
Spark,Spark
SQL、
SparkStreaming
Zeppelin
Notebook
Hive
Object
Storage
Oracle Event Hub Cloud
Kafka PaaS
Oracle Big Data Cloud
Spark PaaS
Oracle Storage Cloud
Object Storage
38

デモデータの説明
• NY CITIBIKE
• コードはこちら↓
https://github.com/oracle/
learning-library/tree/master/workshops/journey2-new-data-lake
NYのバイクシェアリングのオープンデータ
いつ、
どこで（Geo)、
どの自転車が、
どんな人（属性のみ）に、
どれぐらい利用されたか
39

Big Data Cloud (Spark PaaS)
作成ボタンをクリックし、コア数、ノード数を
選択し、5分待つだけでクラスタ作成完了
4 oCPU(8 core)環境で約$1/時間
40

Event Hub Cloud (Kafka PaaS)
作成ボタンをクリックし、コア数、ノード数を
選択し、5分待つだけでクラスタ作成完了
4 oCPU(8 core)環境で約$1/時間
41

Demo1
どんなデータなのかSparkSQLでサクッと確認
• Object Storage上のファイルをデータフレーム化
• Spark SQLからデータの内容を確認
val df = sqlContext.read.format(“com.databricks.spark.csv”).option(“header”, “true”).load(“swift://ｘｘｘ/tripdata.csv”)
・・・
df.createOrReplaceTempView("bike_trips_temp")
利用者は男性
比率が高い
クリスマスは
利用が少ない
42

Demo2
リアルタイムに地図上に可視化
• データをKafkaに流して、アクセス
Producer
Python
Consumer
Spark Dstream→Angular map
BikeData
Kafka
乗車位置と下車位置を
5秒毎に地図プロットreader = csv.DictReader(csvfile)
for rec in reader:
・・・
producer.send(Topic, rec)
import org.apache.spark.streaming._
val ssc = new StreamingContext(sc, Seconds(5))
val messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topicsSet)
43

Demo3
Rを使った機械学習
• 属性情報（年齢、性別）から利用時間を予測するモデル作成(GLM)
• 検証（精度は・・・）
%r
ageGender <- sql("SELECT tripduration, (2016-birthyear) age, gender from bike_trips")
training <- dropna(ageGender)
model <- glm(tripduration ~ age + gender, family = "gaussian", data = training)
44

Demo4
• ここまでのおさらい
– Sparkを使いデータ解析
– Kafkaをソースにしたストリーム処理
– Rを使った機械学習
EXPERIMENTAGGREGATE MANAGE
45
Action
• 実験結果は本番環境で使ってなんぼ
– DB、Hadoopのデータ使って予測モデル作成（バッチ処理）
– Kafkaデータにリアルタイムにモデル適用（ストリーム処理）

Demo4
バイク利用
(履歴データ)
Input
顧客マスタ
予測モデルを作成
Big Data SQL
気象情報
(履歴データ)
Oracle Advanced Analytics
46
リアルタイムに届くデータに
対し、予測モデルを適用
バイク利用
(リアルタイムデータ)
気象情報
(リアルタイムデータ)

Demo4
分析対象
データ
新規データの分析
（モデルの適用）
モデル構築
47

Demo4
気象情報(履歴)
リアルタイムデータに
予測モデルを適用
顧客マスタ
バイク利用
(履歴)
利用距離を
予測するモデルを
構築
リアルタイムデータ
※予測モデルの適用は
SQLで表現されるので
他のアプリケーションからも
簡単に適用できます
48

4．まとめ
49

ビッグデータアナリティクスのための
デザインパターン
50
リアルタイム
イベント処理
ストリームエンジンデータレイク DWH & BI
ディスカバリーラボ
KPI管理
（ダッシュボード）
アクションのための
データセット
イベント
非構造
データ
エグゼキューション
探索結果
(知見)
データ
構造化
データ

オラクルクラウドではDBだけではなく
OSSを組み合わせた環境を提供します。
51
Notebooks/Analytic Services
Object Store Hadoop/HDFS
リアルタイム
イベント処理
ストリームエンジンデータレイク DWH & BI
ディスカバリーラボ
KPI管理
（ダッシュボード）
アクションのための
データセット
イベント
非構造
データ
エグゼキューション
探索結果
(知見)
データ
構造化
データ

お試しいただけます！
https://cloud.oracle.com
52

ご清聴ありがとうございました。
53

Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ～事例とデモから見えてくる、これからのデータ活用のかたち～

Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ～事例とデモから見えてくる、これからのデータ活用のかたち～

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ～事例とデモから見えてくる、これからのデータ活用のかたち～

Similar to Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ～事例とデモから見えてくる、これからのデータ活用のかたち～ (20)

More from オラクルエンジニア通信

More from オラクルエンジニア通信 (20)

Recently uploaded

Recently uploaded (10)

Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ～事例とデモから見えてくる、これからのデータ活用のかたち～