SlideShare una empresa de Scribd logo
1 de 52
Descargar para leer sin conexión
Presented by Yuki Asano
on June 25, 2014
“I keep saying that the sexy job
in the next 10 years will be
statisticians.
And I’m not kidding.”
Chief Economist Hal Varian(Google)
Harvard Business Review Magazine
Data Scientist:
The Sexiest Job of the 21st Century
 
by Thomas H. Davenport and D.J. Patil.
SEXY
で
最強
Data Science
まずはここから
‣ Data Mining
‣ Analyze
‣ Optimize
Data Science
で、ビジネスにコミット!
‣ Data Mining
‣ Analytics
‣ Marketing
Data Science
With
Big Data
Big Data!!
‣ Data is King!!
‣ many OSS technologies
‣ Decision Making Support
‣ Peak of Inflated Expectation
at Hype Cycle
State of Big Data
‣ 市場に技術者がまだまだ不足
‣ 旧弊的な考え、文化的な問題
‣ データ指向ソフトウェア管理の定着
の難しさ
DIKW Pyramid
KNOWLEDGE
INFORMATION
DATA
WISDOM
知識からある法則を見出したもの
情報が分析され体系化されたもの
データが整理されたもの
個々に独立した要素
DIKW Pyramid
KNOWLEDGE
INFORMATION
DATA
WISDOM
知識からある法則を見出したもの
情報が分析され体系化されたもの
データが整理されたもの
個々に独立した要素
Data-Driven
Decision Making!!
Big Data??
‣ 母集団が多く多種特性のデータに対して効
果が認められている
‣ 有用な情報を見つけ出せる技術だが、見つ
からないかもしれない
‣ 何ができるか明確でない、ビジネスにコミッ
トする量を計ることが難しい
‣ 社内にあるデータがビッグじゃない
Big Data…
まずは堅実に、
 できることから始める
Integrated
Data
Management
Objectives
‣ Real-time Activity Monitor
‣ Improve Application Quality
‣ Analytic Data Supply
Objectives
Real-time Monitor
Improve Application Analytic Data Supply
‣異常検知
‣即時対応
‣業務精度向上
‣アドバンストログ
‣顧客動向統計データ
‣ステータス傾向認知
‣ユーザーアクション傾
向認知
Big Data
を支える技術
Hadoop Ecosystem
Framework Data Storage
Query /
Data flow
Realtime
• MapRed v1
• YARN
• Apache Spark
• HDFS
• HBase
• Cassandra
• Amazon S3
• mongoDB
• Hive
• Pig
• Impala
• Drill
• Presto
• Stinger
• Apache Storm
• Apache Spark
• Esper
• Norikra
Hadoop Ecosystem
HDFS
YARN
HBase
PigHive
Monitoring / BI Tools / Data Analytics
Spark
Storm
Map Reduce
Script
DataQuality
Objectives
Hadoop
Hadoop is …
‣ OSS (Apache License 2.0)
‣ Map Reduce (v1/v2 on YARN)
‣ Hadoop Distributed File System
(HDFS)
Hadoop Cluster
Master
Namenode
Slave
Slave
Slave
Slave
JobTracker
Datanode TaskTracker
• Random mapping
• Slave control
HDFS MapReducePhysical
• Storage manage
• I/O stream
• Task schedule manage
• Task monitor
• Execute task
• Map and Reduce
Database
Database
Analytic
Big Tables
(Columnar)
Key-Value Document NewSQL RDBMS
Non-Rel
Relational
Non-Rel Relational
Hadoop HBase Redis mongoDB Amazon RDB MySQL
DB2 HyperTable Couchbase
MySQL
Cluster
Oracle
Sybase Cassandra Lotus Notes SQL Azure PostgreSQL
One size does not fit all
Database
Analytic
Big Tables
(Columnar)
Key-Value Document NewSQL RDBMS
Non-Rel
Relational
Non-Rel Relational
Hadoop HBase Redis mongoDB Amazon RDB MySQL
DB2 HyperTable Couchbase
MySQL
Cluster
Oracle
Sybase Cassandra Lotus Notes SQL Azure PostgreSQL
One size does not fit all
Data Stream
Management System
DBMS vs DSMS
DBMS DSMS
Query Ad Hoc Query Continuous Query
Target Stored Data Stream Data
App
• Web Application
• Batch Processing
• Operation & Maintenance
• Anomaly Event Detection
• Click Stream
• Sensor Data
Software
ISO SQL Lucene Esper S4
PL/SQL HiveQL Storm Oracle CQL
Impala Pig Spark StreamBase
Continuous Query
Ad Hoc Query
SELECT avg_age FROM user
WHERE SUBDATE(
NOW(), INTERVAL 5 MINUTE
) >= datetime
Continuous Query
SELECT avg_age
FROM user:time_batch(5 mins)
Stored
Data
Result
5min window
Complex Event Processing User
Stream Data
Result
Data Collect
‣ データを産む
‣ 収集する
‣ 最適化・保存する
‣ 可視化する
Data Collect
‣ データを産む
‣ 収集する
‣ 最適化・保存する
‣ 可視化する
Data Collect
統合ログ管理にお任せ!!
アプリのログ設計を強く推奨。
使えるものは何でもログに吐く!
fluentd
‣ 多様なデータインプット方法
‣ 本体は設定のみ超シンプル設計
‣ 有用なプラグイン多数
‣ プラグイン開発可能
View
Batch Layer
Speed Layer
Serving Layer
Merge
Collect Data
‣All raw data store
‣Pre-Compute
‣Transformed Data
‣Batch Transform
‣Ad-hoc search
‣Realtime Transform
‣Continuous Query
‣Real-time Increment Compute
‣DSMS, CEP
‣Query
‣Visualize‣Data From Apps
Lambda Architecture
View
Batch Layer
Speed Layer
Lambda Architecture
Serving Layer
Collect Data
Merge
Architecture
Client
FMS
fluentd
WEB
fluentd
Other
fluentd
HDFS
ElasticSearch
mongoDB
fluentd
R
HiveQL
Kibana
Nginx
Norikra
(Esper)
Aggregate Save ViewForwardCreate
Demo
Question
Thank you

Más contenido relacionado

La actualidad más candente

La actualidad más candente (6)

データ分析基盤について
データ分析基盤についてデータ分析基盤について
データ分析基盤について
 
一人三役!一気通貫でデータ活用するエンジニアリング
一人三役!一気通貫でデータ活用するエンジニアリング一人三役!一気通貫でデータ活用するエンジニアリング
一人三役!一気通貫でデータ活用するエンジニアリング
 
Alteryxの紹介とデモ
Alteryxの紹介とデモAlteryxの紹介とデモ
Alteryxの紹介とデモ
 
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
 
ビッグデータ分析基盤を支えるOSSたち
ビッグデータ分析基盤を支えるOSSたちビッグデータ分析基盤を支えるOSSたち
ビッグデータ分析基盤を支えるOSSたち
 
データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングデータ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリング
 

Similar a ビッグデータエコシステムとデータサイエンスのススメ

MongoDB概要:金融業界でのMongoDB
MongoDB概要:金融業界でのMongoDBMongoDB概要:金融業界でのMongoDB
MongoDB概要:金融業界でのMongoDB
ippei_suzuki
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
Recruit Technologies
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
 

Similar a ビッグデータエコシステムとデータサイエンスのススメ (20)

避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題
 
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
 
Big Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and TableauBig Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and Tableau
 
S01 t3 data_engineer
S01 t3 data_engineerS01 t3 data_engineer
S01 t3 data_engineer
 
クラウドの破壊力
クラウドの破壊力クラウドの破壊力
クラウドの破壊力
 
Big data harvardbusiessreview20121112
Big data harvardbusiessreview20121112Big data harvardbusiessreview20121112
Big data harvardbusiessreview20121112
 
ビッグデータ活用とサーバー基盤
ビッグデータ活用とサーバー基盤ビッグデータ活用とサーバー基盤
ビッグデータ活用とサーバー基盤
 
ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦
 
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
 
MongoDB概要:金融業界でのMongoDB
MongoDB概要:金融業界でのMongoDBMongoDB概要:金融業界でのMongoDB
MongoDB概要:金融業界でのMongoDB
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
【IVS CTO Night & Day】AWSにおけるビッグデータ活用【IVS CTO Night & Day】AWSにおけるビッグデータ活用
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也
 
Dat011 hd insight_+_spark_+_r_を活用した
Dat011 hd insight_+_spark_+_r_を活用したDat011 hd insight_+_spark_+_r_を活用した
Dat011 hd insight_+_spark_+_r_を活用した
 
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングトレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティング
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 

Último

Último (11)

Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

ビッグデータエコシステムとデータサイエンスのススメ