SlideShare una empresa de Scribd logo
1 de 33
Descargar para leer sin conexión
Big Data 有多⼤大?
第三次⼯工業⾰革命的到來
關於我
• 李冠緯
• 臺⼤大電機所碩畢
• 研究Data Mining與Hadoop
• ⺫⽬目前是ShareLike的Android ⼯工程師
Outline
• Big data 是什麼
• 4V:Volume, Velocity, Variety, Veracity …
• Life of Big Data
• Big data value Chain
• Big Data 的應⽤用
• 資料驅動與資料科學家
• Big data 的未來發展
Big Data就像 …
• “Big data is like teenage sex: everyone talks
about it, nobody really knows how to do it,
everyone thinks everyone else is doing it, so
everyone claims they are doing it … “ 







— Dan Ariely, Professor of Psychology
and Behavioral Economics
所以Big Data 是 …
• 資料是21世紀的原油
• 資料是⿈黃⾦金
• 資料是下⼀一個前瞻技術
• 資料就是⼀一切
以前的電腦 …
有在收集資料
也能分析資料
所以這次有什麼不⼀一樣?
• 傳說中的3V
• Volume, 資料的⼤大⼩小
• Velocity, 資料產出的速度
• Variety, 資料多樣化的程度
Volume - 量
• Facebook ⼀一年產⽣生180 pera-byte的資料
• Google 每⽉月處理的資料是600 pera-byte
• pera-byte = 10,00 tera-byte = 1,00,00,00 giga-byte
Velocity - 速度
• Twitter 每秒產⽣生1.2million的tweets
• Google 每秒處裡1 million的搜尋
Variety - 種類
結構化資料與⾮非結構化資料
Variety
各式各樣的資料來源
⼩小結
巨量資料:難以利⽤用現有技術進⾏行管理的⼤大量資料群
Volume
資料量

10TB~數PB
Variety 

資料多樣
(結構化資料+

⾮非結構化資料)
Velocity
資料產⽣生頻率、
更新頻率
(1秒內數萬條以上)
Big Data
Big Data 的⼀一⽣生
source: ⺩王耀聰,淺談台灣資料產業供應鏈現況
巨

量

資

料

的

五

個

步

驟
愈多資料愈好?
by 和沛執⾏行⻑⾧長 翟本橋
• 存的起來的,就是storage(儲存)
• 看得到的,才是data(資料)
• 看的懂的,叫做information(資訊)
• ⽤用得出來的,才能稱為intelligence(情報智慧)
— 和沛科技執⾏行⻑⾧長 翟本喬
Big Data 的價值
Big Data應⽤用的重點
是我們想要產⽣生什麼
價值呢?
時效合理嗎?
成本合理嗎?
Big Data 的應⽤用
Raw

Data
Preprocessed

Data
Transformed

Data
Pattern Knowledge
01010
op

Cleaning

資料清理
Feature Extraction


特徵選取
Machine learning
機器學習
Pattern Mining

尋找模式
Visualization
資料視覺化
Data preprocessing

資料前處理
Data Mining

知識挖掘
Interpreting

解析結果
Storage "
Data
Warehousing

資料倉儲
原始資料 前處理資料 轉換後資料 模式 知識儲存資料
商業智慧流程
過去發⽣生什麼
這件事為什麼發
⺫⽬目前正發⽣生什麼
未來將發⽣生什麼
固定報
多維分析

Excel, 

監控
(儀表
板
計分
預測分析,最佳化
(資料探勘,機器學習
對
商
業
的
影
響
程
1980年代 1990年代 2000年代 2010年代
從分析現狀到預測未
來源:野村綜合研究所
資料探勘應⽤用
Walmart: 啤酒與尿布
來源:雲端⾏行銷⼤大師
Target : 怒氣沖沖的⽼老爸
社交網絡分析
source : ⺩王耀聰—台灣big data 產業供應鏈與⼈人才社群發展現況分析

Live Singapore — Smart
City
Big data Landscape
魔球
電影魔球劇照:http://troubadourconsulting.com/wp-content/uploads/2014/03/Moneyball-Brad-Pitt-and-Jonah-Hill.jpg
Big Data v.s Small Data
• ⼤大部份的公司並不⼀一定會有⼤大量的資料
資料驅動
• 重點不在資料⼤大⼩小,⽽而在依靠資料作決策
Zynga
• 我們是披著遊戲開發商外⽪皮的

資料分析企業 — Zynga CEO
• 遊戲其實是資料驅動營運
• ⼤大量使⽤用 A/B Test
• 三次點擊原則
source:Zynga’s Z-Cloud Infrastructure by Ravi Kalalota
資料科學家
• 21世紀最性感的職業 

— Harvard Business Review













電腦科學家
數學家領域專家
資料科學家
資料驅動的時代
• 擁有原始資料的企業在巨量資料時代勝出的機會
很⾼高
• 新的創業機會在於資料整合公司
• 資料科學家(團隊)會在未來企業中扮演重要⾓角⾊色
• 企業內部要能將資料分析的結果與洞⾒見連結到正
確決策與企業⽂文化。
來源:Big Data⼤大數據的獲利模式 — 成⽥田真琴
Big Data 也不是萬能的
Big data的未來
• 資料庫系統的「分析流程」和「報告⼯工具」之間
的界限開始模糊,我們最終將會使⽤用「分析科學
的整合⼯工具」
• 服務供應商可能會為同⼀一種商業問題準備多種不
同的解決⽅方案,⽤用⼾戶⼀一樣⾯面臨⼤大量選擇過程
• 使⽤用者最終的結局是,他們將購買各種各樣的分
析技術,儘管可能不會有任何作⽤用。
來源:印度:Big Data後的機會?或許正在Data的另⼀一⾯面
報告完畢
• Q & A

Más contenido relacionado

Similar a What is big data

2013調查報導工作坊 - 資料搜尋與處理
2013調查報導工作坊 - 資料搜尋與處理2013調查報導工作坊 - 資料搜尋與處理
2013調查報導工作坊 - 資料搜尋與處理whisky CHANG
 
資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例Fred Chiang
 
Introduction of libraries' big data in China
Introduction of libraries' big data in ChinaIntroduction of libraries' big data in China
Introduction of libraries' big data in Chinayuanxinz
 
Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們Fred Chiang
 
社交媒體研究與鉅量資料分析
社交媒體研究與鉅量資料分析社交媒體研究與鉅量資料分析
社交媒體研究與鉅量資料分析Yuchung Cheng
 
全球數位威權趨勢對台灣的挑戰和機遇
全球數位威權趨勢對台灣的挑戰和機遇全球數位威權趨勢對台灣的挑戰和機遇
全球數位威權趨勢對台灣的挑戰和機遇Charles Mok
 
大数据 数据挖掘
大数据 数据挖掘大数据 数据挖掘
大数据 数据挖掘chernbb
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況Jazz Yao-Tsung Wang
 
Information search
Information searchInformation search
Information searchmookmur
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践hdhappy001
 
新媒體政策行銷 (新北市政府)
新媒體政策行銷 (新北市政府)新媒體政策行銷 (新北市政府)
新媒體政策行銷 (新北市政府)Yeong-Long Chen
 
解读信息设计
解读信息设计解读信息设计
解读信息设计dasiyjun
 
解读信息设计
解读信息设计解读信息设计
解读信息设计dasiyjun
 
大數據時代的必備工具-Google Analytics
大數據時代的必備工具-Google Analytics大數據時代的必備工具-Google Analytics
大數據時代的必備工具-Google Analytics新頁 陳
 
從碼農的角度來剖析區塊鏈 @新竹碼農
從碼農的角度來剖析區塊鏈 @新竹碼農從碼農的角度來剖析區塊鏈 @新竹碼農
從碼農的角度來剖析區塊鏈 @新竹碼農Yao-Wei Ou
 
2013 有物科技論壇 - 台灣科技業的轉型之路,「巨量的進擊」
2013 有物科技論壇 - 台灣科技業的轉型之路,「巨量的進擊」2013 有物科技論壇 - 台灣科技業的轉型之路,「巨量的進擊」
2013 有物科技論壇 - 台灣科技業的轉型之路,「巨量的進擊」Hawk Lin
 
Hawk Lin 「進擊的巨量」-- 2013 有物科技論壇,台灣科技業的轉型
Hawk Lin 「進擊的巨量」-- 2013 有物科技論壇,台灣科技業的轉型Hawk Lin 「進擊的巨量」-- 2013 有物科技論壇,台灣科技業的轉型
Hawk Lin 「進擊的巨量」-- 2013 有物科技論壇,台灣科技業的轉型yowureport
 

Similar a What is big data (20)

Big Data and Future
Big Data and FutureBig Data and Future
Big Data and Future
 
2013調查報導工作坊 - 資料搜尋與處理
2013調查報導工作坊 - 資料搜尋與處理2013調查報導工作坊 - 資料搜尋與處理
2013調查報導工作坊 - 資料搜尋與處理
 
資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例
 
Introduction of libraries' big data in China
Introduction of libraries' big data in ChinaIntroduction of libraries' big data in China
Introduction of libraries' big data in China
 
Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們
 
社交媒體研究與鉅量資料分析
社交媒體研究與鉅量資料分析社交媒體研究與鉅量資料分析
社交媒體研究與鉅量資料分析
 
全球數位威權趨勢對台灣的挑戰和機遇
全球數位威權趨勢對台灣的挑戰和機遇全球數位威權趨勢對台灣的挑戰和機遇
全球數位威權趨勢對台灣的挑戰和機遇
 
大数据 数据挖掘
大数据 数据挖掘大数据 数据挖掘
大数据 数据挖掘
 
Open data
Open dataOpen data
Open data
 
Silf2012lw3
Silf2012lw3Silf2012lw3
Silf2012lw3
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況
 
Information search
Information searchInformation search
Information search
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践
 
新媒體政策行銷 (新北市政府)
新媒體政策行銷 (新北市政府)新媒體政策行銷 (新北市政府)
新媒體政策行銷 (新北市政府)
 
解读信息设计
解读信息设计解读信息设计
解读信息设计
 
解读信息设计
解读信息设计解读信息设计
解读信息设计
 
大數據時代的必備工具-Google Analytics
大數據時代的必備工具-Google Analytics大數據時代的必備工具-Google Analytics
大數據時代的必備工具-Google Analytics
 
從碼農的角度來剖析區塊鏈 @新竹碼農
從碼農的角度來剖析區塊鏈 @新竹碼農從碼農的角度來剖析區塊鏈 @新竹碼農
從碼農的角度來剖析區塊鏈 @新竹碼農
 
2013 有物科技論壇 - 台灣科技業的轉型之路,「巨量的進擊」
2013 有物科技論壇 - 台灣科技業的轉型之路,「巨量的進擊」2013 有物科技論壇 - 台灣科技業的轉型之路,「巨量的進擊」
2013 有物科技論壇 - 台灣科技業的轉型之路,「巨量的進擊」
 
Hawk Lin 「進擊的巨量」-- 2013 有物科技論壇,台灣科技業的轉型
Hawk Lin 「進擊的巨量」-- 2013 有物科技論壇,台灣科技業的轉型Hawk Lin 「進擊的巨量」-- 2013 有物科技論壇,台灣科技業的轉型
Hawk Lin 「進擊的巨量」-- 2013 有物科技論壇,台灣科技業的轉型
 

What is big data