SlideShare una empresa de Scribd logo
1 de 22
Descargar para leer sin conexión
Hadoop 古往今來
陳威宇
Agenda
• Hadoop 的興起
– 成功案例
– 捨我其誰
– 派系爭霸
– 自我介紹
• Hadoop 的挑戰
• Hadoop 的組織再造
– 1.0 到 2.0 進擊
2
Hadoop 興起篇
3
Figure source: https://practicalanalytics.wordpress.com/2011/11/06/explaining-hadoop-to-management-whats-the-big-data-deal/
Hadoop 案例一
Wal-Mart分析顧客商
品搜尋行為,找出超越
競爭對手的商機
4
延伸閱讀:
Hadoop 案例二
eBay用Hadoop拆解非
結構性巨量資料,降低
資料倉儲負載
5
延伸閱讀:
Hadoop在Yahoo!的應用
Hadoop在eBay的應用
Hadoop在百度的應用
Hadoop在Facebook的應用
Hadoop平臺上的海量資料排序
http://book.51cto.com/art/201110/298604.htm
Hadoop 案例三
Visa快速發現可疑交易,
1個月分析時間縮短成
13分鐘
6
Hadoop 案例四
台積電派員赴美考取
Hadoop證照,尋找影
響良率的製程關鍵
7
Big Data 改變大公司,也改變你和我
8See : http://m.ltn.com.tw/news/life/breakingnews/1059524
See : http://tieba.baidu.com/p/3243853803
九州大學講師縄田健悟領導的研究團隊,發現一
份在2004年至2005年間進行的問卷,共有1萬多名
日本人和美國人參與調查,清楚記載了受試者的
血型、性格描述、對事物的好惡等答題資訊。
出題方是復旦大學社會科學資料研
究中心,他們在上海市範圍內找了
80個社區、3311個家庭,花了半年
時間入戶一對一答題。
1.男人越老越值錢?
2.另一半錢和長相都不重要?
3.教育程度接近時最和諧?
4.結婚前談個純純之愛?
5.婚前同居時間越長,對婚姻
滿意度越高?
6.教育程度越高幸福感越強?
7.人生真的需要"贏在起跑線上"?
8."拼爹"才能更上層樓?
1.女大三,抱金磚!
2.生活習慣、性格和智商
3.門當戶對才登對!
4.以結婚為前提交往!
5.試婚有必要!
6.願得一學霸,白首不相
離!
7.小時不了,大未必壞!
8."拼媽"更重要!
Why ! 大資料 = Hadoop ?
• 免費 ?
• 儲存大量資料 ?
• 安全 ?
• 平行分散式 ?
• 容錯?
9
可儲存大量資料的技術很多,重點在 : 運算
運算效率的核心在於 : data locality
Figure source: https://cvw.cac.cornell.edu/MapReduce/locality
Hadoop 的派系爭霸
• Hadoop 可比喻為 Linux kernel
– linux kernel : redhat, fedora, centos, debian,
ubuntu, .. Etc
• 所以 Hadoop 也有許多的 Distribution
– Apache Community Source ( 源頭)
– Cloudera = Cloudera Distribution Hadoop
– Intel = Intel Distribution for Hadoop
– Oracle = oracle big data appliance
– Hortonworks = Hortonworks Data Platform
– Microsoft HDInsight
– MapR
10
Hadoop 自我介紹
• Apache Hadoop software
– open-source software for reliable, scalable,
distributed computing
• 主要系統:
– Hadoop Distributed File System
• Self-healing high-bandwidth clustered storage
– MapReduce
• Distributed fault-tolerant resource management and
scheduling coupled with a scalable data programming
abstraction.
11
Hadoop 1.X MapReduce
• 一個 Master (jobtracker),多個 Worker (tasktracker)
• Data -> map -> (shuffle & sort ) -> reduce -> result
12
Figure source: https://www.cs.rutgers.edu/~pxk/417/notes/content/mapreduce.html
Hadoop 1.X HDFS
• Namenode 掌管所有資料的定址空間 ( 上限管 4000
nodes; 1千萬個blocks 佔 3GB記憶體 )
13
Figure source: http://www.slideshare.net/EdurekaIN/hadoop-20-architecture-hdfs-federation-namenode-high-availability
Hadoop 1.X 遇到的挑戰
14
我們希望 事實上
儲存篇
(HDFS)
• 無論大小,通通進hdfs
• 資料可以任意修改
• 生產在用,當然要 High
Availability
• 一個 namenode 管理資料的定
址空間有限
• 檔案無法再修改
• Single Point Of Failure
運算篇
(MapReduce)
• 多種用法
• 圖形運算
• 及時運算
• 資源分配更精確更廣泛
• 只有 batch job
• 文字處理
• 每個batch job 都需讀所有的資
料、一起處理
• 只有一種用法 : Map -> Reduce
Hadoop 組織再造篇
15
Figure source: http://www.slideshare.net/martyhall/hadoop-tutorial-mapreduce-on-yarn-part-1-overview-and-installation/
HDFS 2.0 - HA
• HA
16
HDFS 2.0 - Federation
• Federation
17
MapReduce 2.0 - YARN
• Yet Another Resource
Negotiator
• (JT, TT ) => (RM, NM,
AM)
• 可非 MapReduce 架構
=> Container
18
Hadoop 2.0 總體檢
19
我們希望 事實上 改進
儲存篇(HDFS)
• 無論大小,通通進hdfs
• 資料可以任意修改
• 生產在用,當然要
High Availability
• 一個 namenode 管理資
料的定址空間有限
• 檔案無法再修改
• Single Point Of Failure
可透過 federation 延
伸
非 2.0 改進目標
可透過 HA 機制
運算篇
(MapReduce)
• 多種用法
• 圖形運算
• 及時運算
• 資源分配更精確更廣
泛
• 只有 batch job
• 文字處理
• 每個batch job 都需讀所
有的資料、一起處理
• 只有一種用法 : Map ->
Reduce
realtime, interative,..
graphing,…
IN-Memory
container
結語
• 大資料已非僅商業獲利武器,有更多應用貼近你我的
生活
• 大資料的重點非儲存,而是分析
• Hadoop 目前是大資料(batch)分析的主流,也是大
資料技術的入門磚
• Hadoop 已經演進到第二代,在基礎的條件下,添加
更多功能,有更多可期待性
20
backup
22See : http://www.wx135.com/zh-tw/articles/20150106/54ad2050-37c8-46ac-a9ce-1c5a02734e20.html

Más contenido relacionado

La actualidad más candente

What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us Simon Hsu
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座NTC.im(Notch Training Center)
 
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法Jazz Yao-Tsung Wang
 
大資料分析技術的濫觴
大資料分析技術的濫觴大資料分析技術的濫觴
大資料分析技術的濫觴家雋 莊
 
Hdfs introduction
Hdfs introductionHdfs introduction
Hdfs introductionbaggioss
 
Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Jazz Yao-Tsung Wang
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验Hanborq Inc.
 
Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)家雋 莊
 
Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計Wei-Yu Chen
 
Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Jazz Yao-Tsung Wang
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況Jazz Yao-Tsung Wang
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Etu Solution
 
2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for AgricultureJazz Yao-Tsung Wang
 
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform SecurityJazz Yao-Tsung Wang
 
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践Min Zhou
 

La actualidad más candente (20)

What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
When R meet Hadoop
When R meet HadoopWhen R meet Hadoop
When R meet Hadoop
 
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
 
大資料分析技術的濫觴
大資料分析技術的濫觴大資料分析技術的濫觴
大資料分析技術的濫觴
 
Life of Big Data Technologies
Life of Big Data TechnologiesLife of Big Data Technologies
Life of Big Data Technologies
 
Hdfs introduction
Hdfs introductionHdfs introduction
Hdfs introduction
 
Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)
 
Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計
 
Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
 
2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture
 
Hdfs
HdfsHdfs
Hdfs
 
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
 
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
 
Hdfs
HdfsHdfs
Hdfs
 

Destacado

加速開發! 在Windows開發hadoop程式,直接運行 map/reduce
加速開發! 在Windows開發hadoop程式,直接運行 map/reduce加速開發! 在Windows開發hadoop程式,直接運行 map/reduce
加速開發! 在Windows開發hadoop程式,直接運行 map/reduceWei-Yu Chen
 
MapReduce 簡單介紹與練習
MapReduce 簡單介紹與練習MapReduce 簡單介紹與練習
MapReduce 簡單介紹與練習孜羲 顏
 
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 HadooperFred Chiang
 
大數據開發流程
大數據開發流程大數據開發流程
大數據開發流程Gene Hong
 
社群與新聞 資料分析 實作課程
社群與新聞 資料分析 實作課程社群與新聞 資料分析 實作課程
社群與新聞 資料分析 實作課程Gene Hong
 
媒體 與 社群的資料分析
媒體 與 社群的資料分析媒體 與 社群的資料分析
媒體 與 社群的資料分析Gene Hong
 
Hadoop程式開發環境
Hadoop程式開發環境Hadoop程式開發環境
Hadoop程式開發環境立鼎 蘇
 
Big data connection overview by aibdp.org
Big data connection overview by aibdp.orgBig data connection overview by aibdp.org
Big data connection overview by aibdp.orgAIBDP
 
1 to 1 Presentation 2015
1 to 1 Presentation 20151 to 1 Presentation 2015
1 to 1 Presentation 2015James Puliatte
 
20170123 外交學院 大數據趨勢與應用
20170123 外交學院 大數據趨勢與應用20170123 外交學院 大數據趨勢與應用
20170123 外交學院 大數據趨勢與應用Meng-Ru (Raymond) Tsai
 
Hadoop Powers Modern Enterprise Data Architectures
Hadoop Powers Modern Enterprise Data ArchitecturesHadoop Powers Modern Enterprise Data Architectures
Hadoop Powers Modern Enterprise Data ArchitecturesDataWorks Summit
 
Storm特性
Storm特性Storm特性
Storm特性zyh
 
啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道Etu Solution
 
李仁杰/ Riot Games Head of Data Science
李仁杰/ Riot Games Head of Data Science 李仁杰/ Riot Games Head of Data Science
李仁杰/ Riot Games Head of Data Science 台灣資料科學年會
 
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖Etu Solution
 
Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Etu Solution
 
那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景Etu Solution
 

Destacado (20)

Hadoop pig
Hadoop pigHadoop pig
Hadoop pig
 
加速開發! 在Windows開發hadoop程式,直接運行 map/reduce
加速開發! 在Windows開發hadoop程式,直接運行 map/reduce加速開發! 在Windows開發hadoop程式,直接運行 map/reduce
加速開發! 在Windows開發hadoop程式,直接運行 map/reduce
 
Hadoop sqoop
Hadoop sqoop Hadoop sqoop
Hadoop sqoop
 
MapReduce 簡單介紹與練習
MapReduce 簡單介紹與練習MapReduce 簡單介紹與練習
MapReduce 簡單介紹與練習
 
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
 
大數據開發流程
大數據開發流程大數據開發流程
大數據開發流程
 
社群與新聞 資料分析 實作課程
社群與新聞 資料分析 實作課程社群與新聞 資料分析 實作課程
社群與新聞 資料分析 實作課程
 
媒體 與 社群的資料分析
媒體 與 社群的資料分析媒體 與 社群的資料分析
媒體 與 社群的資料分析
 
Hadoop程式開發環境
Hadoop程式開發環境Hadoop程式開發環境
Hadoop程式開發環境
 
Big data connection overview by aibdp.org
Big data connection overview by aibdp.orgBig data connection overview by aibdp.org
Big data connection overview by aibdp.org
 
1 to 1 Presentation 2015
1 to 1 Presentation 20151 to 1 Presentation 2015
1 to 1 Presentation 2015
 
20170123 外交學院 大數據趨勢與應用
20170123 外交學院 大數據趨勢與應用20170123 外交學院 大數據趨勢與應用
20170123 外交學院 大數據趨勢與應用
 
Hadoop Powers Modern Enterprise Data Architectures
Hadoop Powers Modern Enterprise Data ArchitecturesHadoop Powers Modern Enterprise Data Architectures
Hadoop Powers Modern Enterprise Data Architectures
 
Storm特性
Storm特性Storm特性
Storm特性
 
啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道啟程:Data Technology 的待客之道
啟程:Data Technology 的待客之道
 
李仁杰/ Riot Games Head of Data Science
李仁杰/ Riot Games Head of Data Science 李仁杰/ Riot Games Head of Data Science
李仁杰/ Riot Games Head of Data Science
 
TeraSort
TeraSortTeraSort
TeraSort
 
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
 
Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動
 
那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景
 

Similar a Hadoop 2.0 之古往今來

高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DBEtu Solution
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big dataYuHsuan Chen
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理Kay Yan
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理airsex
 
Hadoop introduction
Hadoop introductionHadoop introduction
Hadoop introductionTianwei Liu
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lakeJames Chen
 
Hadoop yarn 基本架构和发展趋势
Hadoop yarn 基本架构和发展趋势Hadoop yarn 基本架构和发展趋势
Hadoop yarn 基本架构和发展趋势Xicheng Dong
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 
Spark Introduction
Spark IntroductionSpark Introduction
Spark IntroductionKevin Zhang
 
大數據獲利模式 Ch 2
大數據獲利模式 Ch 2大數據獲利模式 Ch 2
大數據獲利模式 Ch 2Hans Shih
 
Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Awei Hsu
 
云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路li luo
 
Zh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsZh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsTrendProgContest13
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
Log collection
Log collectionLog collection
Log collectionFEG
 
阿里云Hadoop在云上的最佳实践
阿里云Hadoop在云上的最佳实践阿里云Hadoop在云上的最佳实践
阿里云Hadoop在云上的最佳实践dragoncaol
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群hdhappy001
 
Distributed Data Analytics at Taobao
Distributed Data Analytics at TaobaoDistributed Data Analytics at Taobao
Distributed Data Analytics at TaobaoMin Zhou
 

Similar a Hadoop 2.0 之古往今來 (20)

高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big data
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
Hadoop introduction
Hadoop introductionHadoop introduction
Hadoop introduction
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
 
Hadoop yarn 基本架构和发展趋势
Hadoop yarn 基本架构和发展趋势Hadoop yarn 基本架构和发展趋势
Hadoop yarn 基本架构和发展趋势
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
Hadoop
HadoopHadoop
Hadoop
 
Spark Introduction
Spark IntroductionSpark Introduction
Spark Introduction
 
大數據獲利模式 Ch 2
大數據獲利模式 Ch 2大數據獲利模式 Ch 2
大數據獲利模式 Ch 2
 
Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威
 
云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路
 
Zh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsZh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfs
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
Log collection
Log collectionLog collection
Log collection
 
Mapreduce
MapreduceMapreduce
Mapreduce
 
阿里云Hadoop在云上的最佳实践
阿里云Hadoop在云上的最佳实践阿里云Hadoop在云上的最佳实践
阿里云Hadoop在云上的最佳实践
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
 
Distributed Data Analytics at Taobao
Distributed Data Analytics at TaobaoDistributed Data Analytics at Taobao
Distributed Data Analytics at Taobao
 

Hadoop 2.0 之古往今來

Notas del editor

  1. 此篇用淺顯的角度來表達 hadoop 的起承轉合,包含了1. hadoop 的興起: 企業與民生使用 hadoop 的例子 2.承先: 為何非 hadoop 不可 ,以及他的核心功能 3. 轉機: hadoop 遇到的問題與解決方法 4.合縱 : hadoop 2.0 後的效應
  2. http://www.ithome.com.tw/node/73977 全球最大連鎖超市業者Wal-Mart就是善用Hadoop來挖掘出更多商機,甚至能超越競爭對手。Wal-Mart雖然十年前就投入線上電子商務,但線上銷售的營收遠遠落後於Amazon。後來,Wal-Mart決定採用Hadoop來分析顧客搜尋商品的行為,以及用戶透過搜尋引擎尋找到Wal-Mart網站的關鍵字,利用這些關鍵詞的分析結果發掘顧客需求,以規畫下一季商品的促銷策略。他們並進一步打算要分析顧客在Facebook、Twitter等社交網站上對商品的討論,甚至Wal-Mart能比父親更快知道女兒懷孕的消息,並且主動寄送相關商品的促銷郵件,可說是比競爭對手提前一步發現顧客。 零售業者的資料分析團隊,能夠經由觀察過往大量懷孕顧客的消費數據,輔以反覆進行測試與實驗,據以打造相關預測模型,其中最重要的關鍵,乃在於乳液、無味香皂、洗手液、浴巾、凡士林、棉花球、鈣片、鋅或鎂營養補充品等20餘項商品的採購動機,與懷孕癥候具有莫大關聯。
  3. http://www.ithome.com.tw/node/73977 經營拍賣業務的eBay則是用Hadoop來分析買賣雙方在網站上的行為。eBay擁有全世界最大的資料倉儲系統,每天增加的資料量有50TB,光是儲存就是一大挑戰,更遑論要分析這些資料,而且更困難的挑戰是這些資料包括了結構化的資料和非結構化的資料,如照片、影片、電子郵件、使用者的網站瀏覽Log記錄等。 eBay分析平臺高級總監Oliver Ratzesberger也坦言,資料分析最大的挑戰就是要同時處理結構化以及非結構化的資料。 eBay在5年多前就另外建置了一個軟硬體整合的平臺Singularity,搭配壓縮技術來解決結構化資料和半結構化資料的分析問題,3年前更在這個平臺整合了Hadoop來處理非結構化資料,透過Hadoop來進行資料預先處理,將大塊結構的非結構化資料拆解成小型資料,再放入資料倉儲系統的資料模型中分析,來加快分析速度,也減輕對資料倉儲系統的分析負載。
  4. http://www.ithome.com.tw/node/73977 Visa公司則是擁有一個全球最大的付費網路系統VisaNet,作為信用卡付款驗證之用。2009年時,每天就要處理1.3億次授權交易和140萬臺ATM的連線存取。為了降低信用卡各種詐騙、盜領事件的損失,Visa公司得分析每一筆交易資料,來找出可疑的交易。雖然每筆交易的資料記錄只有短短200位元,但每天VisaNet要處理全球上億筆交易,2年累積的資料多達36TB,過去光是要分析5億個用戶帳號之間的關聯,得等1個月才能得到結果,所以,Visa也在2009年時導入了Hadoop,建置了2套Hadoop叢集(每套不到50個節點),讓分析時間從1個月縮短到13分鐘,更快速地找出了可疑交易,也能更快對銀行提出預警,甚至能及時阻止詐騙交易。
  5. http://www.ithome.com.tw/node/73977
  6. 出题方是复旦大学社会科学数据研究中心,他们在上海市范围内找了80个社区、3311个家庭,花了半年时间入户一对一答题。  1、女大三抱金砖?靠谱! 萝莉配大叔?呵呵……   研究者在对80后夫妻双方年龄差进行统计时发现,伴侣间年龄差三岁以内的占已婚人群的70%左右。   在婚姻家庭中,男性比妻子年龄小3、4岁的被访者,对伴侣的满意度达到峰值;相对地,男性年龄比女伴年龄大7岁时,满意度最低。   看来,“女大三抱金砖”真不是一句虚话。男同学们,勇敢去迎接姐弟恋吧,姐姐会好好爱护你们的。   至于大叔和萝莉的组合么,小编只能报以一句“呵呵”。   妹子们,长点心吧!   年轻的男同学们,大仇已报啊!http://www.51bdtime.com   2.找对象钱和长相都不重要……你确定?   人们对男女对象的标准最注重的三个条件均是:生活习惯、性格和智商。如果智商有硬伤,那就尝试从生活习惯和性格上让自己变得更好吧,如果都有硬伤……那神也帮不了你。   但是小编怎么隐隐觉得哪里不对……http://www.51bdtime.com   小编这才想起,今儿社交网络上出现了这么一段,点赞者众:   朋友说这边有个姑娘,才华横溢,家境优越,刚从美国留学回来,父母通情达理,自己本身性格又特别好,而且还有一手好厨艺,你要不要见一见?我说不见。朋友说,为什么?我说你这都说了一大堆优点了,还没提到脸。   3.教育程度接近时最和谐   其中表现最为明显的就是“门当户对”。数据显示,以伴侣双方父母的户口作为家庭背景,考察夫妻配对情况。不管是按被访者父亲的还是母亲的户口,80后伴侣双方户口不一致的仅占三成;另外七成户口一致的样本中,同为农业户口的占40%左右,非农业户口30%左右。   关于夫妻双方教育水平的差异测量也显示出这一特征:夫妻二人受教育程度接近的占到了压倒性的92.6%。所谓接近,指的是夫妻双方教育层次一致或相差一个层级。   所以,夫妻双方教育水平差异确实不宜太大,要不,睡前你看《乡村爱情》我看《2666》,那画面太美我不敢看……   4.恋爱多久开始同居?   调查显示,有43%的被访者有婚前同居经历。其中30%的人在恋爱半年之内开始同居,不到四成的人一年之内同居,15%的人在恋爱一年半至两年内同居。   但高达四成以上的婚前同居行为是否意味着80后在性观念上比他们的父辈更开放呢?   事实上,婚前同居的被访者里60%已定亲订婚;没有定亲订婚,但已有明确结婚计划的占到34.5%;只有极少的人在同居前既没定亲或订婚,也没结婚计划,约占5%。   可见大部分80后还是更愿意相信“不以结婚为目的的谈恋爱都是耍流氓”这一真理……   5.婚前同居时间越长,对婚姻满意度越高   在有同居经历的已婚样本中,18%的人在同居不到一个月就选择了结婚;超过35%的半年后结婚,这也是比重最大的一群;半年至一年内的为25%。   经历过一年半及以上同居时间的人群,对伴侣的满意度相对最高。也许为了长远的幸福考虑,“试婚”确实有其合理性。  6.教育程度越高幸福感越强   但如果你认为读的书越多只是能赚钱越多,那就图样图森破了。   在此次调查着重研究了教育经历对人生活的影响。数据显示:教育水平越高,幸福感越高,对陌生人的一般信任水平也随之上升。   所以,学霸还是值得一当的。如果你有着高学历,却暂时还是一个屌丝,千万不要因此怀疑自己的人生!   不过,学霸不是你想当,想当就能当……小编教你曲线救国:愿得一学霸,白首不相离啊! 7.共产党员的收入水平明显高于非党员   调查显示被访者的收入水平明显随教育水平提高而提高,其中大学本科和研究生学历者中的高收入群体比例分别达43%和78%。(注:研究把年薪12万元以上的定义为高收入群体)   小编没有进入高收入群体,不是很开心… 重点来了!共产党员的收入水平明显高于非党员,特别在高收入群体中,党员的比例高达67.7%。   明白什么叫做“三个代表”中的“始终代表中国先进生产力的发展要求”了吧?   大家要积极要求进步啊! 8.人生真的需要“赢在起跑线上”?   数据显示,省部级高校毕业生中来自重点高中的学生比例最高,但来自重点初中和重点小学的比例相对较低。   “当上CEO,赢取白富美,从此走上人生巅峰”真的需要从小学甚至幼儿园阶段开始做准备吗?至少在复旦大学的这份研究中,我们并没有看出低教育阶段的重点学校与最后高等教育的质量有显著较强关系。   9.“拼爹”很残酷,但“拼妈”更重要   毋庸置疑,这是一个“拼爹”的时代,世界就是这样残酷。但你究竟是如何被别人的爹残忍地打败的,研究报告也给出了一些解释。   结束受教育阶段走入社会,“拼爹”游戏还远没有结束。而被访者父辈的职业类型与被访者的收入水平也有一定的相关。父辈为“企事业单位负责人”、“专业技术人员”和“商业服务人员”的被访者,他们自身高收入的比例高于其他类群。   调查表明,被访者父辈的教育水平与被访者的收入水平有明显相关。父辈教育水平为大学以上者,高收入比例达到了半数。其中,母亲的教育水平相关性更高。也就是说一个高学历的妈妈对于80后子女未来的收入水平更为重要。   如果为了下一代打算的话,男生不妨找比自己学历高的女生。   所以,你们都错怪了女博士!
  7. http://www.slideshare.net/EdurekaIN/hadoop-20-architecture-hdfs-federation-namenode-high-availability Small file http://blog.cloudera.com/blog/2009/02/the-small-files-problem/
  8. http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html http://hortonworks.com/get-started/yarn/