SlideShare a Scribd company logo
1 of 46
Download to read offline
大数据技术如何应用亍
传统信息系统

查礼(char@ict.ac.cn)
大数据管理系统部
网络数据科学与工程重点实验室
中科院计算所
2013.12.06
提纲
大数据技术研究背景和问题
开源软件Apache Hadoop
大数据处理系统关键技术
大数据技术从互联网走向传统应用
背景:大规模数据计算
 通信、网络、存储、传感器等电子信息技术飞速发展导致
数据规模极大增加 – Big Data
 传统的存储并处理这些数据的技术手段遇到瓶颈
数据
为王

Processing 100TB datasets
One node

Scanning@50MB/s = 35,000 min

1000 node

Scanning@50MB/s=35 min

Search Engine

Data Warehousing

Log Processing/User
Behavior Analyzing

Online/Realtime/Stream
ing Data Analysis
背景 – 大数据的大问题
数据爆炸对数据存储不
处理效能提出了挑战!

2020年:
数据量将达到35ZB,较2009年增大44倍
来源:IDC Digital Universe Study, May 2010

• Facebook用户每天上传3亿张照片,超过
500TB的数据增长量,100PB单集群存储
容量
• Google索引的在线数据2002年是5EB,到
2009年增长到280EB
• 淘宝网注册用户达到3.7亿,在线商品数达
到9亿,14PB海量数据存储

2020年:
60%以上的创造数据将因无法存储而丢失。
背景 – 大数据的大问题
数据爆炸对数据存储不
处理效能提出了挑战!

• Facebook用户每天上传3亿张照片,超过
500TB的数据增长量,100PB单集群存储
容量
• Google索引的在线数据2002年是5EB,到
2009年增长到280EB
• 淘宝网注册用户达到3.7亿,在线商品数达
到9亿,14PB海量数据存储

• 高速发展的数据型互联网企业需要连续的系统扩展能力
数据快速增长不数据中心扩容周期缓慢的矛盾

• 如何维持低成本曲线和高性能曲线是现实问题
数据业务深度的丌断加强和数据处理性能现状的矛盾

2020年:
数据量将达到35ZB,较2009年增大44倍
来源:IDC Digital Universe Study, May 2010

2020年:
60%以上的创造数据将因无法存储而丢失。
背景:解决大数据问题的思路
背景:解决大数据问题的思路

海量数据计算

海量数据存储
提纲
大数据研究背景和问题
开源软件Apache Hadoop
大数据处理系统关键技术
大数据技术从互联网走向传统应用
Hadoop
Apache Nutch, 2002
NDFS + MapReduce, 2004
Hadoop, 2006
Apache Hadoop, 2008

Doug Cutting,
Apache软件基
金会主席

 http://hadoop.apache.org/
 Book:
http://oreilly.com/catalog/9780596521998/index.html
 Clone of Google’s GFS and
 Written in Java
MapReduce
• Does work with other languages
• Can process large scale Web pages  Runs on
• Linux, Windows and more
• Commodity hardware with high
failure rate
Hadoop 组成部分

Hadoop is the most successful open source software after Linux.
Hadoop 组成部分
Hive

HBase

Hadoop is the most successful open source software after Linux.

MapReduce
HDFS
Hadoop 组成部分
Hive

HBase

Hadoop is the most successful open source software after Linux.

MapReduce
HDFS
Hadoop HDFS体系结构
规模:10K nodes, 100 million files, 10 PB
特性:适合数据批处理;最大化吞吐率;允
许计算向数据迁移

优化:数据块副本、数据块放置策略、
缓存策略等

Sanjay Ghemawat, et. al., The Google File System, SOSP’03
Hadoop MapReduce处理流程

Dean & Ghemawat: “MapReduce: Simplified Data
Processing on Large Clusters”, OSDI 2004
提纲
大数据研究背景和问题
开源软件Apache Hadoop
大数据处理系统关键技术
大数据技术从互联网走向传统应用
行列混合式数据存储技术RCFile


RCFile将关系数据水平分块,块内按列序存储,实现文件
级逻辑结构优化行式存储结构(Apache Hive,
SequenceFile)

行列混合式存储结构
(RCFile)

原始关系表

列式存储结构(Apache Pig,Zebra)

Parallel Tasks
Read Data from
Distributed File
System
Task Launch

Row
Construction

Subsequent
Processing

Row
Construction

Subsequent
Processing

Row
Construction

Subsequent
Processing

……
Job Schedule

Task Launch

……
Task Launch

Job launch

Row Reconstruction

16
关系数据按行序运行时重建

16
互补式聚簇索引技术CCIndex


CCIndex利用冗余的副本数据块为多数据列构建聚簇索引,不增加额外存储空间
,实现数据块级布局结构优化以及分布式实时查询统计能力

CCIndex保持了BigTable数据模型高可扩展和高吞吐率特性,
同时具有关系数据模型的查询统计能力

CCIndex将二级索引变为一级索引,丌访问原表直接
进行区间查询和统计

以CCIndex为核心的系统支持多维区间实时查询统计
示例:select count(cl1) from TAB where cl1<A and cl2>B

18
RCFile技术性能优势和应用情况
•Compared with SequenceFile, which was
the default row store technology in
Apache Hive, RCFile can achieve up to
20% space savings without affecting
query performance.
•Compared with column group technology
used in Apache Pig, which is another big
data analysis system, RCFile’s data
loading is 23% faster as far as the disk
space utilization ratio is almost equal.

•Obviously, RCFile has become the de
facto standard of data storage structure
inside distributed offline data analysis
systems such as Apache Hive.
CCIndex技术性能优势和应用情况
CCIndex技术可以解决诸如HBase
等当前主流的列簇式NoSQL数据库
在多列查询上的功能缺失和性能低
下的问题。

采用CCIndex后,在硬件规模保持
丌变的前提下,系统处理的数据时
效范围从原来的7天增大到3个月,
处理的数据规模增大了一个数量级,
系统吞吐率增大了7倍,对原来延
迟大于1s的查询请求响应时间平均
降低了57.4%。
不国外同类技术比较
技术指标

本项目

国际领先系统

数据存储空间占用

RCFile比行存储
节省约20%空间
RCFile比列存储
加载快23%以上

Apache Hive
(SequenceFile)
Apache Pig
(Zebra)

CCIndex是二级
索引技术的11.4倍

Apache HBase
(IndexTable)

数据加载性能
在线查询分析性能
不国外同类技术比较
技术指标

本项目

国际领先系统

数据存储空间占用

RCFile比行存储
节省约20%空间
RCFile比列存储
加载快23%以上

Apache Hive
(SequenceFile)
Apache Pig
(Zebra)

CCIndex是二级
索引技术的11.4倍

Apache HBase
(IndexTable)

数据加载性能
在线查询分析性能

实现PB级数据离线分析处理和百亿记录级数
据实时查询分析,成为国际事实标准
用户透明的HDFS数据压缩解压缩-SwiftFS
 自劢将文件分割成多
个固定大小的数据块,
每个数据块单独压缩
 每一个文件由一个压
缩文件和索引文件构
成
 可应用于Hadoop平
台上的文件系统

在不影响其它文件系统的
情况下,以动态、透明的
方式给文件系统添加压缩
功能

24
丌同压缩解压缩算法的性能对比
写吞吐率(MB/s)

Vs.

客户端数

Vs.

none

hdw ac

snappy

quicklz

zlib

SwiftFS

最高

最低

1

98

137

144

75

46

161

0%

250%

2

97

267

227

144

87

247

7%

184%

4

98

313

322

263

158

326

0%

106%

8

97

326

335

402

299

451

0%

51%

16

97

312

330

401

445

475

0%

52%

32

95

312

317

404

511

562

0%

80%

64

95

306

314

375

518

583

0%

91%

128

90

259

296

332

547

589

0%

127%

256

94

223

252

302

500

583

0%

161%
提纲
大数据研究背景和问题
开源软件Apache Hadoop
大数据管理系统关键技术
大数据技术从互联网走向传统应用
淘宝数据魔方应用
淘宝数据魔方 – 全属性实时计算
张
轩
丞
(
朋
春
)
,
淘
宝
海
量
数
据
产
品
的
技
术
架
构
,

全网交易数据

数据装载

云梯

HBase

HBase

……

HBase

iDataForum2011
淘宝数据魔方 – 全属性实时计算
全网交易数据

数据装载

云梯

HBase

HBase

数据查询
求SUM(alipay)

iDataForum2011

属性

属性值

笔记本尺寸

13寸

笔记本定位

属
性
对

查索引

……

索引:交易id列表

交易1(二进制,定长)
HBase
交易2

节点1

1, 2, 3, 4, 5, 6, 7, 8, 9

节点2

1, 2, 3, 4, 5, 6, 7

商务定位

汇总计算
写入缓存

求交集

张
轩
丞
(
朋
春
)
,
淘
宝
海
量
数
据
产
品
的
技
术
架
构
,

节点2

1, 2,

4, 6, 7

本地SUM运算(HBase扩展)
采用CCIndex后新旧系统性能对比
 取原系统查询日志(10天),所有查询按原系统的响
应时间分为三类统计平均响应时间;
 测试前清空cache;
 测试时新库中有25天数据,200G左右;
 可查询时间从7天拓展到至少30天。
分析系统后台

支持全表统计
服务端统计速度 15~50W R/S/Server or 400W R/S/Server。
支持sum、avg、count、group by、sort
select 算子( F:C) where 条件 group by(F:C), sort by(F:C)查询。
条件 [F:C>|<(rang)]and|or[F:C>|<(rang)]
银行:冠字号查询
测试环境

查询性能

IP

配置
2*Intel Xeon E5-2650 8核
172.16.5.50
/2.00GHZ 64GB内存 52TB
2*Intel Xeon E5-2650 8核
172.16.5.51
/2.00GHZ 64GB内存 52TB
2*Intel Xeon E5-2650 8核
172.16.5.52
/2.00GHZ 64GB内存 52TB
172.16.5.53

2*Intel Xeon E5-2650 8核
/2.00GHZ 64GB内存 52TB

网络

6G网络

数据规则

数据量

查询并发(查询内容)

平均完成耗时
(ms)

最快完成耗时
(ms)

最慢完成耗时
(ms)

81亿

200(地区号单项)

834

11

1665

81亿

200(网点号单项)

816

17

1609

81亿

200(错误码单项)

604

2

1390

81亿

200(冠字号码单项)

1149

3

2069

81亿

200(等于某个地区号+等于
某个错误码+等于某个种类,
单条)

924

15

1779

81亿

200(等于某个地区号+等于
某个错误码+等于某个种类,
100条)

1763

320

3939

887

19

1740

2077

66

4625

按照冠字信息数据模拟

测试记录数

81亿

测试文件大小

610G

导入后大小

2.4T

索引后大小

4.7T

测试并发数

200

查询模式

单项查询、组合查询

81亿

81亿

200(等于某个地区号+小于
某个错误码+等于某个种类,
单条)
200(等于某个地区号+小于
某个错误码+等于某个种类,
100条)

测试结论:
在并发200的情况下,依然能够提供秒级的数据访问效率,可以
预见完全能够满足冠字信息查询的性能需求。
互联网应用不传统信息系统应用的区别
 互联网应用
 自行开发系统、快速迭代,持续交付,持续维护
 直接到达客户端,对接Mass用户
 业务逡辑简单,Straightforward,一致性要求较低
 系统内部模块间可以无标准(REST),性能/用户体
验至上(KISS)
 传统信息系统
 多方开发,依赖集成商,基于版本交付和维护
 Vendor对接集成商,集成商对接最终用户
 业务逡辑复杂,系统要求稳定可靠,安全性要求较高
 系统模块间依靠工业标准耦合,如应用逡辑和数据库
系统通过SQL耦合
源于互联网的大数据技术特征
以Apache Hadoop为例
分布式计算系统,用软件代替硬件保证系统可靠
(HDFS、ZooKeeper)
面向超大规模机群(千台服务器以上);超大规
模存储(百PB级);高通量(几十GB/秒);高
并发(数万请求/秒)
简化丌必要的功能(运维、管控、安全等)
编程模型、语言多样化(MapReduce、
Job/Task/Instance、Pig Latin、SQL/HiQL、
Script、Jason/PB、Java/C/C++)
解决之道

标准化
可控可管化
小型化
软硬一体化
生态化

优先级高

优先级低
天玑Base(ICTBase)

技
术
特
色

 极高的性能,高通量数据存取,分布实时分析计算,TB级数据支持,百
倍优于传统关系型数据库。
 软硬一体。通过定制硬件服务器和定制加速卡最大限度地提高资源利用率
,增强系统性能,节能环保高密度一体机机架空间占用量为普通服务器的
25%,耗电量为普通服务器的40% 。
 数据接入简单,提供JDBC、ETL等通用数据接口,应用对接远优于新兴的
NoSQL数据库,多种管理套件应用维护简单。
ICTBase对开源软件的功能和性能增强
multitenancy

JDBC

Fine grain
Load Balance

Muti-connection
Authentication
and QoS

Parallel flush
and compact

Aggregation and
Indexing

Monitor and
Auto Recovery

HA

De/Compres
sion

Bulkload

Hardware
accelerator

Block
Balance
ICTBase运维/管理/控制系统
安
装
与
部
署
机
群
节
点
监
控

控制节点监控

系
统
启
停

访
控
与
权
限

数据节点监控

批式任务运行监控
ICTBase数据及表管理
数据导入、索引构建及SQL语言查询
ICTBase表级数据管理功能
权表
限结
、构
用、
户多
管维
理索
等引
、
数
据
分
布
、
表
部分ICTBase的用户证明
总结(Take Away Message)
数据计算技术的(规模)大、(计算)快
、(检索)准的发展态势;
数据规模对传统RDBMS技术提出了挑战;
NoSQL技术是对RDBMS技术的补充,是实
际需求导致的结果;
Hadoop这样的大数据技术源于互联网应用
,需求和游戏规则的丌同导致必须经过改
造才能适用于传统信息系统应用。
中国大数据技术大会(原Hadoop in China)

2008~2013,近3年参会人数超1千人。已成为大数据领域的国内最重要技术会议,
推动了国内Hadoop开源社区发展及生态环境建设
查礼 -大数据技术如何用于传统信息系统

More Related Content

What's hot

Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Etu Solution
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012James Chen
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介Herman Wu
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteXu Wang
 
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法Jazz Yao-Tsung Wang
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結James Chen
 
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術Wei-Yu Chen
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Etu Solution
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验Schubert Zhang
 
Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Jazz Yao-Tsung Wang
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Wei-Yu Chen
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座NTC.im(Notch Training Center)
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pubChao Zhu
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群hdhappy001
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践hdhappy001
 

What's hot (19)

Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research Institute
 
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
 
Hadoop 介紹 20141024
Hadoop 介紹 20141024Hadoop 介紹 20141024
Hadoop 介紹 20141024
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
 
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
 
Life of Big Data Technologies
Life of Big Data TechnologiesLife of Big Data Technologies
Life of Big Data Technologies
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
When R meet Hadoop
When R meet HadoopWhen R meet Hadoop
When R meet Hadoop
 

Viewers also liked

коллективный проект учеников 5 9 классов
коллективный проект учеников 5 9 классовколлективный проект учеников 5 9 классов
коллективный проект учеников 5 9 классовГалина Тойкка
 
薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐hdhappy001
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践hdhappy001
 
詹剑锋:Big databench—benchmarking big data systems
詹剑锋:Big databench—benchmarking big data systems詹剑锋:Big databench—benchmarking big data systems
詹剑锋:Big databench—benchmarking big data systemshdhappy001
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践hdhappy001
 
袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战hdhappy001
 
徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践hdhappy001
 
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务hdhappy001
 
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkabanhdhappy001
 

Viewers also liked (9)

коллективный проект учеников 5 9 классов
коллективный проект учеников 5 9 классовколлективный проект учеников 5 9 классов
коллективный проект учеников 5 9 классов
 
薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐薛伟:腾讯广点通——大数据之上的实时精准推荐
薛伟:腾讯广点通——大数据之上的实时精准推荐
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践
 
詹剑锋:Big databench—benchmarking big data systems
詹剑锋:Big databench—benchmarking big data systems詹剑锋:Big databench—benchmarking big data systems
詹剑锋:Big databench—benchmarking big data systems
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战袁晓如:大数据时代可视化和可视分析的机遇与挑战
袁晓如:大数据时代可视化和可视分析的机遇与挑战
 
徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践徐萌:中国移动大数据应用实践
徐萌:中国移动大数据应用实践
 
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务
 
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban
 

Similar to 查礼 -大数据技术如何用于传统信息系统

《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdfmarkmind
 
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践Min Zhou
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 
博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)Yu Zhang
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲Herman Wu
 
Tup2 人人网张铁安
Tup2 人人网张铁安Tup2 人人网张铁安
Tup2 人人网张铁安yongboy
 
人人网技术经理张铁安 Feed系统结构浅析
人人网技术经理张铁安 Feed系统结构浅析人人网技术经理张铁安 Feed系统结构浅析
人人网技术经理张铁安 Feed系统结构浅析isnull
 
张铁安:Feed系统架构浅析
张铁安:Feed系统架构浅析张铁安:Feed系统架构浅析
张铁安:Feed系统架构浅析Leechael
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnyp_fangdong
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构Denodo
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术锐 张
 
Sybase Analytic Appliance
Sybase Analytic ApplianceSybase Analytic Appliance
Sybase Analytic Appliancefocusbi
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lakeJames Chen
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu Solution
 
Ocean base --千亿级海量数据库-lamper_日照
Ocean base --千亿级海量数据库-lamper_日照Ocean base --千亿级海量数据库-lamper_日照
Ocean base --千亿级海量数据库-lamper_日照knuthocean
 
Sequoia db 技术概述_sacc
Sequoia db 技术概述_saccSequoia db 技术概述_sacc
Sequoia db 技术概述_saccwangzhonnew
 
浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华zhuozhe
 
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011Yiwei Ma
 

Similar to 查礼 -大数据技术如何用于传统信息系统 (20)

《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
 
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
Java@taobao
Java@taobaoJava@taobao
Java@taobao
 
Altibase介绍
Altibase介绍Altibase介绍
Altibase介绍
 
博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
 
Tup2 人人网张铁安
Tup2 人人网张铁安Tup2 人人网张铁安
Tup2 人人网张铁安
 
人人网技术经理张铁安 Feed系统结构浅析
人人网技术经理张铁安 Feed系统结构浅析人人网技术经理张铁安 Feed系统结构浅析
人人网技术经理张铁安 Feed系统结构浅析
 
张铁安:Feed系统架构浅析
张铁安:Feed系统架构浅析张铁安:Feed系统架构浅析
张铁安:Feed系统架构浅析
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cn
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 
Sybase Analytic Appliance
Sybase Analytic ApplianceSybase Analytic Appliance
Sybase Analytic Appliance
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能
 
Ocean base --千亿级海量数据库-lamper_日照
Ocean base --千亿级海量数据库-lamper_日照Ocean base --千亿级海量数据库-lamper_日照
Ocean base --千亿级海量数据库-lamper_日照
 
Sequoia db 技术概述_sacc
Sequoia db 技术概述_saccSequoia db 技术概述_sacc
Sequoia db 技术概述_sacc
 
浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华
 
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011
 

More from hdhappy001

肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进hdhappy001
 
夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架hdhappy001
 
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题hdhappy001
 
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎hdhappy001
 
王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术hdhappy001
 
钱卫宁:在线社交媒体分析型查询基准评测初探
钱卫宁:在线社交媒体分析型查询基准评测初探钱卫宁:在线社交媒体分析型查询基准评测初探
钱卫宁:在线社交媒体分析型查询基准评测初探hdhappy001
 
穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scale穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scalehdhappy001
 
刘书良:基于大数据公共云平台的Dsp技术
刘书良:基于大数据公共云平台的Dsp技术刘书良:基于大数据公共云平台的Dsp技术
刘书良:基于大数据公共云平台的Dsp技术hdhappy001
 
刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sql刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sqlhdhappy001
 
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台hdhappy001
 
李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略hdhappy001
 
冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展hdhappy001
 
堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensions堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensionshdhappy001
 
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测hdhappy001
 
Ted yu:h base and hoya
Ted yu:h base and hoyaTed yu:h base and hoya
Ted yu:h base and hoyahdhappy001
 
Raghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarksRaghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarkshdhappy001
 
Nicholas:hdfs what is new in hadoop 2
Nicholas:hdfs what is new in hadoop 2Nicholas:hdfs what is new in hadoop 2
Nicholas:hdfs what is new in hadoop 2hdhappy001
 
Michael stack -the state of apache h base
Michael stack -the state of apache h baseMichael stack -the state of apache h base
Michael stack -the state of apache h basehdhappy001
 
Gunther hagleitner:apache hive & stinger
Gunther hagleitner:apache hive & stingerGunther hagleitner:apache hive & stinger
Gunther hagleitner:apache hive & stingerhdhappy001
 
Bikas saha:the next generation of hadoop– hadoop 2 and yarn
Bikas saha:the next generation of hadoop– hadoop 2 and yarnBikas saha:the next generation of hadoop– hadoop 2 and yarn
Bikas saha:the next generation of hadoop– hadoop 2 and yarnhdhappy001
 

More from hdhappy001 (20)

肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进
 
夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架夏俊鸾:Spark——基于内存的下一代大数据分析框架
夏俊鸾:Spark——基于内存的下一代大数据分析框架
 
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题
 
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎王涛:基于Cloudera impala的非关系型数据库sql执行引擎
王涛:基于Cloudera impala的非关系型数据库sql执行引擎
 
王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术王峰:阿里搜索实时流计算技术
王峰:阿里搜索实时流计算技术
 
钱卫宁:在线社交媒体分析型查询基准评测初探
钱卫宁:在线社交媒体分析型查询基准评测初探钱卫宁:在线社交媒体分析型查询基准评测初探
钱卫宁:在线社交媒体分析型查询基准评测初探
 
穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scale穆黎森:Interactive batch query at scale
穆黎森:Interactive batch query at scale
 
刘书良:基于大数据公共云平台的Dsp技术
刘书良:基于大数据公共云平台的Dsp技术刘书良:基于大数据公共云平台的Dsp技术
刘书良:基于大数据公共云平台的Dsp技术
 
刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sql刘诚忠:Running cloudera impala on postgre sql
刘诚忠:Running cloudera impala on postgre sql
 
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台
 
李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略李战怀:大数据背景下分布式系统的数据一致性策略
李战怀:大数据背景下分布式系统的数据一致性策略
 
冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展冯宏华:H base在小米的应用与扩展
冯宏华:H base在小米的应用与扩展
 
堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensions堵俊平:Hadoop virtualization extensions
堵俊平:Hadoop virtualization extensions
 
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
 
Ted yu:h base and hoya
Ted yu:h base and hoyaTed yu:h base and hoya
Ted yu:h base and hoya
 
Raghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarksRaghu nambiar:industry standard benchmarks
Raghu nambiar:industry standard benchmarks
 
Nicholas:hdfs what is new in hadoop 2
Nicholas:hdfs what is new in hadoop 2Nicholas:hdfs what is new in hadoop 2
Nicholas:hdfs what is new in hadoop 2
 
Michael stack -the state of apache h base
Michael stack -the state of apache h baseMichael stack -the state of apache h base
Michael stack -the state of apache h base
 
Gunther hagleitner:apache hive & stinger
Gunther hagleitner:apache hive & stingerGunther hagleitner:apache hive & stinger
Gunther hagleitner:apache hive & stinger
 
Bikas saha:the next generation of hadoop– hadoop 2 and yarn
Bikas saha:the next generation of hadoop– hadoop 2 and yarnBikas saha:the next generation of hadoop– hadoop 2 and yarn
Bikas saha:the next generation of hadoop– hadoop 2 and yarn
 

查礼 -大数据技术如何用于传统信息系统