Cloudera企业数据中枢平台

1© Cloudera, Inc. All rights reserved.
Cloudera企业数据中枢平台
挖掘企业数据价值
李建伟|⼤数据架构师@Cloudera

Apache Hadoop开启技术变⾰之⻔
©2014 Cloudera, Inc. All rights reserved.
Hadoop⽅式传统⽅式
3万美元/TB
昂贵且不可持续
• Scale Up，难以扩展
• ⺴络、I/O成为瓶颈
• 擅⻓处理结构化／关系型数据
• 难以处理新增的领域和数据类型
昂贵的专⽤的服务器+存储 / 昂贵的专⽤软件
Network
数据存储
(SAN, NAS)
计算
(RDBMS, EDW)
300-1000美元/TB
经济实⽤
• Scale out，易于扩展
• 近乎⽆限容量、超⾼效率
• 可以处理各种数据
• 结构化、半结构化、⾮结构化
标准商⽤x86服务器 / 开源软件
计算内存存储计算内存存储计算内存存储

Cloudera-Hadoop的领导者
创⽴ 2008成⽴于美国硅⾕, 原技术
⾼管创⽴
Hadoop之⽗ Doug Cutting任Cloudera⾸席架构师
市场第⼀全球市场70%份额
标准领导者贡献了超过⼀半以上Hadoop⽣态源码
最多案例数千家企业级⽤户典型⽤例
最⼤⽣态系统 2100多家合作伙伴
⾦牌培训业界知名的培训，全球排名前20的科技公司的技术⼈员
100%参加过Cloudera培训
服务保障最具经验的专业售后服务团队，提供5X8或7X24⽀持
丰富的知识库共享，主动⽀持、预测⽀持

能力服务层
工具及增强
应用及接口
计算引擎层
底层基础层
存储层
分布式文件系统
HDFS
分布式计算框架
MapReduce
NoSQL数据库
HBase
基础类库
Common
统一协调平台
Zookeeper
文件访问接口
FUSE/WebHDFS
/NFS
数据ETL
Sqoop
实时数据传输
Flume
结构化数据库
Hive
工作流
Oozie
数据挖掘算法库
Mahout
用户使用界面
HUE
MPP执行引擎
Impala
编译测试工具
BigTop
部署工具
Whirr
MapReduce管道
Pig
序列化
Avro
全文检索
Search
统一管理层用户安全管理
Sentry
资源管理
YARN
记录访问管理
RecordService
列式文件格式
Parquent
Hybrid存储
KUDU
消息队列
Kafka
流处理
Storm
内存计算引擎
Spark
文本搜索引擎
Solr
Pig数学处理库
DataFu
管道管理工具
Crunch
数据SDK
Kite
Cloudera发起
Cloudera有
Committer
Apache⼤数据开源社区技术创新⼒

Cloudera企业数据中心
数据治理运维管理
CDH – 100% 开源商业版
公有云
数据中心
所有X86服务器
部署
云应⽤迁移
Navigator
Optimizer
传统数据库
迁移到
Hadoop
Cloudera Data Science Workbench (CDSW)
R, Python, Scala
Data Science at Scale
PaaS
私有云
数据加⼯、处理发现与分析在线服务
统⼀数据服务
存储
批处理流处理 SQL 全⽂检索建模在线
资源管理— YARN, Zookeeper
安全管理— SENTRY + Record Service
MR,
HIve, Pig
Spark
Streaming
Impala Solr Spark
MLLib
HBase
HDFS Kudu HBase
数据接⼊ — Sqoop, Flume, Kafka
分布式⽂件系统关系数据 NoSQL
Cloudera
Navigator
安全
审计
溯源
加密
Cloudera
Manager
管理
监控
诊断
集成
Cloudera
Director
云上⼤数
据

统⼀平台：⼀个平台，多种计算框架
•批处理
•流处理
•交互式分析
•端到端的分析流程
•访问更多的数据
•更多多用户放到到数据
•用户访问数据方式更多安全及管理
处理
接⼊
Sqoop, Flume
转换
MapReduce,
Hive, Pig, Spark
发现
分析
Impala
全⽂检索
Solr
建模
机器学习
SAS, R, Spark,
Mahout
服务
NoSQL
HBase
流处理
Spark Streaming
⽆限存储HDFS, HBase
YARN, Cloudera Manager,
Cloudera Navigator

当前Hadoop平台上的存储组件概括
HDFS的强项:
• ⾼效的顺序扫描能⼒
• ⽀持⾼吞吐的数据追加
HBase的强项:
• ⾼效的按⾏随机存取能⼒
• ⽀持数据的修改
可以“⻥”和“熊掌”兼得吗？
• 如何实现对实时变化的数据集做⾼效的
数据分析呢（Fast Analysis on Fast
Data）？

•扫描⼤数据量时吞吐率⾼(列式存储和多副
本机制)
⺫标: 相对Parquet的扫描性能差距在2x之内
•访问少量数据时延时低(主键索引和多数占
优复制机制)
⺫标: SSD上读写延时不超过1毫秒
•类似的数据库语义(初期⽀持单⾏记录的
ACID)
•关系数据模型
•SQL查询
•“NoSQL”⻛格的扫描/插⼊/更新(Java客户端)
Kudu的设计⺫标

当前Hadoop实时数据分析的现状
但是怎样处理下面的问
题？
● 怎么有效处理转换过程中的错误？
● 如何定义将HBase数据转换成
Parquet格式作业的周期？
● 从数据进入到报表中能体现之间的
时延如何量化？
● 作业流程怎么保障不被其他操作打
断？
最新的数据分区
最近的数据分区
历史数据
HBase
Parquet文
件
积累了足够数
据吗?
将Hbase存
储的数据
重新组织
为Parqet格
式
• 等待数据文件的生成
• 在Impala中构建新的分区并导入数
据
流入数据
(消息系统)
报表需求
Impala on HDFS

使⽤Kudu的Hadoop实时数据分析
改进点:
● 只要一套系统
● 不需要后台定时的批处理任务
● 轻松应对数据迟到和数据修正
● 新数据立即用于在分析和业务运营
历史和实时数据
流入数据
(消息系统)
报表需求
Storage in Kudu

Cloudera Impala
业界领先的基于Hadoop的MPP引擎
简单复用已有的SQL技术及BI工具
高并发专为即席查询做优化的数据引擎
快 10-100倍
集成，安全统一集成在Cloudera EDH计算框架
里，并提供一致的安全特性
Enterprise Data Hub
Security and Administration
Unlimited Storage
Process 发现 Model Serve

灵活
开发、共享数据
弹性扩容
不灵活
封闭、孤立的系统
难于扩展
分析型数据库技术对⽐
ETL Systems
批处理性能
单一用户
编程访问
企业BI分析
数据灵活性
Analytic Database
交互式
性能
多并发
BI 兼容
SQL
Hadoop Tools
EDW
Modern Analytic DB
Silo Database
BigSQL
Monolithic Analytic DB

⾼效-Impala与其他产品性能对⽐
0
50
100
150
200
250
300
350
Impala Spark SQL Presto Hive-on-Tez
时间(秒)
单一用户及10个并发用户Imapla与其他产品对比
(越低越好)
单一用户,5
10个并发,
11
单一用户,25
10个并发,
120
10个并发,302
10个并发,202
单一用户,37
单一用户,77
5.0x
10.6x
7.4x
27.4x
15.4x
18.3x
IBM Research SQL-on-Hadoop VLDB 论⽂所验证:
“Impala’s database architecture provides significant performance gains”

Impala性能优势
•⾮MapReduce; 没有JVM; 本机语⾔
•内存计算技术
•优化的⽂件格式(Parquet)
•基于C++语⾔编写，为CPU指令优化
•中间结果保持到硬盘
•饱和磁盘读取操作，避免IO瓶颈
•基于成本的联接顺序优化
•HDFS缓存

Cloudera Data Science Workbench
企业⾃服务数据科学平台
R, Python, & Spark
Use the most powerful tools on a unified platform.
分布式分析
Run analysis 10X faster and across a scalable cluster.
自动的分析流程
Schedule and monitor analytics pipelines.

机器学习算法
• 逻辑回归
• 决策树
• 随机森林
• Gradient-boosted tree
• 神经网络
• 贝叶斯
分类
算法
• 线性回归
• 决策树
• 随机森林
• Gradient-boosted tree
• Survival regression
• Isotonic regression
回归
算法
•K-means
Gaussian mixture
Power iteration clustering (PIC)
Latent Dirichlet allocation (LDA)
Bisecting k-means
Streaming k-means
聚类算
法
•协同过滤
推荐算
法
•FP-Growth
关联规
则

R Studio Sparklyr
•从R访问Spark
•通过R调⽤Spark Mllib, H2O机器学
习算法

易管理: Cloudera Manager
端到端管理工具:
• 管理
• 监控
• 诊断
• 集成
主要特性
• 零宕机滚动升级
• 容灾备份/恢复
• HA
• 安全管理
• 运行报告
• 多租户管理
• …

统一数据治理
审计溯源统一元数据统一策略
Search
Define
Analyze
Profile
自服务探索及分析
快速查找相关数据集
Audit
Track
Encrypt
Manage Keys
满足监管要求的治
理及管控
保护敏感数据
Report
Optimize
Migrate
Maintain Models
活动数据优化
配置集群提高效率
Classify
Steward
Backup
Retain
数据生命周期管理
集群性能最大化
数据治理：Cloudera Navigator

Full text search across HDFS
See file schema
Column Level
lineage
Table Level
lineage
Table metadata
with technical
description
Tags for easy
search and
sharing
Custom
key/values
Table metadata
with business
description
Download lineage
Who created it,
when, where

Cloudera Navigator Optimizer

端到端数据治理⽅案
Cloudera Navigator + 合作伙伴
溯源审计元数据
扩展集成

易管理：Cloudera Director
可移植性: 多种云基础架构
私有云物理机
公有云
*
云体验:
• ⾃服务
• 弹性、按需部署
• 追踪使⽤情况、收费
缩短获取商务信息周期
• ⼀键部署Hadoop集群
• 避免⼤数据云端的拷⻉

安全
Cloudera是Hadoop安
全的领导者
独特的产品能⼒:
•⼲泛的，统⼀的安全机制
•全⾯的安全组件
•没有性能损耗
•与Intel合作，在芯⽚层⾯优化性能
•符合监管规范
•唯⼀通过PCI认证的Hadoop⼚家
1. 外围组件基于标准的⾝份认证
安全及管理
⽆限存储
处理发现建模服务
2. 访问统⼀的基于⾓⾊的授权机制
4. 数据透明的加密、解密
3. 可⻅性提供审核及监管功能

认证
•遵循集中管理⽤户⾝份认证的策略
•基于业界标准的认证系统, Active
Directory, Keberos, LDAP
•基于界⾯的向导式配置管理，避免出
错，降低后期维护成本
认证
哪些人可以访问Hadoop集
群
技术概念:
授权
网络隔离
Kerberos | AD/LDAP

Sentry-集中的授权策略管理
Sentry
Perm. Read
Access to
Transactions.
Date…
Where
Country = US
Sentry
Perm. Read
Access to
Customers.C
ustomerID…
Where
Country = US
Sentry
Role
U.S.
Customer
Transaction
Analysis
Group
Tier 1
Customer
Support
Reps
Sam Smith
Group
Tier 1
Broker Analysts
Martha Jones
Cust. ID SS
N
Phone Countr
y
6758493 329-44-
9847
US
09:22:03
16-Feb-
2015
344-22-
9876
EU
5768459 585-11-
2345
US
Date/Tim
e
Cust. ID Trad
e
Countr
y
11:33:01
16-Feb-
2015
Sell US
09:22:03
16-Feb-
2015
344-
22-
9876
EU
13:45:24
16-Feb-
2015
Buy US

审计
审计
数据来源及去处
技术概念:
审计
血统
Cloudera Navigator

数据加密及秘钥管理
Cloudera 方案:
• 所有数据可加密: HDFS, HBase, 元数据
, 日志文件, 数据接入途径
• Navigator Key Trustee :秘钥管理
• Cloudera Manager统一管理
• 秘钥可以通过硬件秘钥(HSMs)存储
Manager Navigator
Impala Hive
HDFS HBase
Sentry
Navigator Key Trustee
Log
Files
Metadata Store
Encrypted Data
Encryption Key
Legend
Ingest
Paths

开放的⽣态系统
数据
Cloudera Enterprise Data Hub
安全及管理
无限存储
处理发现模型服务
应用
集成商
基础架构
• 2100多个合作伙伴
• 保障与已有的信息基础设施
投资兼容
• ⼤⼤降低技术⻔槛
• 最⼤化数据价值
支撑

完备的培训与认证体系
管理员
4 天
MapRed
uce开发
4 天
Spark &
Hadoop
开发
4 天
Spark &
Hadoop
⾼级开发
4 天 Hbase开
发
3 天
Spark开
发
3 t天⼤数据应
⽤
4 天
全⽂检索
3 天
数据分析
师
4 天
数据科学
3 天
Scala⼊
⻔
1 天
Python⼊
⻔
Cloudera
基础
1 天
Cloudera
Manager
1 天
专属培训
公开课
定制培训
培训积分

遍布全球的技术⽀持
北京
上海
广州

技术创新
新项⺫
已有项⺫
*CDH ⽀持项⺫
Core Hadoop
(HDFS,
MapReduce)
Solr
Pig
Core Hadoop
HBase
ZooKeeper
Solr
Pig
Core Hadoop
Hive
Mahout
HBase
ZooKeeper
Solr
Pig
Core Hadoop
Sqoop
Avro
Hive
Mahout
HBase
ZooKeeper
Solr
Pig
Core Hadoop
Flume
Bigtop
Oozie
HCatalog
Hue
Sqoop
Avro
Hive
Mahout
HBase
ZooKeeper
Solr
Pig
YARN
Core Hadoop
Spark
Tez
Impala
Kafka
Drill
Flume
Bigtop
Oozie
HCatalog
Hue
Sqoop
Avro
Hive
Mahout
HBase
ZooKeeper
Solr
Pig
YARN
Core Hadoop
Parquet
Sentry
Spark
Tez
Impala
Kafka
Drill
Flume
Bigtop
Oozie
HCatalog
Hue
Sqoop
Avro
Hive
Mahout
HBase
ZooKeeper
Solr
Pig
YARN
Core Hadoop
Knox
Flink
Parquet
Sentry
Spark
Tez
Impala
Kafka
Drill
Flume
Bigtop
Oozie
HCatalog
Hue
Sqoop
Avro
Hive
Mahout
HBase
ZooKeeper
Solr
Pig
YARN
Core Hadoop
Kudu*
Record Service*
Ibis*
Falcon
Knox
Flink
Parquet*
Sentry*
Spark*
Tez
Impala*
Kafka*
Drill
Flume*
Bigtop*
Oozie*
Hcatalog*
Hue*
Sqoop*
Avro*
Hive*
Mahout*
Hbase*
ZooKeeper*
Solr*
Pig*
YARN*
Core Hadoop*
2006 2008 2009 2010 2011 2012 20132007 2014 2016

Thank you

Cloudera企业数据中枢平台

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Cloudera企业数据中枢平台

Similar a Cloudera企业数据中枢平台 (20)

Cloudera企业数据中枢平台