SlideShare una empresa de Scribd logo
1 de 15
Descargar para leer sin conexión
数据领导者的
多云数据集成 ↪
目录 01
简介——用于实现多云集成的
Data Fabric 方法
02
为什么需要多云数据集成?
03
多云数据集成的构成要素
04
Data Fabric——一种整体性方法
05
多云数据集成的成功案例
06
考虑采用这些组件
07
创建您理想中的集成多云数据环境
2
01
简介——用于实现
多云数据集成的
Data Fabric 方法
在各种混合云环境中,
数据正日益趋于多样化、
分
散化和动态化,
现代企业需要竭尽全力,
才能应对
随之而来的各种日益复杂的数据不动产局面。
新
的数据源、
应用程序和要求成倍增加。
根据一份
IDC 报告,
随着体系结构变得更加复杂,
维护数据
以及提供对所需数据的访问变得愈发困难,
导致
企业的所有数据中,
未得到利用的数据平均达到
了 60%–73%。
1
多云数据集成可以解决这种复杂性,
以及本地云、
多云及混合云等环境中的数据蔓延问题。
当作为
Data Fabric 的组成部分来使用时,
它可以将孤立
的数据体系结构转换成能在正确的时间向正确的
地点交付正确数据的体系结构。
Data Fabric 是
一种技术架构方法,
可助力组织从存储于任意位
置的企业数据中解锁洞察成果,
同时严格遵循安
全、
治理和高性能等原则。
无论数据存储于何处,
Data Fabric 都可以加强对
自动化数据治理和隐私控制的遵守,
同时保持监
管合规性。
它还为 360 度客户情报服务和值得信
赖的 AI 配置奠定了基础。
作为 Data Fabric 一部分的现代数据集成解决
方案,
可帮助企业构筑灵活的、
可重用的、
增强型
的数据管道,
从而做到跨领域和业务线创建和交
付数据产品。
像威奇塔州立大学 (Wichita State
University)和 Highmark Health 这样具有前瞻性
思维的组织已经体会到此类方法的优势。
请继续阅读以了解完整案例,
或亲自试用我们的
多云数据集成试用版。
3
02
为什么需要多云
数据集成?
可靠的多云数据集成策略可
通过随时随地按需交付数据来
实现数据访问的民主化。
随着组织需要持续适应现代数据环境的复杂性,
首席数据官 (CDO)、
首席信息官 (CIO) 和其他数
据领导者往往难以管理和集成这些数据,
同时还
需确保数据的质量和治理环境。
据 IBM® 商业价
值研究院 (IBV) 的调查,
采取多记录系统的数据
集成是高管们在落实数字体验平台时面临的最大
挑战,
40% 的受访者认为,
孤立数据源和缺乏共
享妨碍了组织的发展。
2
相比之下,
可靠的多云数据集成策略可以:
– 通过以近乎实时、
批处理或虚拟化的方式将
数据交付到您需要的地方
(无论是本地部署
还是任何云)
,
实现数据访问的民主化
– 提供操作和分析数据存储的实时同步方案,
无需中断或影响任务关键型数据的运行
– 通过以受控、
规范的方式提供对存储于任何
位置的数据的访问,
为不断增长的新数据用
户提供服务
– 减少供应商锁定,
并在各种数据环境中获取
更多选择,
让企业可以做出满足其独特定价、
性能、
安全和合规要求组合的理想选择
4
03
多云数据集成的
构成要素
多云数据集成的目标是使整个企业的数据访问民
主化,
实现任务关键型数据的连续可用性,
并为
新的数据用户授权,
同时遵守安全、
治理和高性
能原则。
现代数据集成解决方案需要一个支持不同集成和
交付方式的数据交付平台,
同时使用知识图谱、
活动元数据和策略执行来统一和治理分布式环
境中的数据。
通过充分利用专门为云原生工作负
载构建的灵活体系结构,
配合由机器学习 (ML) 提
供支持的各项功能,
助力用户从存储于任何位置
的数据中获得洞察成果,
现代数据集成解决方案
可以为下游分析、
商业智能 (BI)、
AI 和数据密集
型应用程序用户提供对高质量数据的更迅捷访
问策略。
数据集成有助于将不同来源的结构化和非结构化
数据组合成既富有意义又具备价值的数据集。
诸
如批量/分批集成
(ETL 或 ELT)
、
数据复制和流式
集成、
更改数据捕获以及数据虚拟化的集成方式
均可实现各种类型的集成用例应用。
– ETL 和 ELT 都是将原始数据从源系统移到数
据湖或数据仓库等目标数据存储库的数据
集成过程。
高级数据转换可以选用动态应用
(ETL),
也可以选择加载后应用 (ELT)。
数据源
可以位于多个不同的存储库中,
包括一个或
多个旧版记录系统,
然后使用批量或分批集
成将其传输至目标数据位置。
– 数据复制提供了在各种异构源和目标之间复
制数据以实现动态交付的灵活性,
助其成为
保障多站点工作负载分布和连续可用性的理
想选择,
无论是跨数据中心、
还是从本地部署
到云方案部署,
均可从容应对。
– 更改数据捕获在数据库更改发生时实时将其
捕获,
并将更改传递到目标数据库、
消息队列
或纳入 ETL 解决方案的组成部分。
– 数据虚拟化跨数据源连接数据,
使其可通过
单个访问点完成访问,
同时数据的位置、
大
小、
类型或格式等都不会对访问造成影响。
数
据工程师可以方便快捷地满足临时数据集成
请求,
以验证猜测或假设等场景。
5
03
多云数据集成的
构成要素
数据编目通过丰富且配备元数据驱动的编目资产
索引,
可助力用户轻松找到和使用正确的数据。
具有内置质量分析的数据目录可推断和识别异常
条目。
一些目录具有内置的提炼功能,
可通过数
据构形操作的帮助,
执行数据发现、
清理和转换
等行动。
数据治理让应该访问数据的人更容易找到正确的
数据,
同时允许敏感数据保持隐藏或屏蔽状态。
一个旨在自动执行数据保护策略并由自动化元数
据标记支持的治理框架,
就非常适合建立和执行
数据治理策略和规则。
高级数据工程通过活动元数据实现数据访问和共
享的自动化,
从而加快数据的交付。
编排也可以用
于简化 DataOps 管道的构建和运行,
从而改进数
据生产者和数据用户之间数据流的集成和通信。
自动工作负载平衡和弹性扩展使作业能够为任何
环境和任何数据量做好准备。
最后,
您需要一种方法,
包括提供自助式访问、
查
询所有数据的能力和连续数据可用性的各种解
决方案。
6
04
Data Fabric——
一种整体性方法
Gartner 预测,
到 2023 年,
使用 Data Fabric 的
组织将能够动态连接、
优化和自动化数据管理流
程,
并将集成数据的交付时间缩短 30%。
3
Data Fabric 是一种架构方法,
用于简化组织中的
数据访问,
以促进自助式数据消费。
这种方法将
以前被列为统一架构组成部分的各项功能聚合一
起,
避免了由于集成大量单点解决方案而产生的
成本和复杂性。
Data Fabric 提供单个达到无缝
运行水准的整体解决方案,
而非拼杂在一起的一
组零散产品。
此外,
除了多云数据集成之外,
Data Fabric 还可
以处理三种单独的用例。
这些包括数据治理和
隐私保护、
360 度客户视图服务,
以及 MLOps 运
营和值得信赖的 AI 配置。
这三种额外的用例
将在单独的电子书中进行介绍,
但需要谨记的
是,
Data Fabric 方法的价值远不止于这个精简全
面的多云数据集成解决方案。
Data Fabric 提供单个达到
无缝运行水准的整体解决方案。
7
05
多云数据集成的
成功案例
为了应对数据增长、
更多数据存储库和不断增加
的分析用途,
WSU 需要升级其系统。
WSU 有太多
的数据孤岛,
没有元数据和世系的公共存储库,
也
没有真正的数据目录帮助在整个大学执行精简流
程和衔接各项洞察成果。
作为一家使用专有信息
从事政府和航空航天项目的研究机构,
WSU 还需
要满足严格的合规条例,
同时还需要顺利访问数
据并保护其学生的个人身份信息 (PII)
。
WSU 通过 Data Fabric 部署了多云数据集成,
从
而能够整合、
组织和分析其数据,
并构建各种预测
模型。
它通过集中数据访问
(包括来自各学院网
络的数据)
消除了信息孤岛,
并将其 ETL 流程从
传统解决方案迁移至更加集成化的解决方案。
为
了满足对工作流程合规需要更高可见度的设置,
并掌握有序管控数据治理的方法,
WSU 还将数据
迁移至数据目录,
帮助校园内各种用户更加便捷
地进行数据访问。
最后,
为了促进数据共享并解
决数据安全问题,
该大学的 API
(大约 300 个)
实
现了集中化管理。
威奇塔州立
大学 ↷
8
David Wright
首席数据官
威奇塔州立大学
“您需要知道您拥有哪些数据、
数据
在哪里、
谁有权访问这些数据,
以
及谁正在获取这些数据。
通过从传
统解决方案迁移至 IBM Cloud Pak
for Data,
我节省了 60% 以上的成
本。
这是在预算控制方面取得的重
大成功。
”
9
05
多云数据集成的
成功案例
美国每年有 72 万个败血症病例,
死亡率达到惊
人的 25%–50%,
败血症不仅仅威胁生命,
它还
属于美国住院费用最高的疾病之一,
每年耗费超
过 270 亿美元。
总部位于匹兹堡的 Highmark Health 旗下一个团
队意识到,
他们可以根据保险索赔数据构建一个
模型,
并轻松地将洞察成果集成至现有的临床服
务应用程序中,
即可成功识别高风险败血症患者。
借助 Data Fabric,
并实施运行一个多云数据集成
用例,
Highmark 可以处理复杂多样的数据集,
甚
至,
让首次在这个开创性项目中合作的各位数据
科学家、
架构师和工程师团结在一起,
协同工作。
Highmark
Health ↷
Highmark 的数据科学研发总监与 IBM 合作建立
了一个模型,
对有可能罹患败血症的患者进行评
分和识别。
他们能够消除数据孤岛,
提供可信的
数据源,
并通过在同一个地方对所有属性进行编
目来减少数据准备工作。
他们还将洞察成果集成
至应用程序工作流程中,
并能够监测它们的偏差
度、
可信度和透明度。
最终,
AI 开发和部署生命周
期从 12 个月缩短至六周。
10
IBM 在几天之内就推出了
一个已成功部署的模型,
这让我有点震惊。
”
Curren Katz
数据科学研发总监
Highmark Health
“
11
06
考虑采用这些组件
您的数据集成需要一个可信的解决方案,
该解决方案可以从多个来源摄取不同的数据类型。
IBM 通过开放的、
完全集成式数据和 AI 平台 IBM
Cloud Pak® for Data,
建立一个 Data Fabric 架构。
它帮助企业用户在分布式数据环境中访问密切相
关的、
受治理数据。
Gartner 在 2021 年数据集成工具魔力象限中将
IBM 评为数据集成解决方案的领导者。
Gartner 倍加推崇 IBM“支持云间和混合集成模
式的模块化架构、
对 DataOps 的强大支持,
以及
支持 Data Fabric 设计的功能。
”
IBM DataStage、
IBM Watson Query、
IBM Watson
Knowledge Catalog 和 IBM Data Replication
等各项产品提供了一个现代化的数据集成解决方
案,
可将不同来源的结构化和非结构化数据转换
至一个可信的统一视图上予以展示。
让我们看看 Cloud Pak for Data 及其内部配置的
功能,
它们可助您为处于业务就绪的 AI 模式摄
取、
探索、
准备、
管理、
治理和提供 PB 级
(2^50 字
节)
数据。
IBM Cloud Pak for Data
IBM Cloud Pak® for Data 汇集了一个全面的数
据集成解决方案,
可通过内置的数据虚拟化满足
现代 Data Fabric 架构的所有需求。
它创建了基
于元数据和主动策略管理的端到端用户体验。
使
用 Cloud Pak for Data,
用户可以查看、
访问、
操作
和分析数据,
而无需了解其物理格式或存储位置,
也不必移动或复制数据。
IBM Cloud Pak for Data 确保公司可自动将行业
特有的监管政策和规则应用于其数据资产,
从而
保障整个企业的数据安全。
了解有关 IBM Cloud Pak for Data 的更多信息 →
IBM DataStage
IBM® DataStage® 是行业领先的数据集成工具,
可帮助您设计、
开发和运行移动和转换数据的作
业。
从核心功能看,
DataStage 工具支持提取、
转
换和加载 (ETL) 以及提取、
加载和转换 (ELT) 模式。
通过可扩展的 ETL 平台和执行速度最快提高
30% 的工作负载平衡,
既可在本地部署中,
亦可
在云上实现灵活的近实时数据集成。
5
了解有关 IBM DataStage 的更多信息 →
12
06
考虑采用这些组件
IBM Watson Query
IBM Watson Query 是一个通用查询引擎,
可跨
数据库、
数据仓库和数据湖执行分布式和虚拟化
查询。
Watson Query 提供了数据虚拟化功能,
是方便快捷地实现与数据源集成的首选工具。
小
型和大型 ETL 作业所需的工作量通常是相同的;
数据虚拟化有助于在出现较小的临时请求时提
高效率,
从而将 ETL 作业减少 25%–65%。
5
通过
Watson Query 执行 Watson Knowledge Catalog
策略的能力,
可确保实现治理和数据保护。
了解有关 IBM Watson Query 的更多信息 →
IBM Watson Knowledge Catalog
IBM Watson® Knowledge Catalog 是一个数据目
录工具,
支持数据、
模型等的智能自助式发现。
基
于云的企业元数据存储库可激活用于 AI、
机器学
习 (ML) 和深度学习的诸多信息,
并可将数据发
现、
质量和治理自动化的时间缩短多达 90%。
6
用
户可访问、
整理、
分类和共享数据、
知识资产及其
关系,
无论它们存储在何处。
了解有关 IBM Watson Knowledge Catalog
的更多信息 →
IBM 数据复制
IBM 数据复制产品组合支持高容量数据运行,
延
迟非常低,
这让该解决方案成为实现多站点工作
负载分布和连续可用性的理想选择,
无论是跨数
据中心、
还是从本地部署到云方案部署,
均可从容
应对。
这种对源、
目标和平台的强大支持可确保
在数据湖、
数据仓库、
数据集市和影响点解决方案
中提供正确的数据,
同时实现最佳的资源利用率
和快速的投资回报 (ROI)。
了解有关 IBM 数据复制的更多信息 →
13
07
创建您理想中的集
成多云数据环境
如果您迫切希望最终控制数据蔓延,
并为所有类
型的数据用户提供更简单、
更规范的数据访问,
我
们建议您深入探索如下有益资源。
首先是免费的
多云数据集成试用版,
可提供专为该用例设计的
Data Fabric 的实际操作经验。
第二,
查看我们的
多云数据集成网站上的信息,
即可了解多云数据
集成相关优势的更多信息。
最后,
通过在线预约
时间、
与您的 IBM 代表交谈或联系任何一位业务
合作伙伴,
与我们的专家咨询交流。
《数据治理和隐私保护》
(Data Governance and Privacy)
《360 度客户视图》
(Customer 360)
《值得信赖的 AI 和 MLOps》
(Trustworthy AI and MLOps)
查看另外三本 Data Fabric
用例电子书:
14
01 IDC/Seagate Rethink Data survey, 2020 https://www.
seagate.com/files/www-content/our-story/rethink-data/
files/Rethink_Data_Report_2020.pdf
02 Unleash your platform’s power: 5 ways to create next-
wave digital experiences, IBM Institute for Business
Value, August 2021.
03 Magic Quadrant for Data Integration Tools, Gartner,
9 March 2021.
04 Magic Quadrant for Data Integration Tools, Gartner,
9 March 2021.
05 Forrester, New Technology: The Projected Total
Economic Impact Of IBM Cloud Pak For Data
(PDF, 1.3 MB), February 2020
06 “IBM Cloud Pak for Data enhances DataOps services
to deliver business agility with cost savings and risk
reduction,” Aliye Ozcan, May 2020.
© Copyright IBM Corporation 2022
国际商业机器
(中国)
有限公司
北京市朝阳区金和东路 20 号院 3 号楼
正大中心南塔 12 层
邮编:
100020
美国出品
2022 年 5 月
IBM、
IBM 徽标和 ibm.com 是 International Business Machines
Corp. 在世界各地司法辖区的注册商标。
其他产品和服务名称
可能是 IBM 或其他公司的商标。
Web 站点上的“Copyright and
trademark information”部分中包含了 IBM 商标的最新列表:
ibm.com/legal/copytrade.shtml。
本文档为自最初公布日期起的最新版本,
IBM 可能随时对其进行更
改。
IBM 并不一定在开展业务的所有国家/地区提供所有产品或服务。
本文引用的性能数据和客户示例仅供说明之用。
实际性能结果可能因
具体配置和操作条件而异。
本文档内的信息“按现状”提供,
不附有任何种类的
(无论是明示的还是
默示的)
保证,
包括不附有关适销性、
适用于某种特定用途的任何保证
以及非侵权的任何保证或条件。
IBM 产品根据其提供时所依据的协议
条款和条件获得保证。

Más contenido relacionado

Similar a 数据领导者的多云数据集成.pdf

如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构Denodo
 
数据领导者的 数据治理和隐私 保护.pdf
数据领导者的 数据治理和隐私 保护.pdf数据领导者的 数据治理和隐私 保护.pdf
数据领导者的 数据治理和隐私 保护.pdfChunLei(peter) Che
 
云制造
云制造云制造
云制造leejd
 
那些雲端運算教我的事
那些雲端運算教我的事那些雲端運算教我的事
那些雲端運算教我的事Fred Chiang
 
破雲而出 — 重新發現您的雲端策略
破雲而出 — 重新發現您的雲端策略破雲而出 — 重新發現您的雲端策略
破雲而出 — 重新發現您的雲端策略Fred Chiang
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forumbigdatawf
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
解读数据虚拟化支持的逻辑数据编织(Data Fabric)
解读数据虚拟化支持的逻辑数据编织(Data Fabric)解读数据虚拟化支持的逻辑数据编织(Data Fabric)
解读数据虚拟化支持的逻辑数据编织(Data Fabric)Denodo
 
海通证券金融云思考与实践(数据技术嘉年华2017)
海通证券金融云思考与实践(数据技术嘉年华2017)海通证券金融云思考与实践(数据技术嘉年华2017)
海通证券金融云思考与实践(数据技术嘉年华2017)Zhaoyang Wang
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Etu Solution
 
数据虚拟化:现代数据集成解决方案
数据虚拟化:现代数据集成解决方案数据虚拟化:现代数据集成解决方案
数据虚拟化:现代数据集成解决方案moreorless
 
Ask Weee Cloud Computing V0.2
Ask Weee Cloud Computing V0.2Ask Weee Cloud Computing V0.2
Ask Weee Cloud Computing V0.2kevin_ke
 
CCCC China Telecom Jun Wan
CCCC China Telecom Jun WanCCCC China Telecom Jun Wan
CCCC China Telecom Jun WanCloud Congress
 
netezza_oracle_comparison_cn
netezza_oracle_comparison_cnnetezza_oracle_comparison_cn
netezza_oracle_comparison_cnLouis liu
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘Riquelme624
 
美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010Jiang Zhu
 
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusHow Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusDenodo
 
05 朱近之 ibm云计算解决方案概览 0611
05 朱近之 ibm云计算解决方案概览 061105 朱近之 ibm云计算解决方案概览 0611
05 朱近之 ibm云计算解决方案概览 0611ikewu83
 

Similar a 数据领导者的多云数据集成.pdf (20)

如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构
 
数据领导者的 数据治理和隐私 保护.pdf
数据领导者的 数据治理和隐私 保护.pdf数据领导者的 数据治理和隐私 保护.pdf
数据领导者的 数据治理和隐私 保护.pdf
 
Emc keynote 1130 1200
Emc keynote 1130 1200Emc keynote 1130 1200
Emc keynote 1130 1200
 
云制造
云制造云制造
云制造
 
那些雲端運算教我的事
那些雲端運算教我的事那些雲端運算教我的事
那些雲端運算教我的事
 
破雲而出 — 重新發現您的雲端策略
破雲而出 — 重新發現您的雲端策略破雲而出 — 重新發現您的雲端策略
破雲而出 — 重新發現您的雲端策略
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forum
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
解读数据虚拟化支持的逻辑数据编织(Data Fabric)
解读数据虚拟化支持的逻辑数据编织(Data Fabric)解读数据虚拟化支持的逻辑数据编织(Data Fabric)
解读数据虚拟化支持的逻辑数据编织(Data Fabric)
 
海通证券金融云思考与实践(数据技术嘉年华2017)
海通证券金融云思考与实践(数据技术嘉年华2017)海通证券金融云思考与实践(数据技术嘉年华2017)
海通证券金融云思考与实践(数据技术嘉年华2017)
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來
 
Dell
DellDell
Dell
 
数据虚拟化:现代数据集成解决方案
数据虚拟化:现代数据集成解决方案数据虚拟化:现代数据集成解决方案
数据虚拟化:现代数据集成解决方案
 
Ask Weee Cloud Computing V0.2
Ask Weee Cloud Computing V0.2Ask Weee Cloud Computing V0.2
Ask Weee Cloud Computing V0.2
 
CCCC China Telecom Jun Wan
CCCC China Telecom Jun WanCCCC China Telecom Jun Wan
CCCC China Telecom Jun Wan
 
netezza_oracle_comparison_cn
netezza_oracle_comparison_cnnetezza_oracle_comparison_cn
netezza_oracle_comparison_cn
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
 
美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010
 
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusHow Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
 
05 朱近之 ibm云计算解决方案概览 0611
05 朱近之 ibm云计算解决方案概览 061105 朱近之 ibm云计算解决方案概览 0611
05 朱近之 ibm云计算解决方案概览 0611
 

数据领导者的多云数据集成.pdf