SlideShare una empresa de Scribd logo
1 de 17
Descargar para leer sin conexión
© 2011 IBM Corporation
© 2011 IBM Corporation
大数据遇到大智慧
IBM 大数据平台概述
薛 峰 Steven Sit
-大数据计划主管
2011 年 7 月 7 日
© 2011 IBM Corporation3
© 版权所有 IBM Corporation 2010。保留所有权利。
美国政府用户享有的受限权利 - 使用、复制或披露受到与 IBM Corp 签订的 GSA ADP 时效合同的制约。
本演示文稿中所含的信息仅供参考使用。尽管我们已努力确保本演示文稿中所含的信息完整、准确,但这些信息“按原
样”提供,不附带任何形式的明示或默示担保。此外,这些信息均基于 IBM 现行的产品计划和战略,IBM 可能会更改
这些产品计划和战略,恕不另行通知。对于因使用本演示文稿或任何其他文档而造成的或以其他方式与这二者有关的
任何损害,IBM 概不负责。本演示文稿中包含的任何内容均不能说明 IBM(或其供应商或许可商)做出了任何担保或
陈述,不会修改约束 IBM 产品和/或软件使用行为的任何协议或许可协议的条款和条件,也不会起到做出这种说明或修
改的作用。
IBM、IBM 徽标、ibm.com、InfoSphere、Infosphere Streams 和 Infosphere BigInsights 是 International Business Machines
Corporation 在美国和/或其他国家/地区的商标或注册商标。在这些信息中,以上商标及其他带有 IBM 商标的词语第一次出现
时会标有一个商标符号(® 或 ™),这两个符号表示在这些信息出版时它们所标记的词语是 IBM 所拥有的美国注册商标或普
通法商标。此类商标可能也是在其他国家/地区的注册商标或普通法商标。IBM 网站上的“版权和商标信息”中提供了最新的
IBM 商标列表,网址为www.ibm.com/legal/copytrade.shtml
免责声明
© 2011 IBM Corporation
数量增长
每一天都会产生超过 15 PB 的新信
息。数据量预计每 2 年就会翻一番。
需要作出“更明智的”决策
70% 的高管认为,未及时作出决策以
及所作出的决策欠佳对其公司的业绩
产生了不利影响。
多样性增长
80% 的新数据增长源自非关系数据
类型和非传统数据类型,如电子邮
件、文档、RFID 源、多媒体等
信息是新一轮机遇浪潮的核心…
© 2011 IBM Corporation5
555
从数量庞大、多样化的高速数据中联系上下文提取真知灼见,从而做
到以前所不可能做到的事情。
大数据机遇
管理多种关系和非关系数据类
型及架构的复杂性
流数据和大批量数据移动
从 TB 扩展到 ZB
多样性:
速度:
数量:
© 2011 IBM Corporation6
IBM 大数据平台的定义…
1. 针对 V3 的平台 – 多样性、速度、数量
• 多样性 -“按原样”管理数据和内容
• 可处理任何速度 - 低延迟流和大批次
• 数量 – 大量静态数据和流数据
2. 针对 V3 的分析功能
• 以数据来源原本的格式分析它们 - 文本、视频、音频
• 分析所有数据 - 而不是其中的一部分
• 动态分析 – 自动调整和操作
3. 开发人员和用户可轻松使用
• 开发人员用户界面、通用语言和自动优化
• 最终用户用户界面和直观显示
4. 企业级
• 容错能力、安全性和隐私性
• 扩展成本经济合算
5. 丰富的集成功能
• 可集成众多种来源
• 可利用企业集成技术
© 2011 IBM Corporation7
IBM 的大数据平台愿景
大数据企业引擎大数据企业引擎
IBM 大数据解决方案
Internet 规模分析流分析
开发人员 最终用户 管理员
大数据用户环境大数据用户环境
将大数据引入企业
客户和合作伙伴解决方案
开源基础性组件
Eclipse Hadoop HBase Pig Lucene Jaql
代理
集成信息服务器
市场营销
仓库设备
数据仓库
数据库
内容分析
业务分析
主数据管理
InfoSphere
仓库
Netezza/
InfoSphere MDM
DB2
Cognos 和 SPSS
Unica
ECM
数据增长管理
InfoSphere Optim
© 2011 IBM Corporation8
示例 - 客户行为和产品看法分析
主数据管理
业务流程
大数据平台
客户交易记
录
客户行为和体验方面的
真知灼见
数据仓库
网站日志
社交媒体
流分析
Internet 规模分析
Web 通信和社交媒
体方面的真知灼见
事件和警报
信息集成
营销活动管理
© 2011 IBM Corporation9
示例 – 运营效率,客户满意度,和 生产质量
大数据平台
SNMP 和系
统日志
流分析
Internet 规模分析
网络交换机
负载平衡器
应用程序服务器
数据服务器
快照记录、HTTP
日志
应用程序日
志
数据库日志
使用数据
从多个来源收集非结构化数据并使用连接器将它们插入到存储库 中。
来源包括:数据库、CRM/ERP 系统、应用程序服务器、邮件服务器、
Web 服务器、操作系统日志、路由器、交换机和防火墙
搜索搜索
分析分析
监控和报告监控和报告
推动采取行动
• 使用简单/深化搜索功能查找信息
• 自动进行监控
• 分析并报告
传感器和器材
 跨行业应用:
• IT 管理、故障分析, 和法规遵从性。
• 确定客户交易出错问题所在,提高客户满意度。
• 分析器材,传感器数据来优化生产,和改进质量
© 2011 IBM Corporation10
10
 持续吸纳
 持续分析
实现扩展,方法是
将应用程序划分成组件
跨通过流连接的硬件节点进行分配
流分析 (InfoSphere Streams)
基础架构提供相应服务,用于
跨硬件节点调度分析功能
建立流连接
…
在适当的情况下,
可以将各元素“熔合”在一起
以便降低通信延迟
转换
过滤
分类
关联
批注
© 2011 IBM Corporation11
Internet 规模分析 (InfoSphere BigInsights)
支持开源体系
Hadoop、MapReduce 等
性能和安全性
用作企业级文件系统的 GPFS-SNC
编程接口
Java、Hive、PIG 和 JAQL
用于分析 UDF 的 JAQL 运行库
工作流协调和优先级排定
完全可恢复的工作流管理
基于策略的可配置调度程序
 群集内分析
分布式文本和数据挖掘库(systemT、
systemML)
 集成
双向 DB2/RDBMS 和 ETL 集成
 安装和管理
集成式 Web 安装和管理工具
© 2011 IBM Corporation
IBM Netezza 分析:大数据遇到大智慧
页码 12
无约束分析
 目标定制的分析引擎
 集成的数据库、服务器和存储
 快速:比传统系统快 10-100 倍
 简单性:管理和优化操作最少
 标准接口
 总体拥有成本低
 可扩展性:PB 级用户数据容量
 智能:高性能高级分析
© 2011 IBM Corporation13
IBM Watson
IBM Watson 是在分析创新方面的一项重大突破,但它之所以取得成功,完全得益
于它所处理的信息的质量。
© 2011 IBM Corporation
 使用案例
– 新生儿监护
– 提前 24 小时预测重症监护室中的感染
 解决方案
– 监护的 120 名婴儿:每秒 12 万条消息,每天十亿条消息
– 试验范围扩大,纳入了美国和中国的医院
IBM 保密材料
安大略理工大学
14
传感器
网络
基于流的分布式可互操作
医护基础架构
解决方案
(应用程序)
事件预处
理器
分析框架
© 2011 IBM Corporation15
大数据分析正在发挥作用
公用事业
 天气对发电的影响分析
 智能电表数据分析
电子商务
 分析在 Internet 上的行为和
购买特征
 数字资产隐私保护
多渠道集成
 集成式客户行为建模
交通运输
 天气和交通状况对物流
和燃油消耗量的影响
呼叫中心
 进行语音至文本挖掘以
便了解客户行为
金融服务
 改善了风险决策
 客户看法分析
 AML
IT
 针对多个交易系统进行
的交易日志分析
电信
 根据设备、传感器和 GPS 输
入进行的运营和故障分析
© 2011 IBM Corporation16
Thank
You
Merci
Grazie
Gracias
Obrigado
Danke
日语
英语
法语
俄语
德语
意大利语
西班牙语
巴西葡萄牙语
阿拉伯语
繁体中文
简体中文
印地语
泰米尔语
泰语
韩语
© 2011 IBM Corporation

Más contenido relacionado

Destacado

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Destacado (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Big Data World Forum

  • 1. © 2011 IBM Corporation
  • 2. © 2011 IBM Corporation 大数据遇到大智慧 IBM 大数据平台概述 薛 峰 Steven Sit -大数据计划主管 2011 年 7 月 7 日
  • 3. © 2011 IBM Corporation3 © 版权所有 IBM Corporation 2010。保留所有权利。 美国政府用户享有的受限权利 - 使用、复制或披露受到与 IBM Corp 签订的 GSA ADP 时效合同的制约。 本演示文稿中所含的信息仅供参考使用。尽管我们已努力确保本演示文稿中所含的信息完整、准确,但这些信息“按原 样”提供,不附带任何形式的明示或默示担保。此外,这些信息均基于 IBM 现行的产品计划和战略,IBM 可能会更改 这些产品计划和战略,恕不另行通知。对于因使用本演示文稿或任何其他文档而造成的或以其他方式与这二者有关的 任何损害,IBM 概不负责。本演示文稿中包含的任何内容均不能说明 IBM(或其供应商或许可商)做出了任何担保或 陈述,不会修改约束 IBM 产品和/或软件使用行为的任何协议或许可协议的条款和条件,也不会起到做出这种说明或修 改的作用。 IBM、IBM 徽标、ibm.com、InfoSphere、Infosphere Streams 和 Infosphere BigInsights 是 International Business Machines Corporation 在美国和/或其他国家/地区的商标或注册商标。在这些信息中,以上商标及其他带有 IBM 商标的词语第一次出现 时会标有一个商标符号(® 或 ™),这两个符号表示在这些信息出版时它们所标记的词语是 IBM 所拥有的美国注册商标或普 通法商标。此类商标可能也是在其他国家/地区的注册商标或普通法商标。IBM 网站上的“版权和商标信息”中提供了最新的 IBM 商标列表,网址为www.ibm.com/legal/copytrade.shtml 免责声明
  • 4. © 2011 IBM Corporation 数量增长 每一天都会产生超过 15 PB 的新信 息。数据量预计每 2 年就会翻一番。 需要作出“更明智的”决策 70% 的高管认为,未及时作出决策以 及所作出的决策欠佳对其公司的业绩 产生了不利影响。 多样性增长 80% 的新数据增长源自非关系数据 类型和非传统数据类型,如电子邮 件、文档、RFID 源、多媒体等 信息是新一轮机遇浪潮的核心…
  • 5. © 2011 IBM Corporation5 555 从数量庞大、多样化的高速数据中联系上下文提取真知灼见,从而做 到以前所不可能做到的事情。 大数据机遇 管理多种关系和非关系数据类 型及架构的复杂性 流数据和大批量数据移动 从 TB 扩展到 ZB 多样性: 速度: 数量:
  • 6. © 2011 IBM Corporation6 IBM 大数据平台的定义… 1. 针对 V3 的平台 – 多样性、速度、数量 • 多样性 -“按原样”管理数据和内容 • 可处理任何速度 - 低延迟流和大批次 • 数量 – 大量静态数据和流数据 2. 针对 V3 的分析功能 • 以数据来源原本的格式分析它们 - 文本、视频、音频 • 分析所有数据 - 而不是其中的一部分 • 动态分析 – 自动调整和操作 3. 开发人员和用户可轻松使用 • 开发人员用户界面、通用语言和自动优化 • 最终用户用户界面和直观显示 4. 企业级 • 容错能力、安全性和隐私性 • 扩展成本经济合算 5. 丰富的集成功能 • 可集成众多种来源 • 可利用企业集成技术
  • 7. © 2011 IBM Corporation7 IBM 的大数据平台愿景 大数据企业引擎大数据企业引擎 IBM 大数据解决方案 Internet 规模分析流分析 开发人员 最终用户 管理员 大数据用户环境大数据用户环境 将大数据引入企业 客户和合作伙伴解决方案 开源基础性组件 Eclipse Hadoop HBase Pig Lucene Jaql 代理 集成信息服务器 市场营销 仓库设备 数据仓库 数据库 内容分析 业务分析 主数据管理 InfoSphere 仓库 Netezza/ InfoSphere MDM DB2 Cognos 和 SPSS Unica ECM 数据增长管理 InfoSphere Optim
  • 8. © 2011 IBM Corporation8 示例 - 客户行为和产品看法分析 主数据管理 业务流程 大数据平台 客户交易记 录 客户行为和体验方面的 真知灼见 数据仓库 网站日志 社交媒体 流分析 Internet 规模分析 Web 通信和社交媒 体方面的真知灼见 事件和警报 信息集成 营销活动管理
  • 9. © 2011 IBM Corporation9 示例 – 运营效率,客户满意度,和 生产质量 大数据平台 SNMP 和系 统日志 流分析 Internet 规模分析 网络交换机 负载平衡器 应用程序服务器 数据服务器 快照记录、HTTP 日志 应用程序日 志 数据库日志 使用数据 从多个来源收集非结构化数据并使用连接器将它们插入到存储库 中。 来源包括:数据库、CRM/ERP 系统、应用程序服务器、邮件服务器、 Web 服务器、操作系统日志、路由器、交换机和防火墙 搜索搜索 分析分析 监控和报告监控和报告 推动采取行动 • 使用简单/深化搜索功能查找信息 • 自动进行监控 • 分析并报告 传感器和器材  跨行业应用: • IT 管理、故障分析, 和法规遵从性。 • 确定客户交易出错问题所在,提高客户满意度。 • 分析器材,传感器数据来优化生产,和改进质量
  • 10. © 2011 IBM Corporation10 10  持续吸纳  持续分析 实现扩展,方法是 将应用程序划分成组件 跨通过流连接的硬件节点进行分配 流分析 (InfoSphere Streams) 基础架构提供相应服务,用于 跨硬件节点调度分析功能 建立流连接 … 在适当的情况下, 可以将各元素“熔合”在一起 以便降低通信延迟 转换 过滤 分类 关联 批注
  • 11. © 2011 IBM Corporation11 Internet 规模分析 (InfoSphere BigInsights) 支持开源体系 Hadoop、MapReduce 等 性能和安全性 用作企业级文件系统的 GPFS-SNC 编程接口 Java、Hive、PIG 和 JAQL 用于分析 UDF 的 JAQL 运行库 工作流协调和优先级排定 完全可恢复的工作流管理 基于策略的可配置调度程序  群集内分析 分布式文本和数据挖掘库(systemT、 systemML)  集成 双向 DB2/RDBMS 和 ETL 集成  安装和管理 集成式 Web 安装和管理工具
  • 12. © 2011 IBM Corporation IBM Netezza 分析:大数据遇到大智慧 页码 12 无约束分析  目标定制的分析引擎  集成的数据库、服务器和存储  快速:比传统系统快 10-100 倍  简单性:管理和优化操作最少  标准接口  总体拥有成本低  可扩展性:PB 级用户数据容量  智能:高性能高级分析
  • 13. © 2011 IBM Corporation13 IBM Watson IBM Watson 是在分析创新方面的一项重大突破,但它之所以取得成功,完全得益 于它所处理的信息的质量。
  • 14. © 2011 IBM Corporation  使用案例 – 新生儿监护 – 提前 24 小时预测重症监护室中的感染  解决方案 – 监护的 120 名婴儿:每秒 12 万条消息,每天十亿条消息 – 试验范围扩大,纳入了美国和中国的医院 IBM 保密材料 安大略理工大学 14 传感器 网络 基于流的分布式可互操作 医护基础架构 解决方案 (应用程序) 事件预处 理器 分析框架
  • 15. © 2011 IBM Corporation15 大数据分析正在发挥作用 公用事业  天气对发电的影响分析  智能电表数据分析 电子商务  分析在 Internet 上的行为和 购买特征  数字资产隐私保护 多渠道集成  集成式客户行为建模 交通运输  天气和交通状况对物流 和燃油消耗量的影响 呼叫中心  进行语音至文本挖掘以 便了解客户行为 金融服务  改善了风险决策  客户看法分析  AML IT  针对多个交易系统进行 的交易日志分析 电信  根据设备、传感器和 GPS 输 入进行的运营和故障分析
  • 16. © 2011 IBM Corporation16 Thank You Merci Grazie Gracias Obrigado Danke 日语 英语 法语 俄语 德语 意大利语 西班牙语 巴西葡萄牙语 阿拉伯语 繁体中文 简体中文 印地语 泰米尔语 泰语 韩语
  • 17. © 2011 IBM Corporation