SlideShare una empresa de Scribd logo
1 de 29
企业级搜索托管平台介绍 Smith. 2008.3.26. 搜索技术中心 .
目录 ,[object Object],[object Object],[object Object]
第一部分 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
检索算法基础 - 基本概念 正文数据库 相关结果检索 响应 检索 格式化 DB DB DB 检索数据库 ( 倒排数据库 ) 请求
检索算法基础 - 基本概念 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
检索算法基础 - 基本概念 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
检索算法基础 - 基本概念 ,[object Object],原始文档 倒排索引 倒排 (invert sorting) 文档 内容 Doc1 … . 奥运会夺日程… . Doc2 … . 2008 奥运会日程… .. Doc3 … 公司班车日程表… 。。。   索引词 索引项 (intex term) 奥运会 <doc1><doc2> 。。。 日程 <doc1><doc3> 。。。 。。。 。。。
检索算法基础 - 基本概念 ,[object Object],奥运会 <d0,d1,d2…> 词典 倒排文件 <d0,d1…> 日程 ②  ③  奥运会日程 ①  ④  ∧  文档属性
检索算法基础 - 算法的分解 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],针对不同应用需求,选择简单、快速的算法;
检索算法基础 - 常用算法 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
检索算法基础 - 常用算法 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
检索算法基础 - 常用算法 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],OR AND AND 下载 腾讯 腾讯 搜索
检索算法基础 - 常用算法 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
检索算法基础 - 常用算法 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
检索算法基础 - 常用算法 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
检索算法基础 - 常用算法 ,[object Object],[object Object],[object Object]
检索算法基础 - 常用算法 正文库 属性库 顺排库 倒排库 检索集群 Cache 代理集群 APACHE doc
检索算法基础 - 算法难点 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
第二部分 ,[object Object],[object Object],[object Object],[object Object],[object Object]
项目背景 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
项目背景-问题 问题 原因 办法 沟通成本 1. 尽可能减少沟通环节 ; 2. 站在公司的角度统一规划各种专项搜索的实施节奏; 3. 由一个团队来主要完成大部分事情,减少接口,简化协议; 1.  部门间合作流程复杂,沟通环节较多; 2..  问题解决的成本较高; 3.  大家理解问题的角度、背景不一样,需求变化大。 1.  合并相同、类似需求,在一个系统中加载多业务数据; 2. 定期提供升级、优化的版本,提高用户体验; 3.  对 Log, 数据源特征进行挖掘,迭代优化排序效果、检索特性。 4.  对搜索相关服务质量(排序、速度、用户检索 Log 与质量)的持续跟进; 1. 技术中心同事疲与应付各种需求的变更; 2. 排序、存储、速度、优化没有空隙时间去做; 服务质量 1.  没有简单的办法能彻底避免工作量,但统一存储、计算、提供能大大缩减开发工作量; 2.  尽可能复用 OM 系统,这些小系统有很大的相似度; 3.  稳定、复用核心算法,花少部分人力解决维护、算法中相似但不相同的细节问题; 1. 数据源没有集中存储,变更不可控,带来额外工作量; 2. 系统复用度低; 3.  周边的小系统太多; 工作量 1.  针对一些搜索服务,硬件资源可以复用; 2.  周边的 OM 系统,可以搭建好平台提供给多个业务使用; 3.  从平台系统的角度对架构与资源进行优化,减少硬件资源的使用,降低 TCO 成本。 1. 一些搜索数据量、 PV 较低的业务,还有一些辅助系统占有了较多服务器; 2.  备份、容灾系统的冗余太多; 硬件成本
搜索托管平台介绍 检索服务托管 数据存储托管 服务升级托管 维护、更新托管 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
搜索托管平台介绍
搜索托管平台介绍 服务控制单元 索引、加载单元 协议接口控制单元 Cache 代理单元 数据存储单元 分布式检索单元 内存检索单元 主要功能单元分析 日志分析单元 运营维护单元
第三部分 ,[object Object],[object Object],[object Object]
搜索托管平台展望 - 流程 收集需求 托管支持 统一维护 排序改进
搜索托管平台展望 - 流程 新需求开发 维护与支持 服务 质量改进 服务、运营质量改进 维护与支持 新需求 开发
搜索托管平台展望 - 计划 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Q1-Q2 Q3 Q4 ,[object Object],[object Object],[object Object],[object Object]
谢谢各位 

Más contenido relacionado

Similar a 腾讯大讲堂25 企业级搜索托管平台介绍

腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
George Ang
 
database
databasedatabase
database
s06283
 
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
drewz lin
 
企业系统商务智能设计
企业系统商务智能设计企业系统商务智能设计
企业系统商务智能设计
George Ang
 

Similar a 腾讯大讲堂25 企业级搜索托管平台介绍 (20)

腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
 
鹰眼下的淘宝_EagleEye with Taobao
鹰眼下的淘宝_EagleEye with Taobao鹰眼下的淘宝_EagleEye with Taobao
鹰眼下的淘宝_EagleEye with Taobao
 
Web爬虫那点事
Web爬虫那点事Web爬虫那点事
Web爬虫那点事
 
database
databasedatabase
database
 
软件工程
软件工程软件工程
软件工程
 
数据库系统设计漫谈
数据库系统设计漫谈数据库系统设计漫谈
数据库系统设计漫谈
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享
 
Emc keynote 1130 1200
Emc keynote 1130 1200Emc keynote 1130 1200
Emc keynote 1130 1200
 
自助工具助Dba提升效率
自助工具助Dba提升效率自助工具助Dba提升效率
自助工具助Dba提升效率
 
淘宝网架构变迁和挑战(Oracle架构师日)
淘宝网架构变迁和挑战(Oracle架构师日)淘宝网架构变迁和挑战(Oracle架构师日)
淘宝网架构变迁和挑战(Oracle架构师日)
 
N-layer design & development
N-layer design & developmentN-layer design & development
N-layer design & development
 
Hadoop ecosystem
Hadoop ecosystemHadoop ecosystem
Hadoop ecosystem
 
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
 
企业系统商务智能设计
企业系统商务智能设计企业系统商务智能设计
企业系统商务智能设计
 
Java@taobao
Java@taobaoJava@taobao
Java@taobao
 
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
 
零壹科技 個人資料管理系統 (PIMS) WorkShop
零壹科技 個人資料管理系統 (PIMS) WorkShop零壹科技 個人資料管理系統 (PIMS) WorkShop
零壹科技 個人資料管理系統 (PIMS) WorkShop
 
淘宝双11双12案例分享
淘宝双11双12案例分享淘宝双11双12案例分享
淘宝双11双12案例分享
 

Más de areyouok

22浅谈游戏音频开发及制作
22浅谈游戏音频开发及制作22浅谈游戏音频开发及制作
22浅谈游戏音频开发及制作
areyouok
 
腾讯大讲堂37 内容运营的基础知识
腾讯大讲堂37 内容运营的基础知识腾讯大讲堂37 内容运营的基础知识
腾讯大讲堂37 内容运营的基础知识
areyouok
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
areyouok
 
腾讯大讲堂06 qq邮箱性能优化
腾讯大讲堂06 qq邮箱性能优化腾讯大讲堂06 qq邮箱性能优化
腾讯大讲堂06 qq邮箱性能优化
areyouok
 
腾讯大讲堂52 《激战》少数派报告
腾讯大讲堂52 《激战》少数派报告腾讯大讲堂52 《激战》少数派报告
腾讯大讲堂52 《激战》少数派报告
areyouok
 
腾讯大讲堂51 游戏产品运营事故案例介绍
腾讯大讲堂51 游戏产品运营事故案例介绍腾讯大讲堂51 游戏产品运营事故案例介绍
腾讯大讲堂51 游戏产品运营事故案例介绍
areyouok
 
腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析
areyouok
 
腾讯大讲堂46 自由cgi之路v3
腾讯大讲堂46 自由cgi之路v3腾讯大讲堂46 自由cgi之路v3
腾讯大讲堂46 自由cgi之路v3
areyouok
 
腾讯大讲堂50 疯狂美剧,快乐英语
腾讯大讲堂50 疯狂美剧,快乐英语腾讯大讲堂50 疯狂美剧,快乐英语
腾讯大讲堂50 疯狂美剧,快乐英语
areyouok
 
腾讯大讲堂45 解剖ttc
腾讯大讲堂45 解剖ttc腾讯大讲堂45 解剖ttc
腾讯大讲堂45 解剖ttc
areyouok
 
腾讯大讲堂44 qq game后台开发介绍
腾讯大讲堂44 qq game后台开发介绍腾讯大讲堂44 qq game后台开发介绍
腾讯大讲堂44 qq game后台开发介绍
areyouok
 
腾讯大讲堂43 专利运营
腾讯大讲堂43 专利运营腾讯大讲堂43 专利运营
腾讯大讲堂43 专利运营
areyouok
 
腾讯大讲堂38 oracle基础体系结构及性能优化
腾讯大讲堂38 oracle基础体系结构及性能优化腾讯大讲堂38 oracle基础体系结构及性能优化
腾讯大讲堂38 oracle基础体系结构及性能优化
areyouok
 
腾讯大讲堂49期 产品翻译面面谈
腾讯大讲堂49期 产品翻译面面谈腾讯大讲堂49期 产品翻译面面谈
腾讯大讲堂49期 产品翻译面面谈
areyouok
 
腾讯大讲堂42 数据库内核设计思路浅析
腾讯大讲堂42 数据库内核设计思路浅析腾讯大讲堂42 数据库内核设计思路浅析
腾讯大讲堂42 数据库内核设计思路浅析
areyouok
 
腾讯大讲堂30 运维工具让你的开发运营更轻松
腾讯大讲堂30 运维工具让你的开发运营更轻松腾讯大讲堂30 运维工具让你的开发运营更轻松
腾讯大讲堂30 运维工具让你的开发运营更轻松
areyouok
 
腾讯大讲堂29 营销平台让你我共赢
腾讯大讲堂29 营销平台让你我共赢腾讯大讲堂29 营销平台让你我共赢
腾讯大讲堂29 营销平台让你我共赢
areyouok
 
腾讯大讲堂26 带宽优化之道
腾讯大讲堂26 带宽优化之道腾讯大讲堂26 带宽优化之道
腾讯大讲堂26 带宽优化之道
areyouok
 
腾讯大讲堂24 qq show2.0重构历程
腾讯大讲堂24 qq show2.0重构历程腾讯大讲堂24 qq show2.0重构历程
腾讯大讲堂24 qq show2.0重构历程
areyouok
 

Más de areyouok (20)

22浅谈游戏音频开发及制作
22浅谈游戏音频开发及制作22浅谈游戏音频开发及制作
22浅谈游戏音频开发及制作
 
腾讯大讲堂37 内容运营的基础知识
腾讯大讲堂37 内容运营的基础知识腾讯大讲堂37 内容运营的基础知识
腾讯大讲堂37 内容运营的基础知识
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
 
腾讯大讲堂06 qq邮箱性能优化
腾讯大讲堂06 qq邮箱性能优化腾讯大讲堂06 qq邮箱性能优化
腾讯大讲堂06 qq邮箱性能优化
 
腾讯大讲堂52 《激战》少数派报告
腾讯大讲堂52 《激战》少数派报告腾讯大讲堂52 《激战》少数派报告
腾讯大讲堂52 《激战》少数派报告
 
腾讯大讲堂51 游戏产品运营事故案例介绍
腾讯大讲堂51 游戏产品运营事故案例介绍腾讯大讲堂51 游戏产品运营事故案例介绍
腾讯大讲堂51 游戏产品运营事故案例介绍
 
腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析
 
腾讯大讲堂46 自由cgi之路v3
腾讯大讲堂46 自由cgi之路v3腾讯大讲堂46 自由cgi之路v3
腾讯大讲堂46 自由cgi之路v3
 
腾讯大讲堂50 疯狂美剧,快乐英语
腾讯大讲堂50 疯狂美剧,快乐英语腾讯大讲堂50 疯狂美剧,快乐英语
腾讯大讲堂50 疯狂美剧,快乐英语
 
腾讯大讲堂45 解剖ttc
腾讯大讲堂45 解剖ttc腾讯大讲堂45 解剖ttc
腾讯大讲堂45 解剖ttc
 
腾讯大讲堂44 qq game后台开发介绍
腾讯大讲堂44 qq game后台开发介绍腾讯大讲堂44 qq game后台开发介绍
腾讯大讲堂44 qq game后台开发介绍
 
腾讯大讲堂43 专利运营
腾讯大讲堂43 专利运营腾讯大讲堂43 专利运营
腾讯大讲堂43 专利运营
 
腾讯大讲堂38 oracle基础体系结构及性能优化
腾讯大讲堂38 oracle基础体系结构及性能优化腾讯大讲堂38 oracle基础体系结构及性能优化
腾讯大讲堂38 oracle基础体系结构及性能优化
 
腾讯大讲堂49期 产品翻译面面谈
腾讯大讲堂49期 产品翻译面面谈腾讯大讲堂49期 产品翻译面面谈
腾讯大讲堂49期 产品翻译面面谈
 
腾讯大讲堂42 数据库内核设计思路浅析
腾讯大讲堂42 数据库内核设计思路浅析腾讯大讲堂42 数据库内核设计思路浅析
腾讯大讲堂42 数据库内核设计思路浅析
 
腾讯大讲堂30 运维工具让你的开发运营更轻松
腾讯大讲堂30 运维工具让你的开发运营更轻松腾讯大讲堂30 运维工具让你的开发运营更轻松
腾讯大讲堂30 运维工具让你的开发运营更轻松
 
腾讯大讲堂29 营销平台让你我共赢
腾讯大讲堂29 营销平台让你我共赢腾讯大讲堂29 营销平台让你我共赢
腾讯大讲堂29 营销平台让你我共赢
 
腾讯大讲堂26 带宽优化之道
腾讯大讲堂26 带宽优化之道腾讯大讲堂26 带宽优化之道
腾讯大讲堂26 带宽优化之道
 
腾讯大讲堂24 qq show2.0重构历程
腾讯大讲堂24 qq show2.0重构历程腾讯大讲堂24 qq show2.0重构历程
腾讯大讲堂24 qq show2.0重构历程
 
腾讯大讲堂41 国际化-走向海外市场的必经之路
腾讯大讲堂41 国际化-走向海外市场的必经之路腾讯大讲堂41 国际化-走向海外市场的必经之路
腾讯大讲堂41 国际化-走向海外市场的必经之路
 

腾讯大讲堂25 企业级搜索托管平台介绍

  • 2.
  • 3.
  • 4. 检索算法基础 - 基本概念 正文数据库 相关结果检索 响应 检索 格式化 DB DB DB 检索数据库 ( 倒排数据库 ) 请求
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17. 检索算法基础 - 常用算法 正文库 属性库 顺排库 倒排库 检索集群 Cache 代理集群 APACHE doc
  • 18.
  • 19.
  • 20.
  • 21. 项目背景-问题 问题 原因 办法 沟通成本 1. 尽可能减少沟通环节 ; 2. 站在公司的角度统一规划各种专项搜索的实施节奏; 3. 由一个团队来主要完成大部分事情,减少接口,简化协议; 1. 部门间合作流程复杂,沟通环节较多; 2.. 问题解决的成本较高; 3. 大家理解问题的角度、背景不一样,需求变化大。 1. 合并相同、类似需求,在一个系统中加载多业务数据; 2. 定期提供升级、优化的版本,提高用户体验; 3. 对 Log, 数据源特征进行挖掘,迭代优化排序效果、检索特性。 4. 对搜索相关服务质量(排序、速度、用户检索 Log 与质量)的持续跟进; 1. 技术中心同事疲与应付各种需求的变更; 2. 排序、存储、速度、优化没有空隙时间去做; 服务质量 1. 没有简单的办法能彻底避免工作量,但统一存储、计算、提供能大大缩减开发工作量; 2. 尽可能复用 OM 系统,这些小系统有很大的相似度; 3. 稳定、复用核心算法,花少部分人力解决维护、算法中相似但不相同的细节问题; 1. 数据源没有集中存储,变更不可控,带来额外工作量; 2. 系统复用度低; 3. 周边的小系统太多; 工作量 1. 针对一些搜索服务,硬件资源可以复用; 2. 周边的 OM 系统,可以搭建好平台提供给多个业务使用; 3. 从平台系统的角度对架构与资源进行优化,减少硬件资源的使用,降低 TCO 成本。 1. 一些搜索数据量、 PV 较低的业务,还有一些辅助系统占有了较多服务器; 2. 备份、容灾系统的冗余太多; 硬件成本
  • 22.
  • 24. 搜索托管平台介绍 服务控制单元 索引、加载单元 协议接口控制单元 Cache 代理单元 数据存储单元 分布式检索单元 内存检索单元 主要功能单元分析 日志分析单元 运营维护单元
  • 25.
  • 26. 搜索托管平台展望 - 流程 收集需求 托管支持 统一维护 排序改进
  • 27. 搜索托管平台展望 - 流程 新需求开发 维护与支持 服务 质量改进 服务、运营质量改进 维护与支持 新需求 开发
  • 28.