SlideShare una empresa de Scribd logo
1 de 16
Descargar para leer sin conexión
互联网上的知识探索   苑明理   2012年5月


Monday, May 7, 12
雷蒙·吕尔
                    zairja                             加泰罗尼亚贵族(1232-1315)
                                                                                   戈特弗里德·莱布尼
                                                                                          (1646-1716)
               中世纪阿拉伯的思想机器                            从阿拉伯语翻译柏拉图著作为拉丁语
                                                                                      设想了演算推理器
           一   利用字母组合的占星术工具                                  设想了一   思想机器

          弗诺·文奇          高登·摩尔               约    ·冯·诺伊曼                    查尔斯·巴贝奇
                                                                            (1791-1871)
         (1944-     )    (1929-     )          (1903-1957)
                                                                            差分机、分析机
            技术奇点             摩尔定律             EDVAC、ENIAC




                                    万尼瓦尔·布什                                                    艾伦·图
                                        (1890-1974)                                           (1912-1954)
                                          memex                                                 计算理论




Monday, May 7, 12
目录

      • 互联网上的知识探索:数据、信息、知识;一些提法;知识工程;近年案例


      • 信息的组织:传统分类法、大众分类法、案例考察


      • 信息的检索: 图书馆的方法、检索模型、主题模型


      • 知识和社会化




Monday, May 7, 12
数据、信息、知识

      • 数据、信息、知识


      • DIKW框架


      • 知识的多        形态


            • 教科书上的定型的知识


            • 研究和实践团体中的未定型的知识


            • 怎样打出租车?某地蔬菜的贵与贱




Monday, May 7, 12
于知识的一些提法

      • 情境知识、公共知识


      • 隐性知识、显性知识


      • 规则、自发秩序、       杂系统、自组织、涌现

                                            哈耶克
      • 知识的生产


            • 方法的视角:试错法、科学方法


            • 社会的视角:动态、演变的   杂过程,微观(企业内部决策过程的社会学考察)与
                宏观的观察(清代的中国学术与同时期的欧洲学术发展)


Monday, May 7, 12
知识市场

      • 知识市场是一      散布知识的机制:稀缺商品或者公共物品?


      • 传统的知识产权制度:把知识作为稀缺商品来售卖


      • 免费的网络知识市场:把知识作为公共物品,通过获得注意力的分配,从广告
          或者其他附加的形式,获得持续运行的资金




Monday, May 7, 12
知识工程

       • 定义:费根鲍姆在1983年的版本—将知识整合入计算机系统来解决   杂任务;
          后延伸至以知识为基础的系统的      发、运行和维护。


       • 知识表示:框架、语义网络、RDF、OWL……


       • 知识抽取:RDB2RDF、DBPedia、FreeBase


       • 知识发现:从结构数据中发现模式


       • 推理引擎:




Monday, May 7, 12
语义网

                                  • 原初的想法:Web 不单由是人类能         理解的页面组
                                   成,更要有由机器能        理解的结构数据构成,并以此
                                   为基础,让机器更好的为人类服务。


                                  • 链接数据(Linked Data):CKAN、DBPedia、
                                   DBLP Bibliography、FOAF……


                                  • 截止2011年,Web 上有300亿 RDF 三元组和 5 亿
                                   RDF 链接。
           蒂姆·伯纳斯-李 勋爵
   对于 Web ,我有一个梦想,机器变得会分析 Web 上
   所有的数据 — 内容、链接、人和机器之间的事
   务。“语义网”,将会使这成为现实,并且已经在发生       • 对比之下,2008年Google宣布他们收录了 1 Tera的
   了, 但当它实现之日,所有的贸易、行政之类的日常
   机制和我们每日的生活都会被彼此之间对话着的机器         URL。
   所处理。人们售卖多年的“智能代理”将最终被物化。




Monday, May 7, 12
维基百科

      • 聚沙成塔的人力知识工程


      • 人人可编辑的页面


      • 自我管理的社群


      • 由维基媒体基金会运作


      •变            :Scholarpedia、SemanticWiki




Monday, May 7, 12
问答网站

      • 早期形态:3form.org(1999)、63336(2002,Mobile)、Ask
          MetaFilter(2003)


      • 近期形态:Aardvark(2008,IM+Social)、StackOverflow(2008)、
          Quora(2009)、Formspring(2009,Social)




Monday, May 7, 12
推荐与协同过滤

      • StumbleUpon: 2001


      • Digg: 2004


      • Reddit: 2005


      • Hacker News: 2007


      • Hunch: 2009




Monday, May 7, 12
语义搜索

      • 通常意义上的信息检索侧重于      键词的相   性匹配,给出的结果是匹配的各个
          信息节点;语义搜索则把检索目标所在知识体系中的位置、上下文因素也纳入
          考虑,搜索的的结果不是信息节点,而是可能匹配的知识节点的集合


      • GoPubMed:成立于2002年的生物医药学专业检索引擎


      • Research Gate:成立于2008年的专业研究者SNS,提供语义搜索和问答服务


      • Powerset: 成立于2006,特色是自然语言搜索,2008年被微软收购并融入Bing


      • Google:也提供自然语言搜索



Monday, May 7, 12
Wolfram Alpha

      • 2009年5月上线;不是搜索引擎,它的检索
          目标是有限的知识库


      • 解算数学问题


      • 自然语言理解和计算:伊莉莎白二世在1974
          年年龄是多少?


      • 结合多数据源的计算:按照GDP排名倒数第
          52位的是那个国家?




Monday, May 7, 12
IBM Watson

                    • IBM DeepQA计   : 结合了自然语言处
                     理、信息检索、知识表示和推理的能不同领
                     域的技术


                    • 在电视问答比赛 Jeopardy! 中,打败人类选
                     手


                    • 硬件:90个IBM Power 750 服务器,共
                     2280芯


                    • 数据:百科全书、字典、文学作品、分类系
                     统、本体



Monday, May 7, 12
Siri

      • Siri公司于2007年创立,后于2010年被苹果收购,并在 iPhone4S 发布


      • Siri 是 Speech Interpretation and Recognition Interface的缩写

                                                         • 语音识


                                                         • 对话型人机界面


                                                         • 个人上下文感知


                                                         • 服务代理



Monday, May 7, 12
人工智能一

      • 弱人工智能与强人工智能


      • 常识问题:人工智能的巨大屏障,目前对此问题的解决需要以一               基础本体
          (上本体)为根基,建立庞大的知识库,但这个做法有效与否仍然存有争议


      • 常识知识库:Cyc、Open Mind Common Sense (OMCS)、YAGO等等


      • 蓝脑计         :对哺乳动物的大脑进行逆向工程,模拟的细胞数量将在2014年达到
          鼠脑的水平




Monday, May 7, 12

Más contenido relacionado

Similar a 互联网上的知识探索

N世代情報收集術
N世代情報收集術N世代情報收集術
N世代情報收集術基欽 劉
 
新媒體政策行銷 (新北市政府)
新媒體政策行銷 (新北市政府)新媒體政策行銷 (新北市政府)
新媒體政策行銷 (新北市政府)Yeong-Long Chen
 
个人知识管理
个人知识管理个人知识管理
个人知识管理Robert Luo
 
Bd 20131228 forbes
Bd 20131228 forbesBd 20131228 forbes
Bd 20131228 forbeskongfat
 
Web信息架构
Web信息架构Web信息架构
Web信息架构rex song
 
现代学生与信息素质教育
现代学生与信息素质教育现代学生与信息素质教育
现代学生与信息素质教育zhangdr
 
9825415研討會心得
9825415研討會心得9825415研討會心得
9825415研討會心得瑗玲 宋
 
網路2.0時代情報蒐集術
網路2.0時代情報蒐集術網路2.0時代情報蒐集術
網路2.0時代情報蒐集術基欽 劉
 
2021《芝麻開門——語音的聲音開啟人類文明的無限空間》台大科學教育中心「探索科學講座」
2021《芝麻開門——語音的聲音開啟人類文明的無限空間》台大科學教育中心「探索科學講座」2021《芝麻開門——語音的聲音開啟人類文明的無限空間》台大科學教育中心「探索科學講座」
2021《芝麻開門——語音的聲音開啟人類文明的無限空間》台大科學教育中心「探索科學講座」linshanleearchive
 
2013調查報導工作坊 - 資料搜尋與處理
2013調查報導工作坊 - 資料搜尋與處理2013調查報導工作坊 - 資料搜尋與處理
2013調查報導工作坊 - 資料搜尋與處理whisky CHANG
 
人工智慧在台灣: 產業轉型的契機與挑戰
人工智慧在台灣: 產業轉型的契機與挑戰人工智慧在台灣: 產業轉型的契機與挑戰
人工智慧在台灣: 產業轉型的契機與挑戰Sheng-Wei (Kuan-Ta) Chen
 
數位科技工具在自我學習上的運用
數位科技工具在自我學習上的運用數位科技工具在自我學習上的運用
數位科技工具在自我學習上的運用基欽 劉
 
开源社区生生不息的创新土壤
开源社区生生不息的创新土壤开源社区生生不息的创新土壤
开源社区生生不息的创新土壤Steven Cheng
 
数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望mysqlops
 
20180506 Introduction to machine learning
20180506 Introduction to machine learning20180506 Introduction to machine learning
20180506 Introduction to machine learning岳華 杜
 
2012居家智慧day2-2(文化探針與脈絡研究)
2012居家智慧day2-2(文化探針與脈絡研究)2012居家智慧day2-2(文化探針與脈絡研究)
2012居家智慧day2-2(文化探針與脈絡研究)Ian Jang
 
Introduction to machine learning
Introduction to machine learningIntroduction to machine learning
Introduction to machine learning岳華 杜
 
基於語意網的搜尋引擎
基於語意網的搜尋引擎基於語意網的搜尋引擎
基於語意網的搜尋引擎guestbb1b48
 

Similar a 互联网上的知识探索 (20)

N世代情報收集術
N世代情報收集術N世代情報收集術
N世代情報收集術
 
新媒體政策行銷 (新北市政府)
新媒體政策行銷 (新北市政府)新媒體政策行銷 (新北市政府)
新媒體政策行銷 (新北市政府)
 
个人知识管理
个人知识管理个人知识管理
个人知识管理
 
Bd 20131228 forbes
Bd 20131228 forbesBd 20131228 forbes
Bd 20131228 forbes
 
Web信息架构
Web信息架构Web信息架构
Web信息架构
 
现代学生与信息素质教育
现代学生与信息素质教育现代学生与信息素质教育
现代学生与信息素质教育
 
9825415研討會心得
9825415研討會心得9825415研討會心得
9825415研討會心得
 
What is big data
What is big dataWhat is big data
What is big data
 
網路2.0時代情報蒐集術
網路2.0時代情報蒐集術網路2.0時代情報蒐集術
網路2.0時代情報蒐集術
 
2021《芝麻開門——語音的聲音開啟人類文明的無限空間》台大科學教育中心「探索科學講座」
2021《芝麻開門——語音的聲音開啟人類文明的無限空間》台大科學教育中心「探索科學講座」2021《芝麻開門——語音的聲音開啟人類文明的無限空間》台大科學教育中心「探索科學講座」
2021《芝麻開門——語音的聲音開啟人類文明的無限空間》台大科學教育中心「探索科學講座」
 
2013調查報導工作坊 - 資料搜尋與處理
2013調查報導工作坊 - 資料搜尋與處理2013調查報導工作坊 - 資料搜尋與處理
2013調查報導工作坊 - 資料搜尋與處理
 
人工智慧在台灣: 產業轉型的契機與挑戰
人工智慧在台灣: 產業轉型的契機與挑戰人工智慧在台灣: 產業轉型的契機與挑戰
人工智慧在台灣: 產業轉型的契機與挑戰
 
數位科技工具在自我學習上的運用
數位科技工具在自我學習上的運用數位科技工具在自我學習上的運用
數位科技工具在自我學習上的運用
 
开源社区生生不息的创新土壤
开源社区生生不息的创新土壤开源社区生生不息的创新土壤
开源社区生生不息的创新土壤
 
数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望
 
20180506 Introduction to machine learning
20180506 Introduction to machine learning20180506 Introduction to machine learning
20180506 Introduction to machine learning
 
Revise the Historical Development about C/UNIX
Revise the Historical Development about C/UNIXRevise the Historical Development about C/UNIX
Revise the Historical Development about C/UNIX
 
2012居家智慧day2-2(文化探針與脈絡研究)
2012居家智慧day2-2(文化探針與脈絡研究)2012居家智慧day2-2(文化探針與脈絡研究)
2012居家智慧day2-2(文化探針與脈絡研究)
 
Introduction to machine learning
Introduction to machine learningIntroduction to machine learning
Introduction to machine learning
 
基於語意網的搜尋引擎
基於語意網的搜尋引擎基於語意網的搜尋引擎
基於語意網的搜尋引擎
 

Más de Mingli Yuan

彩云的认识与实践
彩云的认识与实践彩云的认识与实践
彩云的认识与实践Mingli Yuan
 
机器学习简介
机器学习简介机器学习简介
机器学习简介Mingli Yuan
 
美、智能与创造
美、智能与创造美、智能与创造
美、智能与创造Mingli Yuan
 
彩云的秘密武器
彩云的秘密武器彩云的秘密武器
彩云的秘密武器Mingli Yuan
 
重新发现算术里的秘密
重新发现算术里的秘密重新发现算术里的秘密
重新发现算术里的秘密Mingli Yuan
 
瓦克星—凿空厚壁,得见星空
瓦克星—凿空厚壁,得见星空瓦克星—凿空厚壁,得见星空
瓦克星—凿空厚壁,得见星空Mingli Yuan
 
L 系统与植物形态数据库的构想
L 系统与植物形态数据库的构想L 系统与植物形态数据库的构想
L 系统与植物形态数据库的构想Mingli Yuan
 
瓦克星工作坊第一期讲稿
瓦克星工作坊第一期讲稿瓦克星工作坊第一期讲稿
瓦克星工作坊第一期讲稿Mingli Yuan
 
知识的波动观
知识的波动观知识的波动观
知识的波动观Mingli Yuan
 
可计算理论研讨班第十一部分
可计算理论研讨班第十一部分可计算理论研讨班第十一部分
可计算理论研讨班第十一部分Mingli Yuan
 
可计算理论研讨第三部分
可计算理论研讨第三部分可计算理论研讨第三部分
可计算理论研讨第三部分Mingli Yuan
 
可计算理论研讨第四部分
可计算理论研讨第四部分可计算理论研讨第四部分
可计算理论研讨第四部分Mingli Yuan
 
可计算性研讨第二部分
可计算性研讨第二部分可计算性研讨第二部分
可计算性研讨第二部分Mingli Yuan
 
可计算性研讨第一部分
可计算性研讨第一部分可计算性研讨第一部分
可计算性研讨第一部分Mingli Yuan
 
维基百科—乐知者的熔炉
维基百科—乐知者的熔炉维基百科—乐知者的熔炉
维基百科—乐知者的熔炉Mingli Yuan
 
An Introduce to Topic Model
An Introduce to Topic ModelAn Introduce to Topic Model
An Introduce to Topic ModelMingli Yuan
 
豆瓣小组调查
豆瓣小组调查豆瓣小组调查
豆瓣小组调查Mingli Yuan
 

Más de Mingli Yuan (20)

Curiosity
CuriosityCuriosity
Curiosity
 
彩云的认识与实践
彩云的认识与实践彩云的认识与实践
彩云的认识与实践
 
机器学习简介
机器学习简介机器学习简介
机器学习简介
 
美、智能与创造
美、智能与创造美、智能与创造
美、智能与创造
 
彩云的秘密武器
彩云的秘密武器彩云的秘密武器
彩云的秘密武器
 
重新发现算术里的秘密
重新发现算术里的秘密重新发现算术里的秘密
重新发现算术里的秘密
 
瓦克星—凿空厚壁,得见星空
瓦克星—凿空厚壁,得见星空瓦克星—凿空厚壁,得见星空
瓦克星—凿空厚壁,得见星空
 
数据传奇
数据传奇数据传奇
数据传奇
 
L 系统与植物形态数据库的构想
L 系统与植物形态数据库的构想L 系统与植物形态数据库的构想
L 系统与植物形态数据库的构想
 
瓦克星工作坊第一期讲稿
瓦克星工作坊第一期讲稿瓦克星工作坊第一期讲稿
瓦克星工作坊第一期讲稿
 
知识的波动观
知识的波动观知识的波动观
知识的波动观
 
可计算理论研讨班第十一部分
可计算理论研讨班第十一部分可计算理论研讨班第十一部分
可计算理论研讨班第十一部分
 
可计算理论研讨第三部分
可计算理论研讨第三部分可计算理论研讨第三部分
可计算理论研讨第三部分
 
可计算理论研讨第四部分
可计算理论研讨第四部分可计算理论研讨第四部分
可计算理论研讨第四部分
 
可计算性研讨第二部分
可计算性研讨第二部分可计算性研讨第二部分
可计算性研讨第二部分
 
可计算性研讨第一部分
可计算性研讨第一部分可计算性研讨第一部分
可计算性研讨第一部分
 
维基百科—乐知者的熔炉
维基百科—乐知者的熔炉维基百科—乐知者的熔炉
维基百科—乐知者的熔炉
 
瓦克星世界
瓦克星世界瓦克星世界
瓦克星世界
 
An Introduce to Topic Model
An Introduce to Topic ModelAn Introduce to Topic Model
An Introduce to Topic Model
 
豆瓣小组调查
豆瓣小组调查豆瓣小组调查
豆瓣小组调查
 

互联网上的知识探索

  • 1. 互联网上的知识探索 苑明理 2012年5月 Monday, May 7, 12
  • 2. 雷蒙·吕尔 zairja 加泰罗尼亚贵族(1232-1315) 戈特弗里德·莱布尼 (1646-1716) 中世纪阿拉伯的思想机器 从阿拉伯语翻译柏拉图著作为拉丁语 设想了演算推理器 一 利用字母组合的占星术工具 设想了一 思想机器 弗诺·文奇 高登·摩尔 约 ·冯·诺伊曼 查尔斯·巴贝奇 (1791-1871) (1944- ) (1929- ) (1903-1957) 差分机、分析机 技术奇点 摩尔定律 EDVAC、ENIAC 万尼瓦尔·布什 艾伦·图 (1890-1974) (1912-1954) memex 计算理论 Monday, May 7, 12
  • 3. 目录 • 互联网上的知识探索:数据、信息、知识;一些提法;知识工程;近年案例 • 信息的组织:传统分类法、大众分类法、案例考察 • 信息的检索: 图书馆的方法、检索模型、主题模型 • 知识和社会化 Monday, May 7, 12
  • 4. 数据、信息、知识 • 数据、信息、知识 • DIKW框架 • 知识的多 形态 • 教科书上的定型的知识 • 研究和实践团体中的未定型的知识 • 怎样打出租车?某地蔬菜的贵与贱 Monday, May 7, 12
  • 5. 于知识的一些提法 • 情境知识、公共知识 • 隐性知识、显性知识 • 规则、自发秩序、 杂系统、自组织、涌现 哈耶克 • 知识的生产 • 方法的视角:试错法、科学方法 • 社会的视角:动态、演变的 杂过程,微观(企业内部决策过程的社会学考察)与 宏观的观察(清代的中国学术与同时期的欧洲学术发展) Monday, May 7, 12
  • 6. 知识市场 • 知识市场是一 散布知识的机制:稀缺商品或者公共物品? • 传统的知识产权制度:把知识作为稀缺商品来售卖 • 免费的网络知识市场:把知识作为公共物品,通过获得注意力的分配,从广告 或者其他附加的形式,获得持续运行的资金 Monday, May 7, 12
  • 7. 知识工程 • 定义:费根鲍姆在1983年的版本—将知识整合入计算机系统来解决 杂任务; 后延伸至以知识为基础的系统的 发、运行和维护。 • 知识表示:框架、语义网络、RDF、OWL…… • 知识抽取:RDB2RDF、DBPedia、FreeBase • 知识发现:从结构数据中发现模式 • 推理引擎: Monday, May 7, 12
  • 8. 语义网 • 原初的想法:Web 不单由是人类能 理解的页面组 成,更要有由机器能 理解的结构数据构成,并以此 为基础,让机器更好的为人类服务。 • 链接数据(Linked Data):CKAN、DBPedia、 DBLP Bibliography、FOAF…… • 截止2011年,Web 上有300亿 RDF 三元组和 5 亿 RDF 链接。 蒂姆·伯纳斯-李 勋爵 对于 Web ,我有一个梦想,机器变得会分析 Web 上 所有的数据 — 内容、链接、人和机器之间的事 务。“语义网”,将会使这成为现实,并且已经在发生 • 对比之下,2008年Google宣布他们收录了 1 Tera的 了, 但当它实现之日,所有的贸易、行政之类的日常 机制和我们每日的生活都会被彼此之间对话着的机器 URL。 所处理。人们售卖多年的“智能代理”将最终被物化。 Monday, May 7, 12
  • 9. 维基百科 • 聚沙成塔的人力知识工程 • 人人可编辑的页面 • 自我管理的社群 • 由维基媒体基金会运作 •变 :Scholarpedia、SemanticWiki Monday, May 7, 12
  • 10. 问答网站 • 早期形态:3form.org(1999)、63336(2002,Mobile)、Ask MetaFilter(2003) • 近期形态:Aardvark(2008,IM+Social)、StackOverflow(2008)、 Quora(2009)、Formspring(2009,Social) Monday, May 7, 12
  • 11. 推荐与协同过滤 • StumbleUpon: 2001 • Digg: 2004 • Reddit: 2005 • Hacker News: 2007 • Hunch: 2009 Monday, May 7, 12
  • 12. 语义搜索 • 通常意义上的信息检索侧重于 键词的相 性匹配,给出的结果是匹配的各个 信息节点;语义搜索则把检索目标所在知识体系中的位置、上下文因素也纳入 考虑,搜索的的结果不是信息节点,而是可能匹配的知识节点的集合 • GoPubMed:成立于2002年的生物医药学专业检索引擎 • Research Gate:成立于2008年的专业研究者SNS,提供语义搜索和问答服务 • Powerset: 成立于2006,特色是自然语言搜索,2008年被微软收购并融入Bing • Google:也提供自然语言搜索 Monday, May 7, 12
  • 13. Wolfram Alpha • 2009年5月上线;不是搜索引擎,它的检索 目标是有限的知识库 • 解算数学问题 • 自然语言理解和计算:伊莉莎白二世在1974 年年龄是多少? • 结合多数据源的计算:按照GDP排名倒数第 52位的是那个国家? Monday, May 7, 12
  • 14. IBM Watson • IBM DeepQA计 : 结合了自然语言处 理、信息检索、知识表示和推理的能不同领 域的技术 • 在电视问答比赛 Jeopardy! 中,打败人类选 手 • 硬件:90个IBM Power 750 服务器,共 2280芯 • 数据:百科全书、字典、文学作品、分类系 统、本体 Monday, May 7, 12
  • 15. Siri • Siri公司于2007年创立,后于2010年被苹果收购,并在 iPhone4S 发布 • Siri 是 Speech Interpretation and Recognition Interface的缩写 • 语音识 • 对话型人机界面 • 个人上下文感知 • 服务代理 Monday, May 7, 12
  • 16. 人工智能一 • 弱人工智能与强人工智能 • 常识问题:人工智能的巨大屏障,目前对此问题的解决需要以一 基础本体 (上本体)为根基,建立庞大的知识库,但这个做法有效与否仍然存有争议 • 常识知识库:Cyc、Open Mind Common Sense (OMCS)、YAGO等等 • 蓝脑计 :对哺乳动物的大脑进行逆向工程,模拟的细胞数量将在2014年达到 鼠脑的水平 Monday, May 7, 12