SlideShare una empresa de Scribd logo
1 de 49
Descargar para leer sin conexión
.nju.edu.cn




Web的图结构分析




程龚,南京大学
ws .nju.edu.cn




                 Web的               语义Web的
                图结构分析               图结构分析




Gong Cheng (程龚) gcheng@nju.edu.cn            2 of 49
ws .nju.edu.cn




                 Web的               语义Web的
                图结构分析               图结构分析




Gong Cheng (程龚) gcheng@nju.edu.cn            3 of 49
网页与超链接
                                    ws .nju.edu.cn




Gong Cheng (程龚) gcheng@nju.edu.cn   4 of 49
Web的图结构 (Web graph)
                                         ws .nju.edu.cn



              南京大学



                                    院系




           计算机科学与技术系




Gong Cheng (程龚) gcheng@nju.edu.cn        5 of 49
分析Web图结构的意义(1)
                                     ws .nju.edu.cn

        最受关注的网页有哪些?




                                    网页
                                    排序


Gong Cheng (程龚) gcheng@nju.edu.cn    6 of 49
分析Web图结构的意义(2)
                                     ws .nju.edu.cn

        只通过跟随超链接能够浏览到多少网页?




                                    网页
                                    抓取


Gong Cheng (程龚) gcheng@nju.edu.cn    7 of 49
分析Web图结构的意义(3)
                                     ws .nju.edu.cn

        浏览到某个网页平均要跟随多少次超链接?




                                    网站
                                    设计


Gong Cheng (程龚) gcheng@nju.edu.cn    8 of 49
分析Web图结构的意义(n)
                                        ws .nju.edu.cn




                              以及,等等……




Gong Cheng (程龚) gcheng@nju.edu.cn       9 of 49
Web图结构的采样——网页抓取
                                    ws .nju.edu.cn




Gong Cheng (程龚) gcheng@nju.edu.cn   10 of 49
采样质量的评价
                                            ws .nju.edu.cn




                                    普遍性:俗

                                    多样性:杂

                                    广泛性:多




Gong Cheng (程龚) gcheng@nju.edu.cn           11 of 49
分析指标(1)——入度 (In-degree)
                                                            ws .nju.edu.cn




                                                    2

                                        4

                                                1       3

                                    1

                                            1




Gong Cheng (程龚) gcheng@nju.edu.cn                           12 of 49
入度分布
                                                  ws .nju.edu.cn

        平均入度:4.51~7




            1999, @Nature           2007, @TOIT




Gong Cheng (程龚) gcheng@nju.edu.cn                 13 of 49
幂率分布 (Power-law distribution)
                                     ws .nju.edu.cn




        f x         ax


  log f x                  log x b




Gong Cheng (程龚) gcheng@nju.edu.cn    14 of 49
无标度网络 (Scale-free network)
                                                           ws .nju.edu.cn




                                    f x   ax



        f cx          a cx           ac x      c   f x   f x



Gong Cheng (程龚) gcheng@nju.edu.cn                          15 of 49
分析指标(2)——出度 (Out-degree)
                                                            ws .nju.edu.cn




                                                    1

                                        2

                                                2       2

                                    2

                                            3




Gong Cheng (程龚) gcheng@nju.edu.cn                           16 of 49
出度分布
                                                  ws .nju.edu.cn


             幂率分布                   幂率分布




            1999, @Nature           2007, @TOIT




Gong Cheng (程龚) gcheng@nju.edu.cn                 17 of 49
分析指标(3)——强连通分支 (Strongly connected component)
                                                    ws .nju.edu.cn




Gong Cheng (程龚) gcheng@nju.edu.cn                   18 of 49
强连通分支的规模分布
                                                 ws .nju.edu.cn




                                    2000, @WWW



Gong Cheng (程龚) gcheng@nju.edu.cn                19 of 49
Web的蝴蝶结结构 (Bow tie)
                                                 ws .nju.edu.cn




                                    2000, @WWW

Gong Cheng (程龚) gcheng@nju.edu.cn                20 of 49
分析指标(4)——弱连通分支 (Weakly connected component)
                                                  ws .nju.edu.cn




Gong Cheng (程龚) gcheng@nju.edu.cn                 21 of 49
弱连通分支的规模分布
                                                 ws .nju.edu.cn




                                    2000, @WWW



Gong Cheng (程龚) gcheng@nju.edu.cn                22 of 49
弹性 (Resilience)
                                                 ws .nju.edu.cn




                                    2000, @WWW




Gong Cheng (程龚) gcheng@nju.edu.cn                23 of 49
分析指标(5)——距离 (Distance)
                                    ws .nju.edu.cn




Gong Cheng (程龚) gcheng@nju.edu.cn   24 of 49
平均距离
                                    ws .nju.edu.cn

        存在路径的概率:<25%
        存在路径时的平均距离
            尊重边的方向:16
            忽略边的方向:7



         2000, @WWW




Gong Cheng (程龚) gcheng@nju.edu.cn   25 of 49
小世界网络 (Small-world network)
                                                ws .nju.edu.cn




                                    L   log N




Gong Cheng (程龚) gcheng@nju.edu.cn               26 of 49
最大距离/直径 (Diameter)
                                    ws .nju.edu.cn

        SCC的直径:≥28
        全图的直径:~905



         2000, @WWW




Gong Cheng (程龚) gcheng@nju.edu.cn   27 of 49
其它常用的分析指标
                                          ws .nju.edu.cn

        度相关系数 (Degree correlation)
        频繁图模式 (Frequent graph patterns)
        聚类系数 (Clustering coefficient)
        社区结构 (Community structure)
        ……




Gong Cheng (程龚) gcheng@nju.edu.cn         28 of 49
ws .nju.edu.cn




                 Web的               语义Web的
                图结构分析               图结构分析




Gong Cheng (程龚) gcheng@nju.edu.cn            29 of 49
语义Web
                                                                   ws .nju.edu.cn

                                    隶属于         就读于

                          值域               值域
                                                                      人
    本体                               定义域          定义域
                        学校                                   是一种
   (模式层)
                                                        学生
                                          院系




                           是一个             是一个           是一个
    实例
   (数据层)
                                    隶属于         就读于

                      南京大学            南大计算机系            张航


Gong Cheng (程龚) gcheng@nju.edu.cn                                  30 of 49
分析对象
                                                                  ws .nju.edu.cn

        本体的图结构

                            隶属于            就读于

                       值域             值域
                                                              人
                                定义域          定义域
                     学校                                 是一种
                                                   学生
                                    院系




        实例的图结构


                                    隶属于           就读于

                            南京大学         南大计算机系         张航




Gong Cheng (程龚) gcheng@nju.edu.cn                                 31 of 49
本体的图结构
                                                        ws .nju.edu.cn




                       隶属于               就读于


                                                    人
              学校
                                               学生
                                    院系




Gong Cheng (程龚) gcheng@nju.edu.cn                       32 of 49
分析指标(1)——入度
                                                        ws .nju.edu.cn




                       隶属于               就读于


                                                    人
              学校
                                               学生
                                    院系




Gong Cheng (程龚) gcheng@nju.edu.cn                       33 of 49
入度分布
                                                  ws .nju.edu.cn

        平均入度:5.72




                                    2008, @ISWC


Gong Cheng (程龚) gcheng@nju.edu.cn                 34 of 49
分析指标(2)——出度
                                                        ws .nju.edu.cn




                       隶属于               就读于


                                                    人
              学校
                                               学生
                                    院系




Gong Cheng (程龚) gcheng@nju.edu.cn                       35 of 49
出度分布
                                                  ws .nju.edu.cn




                                    2008, @ISWC



Gong Cheng (程龚) gcheng@nju.edu.cn                 36 of 49
分析指标(3)——强连通分支
                                                        ws .nju.edu.cn




                       隶属于               就读于


                                                    人
              学校
                                               学生
                                    院系




Gong Cheng (程龚) gcheng@nju.edu.cn                       37 of 49
强连通分支的规模分布
                                                  ws .nju.edu.cn




                                    2008, @ISWC



Gong Cheng (程龚) gcheng@nju.edu.cn                 38 of 49
分析指标(4)——弱连通分支
                                                        ws .nju.edu.cn




                       隶属于               就读于


                                                    人
              学校
                                               学生
                                    院系




Gong Cheng (程龚) gcheng@nju.edu.cn                       39 of 49
弹性
                                                  ws .nju.edu.cn




                                    2008, @ISWC


Gong Cheng (程龚) gcheng@nju.edu.cn                 40 of 49
分析指标(5)——距离
                                                        ws .nju.edu.cn




                       隶属于               就读于


                                                    人
              学校
                                               学生
                                    院系




Gong Cheng (程龚) gcheng@nju.edu.cn                       41 of 49
平均距离
                                    ws .nju.edu.cn

        存在路径时的平均距离:10.05



             2008, @ISWC




Gong Cheng (程龚) gcheng@nju.edu.cn   42 of 49
最大距离/直径与有效直径 (Effective diameter)
                                                  ws .nju.edu.cn

        最大距离/直径:48
        有效直径 (Effective diameter):23




                                    2008, @ISWC


Gong Cheng (程龚) gcheng@nju.edu.cn                 43 of 49
实例的图结构
                                                  ws .nju.edu.cn




                     南京大学           南大计算机系   张航




Gong Cheng (程龚) gcheng@nju.edu.cn                 44 of 49
度分布、最大连通分支与有效直径
                                                            ws .nju.edu.cn

        平均度:3.44
        最大连通分支:88.13%
        有效直径:11.53




                                              2010, @ESWC




                     南京大学           南大计算机系   张航



Gong Cheng (程龚) gcheng@nju.edu.cn                       45 of 49
Take-home messages
                                    ws .nju.edu.cn




Gong Cheng (程龚) gcheng@nju.edu.cn   46 of 49
结论
                                            ws .nju.edu.cn




                         Web        语义Web
                      无标度网络         无标度网络

                      蝴蝶结结构          未知结构

                         高弹性         低弹性

                      小世界网络         小世界网络



Gong Cheng (程龚) gcheng@nju.edu.cn           47 of 49
图结构分析的一般步骤
                                    ws .nju.edu.cn

        采样数据——多、杂、俗
        建立图模型——含义明确
        选择分析指标——有实际意义
        执行分析——算法高效

        解释、比较分析结果

        推测图的生成模型




Gong Cheng (程龚) gcheng@nju.edu.cn   48 of 49
相关论文
                                                                                         ws .nju.edu.cn

        Web的图结构分析
            R. Albert et al. Diameter of the World-Wide Web. Nature 401 (1999)
            A. Broder et al. Graph structure in the Web. WWW (2000)
            D. Donato et al. The Web as a Graph: How Far We Are. ACM Transactions on Internet
            Technology 7 (2007)
        语义Web的图结构分析
            G. Cheng et al. Term Dependence on the Semantic Web. ISWC (2008)
            W. Ge et al. Object Link Structure in the Semantic Web. ESWC (2010)




Gong Cheng (程龚) gcheng@nju.edu.cn                                                        49 of 49

Más contenido relacionado

Más de Gong Cheng

Towards Content-Based Dataset Search - Test Collections and Beyond
Towards Content-Based Dataset Search - Test Collections and BeyondTowards Content-Based Dataset Search - Test Collections and Beyond
Towards Content-Based Dataset Search - Test Collections and BeyondGong Cheng
 
从元数据到内容——新一代知识图谱搜索引擎初探
从元数据到内容——新一代知识图谱搜索引擎初探从元数据到内容——新一代知识图谱搜索引擎初探
从元数据到内容——新一代知识图谱搜索引擎初探Gong Cheng
 
知识图谱中的实体摘要:基于神经网络的方法
知识图谱中的实体摘要:基于神经网络的方法知识图谱中的实体摘要:基于神经网络的方法
知识图谱中的实体摘要:基于神经网络的方法Gong Cheng
 
Generating Compact and Relaxable Answers to Keyword Queries over Knowledge Gr...
Generating Compact and Relaxable Answers to Keyword Queries over Knowledge Gr...Generating Compact and Relaxable Answers to Keyword Queries over Knowledge Gr...
Generating Compact and Relaxable Answers to Keyword Queries over Knowledge Gr...Gong Cheng
 
知识图谱中的关联搜索
知识图谱中的关联搜索知识图谱中的关联搜索
知识图谱中的关联搜索Gong Cheng
 
面向高考机器人的知识表示与推理初探
面向高考机器人的知识表示与推理初探面向高考机器人的知识表示与推理初探
面向高考机器人的知识表示与推理初探Gong Cheng
 
知识图谱中的实体关联搜索
知识图谱中的实体关联搜索知识图谱中的实体关联搜索
知识图谱中的实体关联搜索Gong Cheng
 
Semantic Data Retrieval: Search, Ranking, and Summarization
Semantic Data Retrieval: Search, Ranking, and SummarizationSemantic Data Retrieval: Search, Ranking, and Summarization
Semantic Data Retrieval: Search, Ranking, and SummarizationGong Cheng
 
Semantic Web related top conference review
Semantic Web related top conference reviewSemantic Web related top conference review
Semantic Web related top conference reviewGong Cheng
 
Relatedness-based Multi-Entity Summarization
Relatedness-based Multi-Entity SummarizationRelatedness-based Multi-Entity Summarization
Relatedness-based Multi-Entity SummarizationGong Cheng
 
Generating Illustrative Snippets for Open Data on the Web
Generating Illustrative Snippets for Open Data on the WebGenerating Illustrative Snippets for Open Data on the Web
Generating Illustrative Snippets for Open Data on the WebGong Cheng
 
常识推理在地理自动答题中的需求分析
常识推理在地理自动答题中的需求分析常识推理在地理自动答题中的需求分析
常识推理在地理自动答题中的需求分析Gong Cheng
 
Efficient Algorithms for Association Finding and Frequent Association Pattern...
Efficient Algorithms for Association Finding and Frequent Association Pattern...Efficient Algorithms for Association Finding and Frequent Association Pattern...
Efficient Algorithms for Association Finding and Frequent Association Pattern...Gong Cheng
 
Summarizing Semantic Data
Summarizing Semantic DataSummarizing Semantic Data
Summarizing Semantic DataGong Cheng
 
Summarizing Entity Descriptions for Effective and Efficient Human-centered En...
Summarizing Entity Descriptions for Effective and Efficient Human-centered En...Summarizing Entity Descriptions for Effective and Efficient Human-centered En...
Summarizing Entity Descriptions for Effective and Efficient Human-centered En...Gong Cheng
 
Explass: Exploring Associations between Entities via Top-K Ontological Patter...
Explass: Exploring Associations between Entities via Top-K Ontological Patter...Explass: Exploring Associations between Entities via Top-K Ontological Patter...
Explass: Exploring Associations between Entities via Top-K Ontological Patter...Gong Cheng
 
Towards Exploratory Relationship Search: A Clustering-based Approach
Towards Exploratory Relationship Search: A Clustering-based ApproachTowards Exploratory Relationship Search: A Clustering-based Approach
Towards Exploratory Relationship Search: A Clustering-based ApproachGong Cheng
 
NJVR: The NanJing Vocabulary Repository
NJVR: The NanJing Vocabulary RepositoryNJVR: The NanJing Vocabulary Repository
NJVR: The NanJing Vocabulary RepositoryGong Cheng
 
BipRank: Ranking and Summarizing RDF Vocabulary Descriptions
BipRank: Ranking and Summarizing RDF Vocabulary DescriptionsBipRank: Ranking and Summarizing RDF Vocabulary Descriptions
BipRank: Ranking and Summarizing RDF Vocabulary DescriptionsGong Cheng
 
An Empirical Study of Vocabulary Relatedness and Its Application to Recommend...
An Empirical Study of Vocabulary Relatedness and Its Application to Recommend...An Empirical Study of Vocabulary Relatedness and Its Application to Recommend...
An Empirical Study of Vocabulary Relatedness and Its Application to Recommend...Gong Cheng
 

Más de Gong Cheng (20)

Towards Content-Based Dataset Search - Test Collections and Beyond
Towards Content-Based Dataset Search - Test Collections and BeyondTowards Content-Based Dataset Search - Test Collections and Beyond
Towards Content-Based Dataset Search - Test Collections and Beyond
 
从元数据到内容——新一代知识图谱搜索引擎初探
从元数据到内容——新一代知识图谱搜索引擎初探从元数据到内容——新一代知识图谱搜索引擎初探
从元数据到内容——新一代知识图谱搜索引擎初探
 
知识图谱中的实体摘要:基于神经网络的方法
知识图谱中的实体摘要:基于神经网络的方法知识图谱中的实体摘要:基于神经网络的方法
知识图谱中的实体摘要:基于神经网络的方法
 
Generating Compact and Relaxable Answers to Keyword Queries over Knowledge Gr...
Generating Compact and Relaxable Answers to Keyword Queries over Knowledge Gr...Generating Compact and Relaxable Answers to Keyword Queries over Knowledge Gr...
Generating Compact and Relaxable Answers to Keyword Queries over Knowledge Gr...
 
知识图谱中的关联搜索
知识图谱中的关联搜索知识图谱中的关联搜索
知识图谱中的关联搜索
 
面向高考机器人的知识表示与推理初探
面向高考机器人的知识表示与推理初探面向高考机器人的知识表示与推理初探
面向高考机器人的知识表示与推理初探
 
知识图谱中的实体关联搜索
知识图谱中的实体关联搜索知识图谱中的实体关联搜索
知识图谱中的实体关联搜索
 
Semantic Data Retrieval: Search, Ranking, and Summarization
Semantic Data Retrieval: Search, Ranking, and SummarizationSemantic Data Retrieval: Search, Ranking, and Summarization
Semantic Data Retrieval: Search, Ranking, and Summarization
 
Semantic Web related top conference review
Semantic Web related top conference reviewSemantic Web related top conference review
Semantic Web related top conference review
 
Relatedness-based Multi-Entity Summarization
Relatedness-based Multi-Entity SummarizationRelatedness-based Multi-Entity Summarization
Relatedness-based Multi-Entity Summarization
 
Generating Illustrative Snippets for Open Data on the Web
Generating Illustrative Snippets for Open Data on the WebGenerating Illustrative Snippets for Open Data on the Web
Generating Illustrative Snippets for Open Data on the Web
 
常识推理在地理自动答题中的需求分析
常识推理在地理自动答题中的需求分析常识推理在地理自动答题中的需求分析
常识推理在地理自动答题中的需求分析
 
Efficient Algorithms for Association Finding and Frequent Association Pattern...
Efficient Algorithms for Association Finding and Frequent Association Pattern...Efficient Algorithms for Association Finding and Frequent Association Pattern...
Efficient Algorithms for Association Finding and Frequent Association Pattern...
 
Summarizing Semantic Data
Summarizing Semantic DataSummarizing Semantic Data
Summarizing Semantic Data
 
Summarizing Entity Descriptions for Effective and Efficient Human-centered En...
Summarizing Entity Descriptions for Effective and Efficient Human-centered En...Summarizing Entity Descriptions for Effective and Efficient Human-centered En...
Summarizing Entity Descriptions for Effective and Efficient Human-centered En...
 
Explass: Exploring Associations between Entities via Top-K Ontological Patter...
Explass: Exploring Associations between Entities via Top-K Ontological Patter...Explass: Exploring Associations between Entities via Top-K Ontological Patter...
Explass: Exploring Associations between Entities via Top-K Ontological Patter...
 
Towards Exploratory Relationship Search: A Clustering-based Approach
Towards Exploratory Relationship Search: A Clustering-based ApproachTowards Exploratory Relationship Search: A Clustering-based Approach
Towards Exploratory Relationship Search: A Clustering-based Approach
 
NJVR: The NanJing Vocabulary Repository
NJVR: The NanJing Vocabulary RepositoryNJVR: The NanJing Vocabulary Repository
NJVR: The NanJing Vocabulary Repository
 
BipRank: Ranking and Summarizing RDF Vocabulary Descriptions
BipRank: Ranking and Summarizing RDF Vocabulary DescriptionsBipRank: Ranking and Summarizing RDF Vocabulary Descriptions
BipRank: Ranking and Summarizing RDF Vocabulary Descriptions
 
An Empirical Study of Vocabulary Relatedness and Its Application to Recommend...
An Empirical Study of Vocabulary Relatedness and Its Application to Recommend...An Empirical Study of Vocabulary Relatedness and Its Application to Recommend...
An Empirical Study of Vocabulary Relatedness and Its Application to Recommend...
 

Web的图结构分析

  • 2. ws .nju.edu.cn Web的 语义Web的 图结构分析 图结构分析 Gong Cheng (程龚) gcheng@nju.edu.cn 2 of 49
  • 3. ws .nju.edu.cn Web的 语义Web的 图结构分析 图结构分析 Gong Cheng (程龚) gcheng@nju.edu.cn 3 of 49
  • 4. 网页与超链接 ws .nju.edu.cn Gong Cheng (程龚) gcheng@nju.edu.cn 4 of 49
  • 5. Web的图结构 (Web graph) ws .nju.edu.cn 南京大学 院系 计算机科学与技术系 Gong Cheng (程龚) gcheng@nju.edu.cn 5 of 49
  • 6. 分析Web图结构的意义(1) ws .nju.edu.cn 最受关注的网页有哪些? 网页 排序 Gong Cheng (程龚) gcheng@nju.edu.cn 6 of 49
  • 7. 分析Web图结构的意义(2) ws .nju.edu.cn 只通过跟随超链接能够浏览到多少网页? 网页 抓取 Gong Cheng (程龚) gcheng@nju.edu.cn 7 of 49
  • 8. 分析Web图结构的意义(3) ws .nju.edu.cn 浏览到某个网页平均要跟随多少次超链接? 网站 设计 Gong Cheng (程龚) gcheng@nju.edu.cn 8 of 49
  • 9. 分析Web图结构的意义(n) ws .nju.edu.cn 以及,等等…… Gong Cheng (程龚) gcheng@nju.edu.cn 9 of 49
  • 10. Web图结构的采样——网页抓取 ws .nju.edu.cn Gong Cheng (程龚) gcheng@nju.edu.cn 10 of 49
  • 11. 采样质量的评价 ws .nju.edu.cn 普遍性:俗 多样性:杂 广泛性:多 Gong Cheng (程龚) gcheng@nju.edu.cn 11 of 49
  • 12. 分析指标(1)——入度 (In-degree) ws .nju.edu.cn 2 4 1 3 1 1 Gong Cheng (程龚) gcheng@nju.edu.cn 12 of 49
  • 13. 入度分布 ws .nju.edu.cn 平均入度:4.51~7 1999, @Nature 2007, @TOIT Gong Cheng (程龚) gcheng@nju.edu.cn 13 of 49
  • 14. 幂率分布 (Power-law distribution) ws .nju.edu.cn f x ax log f x log x b Gong Cheng (程龚) gcheng@nju.edu.cn 14 of 49
  • 15. 无标度网络 (Scale-free network) ws .nju.edu.cn f x ax f cx a cx ac x c f x f x Gong Cheng (程龚) gcheng@nju.edu.cn 15 of 49
  • 16. 分析指标(2)——出度 (Out-degree) ws .nju.edu.cn 1 2 2 2 2 3 Gong Cheng (程龚) gcheng@nju.edu.cn 16 of 49
  • 17. 出度分布 ws .nju.edu.cn 幂率分布 幂率分布 1999, @Nature 2007, @TOIT Gong Cheng (程龚) gcheng@nju.edu.cn 17 of 49
  • 18. 分析指标(3)——强连通分支 (Strongly connected component) ws .nju.edu.cn Gong Cheng (程龚) gcheng@nju.edu.cn 18 of 49
  • 19. 强连通分支的规模分布 ws .nju.edu.cn 2000, @WWW Gong Cheng (程龚) gcheng@nju.edu.cn 19 of 49
  • 20. Web的蝴蝶结结构 (Bow tie) ws .nju.edu.cn 2000, @WWW Gong Cheng (程龚) gcheng@nju.edu.cn 20 of 49
  • 21. 分析指标(4)——弱连通分支 (Weakly connected component) ws .nju.edu.cn Gong Cheng (程龚) gcheng@nju.edu.cn 21 of 49
  • 22. 弱连通分支的规模分布 ws .nju.edu.cn 2000, @WWW Gong Cheng (程龚) gcheng@nju.edu.cn 22 of 49
  • 23. 弹性 (Resilience) ws .nju.edu.cn 2000, @WWW Gong Cheng (程龚) gcheng@nju.edu.cn 23 of 49
  • 24. 分析指标(5)——距离 (Distance) ws .nju.edu.cn Gong Cheng (程龚) gcheng@nju.edu.cn 24 of 49
  • 25. 平均距离 ws .nju.edu.cn 存在路径的概率:<25% 存在路径时的平均距离 尊重边的方向:16 忽略边的方向:7 2000, @WWW Gong Cheng (程龚) gcheng@nju.edu.cn 25 of 49
  • 26. 小世界网络 (Small-world network) ws .nju.edu.cn L log N Gong Cheng (程龚) gcheng@nju.edu.cn 26 of 49
  • 27. 最大距离/直径 (Diameter) ws .nju.edu.cn SCC的直径:≥28 全图的直径:~905 2000, @WWW Gong Cheng (程龚) gcheng@nju.edu.cn 27 of 49
  • 28. 其它常用的分析指标 ws .nju.edu.cn 度相关系数 (Degree correlation) 频繁图模式 (Frequent graph patterns) 聚类系数 (Clustering coefficient) 社区结构 (Community structure) …… Gong Cheng (程龚) gcheng@nju.edu.cn 28 of 49
  • 29. ws .nju.edu.cn Web的 语义Web的 图结构分析 图结构分析 Gong Cheng (程龚) gcheng@nju.edu.cn 29 of 49
  • 30. 语义Web ws .nju.edu.cn 隶属于 就读于 值域 值域 人 本体 定义域 定义域 学校 是一种 (模式层) 学生 院系 是一个 是一个 是一个 实例 (数据层) 隶属于 就读于 南京大学 南大计算机系 张航 Gong Cheng (程龚) gcheng@nju.edu.cn 30 of 49
  • 31. 分析对象 ws .nju.edu.cn 本体的图结构 隶属于 就读于 值域 值域 人 定义域 定义域 学校 是一种 学生 院系 实例的图结构 隶属于 就读于 南京大学 南大计算机系 张航 Gong Cheng (程龚) gcheng@nju.edu.cn 31 of 49
  • 32. 本体的图结构 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系 Gong Cheng (程龚) gcheng@nju.edu.cn 32 of 49
  • 33. 分析指标(1)——入度 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系 Gong Cheng (程龚) gcheng@nju.edu.cn 33 of 49
  • 34. 入度分布 ws .nju.edu.cn 平均入度:5.72 2008, @ISWC Gong Cheng (程龚) gcheng@nju.edu.cn 34 of 49
  • 35. 分析指标(2)——出度 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系 Gong Cheng (程龚) gcheng@nju.edu.cn 35 of 49
  • 36. 出度分布 ws .nju.edu.cn 2008, @ISWC Gong Cheng (程龚) gcheng@nju.edu.cn 36 of 49
  • 37. 分析指标(3)——强连通分支 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系 Gong Cheng (程龚) gcheng@nju.edu.cn 37 of 49
  • 38. 强连通分支的规模分布 ws .nju.edu.cn 2008, @ISWC Gong Cheng (程龚) gcheng@nju.edu.cn 38 of 49
  • 39. 分析指标(4)——弱连通分支 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系 Gong Cheng (程龚) gcheng@nju.edu.cn 39 of 49
  • 40. 弹性 ws .nju.edu.cn 2008, @ISWC Gong Cheng (程龚) gcheng@nju.edu.cn 40 of 49
  • 41. 分析指标(5)——距离 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系 Gong Cheng (程龚) gcheng@nju.edu.cn 41 of 49
  • 42. 平均距离 ws .nju.edu.cn 存在路径时的平均距离:10.05 2008, @ISWC Gong Cheng (程龚) gcheng@nju.edu.cn 42 of 49
  • 43. 最大距离/直径与有效直径 (Effective diameter) ws .nju.edu.cn 最大距离/直径:48 有效直径 (Effective diameter):23 2008, @ISWC Gong Cheng (程龚) gcheng@nju.edu.cn 43 of 49
  • 44. 实例的图结构 ws .nju.edu.cn 南京大学 南大计算机系 张航 Gong Cheng (程龚) gcheng@nju.edu.cn 44 of 49
  • 45. 度分布、最大连通分支与有效直径 ws .nju.edu.cn 平均度:3.44 最大连通分支:88.13% 有效直径:11.53 2010, @ESWC 南京大学 南大计算机系 张航 Gong Cheng (程龚) gcheng@nju.edu.cn 45 of 49
  • 46. Take-home messages ws .nju.edu.cn Gong Cheng (程龚) gcheng@nju.edu.cn 46 of 49
  • 47. 结论 ws .nju.edu.cn Web 语义Web 无标度网络 无标度网络 蝴蝶结结构 未知结构 高弹性 低弹性 小世界网络 小世界网络 Gong Cheng (程龚) gcheng@nju.edu.cn 47 of 49
  • 48. 图结构分析的一般步骤 ws .nju.edu.cn 采样数据——多、杂、俗 建立图模型——含义明确 选择分析指标——有实际意义 执行分析——算法高效 解释、比较分析结果 推测图的生成模型 Gong Cheng (程龚) gcheng@nju.edu.cn 48 of 49
  • 49. 相关论文 ws .nju.edu.cn Web的图结构分析 R. Albert et al. Diameter of the World-Wide Web. Nature 401 (1999) A. Broder et al. Graph structure in the Web. WWW (2000) D. Donato et al. The Web as a Graph: How Far We Are. ACM Transactions on Internet Technology 7 (2007) 语义Web的图结构分析 G. Cheng et al. Term Dependence on the Semantic Web. ISWC (2008) W. Ge et al. Object Link Structure in the Semantic Web. ESWC (2010) Gong Cheng (程龚) gcheng@nju.edu.cn 49 of 49