文本挖掘（Text mining）基础

1
文本掘（挖 Text
Mining ）技基术础
出家如初 , 成佛有余
http://www.yeeach.com
2010 年 10 月

议题
搜索引擎文本挖掘基础
文本挖掘基础
2

搜索引擎技术不单纯只是搜索
搜索引擎技术除了实现 Web 搜索、图片搜索外
，还能够干什么？
搜索引擎核心技术有哪些？
—网络爬虫
—中英文分词
—排序算法
—Text Mining 相关
—海量数据存储
—分布式计算
—等等
3

Google 的十大核心技术
Google 的十大核心技术：
—分布式基础设施：
GFS 、 Chubby 、 Protocol Buffer
—分布式大规模数据处理
MapReduce 、 Sawzall
—分布式数据库技术：
BigTable 、 Sharding
—数据中心优化技术
数据中心高温化、 12V 电池、服务器整合
参考：探索Google App Engine背后的奥秘
4

搜索引擎技术使用场景：内容相似度
新闻站点的“您可能也喜欢”
—本质为：两篇文档 / 图书 / 商品内容的相似度
5

搜索引擎技术使用场景：内容分类、聚
类
6

7
通用搜索引擎系统流程

搜索引擎中文本挖掘典型问题
在搜索引擎中关于文本挖掘的典型问题
—怎样得到一篇文章的关键词、主题？
—怎样用计算机可识别的数学公式来表征一篇文档
—怎样处理查询关键词与文档的相似度
—怎样度量两篇文档的相似度？
10

信息检索模型
信息检索模型（ Information Retrieval
Model ）是指如何对查询和文档进行表示，然
后对它们进行相似度计算的框架和方法。
信息检索模型本质上是对相关度建模。
11

信息检索模型
信息检索模型
信息检索模型可以表示为一个四元组的模型框架
IR = <D, Q, R(q,d)>
D 是文档表示， Q 是查询表示， R(q ， d ) 是一个
排序函数
索引词 (Index Term)
索引词是能代表文档内容的特征，可以是字、词、短语
或者某种语义单元，关键词 (key words) 可以看成索引
词的一种。
文档表示成多个索引词的集合
索引词的权重 (Weight)
不同索引词作用是不同的，通过权重加以区分 12

信息检索模型的分类
从所使用的数学方法上分：
基于集合论的 IR 模型 (Set Theoretic models)
布尔模型
基于模糊集的模型、扩展布尔模型
基于代数论的 IR 模型 (Algebraic models)
向量空间模型
LSI （隐性语义检索）模型
神经网络模型
基于概率统计的 IR 模型 (Probabilistic models)
概率模型
回归模型、语言模型建模 IR 模型、推理网络模型、信任度网络
模型
13

布尔模型（ Boolean Model ）
布尔模型建立在经典的集合论和布尔代数的基础
上
在布尔模型中查询和文档均表示为索引词 (“ 是否
存在” ) 的布尔表达式，通常表示成 D(t 1 ， t 2 ，
⋯ ， t i) 的形式。
布尔操作 ( 关系 ) : 与 (AND) 或 (OR) 非
(NOT)
相似度计算：查询布尔表达式和所有文档的布尔
表达式进行匹配，匹配成功的文档的得分为 1 ，
否则为 0 。
14

布尔模型的优缺点
优点：
—简单、易理解、易实现
—现代很多搜索引擎中仍然包含布尔模型的思想，如 Google 的高
级检索
缺点
—只能严格匹配，文献要么相关、要么不相关，并没有一个相关级
别的概念，因此很难有好的检索效果
—构造布尔逻辑式不容易，对于一般用户而言，很难用
AND 、 OR 、 NOT 运算符的结合来准确地表达一个检索语句，
标引词的简单组配不能完全反映用户的实际需要；
—检索输出完全依赖于布尔提问与文献的匹配情况，很难控制输出
量的大小
—结果不能按用户定义的重要性排序输出，用户只能从头到尾浏览
输出结果才能知道哪些文献更适合自己的需要
15

概率模型优缺点
优点
—采用严格的数学理论为依据，为人们提供了一种数学
理论基础来进行检索决策； PubMed 的 related
articles 。
—采用相关反馈原理
—在其中没有使用用户难以运用的布尔逻辑方法；
—在操作过程中使用了词的依赖性和相互关系。
缺点：
—计算复杂度大 , 不适合大型网络
—参数估计难度较大
—条件概率值难估计
—系统的检索性能提高不明显，需与其他检索模型结合
17

词频（ TF ）、文件频率
（ DF ）
假如要搜索一个词语 ti 在文件集合 {d1 ,d2
,...,dn } 出现的频率，则有两部分的重要信息：
ti 在某篇文档 dj 中出现的次数，称为此词语在
此篇文档的频率（词频）： TF(Term
Frequency)
文档集合 {d1 ,d2 ,...,dn } 中包含 ti 的文档个数，
称为此词语在文档集合 {d1 ,d2 ,...,dn } 的文件频
率： DF （ Document Frequency ）
18

IDF(inverse document frequency)
20

TF-IDF
把 TF(Term Frequency) 、 IDF(inverse
document frequency) 这两项结合起来，对单
词 t 和文档 d ，定义
TF-IDF(t,d) = TF(t,d) * IDF(t)
TF-IDF 的作用：
—某一特定文件内的高词语频率，以及该词语在整个
文件集合中的低文件频率，可以产生出高权重的
TF-IDF 。
—因此， TF-IDF 倾向於过滤掉常见的词语，保留重
要的词语。
21

TF-IDF 的例子
摘自： http://bit.ly/cbDyIK
22

向量空间模型 VSM （ Vector Space
Model ）
VSM 的基本思路：用向量模型来标识一篇文档或一个
查询？
把文档看作一系列索引词 (Inex Term) 组成，每一个
词都有一个权重 (Term weight) ，不同的索引词根据
自己在文档中的权重来影响文档相关性的打分计算。
在向量空间模型中可以把所有此文档中词 (term) 的权
重 (term weight) 看作一个向量，并以此权重向量来
表征文档。查询和文档都可转化成索引词及其权重组成
的向量
23

文档 - 索引词词矩阵 (Doc-Term
Matrix)
n 篇文档， m 个索引词词构成的矩阵 Am*n ，每
列可以看成每篇文档的向量表示，同时，
每行也可以可以看成标引词的向量表示
24

相似度计算
文档和查询条件之间的相关程度 ( 即相似度 ) 可
由它们各自向量在向量空问中的相对位置来决定。
相似度计算函数有很多种，较常用的是两个向量
夹角的余弦函数。
文档和查询条件的相似度值由以下公式获得：
dj
q
Θ
26

向量相似度算法
余弦相似性（ cosine-based similarity ）
相关相似性（ Pearson 相关系数）
修正的余弦相似性（ adjusted-cosine
similarity ）
2 2
( )( )
( , )
( ) ( )
uv
uv uv
ui i ui ii I
ui i vi ii I i I
R R R R
sim u v
R R R R
∈
∈ ∈
− −
=
− −
∑
∑ ∑
2 2
( )( )
( , )
( ) ( )
uv
uv uv
ui u ui vi I
ui u vi vi I i I
R R R R
sim u v
R R R R
∈
∈ ∈
− −
=
− −
∑
∑ ∑
1
2 2
1 1
( , ) cos( , )
n
ui vi
i
n n
ui vi
i i
R R
u v
sim u v u v
u v
R R
=
= =
= = =
×
∑
∑ ∑
r r
r r g
uur ur
27

文档相似性
其中：
—Di 为文档 i
—Wij 是第 i 个特征项在第 j 个文档向量中的权值
28

向量空间模型例子
30
摘自： http://bit.ly/cbDyIK

In Lucene, a TermFreqVector is a representation of
all of the terms and term counts in a specific Field
of a Document instance
As a tuple:
termFreq = <term, term countD>
<fieldName, <…,termFreqi, termFreqi+1,…>>
As Java:
public String getField();
public String[] getTerms();
public int[] getTermFrequencies();
Lucene Term Vectors (TV)
Parallel Arrays

Lucene Term Vectors (TV)
Field.TermVector.NO: 不保存 term vectors
Field.TermVector.YES: 保存 term vectors
Field.TermVector.WITH_POSITIONS: 保存 term
vectors.( 保存值和 token 位置信息 )
Field.TermVector.WITH_OFFSETS: 保存 term
vectors.( 保存值和 Token 的 offset)
Field.TermVector.WITH_POSITIONS_OFFSETS: 保
存 term vectors.( 保存值和 token 位置信息和 Token 的
offset)
35

Lucene Scoring 评分机制
36

Lucene Scoring 评分机制
 参考 org.apache.lucene.search.Similarity
http://lucene.apache.org/java/3_0_2/scoring.html
http://bit.ly/bq7xNh
37

Lucene Scoring 核心类图
38

Lucene MoreLikeThis
Lucene 的 contrib 包中提供了 MoreLikeThis 、
MoreLikeThisQuery 包，很容易实现“您可能也喜欢”的
功能
—org.apache.lucene.search.similar.MoreLikeThis
—org.apache.lucene.search.similar.MoreLikeThisQuery
 参考： http://bit.ly/dpUQAP
String indexDir = "d:/index";
FSDirectory directory = FSDirectory.open(new File(indexDir));
IndexReader reader = IndexReader.open(directory);
IndexSearcher searcher = new IndexSearcher(reader);
int numDocs = reader.maxDoc();
MoreLikeThis mlt = new MoreLikeThis(reader); // #A
mlt.setFieldNames(new String[] {"title", "author"});
mlt.setMinTermFreq(1); // #B
mlt.setMinDocFreq(1)
39

Lucene 作为 Linkedin 的推荐
引擎
 参考： LinkedIn Signal - a look under the hood
40

01/31/15 41
分词：中文特征词 (Term) 的粒
度
Character ，字：中
Word ，词：中国
Phrase ，短语：中国人民银行
Concept ，概念
—同义词：开心高兴兴奋
—相关词 cluster ， word cluster ：葛非 / 顾俊
N-gram ， N 元组：中国国人人民民银银
行
某种规律性模式：比如某个 window 中出现
的固定模式

分词：主要的分词方法
 最大匹配法（ Maximum Matching method, MM 法）：选取包含
6-8 个汉字的符号串作为最大符号串，把最大符号串与词典中的单词
条目相匹配，如果不能匹配，就削掉一个汉字继续匹配，直到在词
典中找到相应的单词为止。匹配的方向是从右向左。
 逆向最大匹配法（ Reverse Maximum method, RMM 法）：匹配
方向与 MM 法相反，是从左向右。实验表明：对于汉语来说，逆向
最大匹配法比最大匹配法更有效。
 双向匹配法（ Bi-direction Matching method, BM 法）：比较 MM
法与 RMM 法的分词结果，从而决定正确的分词。
 最佳匹配法（ Optimum Matching method, OM 法）：将词典中的
单词按它们在文本中的出现频度的大小排列，高频度的单词排在前
，频度低的单词排在后，从而提高匹配的速度。
 联想 - 回溯法（ Association-Backtracking method, AB 法）：采
用联想和回溯的机制来进行匹配。
42

43
分词：英文分词
 一般采用 keyword, 无需分词 , 单词之间有空格分开。
 stop words ：指文档中出现的连词，介词，冠词等并无太大意义的词
。例如在英文中常用的停用词有 the ， a, it 等；在中文中常见的有“
是”，“的”，“地”等。
 索引词（标引词，关键祠） : 可以用于指代文档内容的预选词语 , 一
般为名词或名词词组。
 词根提取
—Stemming ：将单词“缩减”为词根形式。在算法上 Stemming
主要是采取某种固定的算法来做这种缩减，如去除“ s” ，去
除“ ing” 加“ e” ，将“ ational” 变为“ ate” ，将 “ tional” 变
为“ tion” 例如： cars=>car,countries => country ， interesting =>
interest
—Lemmatization ：将单词“转变”为词根形式。在算法上
Lemmatization 主要是采用保存某种字典的方式做这种转变，
例如：例如： drove=>drive, car=>automobile ， ps-
2=>PS/2

搜索引擎的 Text Mining 价值
搜索引擎本身对文本的 Vector Space Model 、 TF-
IDF 、 Scroing 、 Similarity 等较好的支持
如果能够将协同行为（标签、收藏、购买、打分等）也
转化为 Vector Space Model ，则也可以利用搜索引擎
来实现推荐引擎
搜索引擎技术中最为有趣的不是搜索本身，而是 Text
Mining
因此搜索引擎不单纯只是用于“搜索”的引擎，还可以可以
作为
—Text Mining
—基于内容（ Content-Based ）的推荐引擎
—新闻自动聚合
—...
44

议题
搜索引擎文本挖掘基础
文本挖掘基础
45

文本挖掘能做些什么
 基于内容的推荐系统（ Content-Based ）
 新闻自动聚合
 互联网舆情、非法内容发布
 垃圾邮件的过滤
 企业竞争情报系统
 知识库
 自动问答
 机器翻译
 …… 46

文本挖掘模型结构示意图
47

Text Mining 相关技术
48
机器学数理自然言理数据技习统计语处库术
文本分类文本聚类文本数据理处文本数据压缩
信息访问
（信息索、信息、检浏览
信息、信息告）过滤报
知识发现
（数据分析、数据）预测
文本信息提取

文本挖掘的关键技术
文本结构分析
文本摘要
文本分类
文本聚类
文本关联分析
分布分析
趋势预测
49

一些 Text Mining 相关的开源项
目
数据挖掘相关： Weka、 R-Project、 Knime、
RapidMiner、 Orange 等
文本挖掘相关： OpenNLP、 LingPipe、
FreeLing、 GATE 、 Carrot2 等，具体可以参
考 LingPipe’s Competition
推荐引擎相关： Apache Mahout 、 Duine
framework 、 Singular Value Decomposition
(SVD)
搜索引擎相关：
Lucene 、 Solr 、 Sphinx 、 Hibernate
Search 等 50

参考资料
miislita.com 系列文章（很棒的网站，强烈推荐）
—http://bit.ly/cBOfAy
—http://bit.ly/c1juhi
—http://bit.ly/cbDyIK
—http://bit.ly/cgU0zE
数学之美系列
—http://bit.ly/aVOsSd
北大《文本挖掘技术》课程
—http://bit.ly/9MaJ2J
LingPipe 总结的各种 Text Mining 工具
—http://bit.ly/bSjEmR
51

文本挖掘（Text mining）基础

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a 文本挖掘（Text mining）基础

Similar a 文本挖掘（Text mining）基础 (20)

Más de chuan liang

Más de chuan liang (11)

文本挖掘（Text mining）基础

Notas del editor