7. 四、正交分類的數學定義:
一個在 S 上的分類體系 A[1..n] 的定義是:
1 1i n j n A i A j, [ ] [ ]
and
A i S
i
n
[ ]
1
兩個在 S 上的分類體系 A[1..n], B[1..m] 如果是正交的,
則:
1 1i n j m A i B j, [ ] [ ]
Theorem 1:
( , ) ( , ) ( [ ] [ ]) ( [ ] [ ])i j i j A i B j A i B j1 1 2 2 1 1 2 2
直覺的解釋是:
A[1] A[3] A[4] A[5] A[6]A[2]
B[1]
A[7] A[8]
B[2]
B[3]
B[4]
B[5]
B[6]
B[7]
B[8]
在上圖中,每一格都必須有元素,且沒有任何兩格有相同的元素。
6
12. 問題的抽象化:
若將一篇文章看成是一個t維空間中的向量,每個向量的一個維度代表其對
應概念在該文章中出現的次數,則一個視角可以看成一個t*m 維的投影矩陣,
該矩陣將此 t 維向量投影到一個 m 維的特徵空間上,成為一個 m 維的向量,
此投影會使某些向量變在投影後變得很近,其意義就是這些向量在這個角度看
來是相近的,該矩陣的意義就像一個濾波器,其作用是把與此視角無關的因素
予以濾除,保留與視角相關的因素,因此、我們可稱該矩陣為濾波矩陣。
上述的問題的數學陳述如下:
Ut: (Document Space) 投影前的 t 維文件向量空間。
Um: (Document Feature Space) 投影後的 m 維特徵向量空間。
X : (Document Matrix) 一組(d個) t 維向量的集合 。
G : (Category Tree) 一棵分類樹,任意維度但沒有cycle的樹。
G = (V, E)
P : (Document Feature Categorized Function) 特徵空間歸類函數。
P u v( ) where u Ut v V
P v P v P v Ut
1 1 1
1 2 3( ) ( ) ... ( )
F : (Document Space Categorized Function) 文件空間歸類函數
F Xi v( ) where Xi Ut v V
問題一的數學陳述:
[ ] [ ] [ ] *[ ]* * * *X T S Dt d t t
T
t d d d
[ ] *[ ] *[ ] *[ ] [ ]* * * * *T X X T St t
T
t d d t
T
t t t t
文件量化成文件矩陣後,我們所找出的特徵矩陣的特徵與量化的強度有相
當大的關係,例如我們使用詞項在文件中出現的次數作為向量的值,則計算出
來的特徵值是文件向量的線性組合 :
[ ] *[ ] * ** * � �X X T S Tt d d t
T
1 11 1
[ ] *[ ] * ** * � �X X T S Tt d d t
T
2 22 2
..
[ ] *[ ] * ** *X X T S Tt d d t
T
t tt t
X C T C T C Tnew t t
1 1 2 2* * ... *
其所反應的特徵將與各項的和有關。
若我們以詞項在文件中出現的次數的對數作為向量的值,則計算出來的特徵值
是文件向量對數的線性組合:
其所反應的特徵將與各項的乘積有關。
問題二的數學陳述:
11
13. 對文件量化後的矩陣,是否能經由某些transform使其特性更能表現出來,
例如若用Hough transform將一條線轉成一個點,兩個詞與原點在同一條線上表
示
x2/x1 = y2/y1 = z2/z1 即其在文章中出現的次數成正比,因此這兩的詞可視
為同樣領域的不同頻率的詞,相關度相當強,可考慮合併為一個詞項。
其轉換後的點為 (sin(y/x), x^2+y^2) 但平方似乎沒有意義,(y/x, x+y)
反而是比較有意義的。
因此若做過Hough transform後再來找特徵值所找到的將是已依據在文件中出現
次數歸類過,且依據文件出現的次數平方和做過歸類,,的詞再做transform
*
* *
0
問題三的數學陳述:
已知的一組(d個) t 維向量的集合 X , 一棵分類樹 G,與一個分配函數
F,請找出一個 t * m 維的矩陣 T,使得 D( F(X), P(T(X)) ) 最小。
D F X P T X D F Xi F Xj D P T Xi P T Xj
Xi Xj T
( ( ), ( ( ))) ( ( ), ( ))* ( ( * ), ( *
,
D(V1, V2) 表示 vertex V1 在 tree G 中必須要經過多少個edge 才能到達
vertex V2
問題四的數學陳述:
已知的一組(d個) t 維向量的集合 X , 一個 t * m 維的矩陣 T, 找出
一棵由 T 投影所生成的分類樹G(T) = (V, E), 使得 Entropy(G, X) 最小。
Entropy G X Entropy root( , ) ( )
Entropy parent( )
( )child
child
D parent( )
D v( )
D Xi Xj
Xi Xj P v
( , )
, ( )
1
12
16. 七、相關論文的survey
1. Latent Semantic Indexing (LSI) method :
經過我的Survey之後,發現有相當多的論文在做文件分類(clustering)
的研究與實驗,甚至有一些論文是關於文件的樹狀分類 [3, 4, 5, 6, 7], 但
是只有 Latent Semantic Indexing method (LSI) [1, 2] 利用了投影矩陣的
概念,並使用線性代數中的矩陣分解法Single Value decomposition(SVD),
我發現此分解法可以用來建構正交分類所需用的投影矩陣,所以以下我們簡單
的介紹(LSI)這個方法:
定義:Term-Frequency-Vector
選擇t個keyword或concept(稱為term),在一個文件中此t 個term 所出
現的次數形成一個向量,即稱為Term-Frequency-Vector。
定義:Document Matrix
所有的Term-Frequency-Vector 所形成的矩陣,則稱為Document Matrix
(在下列公式中用 [X] 表示)。
定義:Document Cosine similarity
兩個文件i與j的Cosine similarity 由下列公式定義:
([ ] *[ ])
([ ] *[ ]) ([ ] *[ ])
( , )
( , ) ( , )
X X
X X X X
T
i j
T
i i
T
j j
定義:Term Cosine similarity
兩個與概念項 i 與j 的Cosine similarity 由下列公式定義:
([ ]*[ ] )
([ ]*[ ] ) ([ ]*[ ] )
( , )
( , ) ( , )
X X
X X X X
T
i j
T
i i
T
j j
定義:Singular Value Decomposition (SVD) 矩陣分解運算:
將 Document Matrix 分解成下列矩陣乘積的方法,稱為 Singular Value
Decomposition:
[ ] [ ] *[ ] *[ ]X T S Dt d t m m m m d
T
0 0 0
15
17. 其中:
[So]為 diagonal matrix
[To]為 [ ] *[ ]X Xt d d t
T
的orthonormal 特徵向量基底
[ ] *[ ] [ ] *[ ] *[ ]X X To So Tot d d t
T
t m
T
m m m t
[Do]為 [ ] *[ ]X Xd t
T
t d 的orthonormal 特徵向量基底
[ ] *[ ] [ ] *[ ] *[ ]X X Do So Dod t
T
t d d m
T
m m m d
16
18. 2. Latent Semantic Indexing method的直觀意義:
[ ]T t m0 矩陣的意義:
將 t 維的 term vector space 投影到 m 維的 document feature space.
[ ] *D m d
T
0 矩陣的意義:
將 m 維的 document feature space 投影回 d 維的 document space.
矩陣特徵值與特徵向量的直觀意義:
一個矩陣 [T] 可視為一個 transform f R Rn m
:
f(亦即 [T])在以其特徵向量集合為基底的轉換下,將退化為 diagonal
transform,
f X T X P S P X( ) [ ] [ ][ ][ ]
1
[ ] [ ] [ ][ ]S X P T P X
1
也就是說,對於基底 P 而言:
T X S Xp ( ) [ ]
Tp 只是將量化後的值,沿著特徵向量的方向,延伸 Sii 倍,所以 transform T
的效應只是將一個向量,強化特徵向量強的方向,減弱特徵向量弱的方向。
若有某一方向的特徵值為零,則該向量空間 transform 後即形成一個 sub-
space, 該 subspace 即其他特徵向量所形成的子空間,亦即與該空間垂直的方
向上之分量完全消失了,若原本有一個向量只在該方向上有分量,則該向量被
transform 之後將會變成零,即該 transform 認為該向量沒有任何意義。
Singular Value Decomposition 矩陣分解的直觀意義:
在 SVD 分解法中,若一個文件向量 [ ]X i
,被 [T] transform 後竟然是零,
表示該文件在我們所選擇的視角之下是無法分類的,也就是該文件與此視角無
關。同理,若一個文件向量 [ ]X i
,被 [T] transform 後的值很小,表示該文件
在我們所選擇的視角之下不容易被歸類。
在 SVD 分解法中,若一個概念項在所有文件中所形成的列向量 [ ]X i
T ,被
17
24. 相關論文索引:
1. Christos Faloutsos and Douglas W. Oard A Survey of Information
Retrieval and Filtering Methods (Information Retrieval 的通論,有介紹
LSI (Latent Semantic Indexing) 方法 in Salton's SMART system.)
2. Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K.
Landauer, and Richard Harsh-man.Indexing by Latent semantic analysis.
Journal of American Society for Information Science, 41(6):391-407,
1990 (LSI 方法的第一篇論文)
3. C. J. Van-Rijsbergen. An Algorithm for information structuring and
retrieval. Computer Journal 14(4):407-412, 1971.
(以圖論的方法解決階層式分類問題的論文,但此法容易受相似度係數的影響)
4. C.T. Zahn. Graph-theoretical method for detecting and describing
gestalt clusters. IEEE Transactions on Computers, C-20(1):68-86,
January 1971. (以圖論的方法解決階層式分類問題的論文,此法克服了相似度
係數的影響)
5. Almuallim, H.; Akiba, Y.; and Kaneda, S. 1996. An Efficient
algorithm for finding optimal gain-ratio multiple-split tests on
hierarchical attributes in decision tree learning. In Proc. AAAI-96,
703-708. (一個 Focus on hierarchically structured attributed rather
than classes)
6. Fisher, D. H. 1987 , Knowledge acquisition via incremental concep-
tual clustering. Machine Learning 2: 139-172.
( 一個 unsupervised hierarchical clustering 的方法)
7. Pearl, J. 1988, Probabilistic Reasoning in Intelligent Systems:
Networks of Plausible Inference. Morgan-Kaufmann.
( A Bayesian network allows us to provide compact description of
comples distributions over a large number of random variables)
23