文件空間中正交分類樹的建構

博士研究計畫書
(研究主題)
文件空間中正交分類樹的建構
(Research Topic)
The construction of
orthogonal categorized trees
in document space
著作人：陳鍾誠
0

一、問題描述：
由於Internet在WWW的影響下日漸普及，使得網路上的資訊如山洪爆發一般
的排山倒海而來，網路的使用者常被太多的資訊所困擾著，雖然有著許多的分
類與索引網站來幫助使用者，但是其分類仍令人無所適從，無法很容易的取得
所想要的資訊，因此、我希望能研發出一套可以讓使用者容易取得所需資訊的分
類檢索系統。
目前一般搜尋網站的的分類情形，我們可以舉最受歡迎的英文分類網站
(Yahoo)與最受歡迎的中文分類網站(蕃薯藤)為例：
Yahoo 的分類表（第一層）
1. Arts and Humanities : Architecture, Photography, Literature...
2. Business and Economy : Companies, Investing, Employment...
3. Computers and Internet : Internet, WWW, Software, Multimedia...
4. Education : Universities, K-12, College Entrance...
5. Entertainment : Cool Links, Movies, Music, Humor...
6. Government : Military, Politics, Law, Taxes...
7. Health : Medicine, Drugs, Diseases, Fitness...
8. News and Media : Current Events, Magazines, TV, Newspapers...
9. Recreation and Sports : Sports, Games, Travel, Autos, Outdoors...
10.Reference : Libraries, Dictionaries, Phone Numbers...
11.Regional : Countries, Regions, U.S. States...
12.Science : CS, Biology, Astronomy, Engineering...
13.Social Science : Anthropology, Sociology, Economics...
14.Society and Culture : People, Environment, Religion...
1

蕃薯藤的分類表（第一層）
1. 生活資訊：報紙新聞, 期刊雜誌, 電腦雜誌, 新媒體雜誌, 學刊通訊
1. 科技期刊, 校園刊物, 活動與議題, 圖書, ...
2. 育樂休閒：人物, 交友談天, 休閒資訊, 星座血型算命, 電子賀卡,
1. 廣電影視, 影歌星, 動漫畫, 遊戲, 運動, 交通旅遊, 汽車
航空, 餐飲, 購物, ...
3. 電腦網路：網際網路, WWW, BBS 大學站, 資料庫, 作業系統,
1. 資訊教育, 資訊業, 機構, ...
4. 教　　育 : 大學, 學院, 專科, 軍校, 中小學, 機構, 同學會, 留學,
1. 補習進修, 專題教育, 法規, 查詢, ...
5. 人　　文 : 文學, 哲學, 語言, 歷史,...
6. 藝　　術 : 古董, 建築, 藝術家, 藝術史, 展覽表演, 攝影海報,
1. 音樂歌劇, 科技藝術, 表演藝術, 機構團體, ...
7. 社會文化 : 民俗, 宗教, 原住民, 社區, 環境生態, 就業, 海外社團,
1. 法人團體, ...
8. 社會科學 : 人類學, 民族學, 法律學, 政治學, 社會學, 商學, ...
9. 自然科學 : 工程, 大氣, 天文, 生物, 生態, 地理, 地質, 海洋, 動物,
9. 植物, 農學, 數學, 醫學, 機構, ...
10.醫藥保健 : 保健常識, 健康保險, 健康食品, 傳統醫藥, 醫藥教育,
醫師藥師, 醫院, 醫藥機構, ...
11. 國　　家 : 行政, 立法, 省市, 地方, 政黨, 選舉, 國際關係,
1. 國家考試, 研究機構, 駐台機構, ...
12. 工商產業 : 資料庫, 資訊業, 電子業, 電機業, 出版業, 娛樂業,
1. 服務業, 運輸業, 金融業, 百貨業, 建築業, 團體, ...
因為此類索引站的分類方法都是單一株的樹狀結構，因此、若我們要查詢下列資
訊：
請列出有關台中的政治人物在深夜喝花酒的文章
使用Yahoo或蕃薯藤將無法得到精確的資訊，對於另外一些提供全文檢索的網站
（例如多國語言的Alta Vista, 中文的GAIS等），除非該文章正好有”台中”,
”政治人物”,”喝花酒”等幾個詞，否則也會檢索不到，因此、我們需要一套
更強而有力的檢索系統。
2

二、研究動機：
由於目前的檢索系統不夠理想，常常不能夠找到我們所想要的資料，因此
如何製作一套比較好的檢索系統，是我所想研究的課題，我們希望所提出的方
法能夠兼顧通用性與專業性，以便提供不同領域的使用者不同角度與不同精細
程度的分類，使其能符合多元化的需求。
一般性的使用者所需要的分類，與專業性使用者所需的分類通常是不一樣
的，例如、人類學相關資料的檢索就需要比較專業的分類體系：
經濟人類學家可能需要下列分類：
主要經濟基礎：漁業游牧農耕工業商業
心理人類學家可能需要下列分類：
家庭類型：小家庭折衷家庭大家庭
親屬類型：父系導向母系導向
生物人類學家可能需要下列分類：
進化時期：狒狒生食時期熟食時期陶藝時期近代現代
人種分類：黃種人白種人棕色人種
台灣的人類學家可能需要下列分類：
4. 族群分類：雅美族、阿美族、泰雅族、賽夏族、鄒族、布農族、卑南族、
4. 魯凱族、排灣族
4.
我們的方法必須能夠建構出不同角度與不同精細程度的分類樹。
3

三、正交分類的分類原則：
對於分類樹，我認為應該依據下列原則來做分類，會比較容易檢索：
原則一：運用多棵的正交分類樹來作分類（所謂的正交分類樹，請看圖一）。
原則二：分類應該盡量符合使用者的需求與直覺。
原則三：同一棵分類樹的各個階層間必須採用相同的角度作分類。
第一棵分類樹
第
二
棵
分
類
樹
圖一：一個二維的正交分類樹
以下我們舉兩個例子以作為進一步的說明：
分類範例一 : 一個一般性文件的正交分類樹體系
1. 領域分類 : 生活資訊育樂休閒電腦網路教育人文藝術社會文化
1. 社會科學自然科學醫藥保健國家工商產業
2. 題材分類 : 故事小說新聞消息日常對話生活記錄規定條文契約合同
2. 論文報告
2. 族群分類 : 原住民客家人閩南人其他大陸籍其他國籍
5. 職業分類 : 政治人物新聞記者大老闆上班族學者學生律師醫生
2. 勞工司機小販
4. 年代分類 : 16 世紀 17 世紀 18 世紀 19 世紀 20 世紀
4. 季節分類 : 春季夏季秋季冬季
4. 時段分類 : 清晨上午中午下午傍晚晚上深夜
4. 地區分類 : 基隆台北桃園新竹苗栗台中彰化雲林台南高雄
4. 花蓮臺東屏東宜蘭
5. 人物追蹤 : 政治人物新聞記者大老闆上班族學者學生律師醫生
5. 勞工司機小販
5. (這些使用者最常看的文章或home page是哪些？)
5. (追蹤的屬性有：使用者姓名，看該文章的時刻，看多久）
5.
4

若使用者想查詢下列問題：
請列出有關台中的政治人物在深夜喝花酒的文章
可用下列操作順序查詢：
(地區分類：台中)(職業分類：政治人物)
(領域分類：娛樂休閒餐飲酒店)(時段分類：深夜)
查詢完成後系統會列出：
『地區分類=台中，職業分類=政治人物，時段分類=深夜，領域分類=酒店』
的所有文章，雖不中亦不遠矣。
分類範例二 : 一個為台灣人類學專屬文件製作的正交分類樹體系
1. 體系分類：經濟政治文化工藝宗教交流戰爭
2. 題材分類：故事小說新聞消息日常對話生活記錄規定條文
2. 契約合同論文報告
4. 年代分類： 16 世紀 17 世紀 18 世紀 19 世紀 20 世紀
4. 季節分類：春季夏季秋季冬季
4. 時段分類：清晨上午中午下午傍晚晚上深夜
4. 地區分類：北部中部南部東部
4. 族群分類：雅美族、阿美族、泰雅族、賽夏族、鄒族、布農族、卑南族、
1. 魯凱族、排灣族
4. 人物追蹤：芮逸夫李亦園陳其南陳奇祿 ...
(所有本系統的經常使用者曾經看過的文章都可被追蹤）
(追蹤的屬性有：使用者姓名，看該文章的時刻，看多久）
上述的類別表中，類別可繼續細分為次類別，例如：
季節分類中的春季，可繼續細分為： 2月 3月 4月
體系分類中的工藝，可繼續細分為：石器陶器銅器鐵器木製品纖維製品
. . .
如此、我們將可以查詢下列問題：
1. 關於19 世紀賽夏族在東部的了生活紀錄有哪些？
2. 關於19世紀賽夏族的戰爭情形的論文有哪些？
3. 關於賽夏族使用鐵器的生活記錄有哪些？
4. 李亦園看過的關於賽夏族的文章有哪些？
....
5

四、正交分類的數學定義：
一個在 S 上的分類體系 A[1..n] 的定義是：
      1 1i n j n A i A j, [ ] [ ] 
and
A i S
i
n
[ ]


1

兩個在 S 上的分類體系 A[1..n], B[1..m] 如果是正交的，
則:
      1 1i n j m A i B j, [ ] [ ] 
Theorem 1:
     ( , ) ( , ) ( [ ] [ ]) ( [ ] [ ])i j i j A i B j A i B j1 1 2 2 1 1 2 2
直覺的解釋是：
A[1] A[3] A[4] A[5] A[6]A[2]
B[1]
A[7] A[8]
B[2]
B[3]
B[4]
B[5]
B[6]
B[7]
B[8]
在上圖中，每一格都必須有元素，且沒有任何兩格有相同的元素。
6

五、使用者介面的設計：
一般來說使用者並不知道系統會有哪些分類，因此我認為提供一套方便的
使用者介面是必要的，關於使用者介面的設計，我們可以用上一節中第二個分
類範例中的問題 3 之查詢過程為例。
『關於賽夏族使用鐵器的生活記錄有哪些？』
以下五個畫面是使用者查詢的過程：
第一個畫面，使用者選擇族群分類中的賽夏族：
分類
1.體系分類經濟政治文化工藝宗教交流戰爭
2.題材分類故事小說新聞消息日常對話生活記錄規定條文契約合同論文報告
3.年代分類 16 世紀 17 世紀 18 世紀 19 世紀 20 世紀
4.季節分類春季夏季秋季冬季
5.時段分類清晨上午中午下午傍晚晚上深夜
6.地區分類北部中部南部東部
7.族群分類雅美族阿美族泰雅族賽夏族鄒族布農族卑南族魯凱族排灣族
8.人物追蹤芮逸夫李亦園陳其南陳奇祿
符合條件的文章
(1) 人類學最近的發展現況…
(2) 78年度人類學會議紀錄
(3) 布農族的祭典
(4) .. .. ..
(5) .. .. ..
(6) .. .. ..
.. .
7

第二個畫面，使用者選擇體系分類中的工藝：
分類
1.體系分類經濟政治文化工藝宗教交流戰爭
3.年代分類 16 世紀 17 世紀 18 世紀 19 世紀 20 世紀
7. 賽夏族
(1) 賽夏族的豐年祭
(2) 李亦園對賽夏族的研究
(3) .. ..
(4) .. ..
(5) .. ..
(6) .. ..
.. . .. ..
第三個畫面，選擇工藝中的鐵器：
分類
1. 工藝石器陶器銅器鐵器木製品纖維製品
3.年代分類 16 世紀17 世紀 18 世紀 19 世紀 20 世紀
7.賽夏族
(1) 賽夏族的農耕用具及其使用方法
(2) 賽夏族的手工藝巡禮
(3) .. ..
(4) .. ..
(5) .. ..
(6) .. ..
.. . .. ..
8

第四個畫面，使用者選擇題材分類中的生活記錄：
分類
1. 鐵器
3.年代分類 16 世紀 17 世紀 18 世紀 19 世紀 20 世紀
7. 賽夏族
(1) 日據時代對禁止賽夏族使用刀械的法規
(2) 對賽夏族的最早使用鐵器年代的考證
(3) 賽夏族日常生活中所使用的斧頭樣式
第五個畫面，使用者得到的最後結果：『關於賽夏族使用鐵器的生活記錄』
分類
1. 鐵器
2.生活記錄
3.年代分類 16 世紀 17 世紀18 世紀19 世紀 20 世紀
7. 賽夏族
(1) 賽夏族日常生活中所使用的斧頭樣式
如此即可完成我們所要的查詢。
9

六、研究方向與方法：
文件的分類，如果能夠採用多重視角的觀念，則用 n 個不同視角將可建構
出 n 棵不同的分類樹，假如所選擇的分類角度能盡量的正交化（盡量以完全不
同的角度來做分類），那麼我們將可以得到一套正交的分類樹，由前述的分析
可知，正交分類樹的好處很多，而正交分類樹的建構基礎在於：n個視角必須是
正交的，因此我們必須對所謂的視角加以詳細的定義：
我們以下列表格來解釋這個觀念：
組織分類的角度
組
織
結
構
的
角
度
國民黨民進黨新黨
李登輝施明德趙少康
連戰許信良王建宣
執政在野在野
文工會文宣部 ???
蔡璧煌陳文茜陳葵淼
青天白日旗綠色台灣旗黃色新黨旗
表格 5.1
以組織分類的角度來看:
“國民黨、李登輝、連戰、執政、文工會、蔡璧煌、青天白日旗”
屬於同一概念項。
以組織結構的角度來看:
“李登輝、施明德、趙少康”
屬於同一概念項。
從這種分類的方式上，可衍生出下列五個待研究的問題：
問題一：如何量化一個文件，使其最適合用來做分類？
問題二：量化後的矩陣應該如何轉換？
問題三：如何由一群已分類好的文章造出視角矩陣？
問題四：如何由給定的視角造出分類樹？
問題五：如何造出一組好用的正交分類樹？
10

問題的抽象化：
若將一篇文章看成是一個t維空間中的向量，每個向量的一個維度代表其對
應概念在該文章中出現的次數，則一個視角可以看成一個t*m 維的投影矩陣，
該矩陣將此 t 維向量投影到一個 m 維的特徵空間上，成為一個 m 維的向量，
此投影會使某些向量變在投影後變得很近，其意義就是這些向量在這個角度看
來是相近的，該矩陣的意義就像一個濾波器，其作用是把與此視角無關的因素
予以濾除，保留與視角相關的因素，因此、我們可稱該矩陣為濾波矩陣。
上述的問題的數學陳述如下：
Ut： (Document Space) 投影前的 t 維文件向量空間。
Um： (Document Feature Space) 投影後的 m 維特徵向量空間。
X ： (Document Matrix) 一組(d個) t 維向量的集合。
G ： (Category Tree) 一棵分類樹，任意維度但沒有cycle的樹。
G = (V, E)
P ： (Document Feature Categorized Function) 特徵空間歸類函數。
P u v( )  where u Ut v V
P v P v P v Ut  
1 1 1
1 2 3( ) ( ) ... ( ) 
F ： (Document Space Categorized Function) 文件空間歸類函數
F Xi v( )  where Xi Ut v V
問題一的數學陳述：
[ ] [ ] [ ] *[ ]* * * *X T S Dt d t t
T
t d d d
[ ] *[ ] *[ ] *[ ] [ ]* * * * *T X X T St t
T
t d d t
T
t t t t
文件量化成文件矩陣後，我們所找出的特徵矩陣的特徵與量化的強度有相
當大的關係，例如我們使用詞項在文件中出現的次數作為向量的值，則計算出
來的特徵值是文件向量的線性組合 :
[ ] *[ ] * ** * � �X X T S Tt d d t
T
1 11 1
 

[ ] *[ ] * ** * � �X X T S Tt d d t
T
2 22 2
 

..
[ ] *[ ] * ** *X X T S Tt d d t
T
t tt t
 

X C T C T C Tnew t t
   
   1 1 2 2* * ... *
其所反應的特徵將與各項的和有關。
若我們以詞項在文件中出現的次數的對數作為向量的值，則計算出來的特徵值
是文件向量對數的線性組合:
其所反應的特徵將與各項的乘積有關。
問題二的數學陳述：
11

對文件量化後的矩陣，是否能經由某些transform使其特性更能表現出來，
例如若用Hough transform將一條線轉成一個點，兩個詞與原點在同一條線上表
示
x2/x1 = y2/y1 = z2/z1 即其在文章中出現的次數成正比，因此這兩的詞可視
為同樣領域的不同頻率的詞，相關度相當強，可考慮合併為一個詞項。
其轉換後的點為 (sin(y/x), x^2+y^2) 但平方似乎沒有意義，(y/x, x+y)
反而是比較有意義的。
因此若做過Hough transform後再來找特徵值所找到的將是已依據在文件中出現
次數歸類過，且依據文件出現的次數平方和做過歸類，，的詞再做transform
＊
＊  *
0
問題三的數學陳述：
已知的一組(d個) t 維向量的集合 X ，一棵分類樹 G，與一個分配函數
F，請找出一個 t * m 維的矩陣 T，使得 D( F(X), P(T(X)) ) 最小。
D F X P T X D F Xi F Xj D P T Xi P T Xj
Xi Xj T
( ( ), ( ( ))) ( ( ), ( ))* ( ( * ), ( *
,

 

D(V1, V2) 表示 vertex V1 在 tree G 中必須要經過多少個edge 才能到達
vertex V2
問題四的數學陳述：
已知的一組(d個) t 維向量的集合 X ，一個 t * m 維的矩陣 T，找出
一棵由 T 投影所生成的分類樹G(T) = (V, E)，使得 Entropy(G, X) 最小。
Entropy G X Entropy root( , ) ( )
Entropy parent( )


( )child
child
 D parent( )
D v( ) 
D Xi Xj
Xi Xj P v
( , )
, ( )  
 1
12

問題五的數學陳述:
已知一群document，如何建構文件概念向量集 X ，以及一組由 X 建構出
的視角矩陣 T1..Tk，使得由X 與 T1..Tk 建造出來的分類樹 G1..Gk，最接近
使用者的正交概念空間。
14

七、相關論文的survey
1. Latent Semantic Indexing (LSI) method :
經過我的Survey之後，發現有相當多的論文在做文件分類（clustering）
的研究與實驗，甚至有一些論文是關於文件的樹狀分類 [3, 4, 5, 6, 7]，但
是只有 Latent Semantic Indexing method (LSI) [1, 2] 利用了投影矩陣的
概念，並使用線性代數中的矩陣分解法Single Value decomposition(SVD)，
我發現此分解法可以用來建構正交分類所需用的投影矩陣，所以以下我們簡單
的介紹（LSI）這個方法：
定義：Term-Frequency-Vector
選擇t個keyword或concept（稱為term），在一個文件中此t 個term 所出
現的次數形成一個向量，即稱為Term-Frequency-Vector。
定義：Document Matrix
所有的Term-Frequency-Vector 所形成的矩陣，則稱為Document Matrix
(在下列公式中用 [X] 表示)。
定義：Document Cosine similarity
兩個文件i與j的Cosine similarity 由下列公式定義：
([ ] *[ ])
([ ] *[ ]) ([ ] *[ ])
( , )
( , ) ( , )
X X
X X X X
T
i j
T
i i
T
j j
定義：Term Cosine similarity
兩個與概念項 i 與j 的Cosine similarity 由下列公式定義：
([ ]*[ ] )
([ ]*[ ] ) ([ ]*[ ] )
( , )
( , ) ( , )
X X
X X X X
T
i j
T
i i
T
j j
定義：Singular Value Decomposition (SVD) 矩陣分解運算：
將 Document Matrix 分解成下列矩陣乘積的方法，稱為 Singular Value
Decomposition：
[ ] [ ] *[ ] *[ ]X T S Dt d t m m m m d
T
    0 0 0
15

其中:
[So]為 diagonal matrix
[To]為 [ ] *[ ]X Xt d d t
T
  的orthonormal 特徵向量基底
 [ ] *[ ] [ ] *[ ] *[ ]X X To So Tot d d t
T
t m
T
m m m t    
[Do]為 [ ] *[ ]X Xd t
T
t d  的orthonormal 特徵向量基底
 [ ] *[ ] [ ] *[ ] *[ ]X X Do So Dod t
T
t d d m
T
m m m d    
16

2. Latent Semantic Indexing method的直觀意義：
[ ]T t m0  矩陣的意義:
將 t 維的 term vector space 投影到 m 維的 document feature space.
[ ] *D m d
T
0 矩陣的意義:
將 m 維的 document feature space 投影回 d 維的 document space.
矩陣特徵值與特徵向量的直觀意義：
一個矩陣 [T] 可視為一個 transform f R Rn m
: 
f（亦即 [T]）在以其特徵向量集合為基底的轉換下，將退化為 diagonal
transform,
f X T X P S P X( ) [ ] [ ][ ][ ]
 


  1
[ ] [ ] [ ][ ]S X P T P X



 1
也就是說，對於基底 P 而言：
T X S Xp ( ) [ ]
 

Tp 只是將量化後的值，沿著特徵向量的方向，延伸 Sii 倍，所以 transform T
的效應只是將一個向量，強化特徵向量強的方向，減弱特徵向量弱的方向。
若有某一方向的特徵值為零，則該向量空間 transform 後即形成一個 sub-
space, 該 subspace 即其他特徵向量所形成的子空間，亦即與該空間垂直的方
向上之分量完全消失了，若原本有一個向量只在該方向上有分量，則該向量被
transform 之後將會變成零，即該 transform 認為該向量沒有任何意義。
Singular Value Decomposition 矩陣分解的直觀意義：
在 SVD 分解法中，若一個文件向量 [ ]X i
，被 [T] transform 後竟然是零，
表示該文件在我們所選擇的視角之下是無法分類的，也就是該文件與此視角無
關。同理，若一個文件向量 [ ]X i
，被 [T] transform 後的值很小，表示該文件
在我們所選擇的視角之下不容易被歸類。
在 SVD 分解法中，若一個概念項在所有文件中所形成的列向量 [ ]X i
T ，被
17

[D] transform 後竟然是零，表示對此視角來說，該概念項對文件的分類毫無
幫助，該概念項可以去除。同理，若一個概念項在所有文件中所形成的列向量
[ ]X i
T ，被 [D] transform 後的值很小，表示對此視角來說，該概念項的分類
功效極低，去除之後影響很小。
接下來看特徵值大小的意義，特徵值大者，其所對應的文件特徵向量
[ ]T i
T
附近的向量 Xi 可以很容易的被分類，對應的概念項特徵向量 [ ]D i 對分
類得貢獻很大，反之、特徵值小者，其所對應的文件特徵向量 [ ]T i
T
附近的向量
Xi 很難被分類，對應的概念項特徵向量 [ ]D i 對分類貢獻極稀小。
18

八、準備採用的方法：
1. 文件量化的方法:
文件的量化可以直接用概念項在文件中出現的次數來作為量化值，也可以
用其對數來作為量化值。
直接用次數作為量化值的意義是：文件的意義由其概念項的出現次數決
定，若兩個文件的概念項出現次數相同，則我們將認為他們是同義的，若一文
件向量可由其他文件向量的線性組合所代表，則我們認為該文件與其他文件所
抽出的幾個段落所組合出來。
利用次數的對數作為量化值的意義是：一個文件在所有概念項都同時出現
時才有意義，因此若有一個概念項的出現次數是零，則取對數的方法會將此文
件視同空白文件，此法用來評判文件的分類可能並不是很有效，但是可以用來
找出概念項的關係，有些文件被認為屬於某一類是因數個概念項同時出現，這
些同時出現的概念項就稱為群組概念項，只有在同一群組的所有概念項同時出
現時，一文件才被認為符合某種概念。
2. 各種transform 的意義:
Hough transform將一個座標轉為極座標，因此若將transform後的距離部
分捨棄，純粹就角度部分的向量來探討其意義，即是：當兩個文件出現的概念
項次數恰好成某一比例，則我們認為兩文件所討論的都是同一件事，而距離部
分的意義也就是距離大的文章實際上只是討論同一個主題的較長文章罷了。
3. 應用 SVD分解式解決問題三：
在上一節的第一個問題中， [T] 的功能與SVD方法中 [To] 的功能是相同
的，而且在該問題中，keyword term 與 document 是已知，所以只要計算每個
term在文件中出現的次數，就可以建立 Document Matrix [X]，然後按照 SVD
的分解法，可將[X]分解為 [To],[Do],[So]，令[T] = [To]:
因此該問題就可以轉換成下列問題：
問：應該選擇哪些特徵值才能使 [T] 矩陣將X 中的已知點投影到最符合現有分
類的方向。
方法：我準備採用 greedy 的方法來解決這個問題，也就是將m個特徵值一個一
個加入到被選值中，如果該值加入後會使結果更好則保留此值，否則就將此值
丟掉，我希望能證明此方法可以找到最佳的特徵值集合。
4. 應用 SVD分解式解決問題四：
在問題四中，X 已經給定、T 可由X 算出，唯一不知道的是應該分到哪一個
階層為止，我仍然準備採用greedy的方法，使分類樹不斷的長下去，直到多生
19

長了一層的樹，其 Entropy 反而比原樹的 Entropy 更大為止，我也希望能
證明這樣的方法所找出的樹，其Entropy是所有用 [X] 建構出來的樹群中最小
的一個。
5. 應用 SVD分解式解決問題五：
問題五也是最難解決的一個問題，因為牽涉到了人們概念空間的問題，使
得此問題不僅僅是自然科學的問題，也涉入了社會科學的因素，因此、不得不訴
諸於人的判斷來解決此一問題。
在我的構想中，可以運用以下兩個人工判斷的過程來解決此問題：
第一個人工判斷的過程：我們借用人的直覺概念，解決文件特徵的向量化問
題，也就是文件空間如何選擇的問題，我們可以用人工先半自動的造出一個符
合人類直覺的同義字體系，然後再用這個同義字體系來建構一組分類樹，因為
這組分類樹是由基於人們的直覺概念定義的詞群所建構的，所以應該是符合人
類直覺的分類樹，以下是兩個人工製造的詞群範例：
第一個視角的詞群：(以組織的分類的角度來歸類)
國民黨概念項 = ”國民黨、李登輝、連戰、執政、文工會、蔡璧煌、青天白日”
民進黨概念項 = “民進黨、施明德、許信良、在野、文宣部、陳文茜、綠色台灣”
新黨概念項 = “新黨、趙少康、王建宣、在野、陳奎淼、黃色新黨”
第二個視角的詞群：(以組織結構的角度來歸類)
組織名稱概念項 = “國民黨、民進黨、新黨”
領導人概念項 = “李登輝、許信良、趙少康”
副領導人概念項 = “連戰、施明德、王建宣”
權力位置概念項 = “執政、在野、在野”
宣傳部門概念項 = “文工會、文宣部”
宣傳主任概念項 = “蔡璧煌、陳文茜、陳魁淼”
黨旗概念項 = “青天白日、綠色台灣、黃色新黨”
..
建造完所有視角的詞群後，我們可對每一個角度，依各概念項在文件中出現的
次數來建造出 Xi 中的各個向量，然後用程式自動計算出 Ti 矩陣，並依據問
題二的方法自動計算出 Ti 的分類樹 Gi，並依據 Xi投影後的向量 P([Ti]Xi)
所歸屬的節點將文章歸類。
第二個人工判斷的過程：在同義詞分類完成後，系統可以蒐集人們使用時所回
饋的判斷訊息，用來動態調整分類的矩陣，或者加深、刪除分類樹的層次，以建
立更符合人類直覺概念的的正交樹體系，這是訴諸於人類判斷來提升系統正確
性的第二種途徑。
20

解決第三個問題是最困難的，因為牽涉到人的概念空間問題，況且上面提
到的方法尚未經過驗證，如何更有效的解決第三個問題是我最主要研究課題。
21

九、實驗與驗證方法：
在實驗方面，可以先製作小型的專業文件庫以測試本方法的效果。我準備先
用網路上跳蚤市場的的資料作測試，然後在擴充到較專業性的文件資料庫（例
如：人類學文件資料庫），最後、希望能建立數位圖書館的文件資料分類樹。
至於系統的驗證方法上，除了利用數學證明以確認定理的正確性之外，並
需以使用者使用系統的統計資料，來評估系統的分類是否符合使用者的需求。
22

相關論文索引：
1. Christos Faloutsos and Douglas W. Oard A Survey of Information
Retrieval and Filtering Methods (Information Retrieval 的通論，有介紹
LSI (Latent Semantic Indexing) 方法 in Salton's SMART system.）
2. Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K.
Landauer, and Richard Harsh-man.Indexing by Latent semantic analysis.
Journal of American Society for Information Science, 41(6):391-407,
1990 (LSI 方法的第一篇論文）
3. C. J. Van-Rijsbergen. An Algorithm for information structuring and
retrieval. Computer Journal 14(4):407-412, 1971.
(以圖論的方法解決階層式分類問題的論文，但此法容易受相似度係數的影響）
4. C.T. Zahn. Graph-theoretical method for detecting and describing
gestalt clusters. IEEE Transactions on Computers, C-20(1):68-86,
January 1971. (以圖論的方法解決階層式分類問題的論文，此法克服了相似度
係數的影響）
5. Almuallim, H.; Akiba, Y.; and Kaneda, S. 1996. An Efficient
algorithm for finding optimal gain-ratio multiple-split tests on
hierarchical attributes in decision tree learning. In Proc. AAAI-96,
703-708. (一個 Focus on hierarchically structured attributed rather
than classes)
6. Fisher, D. H. 1987 , Knowledge acquisition via incremental concep-
tual clustering. Machine Learning 2: 139-172.
( 一個 unsupervised hierarchical clustering 的方法)
7. Pearl, J. 1988, Probabilistic Reasoning in Intelligent Systems:
Networks of Plausible Inference. Morgan-Kaufmann.
( A Bayesian network allows us to provide compact description of
comples distributions over a large number of random variables)
23

文件空間中正交分類樹的建構

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a 文件空間中正交分類樹的建構

Similar a 文件空間中正交分類樹的建構 (20)

Más de 鍾誠陳鍾誠

Más de 鍾誠陳鍾誠 (20)

Último

Último (7)