Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

利用資訊擷取技術之適性化語言輔助學習系統

2.127 visualizaciones

Publicado el

Publicado en: Tecnología, Meditación
  • Inicia sesión para ver los comentarios

  • Sé el primero en recomendar esto

利用資訊擷取技術之適性化語言輔助學習系統

  1. 1. 利用資訊擷取技術之適性化語言輔助學習系統 Adaptive English Learning System Based On Information Retrieval Technique 吳美宜 張鈺玫 蔡秉宏 蔡孟璇 劉怡君 郭浩甫 蘇世豪 長榮大學資訊管理系 barbara@mail.cju.edu.tw 摘要 本論文提出一個以資訊擷取技術為基礎之適性化英文輔助學習系統,主要包含四個 子功能:英文文章搜尋代理人程式、使用者描述記錄、英文文章推薦代理人程式、英文 文章閱讀輔助介面。使用我們所提出的系統架構,使用者可以根據自己的興趣和英文程 度來閱讀文章以增進其閱讀理解能力。本系統使用向量模根據「使用者描述記錄」中之 各類別屬性來進行文章擷取與推薦。另外為驗證本系統所採用之屬性分類之正確性,我 們採用回傳率(recall)以及正確率(precision)來比較文章經本系統分機制所得到之文章類 別與原始網站對該文章之分類,實驗結果顯示二者分類的情形相似度很高。 關鍵字:適性化語言輔助學習系統、資訊檢索、推薦系統、向量模式。 壹、簡介 在網際網路中藏有任何你想要的資料,如何有效地擷取出有用的資訊已足以影響一 個企業或個人的成敗。一些學者也提出不同的有效搜尋擷取技術(Manber et al., 1990; Salton,1989; Witten et al.,1999; Faloutsos et al.,1984).利用閱讀以增進語研理解能力,是一 種有效的學習方式;但是否挑選到適合的文章閱讀會大大影響學習的興趣與效率,知名 的推薦系統 TalkMine(Rocha, 1999)便是一套可依多項文件內容協同查詢的適應性推薦系 統,該系統還可應用在多資料庫間之交互查詢。網際網路上充滿了可以增進我們英語理 解閱讀能力的好文章,如果可以有效率地從中挑選出適合自己興趣與英語能力的文章, 將可充份運用網際網路無遠弗界、動態更新的特性,輕鬆增強英語能力。本研究的目的, 就是要建制一套系統,根據每個使用者記錄描述檔案中之內容,篩選每日自網際網路收 集到的新文章,以推薦給使用者,並動態地調整使用者記錄描述檔案的內容,以更貼近 使用者的需求。使用者透過自動推薦系統,可以有效的減少文章的搜尋時間。 本研究所提出的系統主要包含四個子功能:英文文章搜尋代理人程式、使用者描述 記錄、英文文章推薦代理人程式、英文文章閱讀輔助介面。接下來的部分我們將介紹這 些功能。圖 1 顯示本系統之系統架構圖, 一、英文文章搜尋代理人程式 此搜尋代理人以機器人程式(robot)去抓取 Internet 上特定新聞網站每日的新聞文 章,利用資訊擷取技術將抓回來的網頁文章去除 tag,並針對剩下的網頁內容去除 stop- word,將常用的高頻詞移除,留下有檢索意義的字詞,再將這些字詞分別與朗文字典的 十四類字詞做比對,計算出處理完後該篇文章中有意義的字詞各類字詞所佔的比例,利 用 tf-idf 算出各類權重,最後將處理完的內容存入資料庫。此方法不需把網頁複製並存 到本機端(成本太高),也不用即時地存取遠端文件並計算其權重值(速度太慢)。依據詞 頻和反查檔分類,將群集內相似度高和群集間相似度低來達到更精確的分類。
  2. 2. 圖 1 系統架構圖 圖 2 網路資訊檢索的流程 最普及的網頁文件格式為 Html,然而 Html 格式中的標籤,對文件的索引和分類而 言是無價值的,所以在進行接下來的處理之前我們將 Html 的標籤加以去除。 文章當中出現頻率高的字並不見得是一個很好的辨識指標,如冠詞、介係詞、連接 詞等高頻字被稱為 stopwords,這些字對文件內容之索引與分類而言亦不具代表性,因 此亦會加以刪除。 另外,文件當中的動詞和名詞,都會有不同的型態,如過去式、現在式、和複數型 態,有時會出現形容詞、副詞等變化型態,也就是說同一個字根可能會出現多種的型態 變化,這些字基本上都是相同的意義,若略過不處理,那麼在分析時會將這些字視為不 同意義的字,進而影響其文字的重要性及搜尋的結果。因此,在這裡必須要將文件中具 相同意義之詞彙還原成原始字根,名詞的複數型態也是還原成單數型態,而字尾變化遠
  3. 3. 比字首變化來的重要。字根還原當中最有名的為波特演算法(Rijsbergen et al.,1980),它 是使用字尾字典來做為字根還原的動作,此論文中我們運用波特演算法來作字根還原 (stemming)。 二、使用者描述記錄 爲了推薦較好的文章給使用者,建立使用者profile是需要的。登入這個系統,閱讀 數篇文章後,想要測驗一下自己的英文能力,本系統尚還提供了線上模擬全民英檢測 (http://www.gept.org.tw/),將測驗題目分為初級、中級、中高級,供使用者自行測驗以了 解自己英文程度。此外,一開始使用者可以自行設定十四類的值來推薦使用者有興趣的 文章,隨著使用者選讀所推薦之文章,系統將動態地調整使用者描述記錄檔中十四類字 詞之特徵值。 調整的方法如下: Wi = α ∗ Wi + β * Wi * ' * 其中 Wi 代表使用者描述記錄調整後的第 i 個特徵值,Wi 是調整前的第 i 個特徵值, 而 Wi 則為被選讀文章利用 1.1 之方法算出的第 i 個特徵值。另外 α 與 β 為權重值,始用 ' 者可自行調整新選讀文章影響使用者描述記錄的程度大小。 三、英文文章推薦代理人程式 向量模式(Baeza-Yates et al.,1999) 在我們系統中被用在作相關的計算,根據使用者 興趣、使用者英文的理解力來實作推薦這個動作。 當使用者一開始使用這系統時,系統會蒐集使用者記錄資料到 user profile 裡面,在 這同時,我們根據每一篇蒐集來的文章中的字彙屬性來將文章分門別類。根據朗文字典 將字彙分成十四類,而這十四類如表 1 所示。 表 1 朗文字典十四類分類 編號 類別 內容 數量 Life and Living Thing 生命與生物 1 A 919 The Body: its Functions and Welfare 身體及機能與健康 2 B 1188 People and the Family 人與家庭 3 C 2365 Buildings, House, the Home, Clothes, Belongings , & Personal Care 4 D 1040 建築物,房屋,家庭,服裝,財物與個人清潔衛生 Food, Drink, and Farming 食物,飲料與農業 5 E 750 Feelings, Emotions, Attitudes, and Sensations 感情,情感,態度與知覺 6 F 1193 Thought and Communication, Language and Grammar 思想與聯絡,語 7 G 1690 言與方法 Substances, Materials, Objects, and Equipment 物質,材料,物件與設 8 H 1105 備 Arts and Crafts, Science and Technology, Industry and Education 工藝 9 I 635 美術,科學技術,工業與教育 Number, Measurment , Money, and Commerce 數字,計量,金錢與商 10 J 1051 業 Entertainment, Sports, and Games 娛樂,運動與遊戲 11 K 1129 Space and Time 空間與時間 12 L 1256 Movement, Location, Travel, and Transport 運動,位置,旅行與運輸 13 M 1463 General and Abstract Terms 泛指詞與抽象詞 14 N 1684
  4. 4. 在每一篇收集回來的文章當中,我們使用這個分類表把文章中剩下的有意義字彙來 加以分類,並利用tf-idf模型將文件轉換成十四個值的正規化向量。至於有關於使用者英 文理解程度的推薦,我們提供一種模擬的線上測驗給使用者,我們根據使用者所得到的 分數將他們分成三個類別:初級、中級、以及中高級。此時,我們根據全民英檢所提供 的字彙表,將收集來的文章也分成三的類別。 字詞ti,j是文件dj 中屬於類別Ci出現的原始頻率(也就是說ti,j在這文章dj中所出現的次 數)。N為當天蒐集回來的文件總數而ni為類別Ci中所出現的文章篇數。在文件dj中屬於 類別Ci的正規化頻率fi,j公式如下 ti , j f i, j = max (t k , j ) 1≤ k ≤ g tij:出現在文件dj中tij出現的頻率(次數) max(tk, j):所有出現在dj中最高字詞的頻率 當 g 是 14 的時候是根據使用者的興趣來推薦,而 g 是 3 時是使用英文程度來推薦。 idfi 就是出現文章數的倒數,其公式如下: N idf i = log ni 類別 Ci 的權重公式如下: wi , j = f i , j × idf i 至於這個查詢類別的權重,如果使用者所要查詢的文章是較為簡短時,我們採用 Salton and Buckley(Salton et al.,1988) 所提出的方法,其方法如下 0.5 × t i , j N wi ,q = (0.5 + ) × log max(t k , j ) ni 1≤ k ≤ g 此外,推薦系統中 profile 類別權重 wi , p 的用法也可以用以下方式計算 14 ∑w × wi , p vv d•p i, j sim(d j , p ) = v v = i =1 d×p 14 14 ∑ w2i , j × ∑w 2 i, p i =1 i =1 vi , p wi , p = max(v k , p ) 1≤ k ≤ g vi , p 是使用者根據他有興趣的程度給定類別 i 的值 計算使用者 profile 和向量模式所檢索出來的文章兩者的相似度,我們可以找出與使 用者興趣最接近的文章,並推薦出前十名給使用者。 v v 我們定義這個 profile 的向量 p 為 p = ( w1, p , w2, p ,..., wt , p ) 此時 t 為所有類別的總數,此 論 文 採 用 朗 文 字 典 提 供 的 十 四 類 分 類 , dj 為 蒐 集 文 章 的 向 量 , 其 表 示 如 下 v v v d j = ( w1, j , w2, j ,..., wt , j ) ,關於 prfole p 中文件 dj 的相似度,我們用向量 d j 和 p 之間的相關 性來計算,根據相似度,文章將依不同的排序推薦給使用者。 四、英文文章閱讀輔助介面 在輔助閱讀介面上,顯示所閱讀文章所含字彙的分類與難易雷達圖。使用者 profile 會隨著使用者閱讀任何一篇新的文章而修改調整成適合使用者的 profile。 在輔助閱讀介面上,推薦系統會在雷達圖上顯示我們所閱讀文章的分類和難易程
  5. 5. 度,使用這個系統,使用者可以透過網際網路檢索出適合他興趣與英文語言程度相近的 文章來學習以及閱讀。 參、實驗結果 使用推薦系統的部份使用者畫面顯示於圖 3~圖 6 中 圖 3 顯示根據使用者點閱的次 , 數來排序文章的功能,圖中雷達圖顯示出該篇文章在十四類中分佈的程度;圖 4 顯示根 據使用者興趣(使用者描述記錄)來推薦文章的功能,其中雷達圖顯示出使用者興趣在十 四類中分佈的程度;圖 5 為使用者閱讀排序第一名的文章畫面。此外相同的方法可用於 電影的字幕上 且推薦適合的電影給使用者; 6 顯示根據使用者興趣推薦電影的功能。 , 圖 最後,為了驗證本研究推薦文章時分類的正確性,我們設計出一個實驗來對推薦系統所 分類的結果與原始網站的分類進行比較。朗文字典的 14 個類別中有 number、space、 sport、body、food 等類別與 CNN 網站的類別相同。因此當使用者設定其 profile 時特別 加強其中一個類別時,依原網站分類即屬於該類的文章便應該被推薦給該使用者。回傳 率 (Recall)與精確度 (Precision)的定義如下: Ri a Ri a Re call = Pr ecision = Ri A 其中, Ri 為當天所收集到類別 i 的文件數,|A|為系統推薦結果的文件數, Ri a 為系統推 薦結果中屬於類別 i 的文件數。圖 7 將精確度分成十一個回傳標準來表示實驗結果。實 驗結果顯示,除了 space 類別外,其他類別在回傳率為 80%時,都具有 80%以上的精確 度。 圖 4 根據使用者興趣來推薦文章的功能 圖 3 根據使用者點閱的次數來排序文章 的功能 圖 6 表示根據使用者興趣推薦電影的功 圖 5 閱讀排序第一名的文章畫面 能
  6. 6. 歐基里德實驗結果 120% 100% Number 80% Precision Space 60% Sports 40% Body 20% Food 0% 0% % % % % % % % % % 0% 10 20 30 40 50 60 70 80 90 10 Recall 圖 7 以十一個回傳等級來表示所挑出五個類別的精確度 肆、結論 此研究是一個以資訊檢索技術架構為基礎的適性化英文學習系統,使用我們所提出 的系統架構,使用者可以根據自己的興趣和英文程度來閱讀文章以改善其閱讀理解能 力,此系統使用向量模式來分類文章。實驗結果顯示本推薦系統的文章分類結果和原始 網站所分類的情形相似度頗高,足以作為推薦的根據。 致謝 感謝國科會補助此計劃經費,以利本研究之進行。 參考文獻 [1] U. Manber and G. Myers. Suffix arrays: A new method for on-line string searches. In proc. Of the 1st ACM-SIAM Symp. On Discrete algorithms, 1990. [2] G. Salton. Information Retrieval : Data structures and Algorithms. Addison-Wesley, Massachussetts, 1989. [3] I. H. Witten, A. Moffat, and T.C.Bell. Managing Gigabytes : Compressing and Indexing Documents and Images. Morgan Kaufman Publ., San Francisco, 1999. [4] C. Faloutsos and S. Christodoulakis. Signature files: An access method for documents and its analytical performance evaluation. ACM Transaction on Office Information Systems, 2(4)L267-288, October 1984 [5] L. Rocha. TalkMine: Knowledge Mining In Distributed Information Systems, Proceedings of the Association for Computing Machinery (ACM) - Digital Libraries 99. U.C. Berkely, August 1999. pp. 242-243. [6] C.J. Van Rijsbergen, S.E. Robertson and M.F. Porter, 1980. New models in probabilistic information retrieval. London: British Library. (British Library Research and Development Report, no. 5587) [7] The language training & Test Center in Taiwan. Available from <http://www.gept.org.tw/ >. [8] G. Salton and C. Buckley. Term-weighting approaches in automatic retrieval. Information Processing & Management, 24(5):513-523, 1988. [9] R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison-Wesley Publishers, New York, 1999.

×