Unknown Word 08

Pattern Mining to Chinese Unknown word Extraction 資工碩二 955202037 楊傑程 2008/08/12

Outline ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Introduction ,[object Object],[object Object],[object Object]

Introduction ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Introduction- types of unknown words ,[object Object],Types of Chinese unknown words Organization names Ex: 華碩電腦 Ex: 總經理、電腦化 Abbreviation Proper Names Ex: 中油、中大 Personal names Ex: 王小明 Derived Words Compounds Ex: 電腦桌、搜尋法 Numeric type compounds Ex: 1986 年、 19 巷

Introduction- unknown word identification ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Introduction- unknown word identification ,[object Object],[object Object],[object Object],[object Object],[object Object]

Introduction- detection and extraction ,[object Object],[object Object]

Introduction- applied techniques ,[object Object],[object Object],[object Object]

Related Works- particular methods ,[object Object],[object Object],[object Object],[object Object]

Related Works- general methods (Rule-based) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Related Works- general methods (Statistical Model-based) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Related Works – Data ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Unknown Word Detection & Extraction ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Unknown Word Detection ,[object Object],[object Object]

Initial segmentation Dictionary (Libtabe lexicon ) POS tagging -TnT Unknown word detection Detection rules Pattern Mining to derive detection rules Training data (8/10 balanced corpus) Phase2 training data label Testing 2 ( un-segmented ) (1/10 balanced corpus) Initial segmentation POS tagging -TnT Phase1 Training Phase1 Testing

Unknown word detection- Pattern Mining ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Unknown word detection- Continuity Pattern Mining ,[object Object],[object Object],[object Object],[object Object]

Encoding ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Create detection rules ,[object Object],( 葡 (Na) , 萄 Y) : 1 ( 葡 (Na) , 萄 Y) : 1

Store data (term + term_attribute + POS) Phase2 training data Sliding Window Positive example: Find BIES Negative example: Learn and drop SVM model 2-gram SVM model 3-gram SVM model 4-gram Calculate term frequency per docs SVM training Models (3) Calculate Precision /Recall Correct segmentation 1/10 balanced corpus Merging evaluation Solve overlap and conflict (SVM) Sequential data

Unknown Word Extraction ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Positive / Negative Judgment ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Data Processing- Sliding Window ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

EX: 3-gram Model discard negative negative negative positive 運動會 () 　‧ () 　四年 () 　甲班 () 　王 (?) 　姿 (?) 　分 (?) 　‧ () 　本校 () 　為 () 　響 () 　應 () 運動會 ‧ 四年甲班王 (?) ‧ 四年甲班王 (?) 姿 (?) 四年甲班王 (?) 姿 (?) 分 (?) 甲班王 (?) B 姿 (?) I 分 (?) E ‧ 王 (?) 姿 (?) 分 (?) ‧ 本校

Statistical Information ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],prefix (0) t1 t2 t3 suffix (4)

Experiments ,[object Object],[object Object]

Unknown Word Detection ,[object Object],[object Object],[object Object],[object Object],Threshold (Accuracy) Precision Recall F-measure (our system) F-measure (AS system) 0.7 0.9324 0.4305 0.589035 0.71250 0.8 0.9008 0.5289 0.66648 0.752447 0.9 0.8343 0.7148 0.769941 0.76955 0.95 0.764 0.8288 0.795082 0.76553 0.98 0.686 0.8786 0.770446 0.744036

Unknown Word Extraction ,[object Object],[object Object],[object Object]

Unknown Word Extraction ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Testing result ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

SVM testing result ,[object Object],N-gram F1 score Precision Recall Only 4-gram 0.164 0.1 0.57 Only 3-gram 0.377 0.257 0.70 Only 2-gram 0.587 0.492 0.73 Three n-gram models combined 0.524 0.457 0.614

Ongoing Experiments ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],inst# actual predicted error prediction 1 2:-1 2:-1 - 0.984 2 1:1 1:1 - 0.933 …………………………………………… .. 116 2:-1 1:1 + 0.505

0.75 0.688 0.825 Bagging (SMO) Confidence=0.97 + all p 3 0.743 0.674 0.829 Libsvm Confidence=0.97 + all p 3 0.72 0.722 0.717 Libsvm P:N= 1:4 3 0.678 0.674 F-Measure 0.612 0.716 Recall Precision 0.759 0.637 Result Libsvm Libsvm Algorithm (inside) Confidence=0.95 + error + all p P:N = 1:2 Sample By 2 2 Gram

Unknown Word 08

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Unknown Word 08

Similar to Unknown Word 08 (20)

Recently uploaded

Recently uploaded (20)

Unknown Word 08