Más contenido relacionado Mining the Parkinson's Telemonitoring Data Set2. 大綱
什麼是帕金森氏症? Naïve Bayesian
classification
資料描述
Support vector machines
實驗設計 K-nearest neighbor
測量方法 Bayesian networks
演算法 Neural networks
Decision tree Genetic algorithms
Rule induction Fuzzy classification
Classification using 結果比較
association rules
結論
2010/5/28 Web Mining course, CSIE dept., FJU 2
3. 什麼是帕金森氏症?
帕金森氏症(Parkinson's Disease)是一種慢性的中
樞神經系統失調。它的病因目前仍不明,推測和
大腦底部基底核(basal ganglia)以及黑質
(substantial nigra)腦細胞快速退化,無法製造足
夠的神經引導物質多巴胺(Dopamine)和膽鹼作用
增強有關。腦內需要多巴胺來指揮肌肉的活動;
缺乏足夠的多巴胺就產生各種活動障礙。
會有靜止時顫抖、僵直、運動不能和運動遲緩、
平衡感差、便秘、講話速度緩慢、音調呆板、寫
字越寫越小等症狀(黑質內之細胞喪失80%時)
2010/5/28 Web Mining course, CSIE dept., FJU 3
5. 資料描述 (1/4)
以美國十個醫學中心和英特爾(Intel)合作發展的
一套電子監控設備記錄帕金森氏症病患說話時的
聲音訊號,來預測帕金森氏症病患在帕金森式症
症狀衡量表(UPDRS)中所獲得的分數,藉以判別
患者病症程度。
共計有5875筆資料,記錄了六個月內,42名早期
帕金森氏症病患於家中使用電子監控設備的聲音
訊號(一名病患大約有200筆左右的資料)。
2010/5/28 Web Mining course, CSIE dept., FJU 5
6. 資料描述 (2/4)
資料屬性
subject#:受測者的代號
age:受測者年齡
sex :受測者性別,0代表男性,1代表女性
test_time:使用電子監控設備的時間。整數部分代表
天數(例:5.6431)。
motor_UPDRS:受測者利用線性內差法所得之帕金森
症症狀衡量表分數(運動部分)
total_UPDRS:受測者利用線性內差法所得之帕金森症
症狀衡量表分數(總分)
2010/5/28 Web Mining course, CSIE dept., FJU 6
7. 資料描述 (3/4)
Jitter(%), Jitter(Abs), Jitter:RAP, Jitter:PPQ5,
Jitter:DDP:一些對基頻(fundamental frequency)變異
的測量
Shimmer, Shimmer(dB), Shimmer:APQ3,
Shimmer:APQ5, Shimmer:APQ11, Shimmer:DDA:
一些對振幅變異的測量
NHR, HNR:兩種對雜訊干擾的判斷
RPDE:非線性動態複雜度分析
DFA:碎形信號指數
PPE:非線性的基頻變異測量
2010/5/28 Web Mining course, CSIE dept., FJU 7
8. 資料描述 (4/4)
其中只有sex為名詞性(nominal)的資料,其餘皆
為數值(numerical)
Unified Parkinson's Disease Rating Scale(UDPRS)
分為四大部分,每一部份再細分為不同的測量指標
1. 智能、行為、情緒(mentation, behavior and mood)
2. 日常生活能力(activities of daily living)
3. 動作能力之檢查(motor examination)
4. 治療之併發症(complications of therapy)
最後依據量測結果對患者做病症之分級,藉以判斷患
者的生活能力。
共分為十個等級(0% ~ 100%)
2010/5/28 Web Mining course, CSIE dept., FJU 8
9. 實驗設計
演算法本身的比較
不同的參數設定,如決策樹是否修剪(pruning),或是
類神經網路隱藏層(hidden layer)的數量等。
不同的測試設定(test options),如cross validation、
percentage split等。
各演算法之間的比較
以70%為訓練資料,30%為測試資料
以各個演算法之最佳精準度之結果作為比較依據
資料正規化(numerical to nominal)
相同的執行環境
2010/5/28 Web Mining course, CSIE dept., FJU 9
10. 測量方法
精確度(accuracy)
Precision/Recall/TP(TN) rate/FP(FN) rate/F-measure
錯誤率(error rate)
Mean absolute error/root mean square error/relative
absolute error/root relative squared error
一致性(agreement)
Observed agreement/chance agreement/Kappa
執行時間(time)
消耗資源(memory)
2010/5/28 Web Mining course, CSIE dept., FJU 10
11. Decision Tree
J48(C4.5)
簡單、快速、準確率高
參數設定較尐
老師有教過
參數設定
Pruned/unpruned/redu
ced error pruning(RCP)
Confidence factor(CF):
0.1~1.0
Random seed(RS): 1~10
2010/5/28 Web Mining course, CSIE dept., FJU 11
12. Decision Tree
數據與結果(default: CF = 0.25, unpruned = false, RCP = false, RS = 1)
Correctly(%) Precision(avg.) Leaves Size Time(s)
Unpruned 93.8138 0.938 254 507 0.9
Pruned 93.9841 0.94 242 483 0.86
RCP 90.4654 0.905 199 397 0.54
CF = 0.1 93.9841 0.94 232 463 1.03
CF = 0.5 93.9841 0.94 242 483 0.99
RS = 2 95.9705 0.961 242 483 1.02
RS = 3 95.63 0.956 242 483 0.97
CF = 0.75 95.9137 0.96 250 499 3.83
2010/5/28 Web Mining course, CSIE dept., FJU 12
14. Neural Network
適合數值資料
參數設定
Decay(D)
Hidden layer(HL)
Learning rate(LR)
Training time(TT)
Random seed(RS)
GUI
2010/5/28 Web Mining course, CSIE dept., FJU 14
15. Neural Network
數據與結果(default: D = false, HL = a, LR = 0.3, TT = 500, RS = 1, GUI = false)
Correctly(%) Precision(avg.) Recall(avg.) Time(s)
HL = a, LR = 0.3 52.8377 0.545 0.528 81.02
HL = t, LR = 0.3 58.5698 0.599 0.586 147.26
HL = 1, LR = 0.3 22.9852 0.114 0.23 14.62
HL = t, LR = 1, D 48.6379 0.498 0.486 147.84
HL = t, LR = 0.5, D 37.4007 0.395 0.374 156.96
HL = t, LR = 0.5 59.5346 0.612 0.595 148.49
HL = t, LR = 0.1 66.5153 0.682 0.665 149.6
TT = 1000 69.9773 0.708 0.7 300.89
RS = 2 69.1827 0.698 0.692 149.54
2010/5/28 Web Mining course, CSIE dept., FJU 15
16. Bayesian network
適用在離散型
依照P(Xi | Pi)此條件機率寫出條件機率表
缺點:若節點Xi是由很多的「因」所造成的「果」,
條件機率表就會變得在計算上既複雜又使用不便。
2010/5/28 Web Mining course, CSIE dept., FJU 16
17. Bayesian network
適用在離散型
依照P(Xi | Pi)此條件機
率寫出條件機率表
缺點:若節點Xi是由很
多的「因」所造成的「
果」,條件機率表就會
變得在計算上既複雜又
使用不便。
參數設定
MaxNrOfParents
2010/5/28 Web Mining course, CSIE dept., FJU 17
18. Bayesian network
數據與結果(default: Estimator = Simple Estimator, Search Algorithm = K2)
Correctly(%) Precision(avg.) Recall(avg.) Time(s)
MaxNrOfParents = 1 39.7843 0.457 0.398 0.28
MaxNrOfParents = 2 58.9671 0.593 0.59 0.53
MaxNrOfParents = 3 57.605 0.579 0.576 1.23
2010/5/28 Web Mining course, CSIE dept., FJU 18
20. K-Nearest Neighbor
優點:
突破統計模型對資料的限制
預測能力更優於決策樹以及類神經網路
KNN分類器非常簡單
缺點:
計算未知樣本與已知樣本間距離的成本過高,
特別是在高維度的特徵空間且有大量訓練資料
時。
2010/5/28 Web Mining course, CSIE dept., FJU 20
24. K-Nearest Neighbor
數據與結果(default: KNN = 1)
Correctly(%) Precision(avg.) Recall(avg.) Time(s)
K=1 73.6095 0.736 0.736 0.13
K=2 70.8854 0.718 0.709 0.1
K=3 74.1771 0.749 0.742 0.12
K=4 72.4177 0.726 0.724 0.11
K=5 73.1555 0.732 0.732 0.11
2010/5/28 Web Mining course, CSIE dept., FJU 24
25. 75
74
73
72
71
70
69
1 2 3 4 5 6 7 8 9 10
KNN 正確率
2010/5/28 Web Mining course, CSIE dept., FJU 25
26. Association Rules
利用由下往上(bottom-up)循序漸進的方式,藉
由產生與測試候選項目集得到高頻項目集合,然
後再從高頻項目集中找出有用的關聯法則。
可接受的輸入(input)必須是名詞性(nominal)的,
所以必須將所有的屬性先離散化(discretize)。
age: {36, 49, 55, 56, 57, 58, 59, 60, 61, 62, 63, 65, 66, 67,
68, 71, 72, 73, 74, 75, 76, 78, 85}
其他屬性如何離散化才有意義?
參數設定
Minimum confidence: 0.1~0.9
2010/5/28 Web Mining course, CSIE dept., FJU 26
27. Association Rules
數據與結果
一直到minimum confidence = 0.1才有結果。
Minimum support = 0.15(881 instances)
Number of cycles performed: 17
Shimmer='(-inf-0.056174]' Shimmer(dB)='(-inf-
0.4422]' Shimmer:APQ5='(-inf-0.034956]'
Shimmer:APQ11='(-inf-0.057084]' NHR='(-inf-
0.149881]' 4932 ==> total_UPDRS='(21.3976-26.1968]'
894 conf:(0.18)
2010/5/28 Web Mining course, CSIE dept., FJU 27
28. Rule Induction
尋找在同一事件中出現的不同項目的相關性。
一系列有意義的規則,顯示數據中蘊含的關聯性。
優點:
尋找多條規則,每個規則可得出一個不同結論、結果清
晰有用、可以處理增加的數據、計算的消耗量可以預見
、規則集比決策樹更具有一般性。
缺點:
花費時間長、難以決定正確的數據、易忽略稀有數據。
2010/5/28 Web Mining course, CSIE dept., FJU 28
30. Rule Induction
建立決策表
需要決定表格的大小
計算max decision table中的列數(columns) x 每個
altermatives condition的數目(ex. Condition列為3,
altermatives選擇為2個, 則每個condition x , 即有2^3=8
個possibilities)
盡量簡化表格,並刪除以下的狀況
不可能發生的狀況(impossible)
前後矛盾的狀況(inconsistencies)
冗長、多餘的狀況(redundancies)
2010/5/28 Web Mining course, CSIE dept., FJU 30
31. Rule Induction
參數設定
Search(S):選擇不同的演算法找出建立表格的屬性
Random seed(RS)
數據與結果
選擇不同的演算法沒有什麼太大的差異,都是以age、
sex、test_time、total_UPDRS來建構表格。
調整random seed = 3有最高的準確率。
Number of Rules : 975
Correctly Classified Instances: 74.6879 %
Precision: 0.758
2010/5/28 Web Mining course, CSIE dept., FJU 31
32. Naive Bayesian
前提假設
所有屬性對其類別具有conditional independence
估計 P(C1 | A1, A2) 和 P(C2 | A1, A2) 何者機率較
高,判斷A1, A2屬於C1或C2。
P(A1, A2 | C1) = P(A1 | C1) * P(A2 | C1)
參數設定
useKernelEstimator:Use a kernel estimator for
numeric attributes rather than a normal distribution
UseSupervisedDiscretization
Random seed(RS)
2010/5/28 Web Mining course, CSIE dept., FJU 32
33. Naive Bayesian
數據結果(default: useKernelEstimator = false, UseSupervisedDiscretization =
false)
Correctly(%) Precision(avg.) Recall(avg.) Time(s)
Original 18.5017 0.326 0.185 0.08
UseKernelEsti
24.0068 0.33 0.24 0.1
mator
UseSupervised
38.025 0.449 0.38 0.25
Discretization
RS = 5 40.4654 0.46 0.405 0.23
2010/5/28 Web Mining course, CSIE dept., FJU 33
34. Support Vector Machine
Support vector machine(SVM)在資料的分佈空間
中,找出一個超平面(hyper-plane),依資料特性
將資料分為兩類。
2010/5/28 Web Mining course, CSIE dept., FJU 34
36. Support Vector Machine
參數設定
Kernel
The normalized polynomial kernel(norPoly)
The polynomial kernel(Poly)
The Pearson VII function-based universal kernel(PUK)
The RBF kernel(RBF)
C: The complexity parameter
Random seed(RS)
2010/5/28 Web Mining course, CSIE dept., FJU 36
37. Support Vector Machine
數據結果(default: c = 1.0)
Correctly(%) Precision(avg.) Recall(avg.) Time(s)
norPoly Failed
Poly 28.5471 0.275 0.285 5.44
PUK Failed
RBF Failed
C = 0.7 Failed
C = 1.5 Failed
2010/5/28 Web Mining course, CSIE dept., FJU 37
39. 討論與結論
Weka記憶體管理很有問題
Total_UPDR的切割
每個演算法所能接受的輸入資料的性質不同
如何離散化屬性才有意義?
決策樹較適用於此資料集,準確度高且速度快
2010/5/28 Web Mining course, CSIE dept., FJU 39
40. 參考資料
[1]A Tsanas, MA Little, PE McSharry, LO Ramig (2009) ‘Accurate
telemonitoring of Parkinson disease progression by non-invasive
speech tests’, IEEE Transactions on Biomedical Engineering (to
appear).
[2]http://archive.ics.uci.edu/ml/datasets/Parkinsons+Telemonitoring
[3]http://www.mdvu.org/library/ratingscales/pd/updrs.pdf
[4]http://www.neuro.org.tw/movement/measure/view.asp?m_no=19
&page=1
[5]http://zh.wikipedia.org/zh/帕金森氏症
[6]http://en.wikipedia.org/wiki/Unified_Parkinson's_Disease_Rating_S
cale
[7]http://www.cs.waikato.ac.nz/~ml/weka/index_related.html
2010/5/28 Web Mining course, CSIE dept., FJU 40