Mining the Parkinson's Telemonitoring Data Set

分類演算法之比較—以帕金
森氏症電子監控資料為例

組別：男人真命苦
演講者：周思婷、林芳竹、趙健復、鄭筱頻、盧松筠
指導教授：徐嘉連

天主教輔仁大學資訊工程學系網際網路資料探勘課程

大綱
 什麼是帕金森氏症？  Naïve Bayesian
classification
 資料描述
 Support vector machines
 實驗設計  K-nearest neighbor
 測量方法  Bayesian networks
 演算法  Neural networks
 Decision tree  Genetic algorithms
 Rule induction  Fuzzy classification
 Classification using  結果比較
association rules
 結論

2010/5/28 Web Mining course, CSIE dept., FJU 2

什麼是帕金森氏症？
 帕金森氏症(Parkinson's Disease)是一種慢性的中
樞神經系統失調。它的病因目前仍不明，推測和
大腦底部基底核(basal ganglia)以及黑質
(substantial nigra)腦細胞快速退化，無法製造足
夠的神經引導物質多巴胺(Dopamine)和膽鹼作用
增強有關。腦內需要多巴胺來指揮肌肉的活動；
缺乏足夠的多巴胺就產生各種活動障礙。
 會有靜止時顫抖、僵直、運動不能和運動遲緩、
平衡感差、便秘、講話速度緩慢、音調呆板、寫
字越寫越小等症狀(黑質內之細胞喪失80%時)


多巴胺傳導路徑及其作用


資料描述 (1/4)

 以美國十個醫學中心和英特爾(Intel)合作發展的
一套電子監控設備記錄帕金森氏症病患說話時的
聲音訊號，來預測帕金森氏症病患在帕金森式症
症狀衡量表(UPDRS)中所獲得的分數，藉以判別
患者病症程度。
 共計有5875筆資料，記錄了六個月內，42名早期
帕金森氏症病患於家中使用電子監控設備的聲音
訊號(一名病患大約有200筆左右的資料)。


資料描述 (2/4)

 資料屬性
 subject#：受測者的代號
 age：受測者年齡
 sex ：受測者性別，0代表男性，1代表女性
 test_time：使用電子監控設備的時間。整數部分代表
天數(例：5.6431)。
 motor_UPDRS：受測者利用線性內差法所得之帕金森
症症狀衡量表分數(運動部分)
 total_UPDRS：受測者利用線性內差法所得之帕金森症
症狀衡量表分數(總分)


資料描述 (3/4)

 Jitter(%), Jitter(Abs), Jitter:RAP, Jitter:PPQ5,
Jitter:DDP：一些對基頻(fundamental frequency)變異
的測量
 Shimmer, Shimmer(dB), Shimmer:APQ3,
Shimmer:APQ5, Shimmer:APQ11, Shimmer:DDA：
一些對振幅變異的測量
 NHR, HNR：兩種對雜訊干擾的判斷
 RPDE：非線性動態複雜度分析
 DFA：碎形信號指數
 PPE：非線性的基頻變異測量


資料描述 (4/4)

 其中只有sex為名詞性(nominal)的資料，其餘皆
為數值(numerical)
 Unified Parkinson's Disease Rating Scale(UDPRS)
 分為四大部分，每一部份再細分為不同的測量指標
1. 智能、行為、情緒(mentation, behavior and mood)
2. 日常生活能力(activities of daily living)
3. 動作能力之檢查(motor examination)
4. 治療之併發症(complications of therapy)
 最後依據量測結果對患者做病症之分級，藉以判斷患
者的生活能力。
 共分為十個等級(0% ~ 100%)


實驗設計
 演算法本身的比較
 不同的參數設定，如決策樹是否修剪(pruning)，或是
類神經網路隱藏層(hidden layer)的數量等。
 不同的測試設定(test options)，如cross validation、
percentage split等。
 各演算法之間的比較
 以70%為訓練資料，30%為測試資料
 以各個演算法之最佳精準度之結果作為比較依據
 資料正規化(numerical to nominal)
 相同的執行環境


測量方法
 精確度(accuracy)
 Precision/Recall/TP(TN) rate/FP(FN) rate/F-measure
 錯誤率(error rate)
 Mean absolute error/root mean square error/relative
absolute error/root relative squared error
 一致性(agreement)
 Observed agreement/chance agreement/Kappa
 執行時間(time)
 消耗資源(memory)


Decision Tree
 J48(C4.5)
 簡單、快速、準確率高
 參數設定較尐
 老師有教過
 參數設定
 Pruned/unpruned/redu
ced error pruning(RCP)
 Confidence factor(CF):
0.1~1.0
 Random seed(RS): 1~10


Decision Tree
 數據與結果(default: CF = 0.25, unpruned = false, RCP = false, RS = 1)
Correctly(%) Precision(avg.) Leaves Size Time(s)
Unpruned 93.8138 0.938 254 507 0.9
Pruned 93.9841 0.94 242 483 0.86
RCP 90.4654 0.905 199 397 0.54
CF = 0.1 93.9841 0.94 232 463 1.03
CF = 0.5 93.9841 0.94 242 483 0.99
RS = 2 95.9705 0.961 242 483 1.02
RS = 3 95.63 0.956 242 483 0.97
CF = 0.75 95.9137 0.96 250 499 3.83


Decision Tree, level = 17, root = age


Neural Network
 適合數值資料
 參數設定
 Decay(D)
 Hidden layer(HL)
 Learning rate(LR)
 Training time(TT)
 Random seed(RS)
 GUI


Neural Network
 數據與結果(default: D = false, HL = a, LR = 0.3, TT = 500, RS = 1, GUI = false)
Correctly(%) Precision(avg.) Recall(avg.) Time(s)
HL = a, LR = 0.3 52.8377 0.545 0.528 81.02
HL = t, LR = 0.3 58.5698 0.599 0.586 147.26
HL = 1, LR = 0.3 22.9852 0.114 0.23 14.62
HL = t, LR = 1, D 48.6379 0.498 0.486 147.84
HL = t, LR = 0.5, D 37.4007 0.395 0.374 156.96
HL = t, LR = 0.5 59.5346 0.612 0.595 148.49
HL = t, LR = 0.1 66.5153 0.682 0.665 149.6
TT = 1000 69.9773 0.708 0.7 300.89
RS = 2 69.1827 0.698 0.692 149.54


Bayesian network

 適用在離散型
 依照P(Xi | Pi)此條件機率寫出條件機率表
 缺點：若節點Xi是由很多的「因」所造成的「果」，
條件機率表就會變得在計算上既複雜又使用不便。

Bayesian network
 適用在離散型
 依照P(Xi | Pi)此條件機
率寫出條件機率表
 缺點：若節點Xi是由很
多的「因」所造成的「
果」，條件機率表就會
變得在計算上既複雜又
使用不便。
 參數設定
 MaxNrOfParents

Bayesian network
 數據與結果(default: Estimator = Simple Estimator, Search Algorithm = K2)

MaxNrOfParents = 1 39.7843 0.457 0.398 0.28

MaxNrOfParents = 2 58.9671 0.593 0.59 0.53

MaxNrOfParents = 3 57.605 0.579 0.576 1.23


Bayesian network


K-Nearest Neighbor
 優點：
 突破統計模型對資料的限制
 預測能力更優於決策樹以及類神經網路
 KNN分類器非常簡單
 缺點：
 計算未知樣本與已知樣本間距離的成本過高，
特別是在高維度的特徵空間且有大量訓練資料
時。


K-Nearest Neighbor
 提供四種方式實現KNN：

 Linear Search

 KD Tree

 Cover Tree

 Ball Tree

 本次以較易實現的KD Tree為主


KNN concept


K-Nearest Neighbor
 參數設定
 KNN(number of neighbors)
 Random seed(RS)


K-Nearest Neighbor
 數據與結果(default: KNN = 1)
K=1 73.6095 0.736 0.736 0.13
K=2 70.8854 0.718 0.709 0.1
K=3 74.1771 0.749 0.742 0.12
K=4 72.4177 0.726 0.724 0.11
K=5 73.1555 0.732 0.732 0.11


75

74

73

72

71

70

69
1 2 3 4 5 6 7 8 9 10

KNN 正確率


Association Rules
 利用由下往上（bottom-up）循序漸進的方式，藉
由產生與測試候選項目集得到高頻項目集合，然
後再從高頻項目集中找出有用的關聯法則。
 可接受的輸入(input)必須是名詞性(nominal)的，
所以必須將所有的屬性先離散化(discretize)。
 age: {36, 49, 55, 56, 57, 58, 59, 60, 61, 62, 63, 65, 66, 67,
68, 71, 72, 73, 74, 75, 76, 78, 85}
 其他屬性如何離散化才有意義？
 參數設定
 Minimum confidence: 0.1~0.9


Association Rules
 數據與結果
 一直到minimum confidence = 0.1才有結果。
 Minimum support = 0.15(881 instances)
 Number of cycles performed: 17
 Shimmer='(-inf-0.056174]' Shimmer(dB)='(-inf-
0.4422]' Shimmer:APQ5='(-inf-0.034956]'
Shimmer:APQ11='(-inf-0.057084]' NHR='(-inf-
0.149881]' 4932 ==> total_UPDRS='(21.3976-26.1968]'
894 conf:(0.18)


Rule Induction
 尋找在同一事件中出現的不同項目的相關性。
 一系列有意義的規則，顯示數據中蘊含的關聯性。
 優點：
 尋找多條規則，每個規則可得出一個不同結論、結果清
晰有用、可以處理增加的數據、計算的消耗量可以預見
、規則集比決策樹更具有一般性。
 缺點：
 花費時間長、難以決定正確的數據、易忽略稀有數據。


Rule Induction
 決策表(decision table)


Rule Induction
 建立決策表
 需要決定表格的大小
 計算max decision table中的列數(columns) x 每個
altermatives condition的數目(ex. Condition列為3,
altermatives選擇為2個, 則每個condition x , 即有2^3=8
個possibilities)
 盡量簡化表格，並刪除以下的狀況
 不可能發生的狀況(impossible)
 前後矛盾的狀況(inconsistencies)
 冗長、多餘的狀況(redundancies)


Rule Induction
 參數設定
 Search(S)：選擇不同的演算法找出建立表格的屬性
 Random seed(RS)
 數據與結果
 選擇不同的演算法沒有什麼太大的差異，都是以age、
sex、test_time、total_UPDRS來建構表格。
 調整random seed = 3有最高的準確率。
 Number of Rules : 975
 Correctly Classified Instances: 74.6879 %
 Precision: 0.758


Naive Bayesian
 前提假設
 所有屬性對其類別具有conditional independence
 估計 P(C1 | A1, A2) 和 P(C2 | A1, A2) 何者機率較
高，判斷A1, A2屬於C1或C2。
 P(A1, A2 | C1) = P(A1 | C1) * P(A2 | C1)
 參數設定
 useKernelEstimator：Use a kernel estimator for
numeric attributes rather than a normal distribution
 UseSupervisedDiscretization
 Random seed(RS)

Naive Bayesian
 數據結果(default: useKernelEstimator = false, UseSupervisedDiscretization =
false)

Original 18.5017 0.326 0.185 0.08
UseKernelEsti
24.0068 0.33 0.24 0.1
mator
UseSupervised
38.025 0.449 0.38 0.25
Discretization
RS = 5 40.4654 0.46 0.405 0.23


Support Vector Machine
 Support vector machine(SVM)在資料的分佈空間
中，找出一個超平面(hyper-plane)，依資料特性
將資料分為兩類。


中間實線的部分即為超平面，而虛線H1、H2則為support hyper-plane。當H1和H2之間
出現最大的Margin，即為最佳的hyper-plane


 參數設定
 Kernel
 The normalized polynomial kernel(norPoly)
 The polynomial kernel(Poly)
 The Pearson VII function-based universal kernel(PUK)
 The RBF kernel(RBF)
 C: The complexity parameter
 Random seed(RS)


 數據結果(default: c = 1.0)
norPoly Failed
Poly 28.5471 0.275 0.285 5.44
PUK Failed
RBF Failed
C = 0.7 Failed
C = 1.5 Failed


結果比較


討論與結論
 Weka記憶體管理很有問題
 Total_UPDR的切割
 每個演算法所能接受的輸入資料的性質不同
 如何離散化屬性才有意義？

 決策樹較適用於此資料集，準確度高且速度快


參考資料
 [1]A Tsanas, MA Little, PE McSharry, LO Ramig (2009) ‘Accurate
telemonitoring of Parkinson disease progression by non-invasive
speech tests’, IEEE Transactions on Biomedical Engineering (to
appear).
 [2]http://archive.ics.uci.edu/ml/datasets/Parkinsons+Telemonitoring
 [3]http://www.mdvu.org/library/ratingscales/pd/updrs.pdf
 [4]http://www.neuro.org.tw/movement/measure/view.asp?m_no=19
&page=1
 [5]http://zh.wikipedia.org/zh/帕金森氏症
 [6]http://en.wikipedia.org/wiki/Unified_Parkinson's_Disease_Rating_S
cale
 [7]http://www.cs.waikato.ac.nz/~ml/weka/index_related.html


Mining the Parkinson's Telemonitoring Data Set

Recomendados

Recomendados

Más contenido relacionado

Más de Jimmy Lu

Más de Jimmy Lu (16)

Mining the Parkinson's Telemonitoring Data Set