SlideShare una empresa de Scribd logo
1 de 40
分類演算法之比較—以帕金
森氏症電子監控資料為例

         組別:男人真命苦
 演講者:周思婷、林芳竹、趙健復、鄭筱頻、盧松筠
         指導教授:徐嘉連

 天主教輔仁大學 資訊工程學系 網際網路資料探勘課程
大綱
   什麼是帕金森氏症?                                   Naïve Bayesian
                                                 classification
   資料描述
                                                Support vector machines
   實驗設計                                        K-nearest neighbor
   測量方法                                        Bayesian networks
   演算法                                         Neural networks
      Decision tree                            Genetic algorithms
      Rule induction                           Fuzzy classification
      Classification using               結果比較
       association rules
                                          結論

2010/5/28               Web Mining course, CSIE dept., FJU             2
什麼是帕金森氏症?
 帕金森氏症(Parkinson's Disease)是一種慢性的中
  樞神經系統失調。它的病因目前仍不明,推測和
  大腦底部基底核(basal ganglia)以及黑質
  (substantial nigra)腦細胞快速退化,無法製造足
  夠的神經引導物質多巴胺(Dopamine)和膽鹼作用
  增強有關。腦內需要多巴胺來指揮肌肉的活動;
  缺乏足夠的多巴胺就產生各種活動障礙。
 會有靜止時顫抖、僵直、運動不能和運動遲緩、
  平衡感差、便秘、講話速度緩慢、音調呆板、寫
  字越寫越小等症狀(黑質內之細胞喪失80%時)

2010/5/28     Web Mining course, CSIE dept., FJU   3
多巴胺傳導路徑及其作用


2010/5/28   Web Mining course, CSIE dept., FJU   4
資料描述         (1/4)



 以美國十個醫學中心和英特爾(Intel)合作發展的
  一套電子監控設備記錄帕金森氏症病患說話時的
  聲音訊號,來預測帕金森氏症病患在帕金森式症
  症狀衡量表(UPDRS)中所獲得的分數,藉以判別
  患者病症程度。
 共計有5875筆資料,記錄了六個月內,42名早期
  帕金森氏症病患於家中使用電子監控設備的聲音
  訊號(一名病患大約有200筆左右的資料)。



2010/5/28     Web Mining course, CSIE dept., FJU   5
資料描述          (2/4)



 資料屬性
      subject#:受測者的代號
      age:受測者年齡
      sex :受測者性別,0代表男性,1代表女性
      test_time:使用電子監控設備的時間。整數部分代表
       天數(例:5.6431)。
      motor_UPDRS:受測者利用線性內差法所得之帕金森
       症症狀衡量表分數(運動部分)
      total_UPDRS:受測者利用線性內差法所得之帕金森症
       症狀衡量表分數(總分)


2010/5/28      Web Mining course, CSIE dept., FJU   6
資料描述                (3/4)



      Jitter(%), Jitter(Abs), Jitter:RAP, Jitter:PPQ5,
       Jitter:DDP:一些對基頻(fundamental frequency)變異
       的測量
      Shimmer, Shimmer(dB), Shimmer:APQ3,
       Shimmer:APQ5, Shimmer:APQ11, Shimmer:DDA:
       一些對振幅變異的測量
      NHR, HNR:兩種對雜訊干擾的判斷
      RPDE:非線性動態複雜度分析
      DFA:碎形信號指數
      PPE:非線性的基頻變異測量


2010/5/28            Web Mining course, CSIE dept., FJU   7
資料描述                       (4/4)



 其中只有sex為名詞性(nominal)的資料,其餘皆
  為數值(numerical)
 Unified Parkinson's Disease Rating Scale(UDPRS)
      分為四大部分,每一部份再細分為不同的測量指標
            1.   智能、行為、情緒(mentation, behavior and mood)
            2.   日常生活能力(activities of daily living)
            3.   動作能力之檢查(motor examination)
            4.   治療之併發症(complications of therapy)
       最後依據量測結果對患者做病症之分級,藉以判斷患
        者的生活能力。
             共分為十個等級(0% ~ 100%)

2010/5/28                   Web Mining course, CSIE dept., FJU   8
實驗設計
 演算法本身的比較
      不同的參數設定,如決策樹是否修剪(pruning),或是
       類神經網路隱藏層(hidden layer)的數量等。
      不同的測試設定(test options),如cross validation、
       percentage split等。
 各演算法之間的比較
           以70%為訓練資料,30%為測試資料
           以各個演算法之最佳精準度之結果作為比較依據
           資料正規化(numerical to nominal)
           相同的執行環境

2010/5/28            Web Mining course, CSIE dept., FJU   9
測量方法
 精確度(accuracy)
      Precision/Recall/TP(TN) rate/FP(FN) rate/F-measure
 錯誤率(error rate)
      Mean absolute error/root mean square error/relative
       absolute error/root relative squared error
 一致性(agreement)
      Observed agreement/chance agreement/Kappa
 執行時間(time)
 消耗資源(memory)

2010/5/28             Web Mining course, CSIE dept., FJU     10
Decision Tree
 J48(C4.5)
      簡單、快速、準確率高
      參數設定較尐
      老師有教過
 參數設定
      Pruned/unpruned/redu
       ced error pruning(RCP)
      Confidence factor(CF):
       0.1~1.0
      Random seed(RS): 1~10

2010/5/28            Web Mining course, CSIE dept., FJU   11
Decision Tree
 數據與結果(default: CF = 0.25, unpruned = false, RCP = false, RS = 1)
                 Correctly(%) Precision(avg.) Leaves                    Size   Time(s)
     Unpruned      93.8138                0.938                   254   507      0.9
     Pruned        93.9841                 0.94                   242   483     0.86
     RCP           90.4654                0.905                   199   397     0.54
     CF = 0.1      93.9841                 0.94                   232   463     1.03
     CF = 0.5      93.9841                 0.94                   242   483     0.99
     RS = 2        95.9705                0.961                   242   483     1.02
     RS = 3         95.63                 0.956                   242   483     0.97
     CF = 0.75     95.9137                 0.96                   250   499     3.83




2010/5/28                    Web Mining course, CSIE dept., FJU                          12
Decision Tree, level = 17, root = age


2010/5/28         Web Mining course, CSIE dept., FJU   13
Neural Network
 適合數值資料
 參數設定
           Decay(D)
           Hidden layer(HL)
           Learning rate(LR)
           Training time(TT)
           Random seed(RS)
           GUI




2010/5/28                  Web Mining course, CSIE dept., FJU   14
Neural Network
 數據與結果(default: D = false, HL = a, LR = 0.3, TT = 500, RS = 1, GUI = false)
                           Correctly(%) Precision(avg.) Recall(avg.) Time(s)
     HL = a, LR = 0.3        52.8377                   0.545        0.528   81.02
     HL = t, LR = 0.3        58.5698                   0.599        0.586   147.26
     HL = 1, LR = 0.3        22.9852                   0.114        0.23    14.62
     HL = t, LR = 1, D       48.6379                   0.498        0.486   147.84
     HL = t, LR = 0.5, D     37.4007                   0.395        0.374   156.96
     HL = t, LR = 0.5        59.5346                   0.612        0.595   148.49
     HL = t, LR = 0.1        66.5153                   0.682        0.665   149.6
     TT = 1000               69.9773                   0.708         0.7    300.89
     RS = 2                  69.1827                   0.698        0.692   149.54


2010/5/28                      Web Mining course, CSIE dept., FJU                15
Bayesian network




 適用在離散型
 依照P(Xi | Pi)此條件機率寫出條件機率表
 缺點:若節點Xi是由很多的「因」所造成的「果」,
  條件機率表就會變得在計算上既複雜又使用不便。
2010/5/28        Web Mining course, CSIE dept., FJU   16
Bayesian network
 適用在離散型
 依照P(Xi | Pi)此條件機
  率寫出條件機率表
 缺點:若節點Xi是由很
  多的「因」所造成的「
  果」,條件機率表就會
  變得在計算上既複雜又
  使用不便。
 參數設定
      MaxNrOfParents
2010/5/28           Web Mining course, CSIE dept., FJU   17
Bayesian network
 數據與結果(default: Estimator = Simple Estimator, Search Algorithm = K2)
                       Correctly(%) Precision(avg.) Recall(avg.) Time(s)

  MaxNrOfParents = 1     39.7843                  0.457         0.398   0.28

  MaxNrOfParents = 2     58.9671                  0.593         0.59    0.53

  MaxNrOfParents = 3      57.605                  0.579         0.576   1.23




2010/5/28                  Web Mining course, CSIE dept., FJU                  18
Bayesian network


2010/5/28   Web Mining course, CSIE dept., FJU   19
K-Nearest Neighbor
 優點:
      突破統計模型對資料的限制
      預測能力更優於決策樹以及類神經網路
      KNN分類器非常簡單
 缺點:
      計算未知樣本與已知樣本間距離的成本過高,
       特別是在高維度的特徵空間且有大量訓練資料
       時。

2010/5/28        Web Mining course, CSIE dept., FJU   20
K-Nearest Neighbor
 提供四種方式實現KNN:

      Linear Search

      KD Tree

      Cover Tree

      Ball Tree

 本次以較易實現的KD Tree為主

2010/5/28              Web Mining course, CSIE dept., FJU   21
KNN concept


2010/5/28   Web Mining course, CSIE dept., FJU   22
K-Nearest Neighbor
 參數設定
      KNN(number of neighbors)
      Random seed(RS)




2010/5/28            Web Mining course, CSIE dept., FJU   23
K-Nearest Neighbor
 數據與結果(default: KNN = 1)
             Correctly(%)     Precision(avg.)               Recall(avg.)   Time(s)
     K=1       73.6095               0.736                       0.736      0.13
     K=2       70.8854               0.718                       0.709       0.1
     K=3       74.1771               0.749                       0.742      0.12
     K=4       72.4177               0.726                       0.724      0.11
     K=5       73.1555               0.732                       0.732      0.11




2010/5/28                   Web Mining course, CSIE dept., FJU                       24
75




74




73




72




71




70




69
        1   2   3    4          5           6            7   8   9   10



                            KNN 正確率


2010/5/28           Web Mining course, CSIE dept., FJU                    25
Association Rules
 利用由下往上(bottom-up)循序漸進的方式,藉
  由產生與測試候選項目集得到高頻項目集合,然
  後再從高頻項目集中找出有用的關聯法則。
 可接受的輸入(input)必須是名詞性(nominal)的,
  所以必須將所有的屬性先離散化(discretize)。
      age: {36, 49, 55, 56, 57, 58, 59, 60, 61, 62, 63, 65, 66, 67,
       68, 71, 72, 73, 74, 75, 76, 78, 85}
      其他屬性如何離散化才有意義?
 參數設定
      Minimum confidence: 0.1~0.9

2010/5/28                Web Mining course, CSIE dept., FJU        26
Association Rules
 數據與結果
           一直到minimum confidence = 0.1才有結果。
           Minimum support = 0.15(881 instances)
           Number of cycles performed: 17
           Shimmer='(-inf-0.056174]' Shimmer(dB)='(-inf-
            0.4422]' Shimmer:APQ5='(-inf-0.034956]'
            Shimmer:APQ11='(-inf-0.057084]' NHR='(-inf-
            0.149881]' 4932 ==> total_UPDRS='(21.3976-26.1968]'
            894 conf:(0.18)



2010/5/28                  Web Mining course, CSIE dept., FJU   27
Rule Induction
 尋找在同一事件中出現的不同項目的相關性。
 一系列有意義的規則,顯示數據中蘊含的關聯性。
 優點:
      尋找多條規則,每個規則可得出一個不同結論、結果清
       晰有用、可以處理增加的數據、計算的消耗量可以預見
       、規則集比決策樹更具有一般性。
 缺點:
      花費時間長、難以決定正確的數據、易忽略稀有數據。




2010/5/28        Web Mining course, CSIE dept., FJU   28
Rule Induction
 決策表(decision table)




2010/5/28        Web Mining course, CSIE dept., FJU   29
Rule Induction
 建立決策表
      需要決定表格的大小
      計算max decision table中的列數(columns) x 每個
       altermatives condition的數目(ex. Condition列為3,
       altermatives選擇為2個, 則每個condition x , 即有2^3=8
       個possibilities)
      盡量簡化表格,並刪除以下的狀況
             不可能發生的狀況(impossible)
             前後矛盾的狀況(inconsistencies)
             冗長、多餘的狀況(redundancies)



2010/5/28                Web Mining course, CSIE dept., FJU   30
Rule Induction
 參數設定
      Search(S):選擇不同的演算法找出建立表格的屬性
      Random seed(RS)
 數據與結果
      選擇不同的演算法沒有什麼太大的差異,都是以age、
       sex、test_time、total_UPDRS來建構表格。
      調整random seed = 3有最高的準確率。
      Number of Rules : 975
      Correctly Classified Instances: 74.6879 %
      Precision: 0.758

2010/5/28          Web Mining course, CSIE dept., FJU   31
Naive Bayesian
 前提假設
      所有屬性對其類別具有conditional independence
 估計 P(C1 | A1, A2) 和 P(C2 | A1, A2) 何者機率較
  高,判斷A1, A2屬於C1或C2。
 P(A1, A2 | C1) = P(A1 | C1) * P(A2 | C1)
 參數設定
      useKernelEstimator:Use a kernel estimator for
       numeric attributes rather than a normal distribution
      UseSupervisedDiscretization
      Random seed(RS)
2010/5/28              Web Mining course, CSIE dept., FJU     32
Naive Bayesian
 數據結果(default: useKernelEstimator = false, UseSupervisedDiscretization =
    false)

                      Correctly(%) Precision(avg.)               Recall(avg.)   Time(s)
     Original           18.5017                0.326                0.185        0.08
     UseKernelEsti
                        24.0068                  0.33               0.24          0.1
     mator
     UseSupervised
                         38.025                0.449                0.38         0.25
     Discretization
     RS = 5             40.4654                 0.46                0.405        0.23




2010/5/28                   Web Mining course, CSIE dept., FJU                          33
Support Vector Machine
 Support vector machine(SVM)在資料的分佈空間
  中,找出一個超平面(hyper-plane),依資料特性
  將資料分為兩類。




2010/5/28         Web Mining course, CSIE dept., FJU   34
中間實線的部分即為超平面,而虛線H1、H2則為support hyper-plane。當H1和H2之間
出現最大的Margin,即為最佳的hyper-plane

2010/5/28         Web Mining course, CSIE dept., FJU   35
Support Vector Machine
 參數設定
      Kernel
               The normalized polynomial kernel(norPoly)
               The polynomial kernel(Poly)
               The Pearson VII function-based universal kernel(PUK)
               The RBF kernel(RBF)
      C: The complexity parameter
      Random seed(RS)




2010/5/28                      Web Mining course, CSIE dept., FJU      36
Support Vector Machine
 數據結果(default: c = 1.0)
               Correctly(%)          Precision(avg.)            Recall(avg.) Time(s)
     norPoly                                     Failed
     Poly        28.5471                     0.275                0.285       5.44
     PUK                                         Failed
     RBF                                         Failed
     C = 0.7                                     Failed
     C = 1.5                                     Failed




2010/5/28                  Web Mining course, CSIE dept., FJU                          37
結果比較




2010/5/28     Web Mining course, CSIE dept., FJU   38
討論與結論
   Weka記憶體管理很有問題
   Total_UPDR的切割
   每個演算法所能接受的輸入資料的性質不同
   如何離散化屬性才有意義?

 決策樹較適用於此資料集,準確度高且速度快




2010/5/28     Web Mining course, CSIE dept., FJU   39
參考資料
 [1]A Tsanas, MA Little, PE McSharry, LO Ramig (2009) ‘Accurate
  telemonitoring of Parkinson disease progression by non-invasive
  speech tests’, IEEE Transactions on Biomedical Engineering (to
  appear).
 [2]http://archive.ics.uci.edu/ml/datasets/Parkinsons+Telemonitoring
 [3]http://www.mdvu.org/library/ratingscales/pd/updrs.pdf
 [4]http://www.neuro.org.tw/movement/measure/view.asp?m_no=19
  &page=1
 [5]http://zh.wikipedia.org/zh/帕金森氏症
 [6]http://en.wikipedia.org/wiki/Unified_Parkinson's_Disease_Rating_S
  cale
 [7]http://www.cs.waikato.ac.nz/~ml/weka/index_related.html



2010/5/28                Web Mining course, CSIE dept., FJU         40

Más contenido relacionado

Más de Jimmy Lu

Más de Jimmy Lu (16)

A Prototype of Brain Network Simulator for Spatiotemporal Dynamics of Alzheim...
A Prototype of Brain Network Simulator for Spatiotemporal Dynamics of Alzheim...A Prototype of Brain Network Simulator for Spatiotemporal Dynamics of Alzheim...
A Prototype of Brain Network Simulator for Spatiotemporal Dynamics of Alzheim...
 
The Model of Spatiotemporal Dynamics of Alzheimer’s Disease
The Model of Spatiotemporal Dynamics of Alzheimer’s DiseaseThe Model of Spatiotemporal Dynamics of Alzheimer’s Disease
The Model of Spatiotemporal Dynamics of Alzheimer’s Disease
 
The Models of Alzheimer's Disease Part II
The Models of Alzheimer's Disease Part IIThe Models of Alzheimer's Disease Part II
The Models of Alzheimer's Disease Part II
 
The Models of Alzheimer's Disease Part I
The Models of Alzheimer's Disease Part IThe Models of Alzheimer's Disease Part I
The Models of Alzheimer's Disease Part I
 
The Models of Alzheimer's Disease Part III
The Models of Alzheimer's Disease Part IIIThe Models of Alzheimer's Disease Part III
The Models of Alzheimer's Disease Part III
 
On the Development of a Brain Simulator
On the Development of a Brain SimulatorOn the Development of a Brain Simulator
On the Development of a Brain Simulator
 
Design the Brain Simulator
Design the Brain SimulatorDesign the Brain Simulator
Design the Brain Simulator
 
Research Proposal and Milestone
Research Proposal and MilestoneResearch Proposal and Milestone
Research Proposal and Milestone
 
Reward
RewardReward
Reward
 
On the Development of a Brain Simulator
On the Development of a Brain SimulatorOn the Development of a Brain Simulator
On the Development of a Brain Simulator
 
Brian Simulator (a draft)
Brian Simulator (a draft)Brian Simulator (a draft)
Brian Simulator (a draft)
 
Exploring Complex Networks
Exploring Complex NetworksExploring Complex Networks
Exploring Complex Networks
 
Brain Network - Thalamocortical Motif
Brain Network - Thalamocortical MotifBrain Network - Thalamocortical Motif
Brain Network - Thalamocortical Motif
 
How To Build A Personal Portal On Google App Engine With Django
How To Build A Personal Portal On Google App Engine With DjangoHow To Build A Personal Portal On Google App Engine With Django
How To Build A Personal Portal On Google App Engine With Django
 
Brain Networks
Brain NetworksBrain Networks
Brain Networks
 
WECO Lab
WECO LabWECO Lab
WECO Lab
 

Mining the Parkinson's Telemonitoring Data Set

  • 1. 分類演算法之比較—以帕金 森氏症電子監控資料為例 組別:男人真命苦 演講者:周思婷、林芳竹、趙健復、鄭筱頻、盧松筠 指導教授:徐嘉連 天主教輔仁大學 資訊工程學系 網際網路資料探勘課程
  • 2. 大綱  什麼是帕金森氏症?  Naïve Bayesian classification  資料描述  Support vector machines  實驗設計  K-nearest neighbor  測量方法  Bayesian networks  演算法  Neural networks  Decision tree  Genetic algorithms  Rule induction  Fuzzy classification  Classification using  結果比較 association rules  結論 2010/5/28 Web Mining course, CSIE dept., FJU 2
  • 3. 什麼是帕金森氏症?  帕金森氏症(Parkinson's Disease)是一種慢性的中 樞神經系統失調。它的病因目前仍不明,推測和 大腦底部基底核(basal ganglia)以及黑質 (substantial nigra)腦細胞快速退化,無法製造足 夠的神經引導物質多巴胺(Dopamine)和膽鹼作用 增強有關。腦內需要多巴胺來指揮肌肉的活動; 缺乏足夠的多巴胺就產生各種活動障礙。  會有靜止時顫抖、僵直、運動不能和運動遲緩、 平衡感差、便秘、講話速度緩慢、音調呆板、寫 字越寫越小等症狀(黑質內之細胞喪失80%時) 2010/5/28 Web Mining course, CSIE dept., FJU 3
  • 4. 多巴胺傳導路徑及其作用 2010/5/28 Web Mining course, CSIE dept., FJU 4
  • 5. 資料描述 (1/4)  以美國十個醫學中心和英特爾(Intel)合作發展的 一套電子監控設備記錄帕金森氏症病患說話時的 聲音訊號,來預測帕金森氏症病患在帕金森式症 症狀衡量表(UPDRS)中所獲得的分數,藉以判別 患者病症程度。  共計有5875筆資料,記錄了六個月內,42名早期 帕金森氏症病患於家中使用電子監控設備的聲音 訊號(一名病患大約有200筆左右的資料)。 2010/5/28 Web Mining course, CSIE dept., FJU 5
  • 6. 資料描述 (2/4)  資料屬性  subject#:受測者的代號  age:受測者年齡  sex :受測者性別,0代表男性,1代表女性  test_time:使用電子監控設備的時間。整數部分代表 天數(例:5.6431)。  motor_UPDRS:受測者利用線性內差法所得之帕金森 症症狀衡量表分數(運動部分)  total_UPDRS:受測者利用線性內差法所得之帕金森症 症狀衡量表分數(總分) 2010/5/28 Web Mining course, CSIE dept., FJU 6
  • 7. 資料描述 (3/4)  Jitter(%), Jitter(Abs), Jitter:RAP, Jitter:PPQ5, Jitter:DDP:一些對基頻(fundamental frequency)變異 的測量  Shimmer, Shimmer(dB), Shimmer:APQ3, Shimmer:APQ5, Shimmer:APQ11, Shimmer:DDA: 一些對振幅變異的測量  NHR, HNR:兩種對雜訊干擾的判斷  RPDE:非線性動態複雜度分析  DFA:碎形信號指數  PPE:非線性的基頻變異測量 2010/5/28 Web Mining course, CSIE dept., FJU 7
  • 8. 資料描述 (4/4)  其中只有sex為名詞性(nominal)的資料,其餘皆 為數值(numerical)  Unified Parkinson's Disease Rating Scale(UDPRS)  分為四大部分,每一部份再細分為不同的測量指標 1. 智能、行為、情緒(mentation, behavior and mood) 2. 日常生活能力(activities of daily living) 3. 動作能力之檢查(motor examination) 4. 治療之併發症(complications of therapy)  最後依據量測結果對患者做病症之分級,藉以判斷患 者的生活能力。  共分為十個等級(0% ~ 100%) 2010/5/28 Web Mining course, CSIE dept., FJU 8
  • 9. 實驗設計  演算法本身的比較  不同的參數設定,如決策樹是否修剪(pruning),或是 類神經網路隱藏層(hidden layer)的數量等。  不同的測試設定(test options),如cross validation、 percentage split等。  各演算法之間的比較  以70%為訓練資料,30%為測試資料  以各個演算法之最佳精準度之結果作為比較依據  資料正規化(numerical to nominal)  相同的執行環境 2010/5/28 Web Mining course, CSIE dept., FJU 9
  • 10. 測量方法  精確度(accuracy)  Precision/Recall/TP(TN) rate/FP(FN) rate/F-measure  錯誤率(error rate)  Mean absolute error/root mean square error/relative absolute error/root relative squared error  一致性(agreement)  Observed agreement/chance agreement/Kappa  執行時間(time)  消耗資源(memory) 2010/5/28 Web Mining course, CSIE dept., FJU 10
  • 11. Decision Tree  J48(C4.5)  簡單、快速、準確率高  參數設定較尐  老師有教過  參數設定  Pruned/unpruned/redu ced error pruning(RCP)  Confidence factor(CF): 0.1~1.0  Random seed(RS): 1~10 2010/5/28 Web Mining course, CSIE dept., FJU 11
  • 12. Decision Tree  數據與結果(default: CF = 0.25, unpruned = false, RCP = false, RS = 1) Correctly(%) Precision(avg.) Leaves Size Time(s) Unpruned 93.8138 0.938 254 507 0.9 Pruned 93.9841 0.94 242 483 0.86 RCP 90.4654 0.905 199 397 0.54 CF = 0.1 93.9841 0.94 232 463 1.03 CF = 0.5 93.9841 0.94 242 483 0.99 RS = 2 95.9705 0.961 242 483 1.02 RS = 3 95.63 0.956 242 483 0.97 CF = 0.75 95.9137 0.96 250 499 3.83 2010/5/28 Web Mining course, CSIE dept., FJU 12
  • 13. Decision Tree, level = 17, root = age 2010/5/28 Web Mining course, CSIE dept., FJU 13
  • 14. Neural Network  適合數值資料  參數設定  Decay(D)  Hidden layer(HL)  Learning rate(LR)  Training time(TT)  Random seed(RS)  GUI 2010/5/28 Web Mining course, CSIE dept., FJU 14
  • 15. Neural Network  數據與結果(default: D = false, HL = a, LR = 0.3, TT = 500, RS = 1, GUI = false) Correctly(%) Precision(avg.) Recall(avg.) Time(s) HL = a, LR = 0.3 52.8377 0.545 0.528 81.02 HL = t, LR = 0.3 58.5698 0.599 0.586 147.26 HL = 1, LR = 0.3 22.9852 0.114 0.23 14.62 HL = t, LR = 1, D 48.6379 0.498 0.486 147.84 HL = t, LR = 0.5, D 37.4007 0.395 0.374 156.96 HL = t, LR = 0.5 59.5346 0.612 0.595 148.49 HL = t, LR = 0.1 66.5153 0.682 0.665 149.6 TT = 1000 69.9773 0.708 0.7 300.89 RS = 2 69.1827 0.698 0.692 149.54 2010/5/28 Web Mining course, CSIE dept., FJU 15
  • 16. Bayesian network  適用在離散型  依照P(Xi | Pi)此條件機率寫出條件機率表  缺點:若節點Xi是由很多的「因」所造成的「果」, 條件機率表就會變得在計算上既複雜又使用不便。 2010/5/28 Web Mining course, CSIE dept., FJU 16
  • 17. Bayesian network  適用在離散型  依照P(Xi | Pi)此條件機 率寫出條件機率表  缺點:若節點Xi是由很 多的「因」所造成的「 果」,條件機率表就會 變得在計算上既複雜又 使用不便。  參數設定  MaxNrOfParents 2010/5/28 Web Mining course, CSIE dept., FJU 17
  • 18. Bayesian network  數據與結果(default: Estimator = Simple Estimator, Search Algorithm = K2) Correctly(%) Precision(avg.) Recall(avg.) Time(s) MaxNrOfParents = 1 39.7843 0.457 0.398 0.28 MaxNrOfParents = 2 58.9671 0.593 0.59 0.53 MaxNrOfParents = 3 57.605 0.579 0.576 1.23 2010/5/28 Web Mining course, CSIE dept., FJU 18
  • 19. Bayesian network 2010/5/28 Web Mining course, CSIE dept., FJU 19
  • 20. K-Nearest Neighbor  優點:  突破統計模型對資料的限制  預測能力更優於決策樹以及類神經網路  KNN分類器非常簡單  缺點:  計算未知樣本與已知樣本間距離的成本過高, 特別是在高維度的特徵空間且有大量訓練資料 時。 2010/5/28 Web Mining course, CSIE dept., FJU 20
  • 21. K-Nearest Neighbor  提供四種方式實現KNN:  Linear Search  KD Tree  Cover Tree  Ball Tree  本次以較易實現的KD Tree為主 2010/5/28 Web Mining course, CSIE dept., FJU 21
  • 22. KNN concept 2010/5/28 Web Mining course, CSIE dept., FJU 22
  • 23. K-Nearest Neighbor  參數設定  KNN(number of neighbors)  Random seed(RS) 2010/5/28 Web Mining course, CSIE dept., FJU 23
  • 24. K-Nearest Neighbor  數據與結果(default: KNN = 1) Correctly(%) Precision(avg.) Recall(avg.) Time(s) K=1 73.6095 0.736 0.736 0.13 K=2 70.8854 0.718 0.709 0.1 K=3 74.1771 0.749 0.742 0.12 K=4 72.4177 0.726 0.724 0.11 K=5 73.1555 0.732 0.732 0.11 2010/5/28 Web Mining course, CSIE dept., FJU 24
  • 25. 75 74 73 72 71 70 69 1 2 3 4 5 6 7 8 9 10 KNN 正確率 2010/5/28 Web Mining course, CSIE dept., FJU 25
  • 26. Association Rules  利用由下往上(bottom-up)循序漸進的方式,藉 由產生與測試候選項目集得到高頻項目集合,然 後再從高頻項目集中找出有用的關聯法則。  可接受的輸入(input)必須是名詞性(nominal)的, 所以必須將所有的屬性先離散化(discretize)。  age: {36, 49, 55, 56, 57, 58, 59, 60, 61, 62, 63, 65, 66, 67, 68, 71, 72, 73, 74, 75, 76, 78, 85}  其他屬性如何離散化才有意義?  參數設定  Minimum confidence: 0.1~0.9 2010/5/28 Web Mining course, CSIE dept., FJU 26
  • 27. Association Rules  數據與結果  一直到minimum confidence = 0.1才有結果。  Minimum support = 0.15(881 instances)  Number of cycles performed: 17  Shimmer='(-inf-0.056174]' Shimmer(dB)='(-inf- 0.4422]' Shimmer:APQ5='(-inf-0.034956]' Shimmer:APQ11='(-inf-0.057084]' NHR='(-inf- 0.149881]' 4932 ==> total_UPDRS='(21.3976-26.1968]' 894 conf:(0.18) 2010/5/28 Web Mining course, CSIE dept., FJU 27
  • 28. Rule Induction  尋找在同一事件中出現的不同項目的相關性。  一系列有意義的規則,顯示數據中蘊含的關聯性。  優點:  尋找多條規則,每個規則可得出一個不同結論、結果清 晰有用、可以處理增加的數據、計算的消耗量可以預見 、規則集比決策樹更具有一般性。  缺點:  花費時間長、難以決定正確的數據、易忽略稀有數據。 2010/5/28 Web Mining course, CSIE dept., FJU 28
  • 29. Rule Induction  決策表(decision table) 2010/5/28 Web Mining course, CSIE dept., FJU 29
  • 30. Rule Induction  建立決策表  需要決定表格的大小  計算max decision table中的列數(columns) x 每個 altermatives condition的數目(ex. Condition列為3, altermatives選擇為2個, 則每個condition x , 即有2^3=8 個possibilities)  盡量簡化表格,並刪除以下的狀況  不可能發生的狀況(impossible)  前後矛盾的狀況(inconsistencies)  冗長、多餘的狀況(redundancies) 2010/5/28 Web Mining course, CSIE dept., FJU 30
  • 31. Rule Induction  參數設定  Search(S):選擇不同的演算法找出建立表格的屬性  Random seed(RS)  數據與結果  選擇不同的演算法沒有什麼太大的差異,都是以age、 sex、test_time、total_UPDRS來建構表格。  調整random seed = 3有最高的準確率。  Number of Rules : 975  Correctly Classified Instances: 74.6879 %  Precision: 0.758 2010/5/28 Web Mining course, CSIE dept., FJU 31
  • 32. Naive Bayesian  前提假設  所有屬性對其類別具有conditional independence  估計 P(C1 | A1, A2) 和 P(C2 | A1, A2) 何者機率較 高,判斷A1, A2屬於C1或C2。  P(A1, A2 | C1) = P(A1 | C1) * P(A2 | C1)  參數設定  useKernelEstimator:Use a kernel estimator for numeric attributes rather than a normal distribution  UseSupervisedDiscretization  Random seed(RS) 2010/5/28 Web Mining course, CSIE dept., FJU 32
  • 33. Naive Bayesian  數據結果(default: useKernelEstimator = false, UseSupervisedDiscretization = false) Correctly(%) Precision(avg.) Recall(avg.) Time(s) Original 18.5017 0.326 0.185 0.08 UseKernelEsti 24.0068 0.33 0.24 0.1 mator UseSupervised 38.025 0.449 0.38 0.25 Discretization RS = 5 40.4654 0.46 0.405 0.23 2010/5/28 Web Mining course, CSIE dept., FJU 33
  • 34. Support Vector Machine  Support vector machine(SVM)在資料的分佈空間 中,找出一個超平面(hyper-plane),依資料特性 將資料分為兩類。 2010/5/28 Web Mining course, CSIE dept., FJU 34
  • 36. Support Vector Machine  參數設定  Kernel  The normalized polynomial kernel(norPoly)  The polynomial kernel(Poly)  The Pearson VII function-based universal kernel(PUK)  The RBF kernel(RBF)  C: The complexity parameter  Random seed(RS) 2010/5/28 Web Mining course, CSIE dept., FJU 36
  • 37. Support Vector Machine  數據結果(default: c = 1.0) Correctly(%) Precision(avg.) Recall(avg.) Time(s) norPoly Failed Poly 28.5471 0.275 0.285 5.44 PUK Failed RBF Failed C = 0.7 Failed C = 1.5 Failed 2010/5/28 Web Mining course, CSIE dept., FJU 37
  • 38. 結果比較 2010/5/28 Web Mining course, CSIE dept., FJU 38
  • 39. 討論與結論  Weka記憶體管理很有問題  Total_UPDR的切割  每個演算法所能接受的輸入資料的性質不同  如何離散化屬性才有意義?  決策樹較適用於此資料集,準確度高且速度快 2010/5/28 Web Mining course, CSIE dept., FJU 39
  • 40. 參考資料  [1]A Tsanas, MA Little, PE McSharry, LO Ramig (2009) ‘Accurate telemonitoring of Parkinson disease progression by non-invasive speech tests’, IEEE Transactions on Biomedical Engineering (to appear).  [2]http://archive.ics.uci.edu/ml/datasets/Parkinsons+Telemonitoring  [3]http://www.mdvu.org/library/ratingscales/pd/updrs.pdf  [4]http://www.neuro.org.tw/movement/measure/view.asp?m_no=19 &page=1  [5]http://zh.wikipedia.org/zh/帕金森氏症  [6]http://en.wikipedia.org/wiki/Unified_Parkinson's_Disease_Rating_S cale  [7]http://www.cs.waikato.ac.nz/~ml/weka/index_related.html 2010/5/28 Web Mining course, CSIE dept., FJU 40