商業智慧

商業智慧與資料採礦
黃柏翰

書名:商業智慧
作者:王茁

簡報大綱
• 商業智慧定義
• BI系統架構介紹
• Data Mining介紹
• 資料採礦步驟及標準流程(CRISP-DM)
• 採礦方法介紹及案例說明
• Data Mining資料型式及其應對分析方法
• 商業智慧展望

商業智慧定義
1.資料經整理而成為有用的資訊，資訊經分析而萃煉為智慧
2.DW、DM、MIS、Data Mining、OLAP……
3.商業智慧是企業利用現代資訊技術收集、管理和分析結構
與非結構化的資料，創造與累積出商務知識和見解，已改善
商務品質。

資料匯整階段
1.此階段主要是執行ETL流程
與資料倉儲資料之累積。
2.ODS:
– 資料庫之功用為收集前端來
源資料，可視為資料經ETL
而儲存於資料倉儲的中介過
程
3.DW:
– 資料倉儲是依據特定目標
(如銀行作業風險管理) 、具
整合性、資料相對穩定且反
映歷史變化的特化資料庫
項目
OLTP Data Warehouse
目標
特定的業務應用，如進
銷存、人資、作業型
CRM系統等；
前端資料之輸入、處理
與保存
將企業OLTP資料庫整合
而執行特定的分析應用，
如分析型CRM、作業風
險管理等；
可視為對企業前端資料所
作之後端整合
整合性
通常是每套系統各自管
理所屬之資料庫，視需
要與其他系統作資料交
換。
通常是整合至少數個
OLTP或其他資料源，以
便後續進行分析。
資料異動
與累積
各系統持續更新線上資
料，並累積一段 (較短)
時間。
其功能為保持線上資料
於該時段之「現貌」。
持續累積各資料源資料，
並保存較長之時間。基本
上資料載入後即不再修改。
其功能為反映資料之「異
動歷史」。
運作特性
小量資料之頻繁即時異
動；
交易型資料庫。
通常是採批次方式將資料
載入或讀取，處理之資料
量大；
分析型資料庫。

資料分析階段
1.此階段主要是執行資料超市資料之累積與後續之分析作業。
2.建構資料超市以加速各項資料的分析與維護
3.二種技術：線上即時分析 (OLAP) 與資料探勘 (Data Mining)
• 線上即時分析 (OLAP)
– 線上即時分析係採用多維度之資料結構 (Cube) 將資料載入，以進行多項不同維度
整合的分析。
• 資料探勘 (Data Mining)
– 資料探勘是利用統計、人工智慧 (AI) 或其他的分析技術，在巨量歷史資料內深度
尋找與發掘未知、隱藏性的關係與規則

資料分析階段
Data Mining與OLAP之間的差異
Data Mining OLAP
尋找假設分析從一個假設出發
採用不同類型的資料，如文
字、聲音
使用數位化的資料
依賴於清潔、記錄完好的資
料
在分析過程中可以發現並過
濾垃圾資料
資料採礦結果不容易解釋，
須請統計學家進行分析，並
呈述於管理人
結果直接傳達給管理人

何謂資料採礦？
資料採礦特性：
1.資訊隱藏於資料中
2.和一般傳統社會科學研究過程不同的是，資料採礦不用假設檢定，來
推論某個現象發生的機會是否存在，也因此不會局限在自身先入為主的
想法中。
3.資料採礦沒有資料量的限制，不會因為資料量太大而造成一定顯著的
盲點。同時，只要分析的工具與功能足夠，資料量與變數的限制，在資
料採礦的過程中，將會減小。

資料採礦步驟
陳述商業問題
準備資料整合清理資料收集資料
建立分析資料
模型
解釋結果從外部驗證
監視模型

標準採礦流程：CRISP-DM
六個階段分別是：
1.商業理解
2.數據理解
3.數據準備
4.建模
5.評估
6.部署

標準採礦流程：CRISP-DM
1.商業理解:
– 必須從商業的角度上面瞭解專案的要求和最終目的是什麼. 並將這些目的
與資料採礦的定義以及結果結合起來
2.數據理解:
– 資料的理解以及收集,對可用的資料進行評估
3.資料準備:
– 原始資料進行整合與清洗,使之達到建模需求
4.建立模型:
– 即應用資料採礦工具建立模型
5.評估模型:
– 對建立的模型進行評估具體考慮得出的結果是否符合第一步的商業目的
6.部署:
– 即將其發現的結果以及過程組織形成資料採礦報告

關聯性法則（Association Rule）
1.關聯法則(association rule)的功能是去發掘哪些事物總是同時發生
2.舉例來說，買A商品的通常同時購買B商品
3.購物籃分析就是達成交叉銷售(cross-sale)或向上銷售(up-sale)的方法
4.規則(rule)不意味著因果關係
5.關聯法則的產生可以藉由兩項門檻值來判
斷其是否有意義：
– 支持度(support)
– 可靠度(confidence)

1.支持度(support)－項目在資料庫中所出現的比例
2.可靠度(confidence)－此關聯法則可信的程度
3.支持度及可靠度都是由使用者所自訂，一般而言，有效的
關聯法則其支持度(support)及可靠度(confidence)都必須在
一定程度以上
4.換言之，關聯法則的支持度及可靠度皆必須分別大於或等
於使用者所定的最小門檻值，我們才判定其關聯是有意義的。

1.例如，麥片銷售商針對5000 個學生做調查發現，有3000名學生（60%的學生）
喜好打棒球，有3750名學生（75%的學生）食用麥片，有2000名學生（40%的
學生）喜好打棒球且食用麥片。
在進行資料探勘去探勘學生的行為時，假設最小支持度限制為2000，最小可靠
度限制為0.6，則我們發現
6.066.0
3000
2000
)( 


打棒球
吃麥片打棒球
吃麥片打棒球
因此我們得到一條關聯法則：“打棒球”“吃麥片”

Apriori演算法
1.關聯規則分析有多個演算法，Apriori演算法最為常用
2.步驟流程：
• 步驟1：先定義最小支持度和最小信賴度。
• 步驟2：Apriori演算法使用之候選項目集合的觀念，若候選項目集合
的支持度>最小支持度，則該候選項目集合為高頻項目集合。
• 步驟3：首先由資料庫讀取所有的記錄，求出候選C1的支持度，再找
出高頻項目集合L1，並利用這些高頻項目集合的結合，產生候選C2。
• 步驟4：然後再SCAN資料庫，得出C2的支持度後，找出高頻L2，並
利用這些L2的結合，產生候選C3。
• 步驟5：重覆SCAN資料庫，與最小支持度比較，產生高頻項目集合，
再結合產生下一級候選項目集合，直到不能結合出產生新的候選項目
集合為止。

Apriori演算法
• 假設有四筆交易，各
購買下列物品：

Apriori 建構季節流行病關係模型
本研究主要是對流行病學與季節之關係，以
Data Mining之應用Apriori關聯法則，就病
患的看診季節、期間、年齡、性別等作為可
能有關之屬性，並以關聯法則進行資料採擷
光田醫學雜誌 2009年第4卷第 8期

資料來源
所有資料為1996年至2001年期間的健保資料，
約八萬多筆，其欄位包括：性別、就診年月、
疾病、類別、門診科別等。

依年度、季節分析
支持度>3%、信賴度>25%
1996年第一季
1997年第一季
1998年第一季

糖尿病之疾病關聯分析
慢性病在國人十大死因經常是榜上有名，例如：糖尿病、高血壓、心臟病。而慢
性病病患通常有很高的機率會併發其他的疾病，如果能從歷年病歷資料中發現疾
病之關聯性，讓慢性病病患得知應防範之可能併發症，以提供更好的照顧
分析結果：
– 糖尿病病患亦為高血壓、高血壓心臟病、便秘、純高膽固醇血症、大腸癌的危險群

結論
利用Data Mining來針對流行病學做研究，以
發掘並找出季節對於人們所可能發的流行病
及其關係，並能進一步地去探討疾病與疾病
間潛在的可能同時發生的疾病，採取預防
上呼吸道感染與習慣性流產的關聯性存在

1.決策樹是從一個或多個預測變數中，針對類別應
變數的階級，預測案例或物件的關係
2.根據已知的資料及其類別屬性來建立資料的分類
模型
3.決策樹的準確性是依據資料來源的多寡
• 應用決策樹於心臟病預測之研究
決策樹分析 (Decision tree
analysis)

應用決策樹於心臟病預測之研究
集中 50個病患心臟疾病資料(正常 26 筆；心臟病 24筆)
原始資料部份
中臺科技大學資訊管理系

資料前處理
資料分類
• 將所有診斷為血管造影疾病狀態為直徑縮小<50%(正常)的篩選出來，
並計算“血管造影疾病狀態”的平均值和標準差

資料前處理
資料標準化
所有病患資料進行標準化轉化程序，其標準化函數為
(原始值-平均值)/標準差

資料前處理
資料離散化(類別化)
決策樹演算法僅適用於類別化的資料型態，故本研究運用函數將標準化
後的資料進行離散化

計算 Gain Ratio
分別計算各個屬性的亂度，找出Gain Ratio越大的屬性，當作優先作為
分類的屬性

應用決策樹預測心臟疾病

結論
決策樹預測模型可準確預測心臟病，即心臟
病的病患被預測罹患心臟病的比例為高達
93.94%
• (1)只需得到心臟器官診斷資料數據，即可
判斷的便利性
• (2)診斷資料數據經標準化(平均數及標準差)
即可得知該病患的心臟器官診斷資料數據
是否偏移正常值

類神經網路(Neural networks)
倒傳遞網路為一種監督式的學習法則，目前類神經網路中應用最廣泛的
代表
例如：洗衣服
– 不同衣服的質料、數量、骯髒程度就是類神經網路的輸入
– 洗衣所需的時間則為類神經網路的目標值
類神經網路訓練的目的，就是讓類神經網路的輸出越接近目標值

使用類神經網路進行垃圾郵件過濾
中原大學資訊管理學系

流程圖
1. 將電子郵件解碼，並將郵件內容讀出，另存為
純文字檔。
2. 使用CKIP作為斷詞處理工具，並去除郵件中非
必要的字詞以及非中文部分(英文、數字、注音、
特殊符號)。
3. 經過CKIP處理後，去除郵件內容中非名詞的所
有字詞，並建立詞庫和常用組合名辭資料庫，比
對後選出正確名詞。
4. 將選出的名詞經過Hash Function進行編碼，
輸出成為中文字辭碼。
5. 將中文字辭碼輸入類神經網路中，進
行分類。
6. 得到分類結果。

資料取得
取得訓練郵件資料：
篩選條件如下：
一、郵件中無任何文字者，刪除。
二、郵件中均非中文字者，刪除。
三、郵件中攜帶病毒者，刪除。

資料前處理
1.過濾不要的字元 2.郵件分類

使用CKIP進行關鍵字擷取
1.訓練資料集一共404郵件，將原先1432個關鍵字，縮減後的關鍵字分
別為163與233
2.極具代表性、縮減類神經網路輸入的數目

使用類神經網路做為郵件分類器
調節之四個參數：
1.關鍵詞數目：
– 163,233
– 希望藉由測試關鍵詞的數量，得知最佳的數目設定。
2.類神經網路結點數：
– 3,10,15,20,25,30,35
3.郵件分類數目:
– 2類(正常郵件和垃圾郵件),8類(表一)
4.訓練資料數量:
表一

實驗評估
實驗組一:
– 六項實驗，僅對結點數進行更改(3,10,15,20,25,30,35)
實驗結果:

實驗評估
實驗組二:
– 僅對關鍵詞數從163增加至233，並調結點數
實驗結果:
實驗組一與實驗組二垃圾郵件辨識正確率對照：

實驗評估
實驗組三:
– 將郵件類別從2提升至8，僅對結點數進行更改(3,5,7,10)
實驗結果:
實驗組一與實驗組三垃圾郵件辨識正確率對照：

實驗評估
實驗組四:
– 加入正常郵件進行測試，僅對資料筆數進行更改(210,405)
實驗結果:

總結
1.關鍵詞數目的挑選會直接影響到分類之品質，163個關鍵字表現優於
233個關鍵字，不宜挑選過多，挑選關鍵詞代表程度高的。
2.調整結點數以達成收斂的效果。
3.只有垃圾郵件進行訓練，或是相當大量的正常郵件與垃圾郵件混合在
一起進行訓練，相較之下，在訓練資料中適當的加入正常郵件與垃圾郵
件一起進行訓練，其成效相當明顯

類神經網路訓練
要使得類神經網路能正確的運作，則必須透過訓練（training）的方式，
讓類神經網路反覆的學習，直到對於每個輸入都能正確對應到所需要的
輸出，因此在類神經網路學習前，我們必須建立出一個訓練樣本
（training pattern）使類神經網路在學習的過程中有一個參考，訓練樣
本的建立來自於實際系統輸入與輸出或是以往的經驗。

類神經網路優缺點
優點：
– 可以建構非線性的模型，模型的準確度高。
– 有良好的推廣性，對於未知的輸入亦可得到正確的輸出。
– 可以接受不同種類的變數作為輸入，適應性強。
– 可應用的領域相當廣泛，模型建構能力強。
– 具模糊推論能力，允許輸出入變數具模糊性，歸納學習較難具備此能力。
缺點：
– 類神經網路過程工作相當費時。
– 類神經網路以迭代方式更新鍵結值與閥值，計算量大，相當耗費電腦資源。
– 類神經網路的解有無限多組，無法得知哪一組的解為最佳解。
– 類神經網路訓練的過程中無法得知需要多少神經元個數，太多或太少的神經元均
會影響系統的準確性，因此往往需以試誤的方式得到適當的神經元個數。
– 類神經網路因為是以建立數值結構（含加權值的網路）來學習，其知識結構是隱
性的，缺乏解釋能力。
• 歸納學習以建立符號結構（如：決策樹）來學習，其知識結構是顯性的，具解釋能力。

集群分析(Cluster analysis)
群集分析是一種傳統的多變量統計分類方法，其主要是探討
如何將資料或物件予以分群(cluster)或是分類(classify)，主
要目的就是依照收集的樣本將它分成數個群數，使得群內個
體間高度的同質性，以及不同群體高度的異質性，而此資料
或物件的表現方法最常用的是一組特徵向量。

階層式分群法
聚合式階層分群法：由樹狀結構的底部開始層層聚合。
每一筆資料為一個群聚（cluster），假設擁有N筆資料，則將這N筆資
料視為N個群聚，亦即每個群聚包含一筆資料：
– 將每筆資料視為一個群聚 Ci, i=1 1 to n.
– 找出所有群聚間，距離最接近的兩個群聚 Ci、Cj
– 合併 Ci、 Cj 成為一個新的群聚
– 假如目前的群聚數目多於我們預期的群聚數目，則反覆重複步驟二至四，直到群
聚數目已將降到我們所要求的數目。

階層式分群法
何謂「距離最接近的兩個群聚 Ci、Cj」呢？
1.單一連結聚合:群聚與群聚間的距離可以定義為不同群聚中最接近兩點
間的距離
2.完整連結聚合演算法:群聚間的距離定義為不同群聚中最遠兩點間的距
離
3.平均連結聚合演算法:群聚間的距離則定義為不同群聚間各點與各點間
距離總和的平均
4.沃德法:群聚間的距離定義為在將兩群合併後，各點到合併後的群中心
的距離平方和

如果資料集是二維平面上的點所成的集合，而且我們採用 single linkage，
則所得到的連結圖即是這些點的 minimum spanning tree

階層式分群法
優點:
– 概念簡單，可用樹狀結構來表現整個計算過程。
– 只需要資料點兩兩之間的距離，就可以建構分
群結果，而不需要資料點的實際座標。
缺點:
– 它通常只適用於少量資料，很難處理大量資料。

非階層式方法
K-Means分析法:
– 首先是先決定K個集群中心，用來當作起始的分群中心，而後，依
各個體到各中心點距離遠近，重新移動個體到最近的群體，並計
算出各群體新的中心點，然後繼續再移動各個體到最接近的群體，
直到群聚結果不再改變或滿足某種限制為止，如群聚中心直的改
變量小於預設值、重複的次數超過預設值等等。

1. 隨機指派群集中心：
– 在訓練組資料中「隨機」找出K筆紀錄來作為
初始種子(初始群集的中心)

2. 產生初始群集：
– 計算每一筆紀錄到各個隨機種子之間的距離，
然後比較該筆紀錄究竟離哪一個隨機種子最近，
這筆紀錄就會被指派到最接近的那個群集中心，
形成一個群集邊界，產生初始群集的成員集合

3. 產生新的質量中心：
– 根據邊界內的每一個案例重新計算出該群集的
質量中心，利用新的質量中心取代之前的隨機
種子，來做為該群的中心

4. 變動群集邊界：
– 指定完新的質量中心之後，再一次比較每一筆
紀錄與新的群集中心之間的距離，然後根據距
離，再度重新分配每一個案例所屬的群集
•5. 持續反覆 3, 4 的步驟，一直執行到群集成員
不再變動為止

K-Means分析法
一般考量:
1.無法得到最佳解
2.需要數值型資料
3.必須設定群集數
4.只有群集大小接近時方可得到最佳分群績效
5. 無法保證哪一個屬性之重要性較高
6. 缺乏解釋能力

Data Mining 資料型式
資料分為四種:
– 本文：內容或是文件，可看作是字串集合
– 時間：存時間序列，記錄隨時間而變的資料
– 交易：交易紀錄項
– 關聯：關聯式資料庫中表格

資料探勘技術
多層次資
料一般化
分類法群集分析
關連法
則探勘
時間序
列分析
以樣式為基礎
的相似搜尋
關聯形式交易形式時間形式本文形式
Data Mining 方法

商業智慧趨勢
1.大量成長的複雜資料
– 企業資訊量龐大，汰舊換新率又快。
2.市場整併
3.商業智慧正從董事會延伸至企業前端
– 商業智慧的應用將逐漸普及於企業的各個階層。
4.非結構化資料分析需求漸增
5.新的應用軟體能提供新的觀點
– 使用視覺效果更好的方式來呈現資料
– SAS Institute的JMP、Tibco的Spotfire，以及Tableau、
Thinkmap

商業智慧

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (16)

Similar a 商業智慧

Similar a 商業智慧 (20)

商業智慧