SlideShare una empresa de Scribd logo
1 de 43
Descargar para leer sin conexión
LỰA CHỌN THUỘC TÍNH &
KHAI PHÁ LUẬT KẾT HỢP
TRÊN WEKA
THỰC HIỆN LỰA CHỌN THUỘC TÍNH, LÀM SẠCH DỮ LIỆU VÀ
KHAI PHÁ LUẬT KẾT HỢP
DATA MINING 1
MỤC LỤC
1. GIỚI THIỆU VỀ BÀI TOÁN
2. CHUẨN BỊ DỮ LIỆU
3. DATA CLEANING – LÀM SẠCH DỮ LIỆU
4. ASSOCIATION RULE MINNING – KHAI PHÁ LUẬT
KẾT HỢP
5. ATTRIBUTE SELECTION – LỰA CHỌN THUỘC TÍNH
DATA MINING 2
1. Giới thiệu về WEKA và dữ liệu
WEKA - Waikato Enviroment for
Knowledge Analysis – là một tập
hợp các giải thuật học máy và các
công cụ xử lý dữ liệu.
Ngôn ngữ: Java, phân phối dưới
giấy phép GNU General Public
Hình 1. Logo của Weka khi chương trình được
khởi động
DATA MINING 3
Mô tả dữ liệu bank-data
Dữ liệu bank-data từ DePaul University, đây là dữ liệu ví dụ
mô phỏng từ dữ liệu ngân hàng
Trong thực tế dữ liệu - dữ liệu bank-data - được tập hợp từ
các đơn đăng ký của các khách hàng đến mở dịch vụ và thực
hiện đăng ký online của 1 ngân hàng
DATA MINING 4
id Số định danh (mỗi tài khoản 1 thứ tự)
age Số tuổi của khách hàng (tính bằng năm, dạng số)
sex 2 giá trị giới tính: MALE/FEMALE
region 4 giá trị về khu vực: inner_city/rural/suburban/town
income Thu nhập của khách hàng (dạng số)
married Khách hàng đã kết hôn hay chưa, 2 giá trị: YES/NO
children Số lượng con cái của khách hàng (dữ liệu dạng số)
car Khách hàng có xe hơi hay không: YES/NO
save_acct Khách hàng có tài khoản (TK) tiết kiệm hay không: YES/NO
current_acc Khách hàng có TK vãng lai hay không: YES/NO
mortgage Khách hàng có tài sản thế chấp hay không: YES/NO
pep Khách hàng có mua PEP (Personal Equity Plan) sau lần liên
lạc gần nhất: YES/NO
DATA MINING 5
2. CHUẨN BỊ DỮ LIỆU TRÊN WEKA
Chuyển file CSV > ARFF: dữ liệu dạng Attribute-
Relation File Format (ARFF) là dữ liệu được Weka
chấp nhận, trong khi dữ liệu chúng ta thường có ở
dạng csv hoặc tsv
DATA MINING 6
Chuyển file CSV > ARFF
Chọn Tools > ArffViewer
để mở hộp thoại
ArffViewer
Mở file định dạng CSV,
sau đó lưu lại với định
dạng ARFF
DATA MINING 7
Lưu ý
Chọn Invoke options
dialog là vì các giải
thuật khai phá luật kết
hợp như Apriori,
FPGrowth yêu cầu
thuộc tính dạng
Nominal attributes
(dữ liệu phân loại
DATA MINING 8

DATA MINING 9
3. DATA CLEANING – LÀM SẠCH DỮ LIỆU
Mục đích: Tìm, sửa đổi hoặc loại bỏ các record
dữ liệu không hoàn thiện, không chính xác hoặc
không liên quan đến dữ liệu hiện có
Data Cleansing là 1 phần trong quá trình Tiền xử
lý dữ liệu
DATA MINING 10
DATA MINING 11
Tại sao cần làm sạch dữ liệu?
Thực hiện data cleaning bằng weka
Với các giá trị bị mất
◦Weka sẽ đưa ra tỉ lệ % dữ liệu bị mất
◦Dùng bộ lọc: ReplaceMissingValues
Với dữ liệu nhiễu
◦Weka sẽ báo cáo về các dữ liệu cá biệt
◦Các bộ lọc có thể sử dụng: RemoveMisclassified,
MergeTwoValues
DATA MINING 12
Thực hiện làm sạch dữ liệu bank-data
DATA MINING 13
Theo báo cáo trên thì dữ liệu bank-data không bị mất dữ
liệu và cũng không có dữ liệu ngoại lai
Làm sạch dữ liệu bầu cử: vote
Dữ liệu có số record bị mất là 12 chiếm 3% và không có dữ
liệu ngoại lai
DATA MINING 14
Xử lý dữ liệu bị mất
DATA MINING 15
Các ô bị mất sẽ được tô đậm
DATA MINING 16
DATA MINING 17
Làm sạch dữ liệu segment-test
Ở đây dữ liệu segment-test không có dữ liệu bị mất, và có
số lượng dữ liệu ngoại lai: 34, chiếm 4%
DATA MINING 18
Xử lý dữ liệu ngoại lai
DATA MINING 19
RemoveMisclassified MergeTwoValues
Dùng RemoveMisclassified
DATA MINING 20
Dùng MergeTwoValues
DATA MINING 21
5. KHAI PHÁ LUẬT KẾT HỢP
Mục đích: của luật kết hợp (Association Rule - AR) là
tìm ra các mối kết hợp (association) hay tương quan
(correlation) giữa các đối tượng trong khối lượng lớn
dữ liệu.
DATA MINING 22
Ứng dụng: trong nhiều lĩnh vực, nhất là trong kinh
doanh như Market Basket Analysis: Cross selling –
bán hàng chéo, Product placement – sắp xếp sản
phẩm, Affinity promotion – quảng cáo liên kết,
Customer behavior Analysis – phân tích hành vi khách
hàng.
DATA MINING 23
Một số khái niệm thường gặp khi khai
phá luật kết hợp với weka:
•Item: phần tử
•ItemSet: tập phần tử
•Transaction: giao dịch
•Association: sự kết hợp
•Association rule: luật kết hợp
•Support: độ hỗ trợ
•Confidence: độ tin cậy
DATA MINING 24
•Frequent itemset: tập phần tử phổ biến
•Strong association rule: luật kết hợp mạnh
•Minimum support threshold: ngưỡng hỗ trợ tối
thiểu
•Minimum confidence threshold: ngưỡng tin cậy tối
thiểu
DATA MINING 25
Thực hiện khai phá luật kết hợp với
giải thuật Apriori:
Mục tiêu khai phá được mối quan hệ của các thuộc
tính thu thập được từ khách hàng
DATA MINING 26
DATA MINING 27
DATA MINING 28
• car: khai phá luật kết hợp phân lớp
• classindex: -1 ở đây là lấy lớp cuối cùng
• lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu
• metricType: dạng thang đo độ tin cậy của giải - ở trường hợp này: Confidence
• minMetric: số điểm tối thiểu chấp nhận được của thang đo
• numRules: số rules cần tìm
• outputItemSets: hiển thị tập dữ liệu
• removeAllMissingCols: loại bỏ các cột không chứa giá trị
• significanceLevel: mức ý nghĩa, chỉ hoạt động với metric type là Confidence
• treatZeroAsMissing: loại bỏ giá trị đầu tiên mỗi row
• upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu
• verbose: chạy chế độ hiển thị chi tiết quá trình
Một số thông số lưu ý:
Chi tiết các thông số
• car: khai phá luật kết hợp phân lớp
• classindex: index của lớp dùng trong trường hợp "car=true", -1 ở đây là lấy lớp cuối cùng
• lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu
• metricType: dạng thang đo độ tin cậy của giải thuật khai phá luật kết hợp, ở đây là dạng
Confidence
• minMetric: số điểm tối thiểu chấp nhận được của thang đo
• numRules: số rules cần tìm
• outputItemSets: hiển thị tập dữ liệu
• removeAllMissingCols: loại bỏ các cột không chứa giá trị
• significanceLevel: mức ý nghĩa, chỉ hoạt động với metric type là Confidence
• treatZeroAsMissing: loại bỏ giá trị đầu tiên mỗi row
• upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu
• verbose: chạy chế độ hiển thị chi tiết quá trình
DATA MINING 29
5. ATTRIBUTE SELECTION
Dữ liệu phân tích thường chứa nhiều rất nhiều thuộc
tính, nhưng không phải tất cả chúng đều cần thiết để
khai phá tri thức.
DATA MINING 30
Lựa chọn thuộc tính trong Weka
Để chọn lựa thuộc tính trong weka bạn cần xác định
attribute evaluator và serch method, sau đó nó sẽ tìm
kiếm trong không gian các thuộc tính con, và đánh giá
từng tập con một. Mỗi attribute evaluator được sử
dụng với một phương pháp tìm kiếm tương ứng
31
Attribute Subset Evaluators
Subset Evaluators sẽ lấy một tập thuộc tính con và trả
ra một giá trị để tìm kiếm.
32
"Wrapper" method
Đánh giá tập thuộc tính bằng một giải thuật học. Độ
chính xác của giải thuật học trên tập thuộc tính này
được xấp xỉ nhờ cross-validation.
33
"Wrapper" method
•Attribute evaluator chọn WrapperSubsetEval, chọn J48, 10 fold cross-validation
•Search method: BestFirst, chọn backward.
•Áp dụng với bank-data, ta được tập thuộc tính là income, married, children,
save_act, mortgage có merit = 0.863
•Tổng số tập được đánh giá: 72 với search termination là 5
34
• Tập thuộc tính bắt đầu: (1,2,3,4,5,6,7,8), backward search, và search
termination = 1, ta được (1,2,3,4,5,6,7). Nếu termination = 5 ta được (4,5,6).
• Nếu dùng forward search với tập bắt đầu (1,2,3) ta sẽ lấy toàn bộ thuộc tính.
• Nếu dùng bi-directional với tập (1,2,3) ta có được (4,5,6,8,10) với merit =
0.863
Chú ý: tối ưu cục bộ vs tối ưu toàn cục
• search termination > 1 sẽ giúp bạn vượt qua được thung lũng.
• Với các điểm bắt đầu khác nhau, chúng ta sẽ tới được điểm tối ưu khác nhau.
• Greedy searching chỉ tìm được tối ưu cục bộ trong không gian tìm kiếm.
35
Scheme-Indepedent attribute selection
Wrapper đơn giản, trực tiếp nhưng rất chậm.
Chúng ta chú ý:
1. Sử dụng single-attribute evaluator với ranking.
- Giúp loại bỏ những thuộc tính không thích hợp
2. Sử dụng attribute subset evaluator cùng với search method.
- Giúp loại bỏ những thuộc tính dư thừa.
Attribute subset evaluator:
- wrapper method là scheme-dependent subset evaluators
- Còn có scheme-independent subset evaluators
36
Scheme-Indepedent attribute selection
CfsSubsetEval: là một scheme-independent subset evaluators
Theo CfsSubsetEval thì một tập thuộc tính tốt phải thỏa mãn:
- Có tương quan cao với thuộc tính phân lớp (class attribute).
- Tương quan yếu với các thuộc tính trong cùng tập.
Nó được thể hiện qua công thức sau:
C là hàm đánh giá tương quan giữa 2 thuộc tính
37
Attribute Selected classifier
38
Attribute Selected classifier
AttributeSelectedClassifier chọn lựa thuộc tính chỉ dựa trên
tập huấn luyện, thậm chí khi được đánh giá bằng cross-
validation. Đây là cách làm đúng.
Nó cho kết quả tôt nếu chọn bộ phân loại cùng loại thuộc
wrapper.
39
Attribute Selected classifier
So sánh CfsSubsetEval với Wrapper trên bank-data.arff
Naive Bayes J48 IBK
No attribute selection 70.33% 85% 75.33%
Attribute selection sử dụng AttributeSelectedClassifier
CfsSubsetEval (rất nhanh) 69.83% 79% 77.66%
Wrapper selection (khá chậm) 72% 85.5% 85.16%
GainRatioAttributeEval (cực nhanh) 71% 79.16% 77.83%
(giữ lại 4 thuộc tính)
Trong nhiều trường hợp thì CfsSubsetEval tốt gần bằng Wrapper
selection nhưng nhanh hơn nhiều.
40
Fast attribute selection sử dụng ranking
Single-attribute evaluator: có thể loại bỏ những thuộc tính không
thích hợp, nhưng thuộc tính dư thừa thì không.
- Sử dụng với ranker search, nó dùng để sắp xếp thuộc tính theo giá
trị đánh giá.
- Single-attribute evaluator đánh giá mối tương quan của từng thuộc
tính với với thuộc tính phân lớp.
Mỗi phương pháp thì có công thức riêng.
VD: InfoGainAttributeEval sử dụng information gain, hay
GainRatioAttributeEval sử dụng công thức gain ratio.
41
Ranker method có các tham số: số lượng tham số cần
giữ, ngưỡng cần chọn.
Do đó Single-attribute evaluation tuy nhanh nhưng
khó xác định số lượng tham số cần giữ lại.
Không loại được thuộc tính dư
42
Thành viên đóng góp
Tên
Nguyễn Tuấn Vũ
Nguyễn Anh Việt
Hồ Quang Thanh
Đoàn Vương Bính Tú
Vũ Văn Thống
Nguyễn Tường Vi
DATA MINING 43

Más contenido relacionado

La actualidad más candente

PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UMLPHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
Dang Tuan
 
Giáo trình xử lý ảnh
Giáo trình xử lý ảnhGiáo trình xử lý ảnh
Giáo trình xử lý ảnh
Tùng Trần
 
lý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tánlý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tán
Ngo Trung
 
PHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNG
PHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNGPHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNG
PHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNG
Thùy Linh
 

La actualidad más candente (20)

Giáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinGiáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tin
 
Bài 7: Thiết kế cơ sở dữ liệu vật lý
Bài 7: Thiết kế cơ sở dữ liệu vật lýBài 7: Thiết kế cơ sở dữ liệu vật lý
Bài 7: Thiết kế cơ sở dữ liệu vật lý
 
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thịđồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
 
Slide báo cáo đồ án tốt nghiệp "Website cửa hàng điện thoại trực tuyến"
Slide báo cáo đồ án tốt nghiệp "Website cửa hàng điện thoại trực tuyến"Slide báo cáo đồ án tốt nghiệp "Website cửa hàng điện thoại trực tuyến"
Slide báo cáo đồ án tốt nghiệp "Website cửa hàng điện thoại trực tuyến"
 
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UMLPHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
 
Xây dựng cơ sở dữ liệu trong quản lý nhân sự
Xây dựng cơ sở dữ liệu trong quản lý nhân sựXây dựng cơ sở dữ liệu trong quản lý nhân sự
Xây dựng cơ sở dữ liệu trong quản lý nhân sự
 
Giáo trình xử lý ảnh
Giáo trình xử lý ảnhGiáo trình xử lý ảnh
Giáo trình xử lý ảnh
 
Khóa luận tốt nghiệp Phân tích thiết kế hệ thống thông tin quản lý ký túc xá ...
Khóa luận tốt nghiệp Phân tích thiết kế hệ thống thông tin quản lý ký túc xá ...Khóa luận tốt nghiệp Phân tích thiết kế hệ thống thông tin quản lý ký túc xá ...
Khóa luận tốt nghiệp Phân tích thiết kế hệ thống thông tin quản lý ký túc xá ...
 
Đề tài: Xây Dựng Chương Trình Quản Lý Nhà Hàng Coffee SEN
Đề tài: Xây Dựng Chương Trình Quản Lý Nhà Hàng Coffee SENĐề tài: Xây Dựng Chương Trình Quản Lý Nhà Hàng Coffee SEN
Đề tài: Xây Dựng Chương Trình Quản Lý Nhà Hàng Coffee SEN
 
lý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tánlý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tán
 
Chương trình Quản lý Nhà Sách
Chương trình Quản lý Nhà SáchChương trình Quản lý Nhà Sách
Chương trình Quản lý Nhà Sách
 
Báo cáo đồ án - Thiết kế web tại Thanh Hóa
Báo cáo đồ án - Thiết kế web tại Thanh HóaBáo cáo đồ án - Thiết kế web tại Thanh Hóa
Báo cáo đồ án - Thiết kế web tại Thanh Hóa
 
Đề tài: Xây dựng phần mềm quản lý nhà hàng ăn uống
Đề tài: Xây dựng phần mềm quản lý nhà hàng ăn uốngĐề tài: Xây dựng phần mềm quản lý nhà hàng ăn uống
Đề tài: Xây dựng phần mềm quản lý nhà hàng ăn uống
 
PHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNG
PHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNGPHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNG
PHÂN TÍCH THIẾT KẾ HỆ THỐNG BÁN HÀNG QUA MẠNG
 
Phân tích thiết kế hệ thống thông tin quản lý bán hàng của công ty cổ phần qu...
Phân tích thiết kế hệ thống thông tin quản lý bán hàng của công ty cổ phần qu...Phân tích thiết kế hệ thống thông tin quản lý bán hàng của công ty cổ phần qu...
Phân tích thiết kế hệ thống thông tin quản lý bán hàng của công ty cổ phần qu...
 
Báo cáo phân tích thiết kế đồ án game
Báo cáo phân tích thiết kế đồ án game Báo cáo phân tích thiết kế đồ án game
Báo cáo phân tích thiết kế đồ án game
 
[Báo cáo] Bài tập lớn Ngôn ngữ lập trình: Quản lý thư viện
[Báo cáo] Bài tập lớn Ngôn ngữ lập trình: Quản lý thư viện[Báo cáo] Bài tập lớn Ngôn ngữ lập trình: Quản lý thư viện
[Báo cáo] Bài tập lớn Ngôn ngữ lập trình: Quản lý thư viện
 
Đề tài: Xây dựng website giới thiệu sản phẩm phần mềm, HOT
Đề tài: Xây dựng website giới thiệu sản phẩm phần mềm, HOTĐề tài: Xây dựng website giới thiệu sản phẩm phần mềm, HOT
Đề tài: Xây dựng website giới thiệu sản phẩm phần mềm, HOT
 
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phêbáo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
 
Bài 2: Các khái niệm trong CSDL quan hệ - Giáo trình FPT
Bài 2: Các khái niệm trong CSDL quan hệ - Giáo trình FPTBài 2: Các khái niệm trong CSDL quan hệ - Giáo trình FPT
Bài 2: Các khái niệm trong CSDL quan hệ - Giáo trình FPT
 

Similar a Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA

qdoc.tips_huong-dan-su-dung-wekapdf.pdf
qdoc.tips_huong-dan-su-dung-wekapdf.pdfqdoc.tips_huong-dan-su-dung-wekapdf.pdf
qdoc.tips_huong-dan-su-dung-wekapdf.pdf
minhtd9a
 
Chương 2. Làm sạch dữ liệu.pptx
Chương 2. Làm sạch dữ liệu.pptxChương 2. Làm sạch dữ liệu.pptx
Chương 2. Làm sạch dữ liệu.pptx
DucNguyen959737
 
Qtu.vn sql - chuong 7
Qtu.vn  sql - chuong 7Qtu.vn  sql - chuong 7
Qtu.vn sql - chuong 7
Hoang le Minh
 
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfCÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
Man_Ebook
 
Ky thuat l.trinh_java
Ky thuat l.trinh_javaKy thuat l.trinh_java
Ky thuat l.trinh_java
Lam Man
 
Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731
Vu Tuan
 

Similar a Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA (20)

qdoc.tips_huong-dan-su-dung-wekapdf.pdf
qdoc.tips_huong-dan-su-dung-wekapdf.pdfqdoc.tips_huong-dan-su-dung-wekapdf.pdf
qdoc.tips_huong-dan-su-dung-wekapdf.pdf
 
4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx
 
Chuong 5 toi_uu_hoa_van_tin
Chuong 5 toi_uu_hoa_van_tinChuong 5 toi_uu_hoa_van_tin
Chuong 5 toi_uu_hoa_van_tin
 
Tableau business intelligence
Tableau business intelligenceTableau business intelligence
Tableau business intelligence
 
Slide duyetgiang
Slide duyetgiangSlide duyetgiang
Slide duyetgiang
 
[Cntt] all java
[Cntt] all java[Cntt] all java
[Cntt] all java
 
Chương 2. Làm sạch dữ liệu.pptx
Chương 2. Làm sạch dữ liệu.pptxChương 2. Làm sạch dữ liệu.pptx
Chương 2. Làm sạch dữ liệu.pptx
 
Phát triển hệ thống gợi ý bằng Học tăng cường.pptx
Phát triển hệ thống gợi ý bằng Học tăng cường.pptxPhát triển hệ thống gợi ý bằng Học tăng cường.pptx
Phát triển hệ thống gợi ý bằng Học tăng cường.pptx
 
Qtu.vn sql - chuong 7
Qtu.vn  sql - chuong 7Qtu.vn  sql - chuong 7
Qtu.vn sql - chuong 7
 
LTJAVA_TV_Slides.ppt
LTJAVA_TV_Slides.pptLTJAVA_TV_Slides.ppt
LTJAVA_TV_Slides.ppt
 
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfCÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
 
Cursor & Function trong SQL Server
Cursor & Function trong SQL ServerCursor & Function trong SQL Server
Cursor & Function trong SQL Server
 
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đLuận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
 
Phan-cum-du lieu V2.pdf
Phan-cum-du lieu V2.pdfPhan-cum-du lieu V2.pdf
Phan-cum-du lieu V2.pdf
 
[Cntt] bài giảng java khtn hcm
[Cntt] bài giảng java   khtn hcm[Cntt] bài giảng java   khtn hcm
[Cntt] bài giảng java khtn hcm
 
Ky thuat l.trinh_java
Ky thuat l.trinh_javaKy thuat l.trinh_java
Ky thuat l.trinh_java
 
Nghiên cứu luật kết hợp áp dụng xây dựng mạng chia sẻ đồ vật MiGi
Nghiên cứu luật kết hợp áp dụng xây dựng mạng chia sẻ đồ vật MiGiNghiên cứu luật kết hợp áp dụng xây dựng mạng chia sẻ đồ vật MiGi
Nghiên cứu luật kết hợp áp dụng xây dựng mạng chia sẻ đồ vật MiGi
 
Huong dan su dung filter and dashboard trong Jira
Huong dan su dung filter and dashboard trong JiraHuong dan su dung filter and dashboard trong Jira
Huong dan su dung filter and dashboard trong Jira
 
matlab co ban
matlab co banmatlab co ban
matlab co ban
 
Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731
 

Más de Ho Quang Thanh

Más de Ho Quang Thanh (17)

Hướng dẫn sử dụng đồng hồ Casio AE-1000WD
Hướng dẫn sử dụng đồng hồ Casio AE-1000WDHướng dẫn sử dụng đồng hồ Casio AE-1000WD
Hướng dẫn sử dụng đồng hồ Casio AE-1000WD
 
Long mode page traslation
Long mode page traslationLong mode page traslation
Long mode page traslation
 
Protection in Virtual Memory - Study case
Protection in Virtual Memory - Study caseProtection in Virtual Memory - Study case
Protection in Virtual Memory - Study case
 
ĐẢNG CỘNG SẢN VIỆT NAM giải quyết xung đột với Pháp sau CMT8 trước Toàn quốc ...
ĐẢNG CỘNG SẢN VIỆT NAM giải quyết xung đột với Pháp sau CMT8 trước Toàn quốc ...ĐẢNG CỘNG SẢN VIỆT NAM giải quyết xung đột với Pháp sau CMT8 trước Toàn quốc ...
ĐẢNG CỘNG SẢN VIỆT NAM giải quyết xung đột với Pháp sau CMT8 trước Toàn quốc ...
 
ĐẢNG CỘNG SẢN VIỆT NAM RA ĐỜI QUÁ TRÌNH SÀNG LỌC NGHIÊM KHẮC CỦA LỊCH SỬ & DÂ...
ĐẢNG CỘNG SẢN VIỆT NAM RA ĐỜI QUÁ TRÌNH SÀNG LỌC NGHIÊM KHẮC CỦA LỊCH SỬ & DÂ...ĐẢNG CỘNG SẢN VIỆT NAM RA ĐỜI QUÁ TRÌNH SÀNG LỌC NGHIÊM KHẮC CỦA LỊCH SỬ & DÂ...
ĐẢNG CỘNG SẢN VIỆT NAM RA ĐỜI QUÁ TRÌNH SÀNG LỌC NGHIÊM KHẮC CỦA LỊCH SỬ & DÂ...
 
ĐƯỜNG LỐI CÔNG NGHIỆP HÓA CỦA ĐẢNG CỘNG SẢN VIỆT NAM
ĐƯỜNG LỐI CÔNG NGHIỆP HÓA CỦA ĐẢNG CỘNG SẢN VIỆT NAMĐƯỜNG LỐI CÔNG NGHIỆP HÓA CỦA ĐẢNG CỘNG SẢN VIỆT NAM
ĐƯỜNG LỐI CÔNG NGHIỆP HÓA CỦA ĐẢNG CỘNG SẢN VIỆT NAM
 
Low-code Platform: Tìm hiểu về nền tảng ít lập trình
Low-code Platform: Tìm hiểu về nền tảng ít lập trìnhLow-code Platform: Tìm hiểu về nền tảng ít lập trình
Low-code Platform: Tìm hiểu về nền tảng ít lập trình
 
VINASTAS - các đối tượng hữu quan và đạo đức tổ chức trong vụ "Nước mắm Asen"
VINASTAS - các đối tượng hữu quan và đạo đức tổ chức trong vụ "Nước mắm Asen"VINASTAS - các đối tượng hữu quan và đạo đức tổ chức trong vụ "Nước mắm Asen"
VINASTAS - các đối tượng hữu quan và đạo đức tổ chức trong vụ "Nước mắm Asen"
 
Nhận dạng tin tức giả Tiếng Việt
Nhận dạng tin tức giả Tiếng ViệtNhận dạng tin tức giả Tiếng Việt
Nhận dạng tin tức giả Tiếng Việt
 
Machine Learning resource textbook - Andrew Ng - print version
Machine Learning resource textbook - Andrew Ng - print versionMachine Learning resource textbook - Andrew Ng - print version
Machine Learning resource textbook - Andrew Ng - print version
 
HCMUT-TBI Training of Trainer
HCMUT-TBI Training of Trainer HCMUT-TBI Training of Trainer
HCMUT-TBI Training of Trainer
 
Giải quyết bài toán Speech-2-Text bằng Long Short-term Memory
Giải quyết bài toán Speech-2-Text bằng Long Short-term MemoryGiải quyết bài toán Speech-2-Text bằng Long Short-term Memory
Giải quyết bài toán Speech-2-Text bằng Long Short-term Memory
 
Luận cương chính trị 10/1930 - Giải quyết hạn chế & Phát triển
Luận cương chính trị 10/1930 - Giải quyết hạn chế & Phát triểnLuận cương chính trị 10/1930 - Giải quyết hạn chế & Phát triển
Luận cương chính trị 10/1930 - Giải quyết hạn chế & Phát triển
 
AGILE project management - Quản lý dự án linh hoạt & Ứng dụng trong eCommerce
AGILE project management - Quản lý dự án linh hoạt & Ứng dụng trong eCommerceAGILE project management - Quản lý dự án linh hoạt & Ứng dụng trong eCommerce
AGILE project management - Quản lý dự án linh hoạt & Ứng dụng trong eCommerce
 
Cấu hình và bảo mật cho Ubuntu Server
Cấu hình và bảo mật cho Ubuntu Server Cấu hình và bảo mật cho Ubuntu Server
Cấu hình và bảo mật cho Ubuntu Server
 
Lean manufacturing - Sản xuất Tinh gọn
Lean manufacturing - Sản xuất Tinh gọnLean manufacturing - Sản xuất Tinh gọn
Lean manufacturing - Sản xuất Tinh gọn
 
Phiên chợ khởi nghiệp lần 1 - Startup & SMEs Fair 1
Phiên chợ khởi nghiệp lần 1 - Startup & SMEs Fair 1Phiên chợ khởi nghiệp lần 1 - Startup & SMEs Fair 1
Phiên chợ khởi nghiệp lần 1 - Startup & SMEs Fair 1
 

Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA

  • 1. LỰA CHỌN THUỘC TÍNH & KHAI PHÁ LUẬT KẾT HỢP TRÊN WEKA THỰC HIỆN LỰA CHỌN THUỘC TÍNH, LÀM SẠCH DỮ LIỆU VÀ KHAI PHÁ LUẬT KẾT HỢP DATA MINING 1
  • 2. MỤC LỤC 1. GIỚI THIỆU VỀ BÀI TOÁN 2. CHUẨN BỊ DỮ LIỆU 3. DATA CLEANING – LÀM SẠCH DỮ LIỆU 4. ASSOCIATION RULE MINNING – KHAI PHÁ LUẬT KẾT HỢP 5. ATTRIBUTE SELECTION – LỰA CHỌN THUỘC TÍNH DATA MINING 2
  • 3. 1. Giới thiệu về WEKA và dữ liệu WEKA - Waikato Enviroment for Knowledge Analysis – là một tập hợp các giải thuật học máy và các công cụ xử lý dữ liệu. Ngôn ngữ: Java, phân phối dưới giấy phép GNU General Public Hình 1. Logo của Weka khi chương trình được khởi động DATA MINING 3
  • 4. Mô tả dữ liệu bank-data Dữ liệu bank-data từ DePaul University, đây là dữ liệu ví dụ mô phỏng từ dữ liệu ngân hàng Trong thực tế dữ liệu - dữ liệu bank-data - được tập hợp từ các đơn đăng ký của các khách hàng đến mở dịch vụ và thực hiện đăng ký online của 1 ngân hàng DATA MINING 4
  • 5. id Số định danh (mỗi tài khoản 1 thứ tự) age Số tuổi của khách hàng (tính bằng năm, dạng số) sex 2 giá trị giới tính: MALE/FEMALE region 4 giá trị về khu vực: inner_city/rural/suburban/town income Thu nhập của khách hàng (dạng số) married Khách hàng đã kết hôn hay chưa, 2 giá trị: YES/NO children Số lượng con cái của khách hàng (dữ liệu dạng số) car Khách hàng có xe hơi hay không: YES/NO save_acct Khách hàng có tài khoản (TK) tiết kiệm hay không: YES/NO current_acc Khách hàng có TK vãng lai hay không: YES/NO mortgage Khách hàng có tài sản thế chấp hay không: YES/NO pep Khách hàng có mua PEP (Personal Equity Plan) sau lần liên lạc gần nhất: YES/NO DATA MINING 5
  • 6. 2. CHUẨN BỊ DỮ LIỆU TRÊN WEKA Chuyển file CSV > ARFF: dữ liệu dạng Attribute- Relation File Format (ARFF) là dữ liệu được Weka chấp nhận, trong khi dữ liệu chúng ta thường có ở dạng csv hoặc tsv DATA MINING 6
  • 7. Chuyển file CSV > ARFF Chọn Tools > ArffViewer để mở hộp thoại ArffViewer Mở file định dạng CSV, sau đó lưu lại với định dạng ARFF DATA MINING 7
  • 8. Lưu ý Chọn Invoke options dialog là vì các giải thuật khai phá luật kết hợp như Apriori, FPGrowth yêu cầu thuộc tính dạng Nominal attributes (dữ liệu phân loại DATA MINING 8 
  • 10. 3. DATA CLEANING – LÀM SẠCH DỮ LIỆU Mục đích: Tìm, sửa đổi hoặc loại bỏ các record dữ liệu không hoàn thiện, không chính xác hoặc không liên quan đến dữ liệu hiện có Data Cleansing là 1 phần trong quá trình Tiền xử lý dữ liệu DATA MINING 10
  • 11. DATA MINING 11 Tại sao cần làm sạch dữ liệu?
  • 12. Thực hiện data cleaning bằng weka Với các giá trị bị mất ◦Weka sẽ đưa ra tỉ lệ % dữ liệu bị mất ◦Dùng bộ lọc: ReplaceMissingValues Với dữ liệu nhiễu ◦Weka sẽ báo cáo về các dữ liệu cá biệt ◦Các bộ lọc có thể sử dụng: RemoveMisclassified, MergeTwoValues DATA MINING 12
  • 13. Thực hiện làm sạch dữ liệu bank-data DATA MINING 13 Theo báo cáo trên thì dữ liệu bank-data không bị mất dữ liệu và cũng không có dữ liệu ngoại lai
  • 14. Làm sạch dữ liệu bầu cử: vote Dữ liệu có số record bị mất là 12 chiếm 3% và không có dữ liệu ngoại lai DATA MINING 14
  • 15. Xử lý dữ liệu bị mất DATA MINING 15
  • 16. Các ô bị mất sẽ được tô đậm DATA MINING 16
  • 18. Làm sạch dữ liệu segment-test Ở đây dữ liệu segment-test không có dữ liệu bị mất, và có số lượng dữ liệu ngoại lai: 34, chiếm 4% DATA MINING 18
  • 19. Xử lý dữ liệu ngoại lai DATA MINING 19 RemoveMisclassified MergeTwoValues
  • 22. 5. KHAI PHÁ LUẬT KẾT HỢP Mục đích: của luật kết hợp (Association Rule - AR) là tìm ra các mối kết hợp (association) hay tương quan (correlation) giữa các đối tượng trong khối lượng lớn dữ liệu. DATA MINING 22
  • 23. Ứng dụng: trong nhiều lĩnh vực, nhất là trong kinh doanh như Market Basket Analysis: Cross selling – bán hàng chéo, Product placement – sắp xếp sản phẩm, Affinity promotion – quảng cáo liên kết, Customer behavior Analysis – phân tích hành vi khách hàng. DATA MINING 23
  • 24. Một số khái niệm thường gặp khi khai phá luật kết hợp với weka: •Item: phần tử •ItemSet: tập phần tử •Transaction: giao dịch •Association: sự kết hợp •Association rule: luật kết hợp •Support: độ hỗ trợ •Confidence: độ tin cậy DATA MINING 24
  • 25. •Frequent itemset: tập phần tử phổ biến •Strong association rule: luật kết hợp mạnh •Minimum support threshold: ngưỡng hỗ trợ tối thiểu •Minimum confidence threshold: ngưỡng tin cậy tối thiểu DATA MINING 25
  • 26. Thực hiện khai phá luật kết hợp với giải thuật Apriori: Mục tiêu khai phá được mối quan hệ của các thuộc tính thu thập được từ khách hàng DATA MINING 26
  • 28. DATA MINING 28 • car: khai phá luật kết hợp phân lớp • classindex: -1 ở đây là lấy lớp cuối cùng • lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu • metricType: dạng thang đo độ tin cậy của giải - ở trường hợp này: Confidence • minMetric: số điểm tối thiểu chấp nhận được của thang đo • numRules: số rules cần tìm • outputItemSets: hiển thị tập dữ liệu • removeAllMissingCols: loại bỏ các cột không chứa giá trị • significanceLevel: mức ý nghĩa, chỉ hoạt động với metric type là Confidence • treatZeroAsMissing: loại bỏ giá trị đầu tiên mỗi row • upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu • verbose: chạy chế độ hiển thị chi tiết quá trình Một số thông số lưu ý:
  • 29. Chi tiết các thông số • car: khai phá luật kết hợp phân lớp • classindex: index của lớp dùng trong trường hợp "car=true", -1 ở đây là lấy lớp cuối cùng • lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu • metricType: dạng thang đo độ tin cậy của giải thuật khai phá luật kết hợp, ở đây là dạng Confidence • minMetric: số điểm tối thiểu chấp nhận được của thang đo • numRules: số rules cần tìm • outputItemSets: hiển thị tập dữ liệu • removeAllMissingCols: loại bỏ các cột không chứa giá trị • significanceLevel: mức ý nghĩa, chỉ hoạt động với metric type là Confidence • treatZeroAsMissing: loại bỏ giá trị đầu tiên mỗi row • upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu • verbose: chạy chế độ hiển thị chi tiết quá trình DATA MINING 29
  • 30. 5. ATTRIBUTE SELECTION Dữ liệu phân tích thường chứa nhiều rất nhiều thuộc tính, nhưng không phải tất cả chúng đều cần thiết để khai phá tri thức. DATA MINING 30
  • 31. Lựa chọn thuộc tính trong Weka Để chọn lựa thuộc tính trong weka bạn cần xác định attribute evaluator và serch method, sau đó nó sẽ tìm kiếm trong không gian các thuộc tính con, và đánh giá từng tập con một. Mỗi attribute evaluator được sử dụng với một phương pháp tìm kiếm tương ứng 31
  • 32. Attribute Subset Evaluators Subset Evaluators sẽ lấy một tập thuộc tính con và trả ra một giá trị để tìm kiếm. 32
  • 33. "Wrapper" method Đánh giá tập thuộc tính bằng một giải thuật học. Độ chính xác của giải thuật học trên tập thuộc tính này được xấp xỉ nhờ cross-validation. 33
  • 34. "Wrapper" method •Attribute evaluator chọn WrapperSubsetEval, chọn J48, 10 fold cross-validation •Search method: BestFirst, chọn backward. •Áp dụng với bank-data, ta được tập thuộc tính là income, married, children, save_act, mortgage có merit = 0.863 •Tổng số tập được đánh giá: 72 với search termination là 5 34
  • 35. • Tập thuộc tính bắt đầu: (1,2,3,4,5,6,7,8), backward search, và search termination = 1, ta được (1,2,3,4,5,6,7). Nếu termination = 5 ta được (4,5,6). • Nếu dùng forward search với tập bắt đầu (1,2,3) ta sẽ lấy toàn bộ thuộc tính. • Nếu dùng bi-directional với tập (1,2,3) ta có được (4,5,6,8,10) với merit = 0.863 Chú ý: tối ưu cục bộ vs tối ưu toàn cục • search termination > 1 sẽ giúp bạn vượt qua được thung lũng. • Với các điểm bắt đầu khác nhau, chúng ta sẽ tới được điểm tối ưu khác nhau. • Greedy searching chỉ tìm được tối ưu cục bộ trong không gian tìm kiếm. 35
  • 36. Scheme-Indepedent attribute selection Wrapper đơn giản, trực tiếp nhưng rất chậm. Chúng ta chú ý: 1. Sử dụng single-attribute evaluator với ranking. - Giúp loại bỏ những thuộc tính không thích hợp 2. Sử dụng attribute subset evaluator cùng với search method. - Giúp loại bỏ những thuộc tính dư thừa. Attribute subset evaluator: - wrapper method là scheme-dependent subset evaluators - Còn có scheme-independent subset evaluators 36
  • 37. Scheme-Indepedent attribute selection CfsSubsetEval: là một scheme-independent subset evaluators Theo CfsSubsetEval thì một tập thuộc tính tốt phải thỏa mãn: - Có tương quan cao với thuộc tính phân lớp (class attribute). - Tương quan yếu với các thuộc tính trong cùng tập. Nó được thể hiện qua công thức sau: C là hàm đánh giá tương quan giữa 2 thuộc tính 37
  • 39. Attribute Selected classifier AttributeSelectedClassifier chọn lựa thuộc tính chỉ dựa trên tập huấn luyện, thậm chí khi được đánh giá bằng cross- validation. Đây là cách làm đúng. Nó cho kết quả tôt nếu chọn bộ phân loại cùng loại thuộc wrapper. 39
  • 40. Attribute Selected classifier So sánh CfsSubsetEval với Wrapper trên bank-data.arff Naive Bayes J48 IBK No attribute selection 70.33% 85% 75.33% Attribute selection sử dụng AttributeSelectedClassifier CfsSubsetEval (rất nhanh) 69.83% 79% 77.66% Wrapper selection (khá chậm) 72% 85.5% 85.16% GainRatioAttributeEval (cực nhanh) 71% 79.16% 77.83% (giữ lại 4 thuộc tính) Trong nhiều trường hợp thì CfsSubsetEval tốt gần bằng Wrapper selection nhưng nhanh hơn nhiều. 40
  • 41. Fast attribute selection sử dụng ranking Single-attribute evaluator: có thể loại bỏ những thuộc tính không thích hợp, nhưng thuộc tính dư thừa thì không. - Sử dụng với ranker search, nó dùng để sắp xếp thuộc tính theo giá trị đánh giá. - Single-attribute evaluator đánh giá mối tương quan của từng thuộc tính với với thuộc tính phân lớp. Mỗi phương pháp thì có công thức riêng. VD: InfoGainAttributeEval sử dụng information gain, hay GainRatioAttributeEval sử dụng công thức gain ratio. 41
  • 42. Ranker method có các tham số: số lượng tham số cần giữ, ngưỡng cần chọn. Do đó Single-attribute evaluation tuy nhanh nhưng khó xác định số lượng tham số cần giữ lại. Không loại được thuộc tính dư 42
  • 43. Thành viên đóng góp Tên Nguyễn Tuấn Vũ Nguyễn Anh Việt Hồ Quang Thanh Đoàn Vương Bính Tú Vũ Văn Thống Nguyễn Tường Vi DATA MINING 43