1. TRƯ NG I H C KHOA H C T NHIÊN
KHOA CÔNG NGH THÔNG TIN
THI MÔN KHAI THÁC D LI U VÀ NG D NG
L P CAO H C – H TH NG THÔNG TIN
TH I GIAN LÀM BÀI: 150 phút
Ư C S D NG TÀI LI U
Câu 1:
1.1 Cho trư c danh sách các t p ph bi n (FIs) cùng v i ph bi n (support) c a
chúng. Trình bày thu t toán tìm t t c các lu t k t h p th a ngư ng minConf.
Anh/ch hãy cho bi t ph c t p c a thu t toán tương ng theo |FIs|.
1.2 Cho CSDL giao tác dư i d ng nh phân như sau:
Mã giao d ch A B C D E F
1 1 1 0 1 1 0
2 0 1 1 0 1 0
3 1 1 0 1 1 1
4 1 1 1 0 1 0
5 0 1 1 1 0 1
6 1 1 1 1 1 0
a) Tìm t t c các t p ph bi n có trong CSDL v i minSup = 50% theo phương
pháp FP-Tree (ho c IT-Tree)
b) Tìm t t c các lu t k t h p v i minConf = 80%
Câu 2:
2.1 Trình bày ng n g n thu t toán k-means.
2.2 M t xe ón khách v b n xe Mi n ông c a công ty Mai Linh mu n ón n
khách hàng. Do th i gian ón khách ít nên công ty mu n gom khách v k a
i m ti n vi c ón. Gi s n = 5 và k = 2. 5 khách hàng ang các t a
A(1,1), B(3,1), C(3,3), D(4,2), E(1,3). Anh/ch hãy cho bi t nên h n khách nào
t i a i m nào vi c ưa ón là thu n ti n nh t. Cho bi t t a c a2 a
i m c n ón khách? Gi s o kho ng cách ư c s d ng là o
Euclidean.
1
2. Câu 3:
Cho CSDL sau:
ID Outlook Tempurature Humidity Windy Class
1 Sunny Hot High False No
2 Sunny Hot High True No
3 Overcast Hot High False Yes
4 Rain Mild High False Yes
5 Rain Cold Normal False Yes
6 Rain Cold Normal True No
7 Overcast Cold Normal True Yes
8 Sunny Mild High False No
9 Sunny Cold Normal False Yes
10 Rain Mild Normal False Yes
11 Sunny Mild Normal True Yes
12 Overcast Mild High True Yes
13 Overcast Hot Normal False Yes
14 Rain Mild High True No
15 Overcast Mild Normal False ?
16 Rain Hot Normal True ?
3.1. S d ng o sau, tìm các lu t phân l p v i c t quy t nh là Class.
o Information Gain (IG):
| Sv |
Gain( S , A) = Entropy ( S ) − ∑ Entropy ( Sv )
v∈Value ( A ) | S |
Trong ó:
- Value(A) là t p t t c các giá tr có th có i v i thu c tính A và Sv
là t p con c a S mà A có giá tr là v
- V i S bao g m c l p, thì Entropy c a S ư c tính b ng công th c
sau:
c
Entropy ( S ) = ∑ − pi log 2 pi
i =1
ây pi là t l c a các m u thu c l p i trong t p S
Lưu ý: Chúng ta luôn ch n o IG có giá tr l n nh t
3.2. Cho bi t l p (Class) c a m u 15, 16 d a vào t p lu t v a tìm ư c.
3.3. Cho m u X = {Outlook = Rain, Tempurature = Hot, Humidity = Normal,
Windy = False}. D a vào phương pháp Naïve Bayesian, tìm l p c a X.
-H T-
2