2. Tid Refund Marital
Status
Taxable
Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Refund
MarSt
TaxInc
YESNO
NO
NO
Yes No
MarriedSingle, Divorced
< 80K > 80K
Splitting Attributes
Model: Decision Tree
Recall: Pohon Keputusan
3. Klasifikasi Bayesian
Problem:
– Diberikan himpunan atribut X = {x1, x2... xn}
– Prediksi nilai atribut kelas Y
Solusi:
Cari probabilitas tertinggi untuk nilai Y jika diberikan himpunan
atribut X.
4. Problem
Himpunan atribut X = {Refund,
Marital status, Taxable
income}
Atribut kelas Y: Cheat= {Yes,
No}
Diketahui data:
Refund Marital
Status
Taxable
Income Cheat
No Married 80K ?
10
Tid Refund Marital
Status
Taxable
Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
5. Solusi
Cari probabilitas:
P1 = P(Cheat=yes|Refund=No,Marital
Status=Married,Taxable Income=80K)
P1 = P(Cheat=no|Refund=No,Marital
Status=Married,Taxable Income=80K)
Jika P1 > P2, maka Cheat = yes.
Jika P1 < P2, maka Cheat = no
P1 = P2? Pilih salah satu.
6. Teorema Bayes
Bagaimana mencari nilai P(Y|x1,...xn) ?
Gunakan teorema Bayes:
Fungsi normalization constant: tidak tergantung nilai Y
sehingga nilainya tetap antara P1 dan P2 → tidak perlu
dihitung.
Normalization Constant
Likelihood Prior
7. Teorema Bayes
P(Y)P(X1, …, Xn|Y) =P(Y)P(X1|Y)P(X2,..,Xn|Y,X1)
= P(Y)P(X1|Y)P(X2|Y,X1)
P(X3,..,Xn|Y,X1,X2)
= P(Y)P(X1|Y)P(X2|Y,X1)
P(X3|Y,X1,X2)...P(Xn|Y,X1,X2,X3,... Xn-
1).
Terlalu banyak parameter
Lama
Tempat yang besar
Data yang banyak
8. Naive Bayes
Asumsi Naïve Bayes : Jika diberikan atribut kelas Y,
seluruh atribut X bersifat independen (tidak tergantung
satu sama lain) → Tidak ada hubungan antar atribut X.
Y
Xn
...
X2X1
Y
XnX2X1 ...
9. Naive Bayes
P(Y)P(X1, …, Xn|Y) = P(Y)P(X1|Y)P(X2|Y,X1)
P(X3|Y,X1,X2)...P(Xn|Y,X1,X2,X3,... Xn-
1).
P(Y)P(X1, …, Xn|Y) =P(Y)P(X1|Y)P(X2|Y)P(X3|Y)...P(Xn|Y)
P(Y) = Jumlah kemunculan Y/Jumlah data
P(Xi|Y) = Jumlah Xi dan Y /Jumlah kemunculan Y
10. Contoh 1: Klasifikasi
Keuntungan Perusahaan
Usia Aset Nilai Saing Jenis Keuntungan
Lama Ada Software Menurun
Lama Tidak Ada Software Menurun
Lama Tidak Ada Hardware Menurun
Tengah Ada Software Menurun
Tengah Ada Hardware Menurun
Tengah Tidak Ada Hardware Meningkat
Tengah Tidak Ada Software Meningkat
Baru Ada Software Meningkat
Baru Tidak Ada Hardware Meningkat
Baru Tidak Ada Software Meningkat
11. Pertanyaan:
Sebuah perusahaan memiliki usia aset yang baru,
memiliki nilai saing dan bergerak di bidang
hardware.
Tentukan peluang perusahaan tersebut
memperoleh keuntungan naik dan turun
berdasarkan tabel tersebut dengan
menggunakan Naive Bayes.
12. Solusi: Klasifikasi Naive
Bayes
1. Tentukan himpunan atribut X dan atribut kelas Y:
Himpunan atribut X = {Usia aset, nilai saing, jenis}
Atribut kelas Y = Keuntungan
2. Buat Tabel hubungan setiap atribut dengan atribut
kelas.
14. 3. Hitung probabilitas:
P1 = P(naik | usia aset=baru,nilai saing=ada,jenis=hardware)
= P(naik)P(usia aset=baru|naik)P(nilai saing=ada|
naik)P(jenis=hardware|naik)
P2 = P(turun | usia aset=baru,nilai saing=ada,jenis=hardware)
= P(turun)P(usia aset=baru|turun)P(nilai saing=ada|
turun)P(jenis=hardware|turun)
4. Bandingkan P1 dan P2
if P1>P2 keuntungan → naik, else keuntungan → turun
15. P (naik) = Jumlah keuntungan naik/jumlah keseluruhan data =
5/10
P (usia aset=baru|naik) = Jumlah usia aset baru dan keuntungan
naik/ Jumlah keuntungan naik = 3/5
P (nilai saing=ada|naik) = Jumlah nilai saing ada dan
keuntungan naik/ Jumlah keuntungan naik = 1/5
P (jenis=hardware|naik) = Jumlah jenis hardware dan
keuntungan naik/ Jumlah keuntungan naik = 2/5
P1 = P(naik)P(naik | usia aset=baru,nilai
saing=ada,jenis=hardware) = 0.5 x 0.6 x 0.2 x 0.4 =0.024
16. P (turun) = Jumlah keuntungan turun/jumlah keseluruhan data =
5/10
P (usia aset=baru|turun) = Jumlah usia aset baru dan
keuntungan turun/ Jumlah keuntungan turun = 0/5
P (nilai saing=ada|turun) = Jumlah nilai saing ada dan
keuntungan turun/ Jumlah keuntungan turun = 3/5
– P (jenis=hardware|turun) = Jumlah jenis hardware
dan keuntungan turun/ Jumlah keuntungan turun =
2/5
P2 = P(turun)P(turun | usia aset=baru,nilai
saing=ada,jenis=hardware) = 0
Kesimpulan : P1 > P2 → keuntungan naik
Zero?
17. Laplacian Correction
Untuk menghindari probabilitas 0
- Ditambahkan data dummy pada data set.
P(X=A|Y=B) = (Jumlah kemunculan X=A dan Y=B)+1
(Jumlah kemunculan Y=B) + (Jumlah
kemungkinan nilai X)
18. Lanjutan..
Perhitungan probabilitas dengan Laplace Correction:
P(usia aset=baru|turun) =
(Jumlah usia aset baru dan keuntungan turun)+1/(Jumlah
keuntungan turun) + |Kemungkinan usia aset| = (0+1)/(5+3) =
1/8
|Kemungkinan usia aset| = 3 yaitu: Lama, Tengah, Baru
Lakukan laplace correction untuk atribut lainnya. Apakah
hasilnya masih sama? P1 > P2?
19. Diberikan data delapan nasabah Bank. Buat Pendapatan dalam 4 kategori,
sbb: 0-25, 26-50, 51-75, >75.
Dari data tersebut, tentukan peluang risiko kredit baik atau buruk dengan
menggunakan Naive bayes, jika ada nasabah yang memilki tabungan:
tinggi, aset: rendah dan pendapatan: 30 juta rupiah.
Latihan
Nasabah Tabungan Aset Pendapatan Risiko
Kredit
1 Sedang Tinggi 75 Baik
2 Rendah Rendah 50 Buruk
3 Tinggi Sedang 25 Buruk
4 Sedang Sedang 50 Baik
5 Rendah Sedang 100 Baik
6 Tinggi Tinggi 25 Baik
7 Rendah Rendah 25 Buruk
8 Sedang Sedang 75 Baik