SlideShare una empresa de Scribd logo
1 de 19
novi.setiani@gmail.com
April 2013
Materi Kuliah – [7]:
Data Mining
Naive Bayes
Tid Refund Marital
Status
Taxable
Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Refund
MarSt
TaxInc
YESNO
NO
NO
Yes No
MarriedSingle, Divorced
< 80K > 80K
Splitting Attributes
Model: Decision Tree
Recall: Pohon Keputusan
Klasifikasi Bayesian
 Problem:
– Diberikan himpunan atribut X = {x1, x2... xn}
– Prediksi nilai atribut kelas Y
Solusi:
Cari probabilitas tertinggi untuk nilai Y jika diberikan himpunan
atribut X.
Problem
Himpunan atribut X = {Refund,
Marital status, Taxable
income}
Atribut kelas Y: Cheat= {Yes,
No}
Diketahui data:
Refund Marital
Status
Taxable
Income Cheat
No Married 80K ?
10
Tid Refund Marital
Status
Taxable
Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Solusi
Cari probabilitas:
P1 = P(Cheat=yes|Refund=No,Marital
Status=Married,Taxable Income=80K)
P1 = P(Cheat=no|Refund=No,Marital
Status=Married,Taxable Income=80K)
Jika P1 > P2, maka Cheat = yes.
Jika P1 < P2, maka Cheat = no
P1 = P2? Pilih salah satu.
Teorema Bayes
Bagaimana mencari nilai P(Y|x1,...xn) ?
Gunakan teorema Bayes:
Fungsi normalization constant: tidak tergantung nilai Y
sehingga nilainya tetap antara P1 dan P2 → tidak perlu
dihitung.
Normalization Constant
Likelihood Prior
Teorema Bayes
P(Y)P(X1, …, Xn|Y) =P(Y)P(X1|Y)P(X2,..,Xn|Y,X1)
= P(Y)P(X1|Y)P(X2|Y,X1)
P(X3,..,Xn|Y,X1,X2)
= P(Y)P(X1|Y)P(X2|Y,X1)
P(X3|Y,X1,X2)...P(Xn|Y,X1,X2,X3,... Xn-
1).
Terlalu banyak parameter
Lama
Tempat yang besar
Data yang banyak
Naive Bayes
Asumsi Naïve Bayes : Jika diberikan atribut kelas Y,
seluruh atribut X bersifat independen (tidak tergantung
satu sama lain) → Tidak ada hubungan antar atribut X.
Y
Xn
...
X2X1
Y
XnX2X1 ...
Naive Bayes
P(Y)P(X1, …, Xn|Y) = P(Y)P(X1|Y)P(X2|Y,X1)
P(X3|Y,X1,X2)...P(Xn|Y,X1,X2,X3,... Xn-
1).
P(Y)P(X1, …, Xn|Y) =P(Y)P(X1|Y)P(X2|Y)P(X3|Y)...P(Xn|Y)
P(Y) = Jumlah kemunculan Y/Jumlah data
P(Xi|Y) = Jumlah Xi dan Y /Jumlah kemunculan Y
Contoh 1: Klasifikasi
Keuntungan Perusahaan
Usia Aset Nilai Saing Jenis Keuntungan
Lama Ada Software Menurun
Lama Tidak Ada Software Menurun
Lama Tidak Ada Hardware Menurun
Tengah Ada Software Menurun
Tengah Ada Hardware Menurun
Tengah Tidak Ada Hardware Meningkat
Tengah Tidak Ada Software Meningkat
Baru Ada Software Meningkat
Baru Tidak Ada Hardware Meningkat
Baru Tidak Ada Software Meningkat
Pertanyaan:
Sebuah perusahaan memiliki usia aset yang baru,
memiliki nilai saing dan bergerak di bidang
hardware.
Tentukan peluang perusahaan tersebut
memperoleh keuntungan naik dan turun
berdasarkan tabel tersebut dengan
menggunakan Naive Bayes.
Solusi: Klasifikasi Naive
Bayes
1. Tentukan himpunan atribut X dan atribut kelas Y:
Himpunan atribut X = {Usia aset, nilai saing, jenis}
Atribut kelas Y = Keuntungan
2. Buat Tabel hubungan setiap atribut dengan atribut
kelas.
Atribut Nilai Jml
Kasus
Kelas
Naik
Kelas
Turun
Total 10 5 5
Usia Aset Lama 3 0 3
Tengah 4 2 2
Baru 3 3 0
Nilai Saing Ada 4 1 3
Tdk Ada 6 4 2
Jenis Software 6 3 3
Hardware 4 2 2
3. Hitung probabilitas:
P1 = P(naik | usia aset=baru,nilai saing=ada,jenis=hardware)
= P(naik)P(usia aset=baru|naik)P(nilai saing=ada|
naik)P(jenis=hardware|naik)
P2 = P(turun | usia aset=baru,nilai saing=ada,jenis=hardware)
= P(turun)P(usia aset=baru|turun)P(nilai saing=ada|
turun)P(jenis=hardware|turun)
4. Bandingkan P1 dan P2
if P1>P2 keuntungan → naik, else keuntungan → turun
P (naik) = Jumlah keuntungan naik/jumlah keseluruhan data =
5/10
P (usia aset=baru|naik) = Jumlah usia aset baru dan keuntungan
naik/ Jumlah keuntungan naik = 3/5
P (nilai saing=ada|naik) = Jumlah nilai saing ada dan
keuntungan naik/ Jumlah keuntungan naik = 1/5
P (jenis=hardware|naik) = Jumlah jenis hardware dan
keuntungan naik/ Jumlah keuntungan naik = 2/5
P1 = P(naik)P(naik | usia aset=baru,nilai
saing=ada,jenis=hardware) = 0.5 x 0.6 x 0.2 x 0.4 =0.024
P (turun) = Jumlah keuntungan turun/jumlah keseluruhan data =
5/10
P (usia aset=baru|turun) = Jumlah usia aset baru dan
keuntungan turun/ Jumlah keuntungan turun = 0/5
P (nilai saing=ada|turun) = Jumlah nilai saing ada dan
keuntungan turun/ Jumlah keuntungan turun = 3/5
– P (jenis=hardware|turun) = Jumlah jenis hardware
dan keuntungan turun/ Jumlah keuntungan turun =
2/5
P2 = P(turun)P(turun | usia aset=baru,nilai
saing=ada,jenis=hardware) = 0
Kesimpulan : P1 > P2 → keuntungan naik
Zero?
Laplacian Correction
Untuk menghindari probabilitas 0
- Ditambahkan data dummy pada data set.
P(X=A|Y=B) = (Jumlah kemunculan X=A dan Y=B)+1
(Jumlah kemunculan Y=B) + (Jumlah
kemungkinan nilai X)
Lanjutan..
Perhitungan probabilitas dengan Laplace Correction:
P(usia aset=baru|turun) =
(Jumlah usia aset baru dan keuntungan turun)+1/(Jumlah
keuntungan turun) + |Kemungkinan usia aset| = (0+1)/(5+3) =
1/8
|Kemungkinan usia aset| = 3 yaitu: Lama, Tengah, Baru
Lakukan laplace correction untuk atribut lainnya. Apakah
hasilnya masih sama? P1 > P2?
Diberikan data delapan nasabah Bank. Buat Pendapatan dalam 4 kategori,
sbb: 0-25, 26-50, 51-75, >75.
Dari data tersebut, tentukan peluang risiko kredit baik atau buruk dengan
menggunakan Naive bayes, jika ada nasabah yang memilki tabungan:
tinggi, aset: rendah dan pendapatan: 30 juta rupiah.
Latihan
Nasabah Tabungan Aset Pendapatan Risiko
Kredit
1 Sedang Tinggi 75 Baik
2 Rendah Rendah 50 Buruk
3 Tinggi Sedang 25 Buruk
4 Sedang Sedang 50 Baik
5 Rendah Sedang 100 Baik
6 Tinggi Tinggi 25 Baik
7 Rendah Rendah 25 Buruk
8 Sedang Sedang 75 Baik

Más contenido relacionado

La actualidad más candente

Uji Normalitas dan Homogenitas ppt-
Uji Normalitas dan Homogenitas ppt-Uji Normalitas dan Homogenitas ppt-
Uji Normalitas dan Homogenitas ppt-
Aisyah Turidho
 
Probabilitas by alydya
Probabilitas by alydyaProbabilitas by alydya
Probabilitas by alydya
Marlyd Talakua
 
uji chi square secara manual dan spss
 uji chi square secara manual dan spss   uji chi square secara manual dan spss
uji chi square secara manual dan spss
Nur Kamri
 
Hubungan matematika dengan musik
Hubungan matematika dengan musikHubungan matematika dengan musik
Hubungan matematika dengan musik
Tia Nur Septiani
 
12. Perencanaan Pendidikan Kesehatan.pptx
12. Perencanaan Pendidikan Kesehatan.pptx12. Perencanaan Pendidikan Kesehatan.pptx
12. Perencanaan Pendidikan Kesehatan.pptx
sunardi21
 
2. Cara Memilih Uji Statistik (edit) (2).pptx
2. Cara Memilih Uji Statistik (edit) (2).pptx2. Cara Memilih Uji Statistik (edit) (2).pptx
2. Cara Memilih Uji Statistik (edit) (2).pptx
DaryGunawan
 
Bnp.03.uji non parametrik dua sampel independen
Bnp.03.uji non parametrik dua sampel independenBnp.03.uji non parametrik dua sampel independen
Bnp.03.uji non parametrik dua sampel independen
raysa hasdi
 

La actualidad más candente (20)

Uji Run ( Keacakan )
Uji Run ( Keacakan )Uji Run ( Keacakan )
Uji Run ( Keacakan )
 
Bab 1 Pendahuluan
Bab 1 PendahuluanBab 1 Pendahuluan
Bab 1 Pendahuluan
 
Uji Normalitas dan Homogenitas ppt-
Uji Normalitas dan Homogenitas ppt-Uji Normalitas dan Homogenitas ppt-
Uji Normalitas dan Homogenitas ppt-
 
Desain penelitian
Desain penelitianDesain penelitian
Desain penelitian
 
1. uji statistik 1 sampel binomial
1. uji statistik 1 sampel binomial1. uji statistik 1 sampel binomial
1. uji statistik 1 sampel binomial
 
Uji Hipotesis Dua Rata-rata
Uji Hipotesis Dua Rata-rataUji Hipotesis Dua Rata-rata
Uji Hipotesis Dua Rata-rata
 
Probabilitas by alydya
Probabilitas by alydyaProbabilitas by alydya
Probabilitas by alydya
 
uji chi square secara manual dan spss
 uji chi square secara manual dan spss   uji chi square secara manual dan spss
uji chi square secara manual dan spss
 
Stat matematika II (7)
Stat matematika II (7)Stat matematika II (7)
Stat matematika II (7)
 
Statistika UJI NORMALITAS
Statistika UJI NORMALITASStatistika UJI NORMALITAS
Statistika UJI NORMALITAS
 
Hubungan matematika dengan musik
Hubungan matematika dengan musikHubungan matematika dengan musik
Hubungan matematika dengan musik
 
12. Perencanaan Pendidikan Kesehatan.pptx
12. Perencanaan Pendidikan Kesehatan.pptx12. Perencanaan Pendidikan Kesehatan.pptx
12. Perencanaan Pendidikan Kesehatan.pptx
 
2. Cara Memilih Uji Statistik (edit) (2).pptx
2. Cara Memilih Uji Statistik (edit) (2).pptx2. Cara Memilih Uji Statistik (edit) (2).pptx
2. Cara Memilih Uji Statistik (edit) (2).pptx
 
Uji Hipotesis
Uji HipotesisUji Hipotesis
Uji Hipotesis
 
Teori peluang
Teori peluangTeori peluang
Teori peluang
 
APG Pertemuan 4 : Multivariate Normal Distribution (2)
APG Pertemuan 4 : Multivariate Normal Distribution (2)APG Pertemuan 4 : Multivariate Normal Distribution (2)
APG Pertemuan 4 : Multivariate Normal Distribution (2)
 
Bnp.03.uji non parametrik dua sampel independen
Bnp.03.uji non parametrik dua sampel independenBnp.03.uji non parametrik dua sampel independen
Bnp.03.uji non parametrik dua sampel independen
 
Program Dinamis - Masalah Stagecoach
Program Dinamis - Masalah StagecoachProgram Dinamis - Masalah Stagecoach
Program Dinamis - Masalah Stagecoach
 
Uji wilcoxon dan mann whitney
Uji wilcoxon dan mann whitneyUji wilcoxon dan mann whitney
Uji wilcoxon dan mann whitney
 
Pengujian Hipotesis
Pengujian HipotesisPengujian Hipotesis
Pengujian Hipotesis
 

Dm 07-naive bayes

  • 1. novi.setiani@gmail.com April 2013 Materi Kuliah – [7]: Data Mining Naive Bayes
  • 2. Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 Refund MarSt TaxInc YESNO NO NO Yes No MarriedSingle, Divorced < 80K > 80K Splitting Attributes Model: Decision Tree Recall: Pohon Keputusan
  • 3. Klasifikasi Bayesian  Problem: – Diberikan himpunan atribut X = {x1, x2... xn} – Prediksi nilai atribut kelas Y Solusi: Cari probabilitas tertinggi untuk nilai Y jika diberikan himpunan atribut X.
  • 4. Problem Himpunan atribut X = {Refund, Marital status, Taxable income} Atribut kelas Y: Cheat= {Yes, No} Diketahui data: Refund Marital Status Taxable Income Cheat No Married 80K ? 10 Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10
  • 5. Solusi Cari probabilitas: P1 = P(Cheat=yes|Refund=No,Marital Status=Married,Taxable Income=80K) P1 = P(Cheat=no|Refund=No,Marital Status=Married,Taxable Income=80K) Jika P1 > P2, maka Cheat = yes. Jika P1 < P2, maka Cheat = no P1 = P2? Pilih salah satu.
  • 6. Teorema Bayes Bagaimana mencari nilai P(Y|x1,...xn) ? Gunakan teorema Bayes: Fungsi normalization constant: tidak tergantung nilai Y sehingga nilainya tetap antara P1 dan P2 → tidak perlu dihitung. Normalization Constant Likelihood Prior
  • 7. Teorema Bayes P(Y)P(X1, …, Xn|Y) =P(Y)P(X1|Y)P(X2,..,Xn|Y,X1) = P(Y)P(X1|Y)P(X2|Y,X1) P(X3,..,Xn|Y,X1,X2) = P(Y)P(X1|Y)P(X2|Y,X1) P(X3|Y,X1,X2)...P(Xn|Y,X1,X2,X3,... Xn- 1). Terlalu banyak parameter Lama Tempat yang besar Data yang banyak
  • 8. Naive Bayes Asumsi Naïve Bayes : Jika diberikan atribut kelas Y, seluruh atribut X bersifat independen (tidak tergantung satu sama lain) → Tidak ada hubungan antar atribut X. Y Xn ... X2X1 Y XnX2X1 ...
  • 9. Naive Bayes P(Y)P(X1, …, Xn|Y) = P(Y)P(X1|Y)P(X2|Y,X1) P(X3|Y,X1,X2)...P(Xn|Y,X1,X2,X3,... Xn- 1). P(Y)P(X1, …, Xn|Y) =P(Y)P(X1|Y)P(X2|Y)P(X3|Y)...P(Xn|Y) P(Y) = Jumlah kemunculan Y/Jumlah data P(Xi|Y) = Jumlah Xi dan Y /Jumlah kemunculan Y
  • 10. Contoh 1: Klasifikasi Keuntungan Perusahaan Usia Aset Nilai Saing Jenis Keuntungan Lama Ada Software Menurun Lama Tidak Ada Software Menurun Lama Tidak Ada Hardware Menurun Tengah Ada Software Menurun Tengah Ada Hardware Menurun Tengah Tidak Ada Hardware Meningkat Tengah Tidak Ada Software Meningkat Baru Ada Software Meningkat Baru Tidak Ada Hardware Meningkat Baru Tidak Ada Software Meningkat
  • 11. Pertanyaan: Sebuah perusahaan memiliki usia aset yang baru, memiliki nilai saing dan bergerak di bidang hardware. Tentukan peluang perusahaan tersebut memperoleh keuntungan naik dan turun berdasarkan tabel tersebut dengan menggunakan Naive Bayes.
  • 12. Solusi: Klasifikasi Naive Bayes 1. Tentukan himpunan atribut X dan atribut kelas Y: Himpunan atribut X = {Usia aset, nilai saing, jenis} Atribut kelas Y = Keuntungan 2. Buat Tabel hubungan setiap atribut dengan atribut kelas.
  • 13. Atribut Nilai Jml Kasus Kelas Naik Kelas Turun Total 10 5 5 Usia Aset Lama 3 0 3 Tengah 4 2 2 Baru 3 3 0 Nilai Saing Ada 4 1 3 Tdk Ada 6 4 2 Jenis Software 6 3 3 Hardware 4 2 2
  • 14. 3. Hitung probabilitas: P1 = P(naik | usia aset=baru,nilai saing=ada,jenis=hardware) = P(naik)P(usia aset=baru|naik)P(nilai saing=ada| naik)P(jenis=hardware|naik) P2 = P(turun | usia aset=baru,nilai saing=ada,jenis=hardware) = P(turun)P(usia aset=baru|turun)P(nilai saing=ada| turun)P(jenis=hardware|turun) 4. Bandingkan P1 dan P2 if P1>P2 keuntungan → naik, else keuntungan → turun
  • 15. P (naik) = Jumlah keuntungan naik/jumlah keseluruhan data = 5/10 P (usia aset=baru|naik) = Jumlah usia aset baru dan keuntungan naik/ Jumlah keuntungan naik = 3/5 P (nilai saing=ada|naik) = Jumlah nilai saing ada dan keuntungan naik/ Jumlah keuntungan naik = 1/5 P (jenis=hardware|naik) = Jumlah jenis hardware dan keuntungan naik/ Jumlah keuntungan naik = 2/5 P1 = P(naik)P(naik | usia aset=baru,nilai saing=ada,jenis=hardware) = 0.5 x 0.6 x 0.2 x 0.4 =0.024
  • 16. P (turun) = Jumlah keuntungan turun/jumlah keseluruhan data = 5/10 P (usia aset=baru|turun) = Jumlah usia aset baru dan keuntungan turun/ Jumlah keuntungan turun = 0/5 P (nilai saing=ada|turun) = Jumlah nilai saing ada dan keuntungan turun/ Jumlah keuntungan turun = 3/5 – P (jenis=hardware|turun) = Jumlah jenis hardware dan keuntungan turun/ Jumlah keuntungan turun = 2/5 P2 = P(turun)P(turun | usia aset=baru,nilai saing=ada,jenis=hardware) = 0 Kesimpulan : P1 > P2 → keuntungan naik Zero?
  • 17. Laplacian Correction Untuk menghindari probabilitas 0 - Ditambahkan data dummy pada data set. P(X=A|Y=B) = (Jumlah kemunculan X=A dan Y=B)+1 (Jumlah kemunculan Y=B) + (Jumlah kemungkinan nilai X)
  • 18. Lanjutan.. Perhitungan probabilitas dengan Laplace Correction: P(usia aset=baru|turun) = (Jumlah usia aset baru dan keuntungan turun)+1/(Jumlah keuntungan turun) + |Kemungkinan usia aset| = (0+1)/(5+3) = 1/8 |Kemungkinan usia aset| = 3 yaitu: Lama, Tengah, Baru Lakukan laplace correction untuk atribut lainnya. Apakah hasilnya masih sama? P1 > P2?
  • 19. Diberikan data delapan nasabah Bank. Buat Pendapatan dalam 4 kategori, sbb: 0-25, 26-50, 51-75, >75. Dari data tersebut, tentukan peluang risiko kredit baik atau buruk dengan menggunakan Naive bayes, jika ada nasabah yang memilki tabungan: tinggi, aset: rendah dan pendapatan: 30 juta rupiah. Latihan Nasabah Tabungan Aset Pendapatan Risiko Kredit 1 Sedang Tinggi 75 Baik 2 Rendah Rendah 50 Buruk 3 Tinggi Sedang 25 Buruk 4 Sedang Sedang 50 Baik 5 Rendah Sedang 100 Baik 6 Tinggi Tinggi 25 Baik 7 Rendah Rendah 25 Buruk 8 Sedang Sedang 75 Baik