Tugas ini membahas penggunaan data mining untuk menganalisis dataset soybean. Dataset ini berisi 307 instance dan 36 atribut tentang jenis kacang kedelai. Algoritma decision tree J48 digunakan untuk melakukan klasifikasi karena mampu menangani nilai yang hilang. Hasilnya menunjukkan tingkat akurasi sebesar 98,5% dan hanya 3,3% instance yang diklasifikasi dengan salah.
1. TUGAS DATA MNING
Khairul Sani
Syamsul Mujahidin
1. Why knowledge about your data is useful for data mining?
Data mining merupakan peroses mengolah data dalam ukuran yang sangat besar dengan
tujuan untuk mendapatkan informasi atau pola dari data yang diolah. Pada data mining
merupakan rangkaian dari proses pencarian pengetahuan database yaitu knowledge
discovery in database dengan teknik integrasi dan penemuan ilmiah, interpretasi dan
visualisasi dari pola-pola sejumlah kumpulan data. Dalam proses pengolahan data
tersebut terkadang diperoleh hasil yang tidak sesuai yang diharapkan seperti pola yang
tidak tepat serta tidak sesuai dengan kebutuhan. Untuk itu dibutuhkan pengetahuan
tentang data yang akan digunakan dalam data mining, dengan pengetahuan tentang data
yang akan diolah tersebut, kita bisa menentukan mulai dari input yang diperlukan untuk
pengolahan data, output yang bisa kita peroleh dari proses data mining, perlu atau
tidaknya melakukan preprocessing terhadap data yang kita miliki. Sehingga data bisa
disusun atau disajikan dengan baik dan meminimalisir data-data yang tidak perlu
digunakan serta hasil dari proses data mining bisa memberikan informasi sesuai yang
diharapkan.
2. What are the realizations of knowledge about your data?
Dengan adanya pengetahuan tentang data, data bisa disajikan dengan cara yang tepat,
mulai dari preprocessing data, data mining, hingga post processing. Tahapan yang
dilakukan seperti pendefinisan attribute yang sesuai dengan tipe datanya, pemilihan
metode yang tepat dan algoritma- algoritma yang sesuai untuk digunakan dalam
menangani dataset. Pada tahap post processing data yaitu melakukan interpretasi
terhadap pola pola yang ditemukan selama proses data mining sehingga dependensi dari
data bisa utuh serta dan perlakuan terhadap missing values bisa tepat sehingga sesuai
yang diharapkan dan tujuan dari dilakukannya data mining.
3. What can you do to know/understand your data?
2. Untuk memperoleh data yang bagus, diperlukan pemahaman tentang jenis data yang
digunakan sebagai inputan maupun output yang diinginkan. Dalam hal ini cara yang
biasa digunakan adalah melihat distribusi nilai dari attribut nominal maupun numeric.
Selain itu perlu adanya literature yang seusai sebagai referensi serta melakukan
konsultasi dengan pakar tentang keabsahan dan jenis data yang digunakan.
4. Study kasus yang digunakan adalah dataset soyabine.arff.
Data set yang digunakan adalah soybean format excel. File tersebut diubah menjadi
extensi .csv dengan melakukan pendefinisian untuk atributnya sesuai dengan tipe
datanya, kemudian diubah dengan forman .arff baru kemudian diolah menggunakan
weka. Dataset yang dibunakan sebanyak 307 instance dan 36 atribut.
Metode yang digunakan dalam hal ini adalah decision-tree J48 karena metode tersebut
sangat cocok dengan kasus missing values. Dengan menggunakan metode ini, jika sebuah
instance memiliki missing values maka, instance tersebut akan dipecah menjadi potongan-
potangan, dimana satu potongan untuk masing-masing cabang. Potongan tersebut akan
berkontribusi dalam mengambil keputusan pada node paling bawah. Selain itu tingkat presisi
dari metode ini cukup tinggi yakni 0.985 dan tingkat incorrect clasifikasinya hanya 3.333%.
Tampilan AwalWEKA
Ubah ke format ARFF dan pastikan dapat dibuka menggunakan WEKA
4. Gambar dibawah ini yaitu menampilkan evaluation on training set yang mempunyai
nilai corrently casssified instances 96.6667% dan incorrently yaitu 3.3333%.
Berikut tampilan classifier tree visualizer
Kesimpulan :
Dari hasil melakukan percobaan, maka dapat disimpulkan bahwa klasifikasi dengan
menggunakan J48 dapat menghasilkan nilai akurasi yang baik dari pada menggunakan cluster
Nives bayes berdasarkan perhitungan dari WEKA. Hal ini dapat dicoba melalui hasil nilai
precision yang lebih baik yaitu mencapai 0.985, dan nilai corrently casssified instances
96.6667% sedangkan naïve bayes hanya 80%. Maka dapat disimpulkan akurasi
menggunakan classifier J48 menghasilkan nilai akurasi yang lebih baik dari Nives bayes.