Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

02 - Preprocessing Data.pdf

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Próximo SlideShare
07 - Pengujian Hipotesis.pdf
07 - Pengujian Hipotesis.pdf
Cargando en…3
×

Eche un vistazo a continuación

1 de 74 Anuncio
Anuncio

Más Contenido Relacionado

Anuncio

02 - Preprocessing Data.pdf

  1. 1. Presentation 2022 D-IV Rekayasa Perangkat Lunak - Teknik Informatika PREPROCESSING DATA Elvi Rahmi, S.T., M.Kom. elvizasri@gmail.com “To find signals in data, we must learn to reduce the noise - not just the noise that resides in the data, but also the noise that resides in us. It is nearly impossible for noisy minds to perceive anything but noise in data.”
  2. 2. Kenapa preprocessing data diperlukan? Completeness (kelengkapan), dalam data yang diperoleh masih terdapat kekurangan atribut, atau nilai-nilai atributnya, atau hanya mengandung agregat saja. Noise, masih ada tidak kesesuaian atau masih ada ketimpangan dan kesalahan dari sebenarnya, yaitu nilai yang diharapkan, seperti adanya nilai-nilai outlier. Consistency, terdapat perbedaan dan ketidakcocokan dalam penggunaan kode atau nama, beberapa dimodifikasi beberapa tidak.
  3. 3. Kenapa preprocessing data diperlukan? Timeliness (ketepatan waktu), apakah pembaruan data tepat waktu? Believability, seberapa dapat dipercaya bahwa datanya benar? Interpretability (), seberapa mudah data dapat dipahami?
  4. 4. Tujuan preprocessing data Mempermudah memahami data sehingga mempermudah pemilihan teknik dan metode data mining yang tepat Meningkatkan efisiensi dan kemudahan proses penambangan data (Pengurangan waktu komputasi terutama untuk large-scale problem) Meningkatkan kualitas data sehingga hasil data mining menjadi lebih baik
  5. 5. Mengisi nilai yang hilang Menghaluskan noisy data (data berderau) Mengidentifikasi atau menghapus outlier Menyelesaikan inkonsistensi Data Cleaning (Pembersihan Data) Normalisasi Pembuatan hierarki konsep 03 Data Transformasi & Data Diskretisasi Penggabungan data dari berbagai sumber seperti basis data, data cube, dan file. 02 Data Integrasi Pengurangan dimensi Pengurangan jumlah Kompresi data 04 Data Reduksi Tugas Utama dalam Prapemrosesan Data 01
  6. 6. Data Preparation Law Data preparation is more than half of every data mining process Memaksimalkan proses data mining: sebagian besar upaya dalam proyek penambangan data dihabiskan untuk akuisisi dan persiapan data, dan perkiraan informal bervariasi dari 50 hingga 80 persen.
  7. 7. Mempermudah memahami data sehingga mempermudah pemilihan teknik dan metode data mining yang tepat Meningkatkan efisiensi dan kemudahan proses penambangan data (Pengurangan waktu komputasi terutama untuk large-scale problem) Meningkatkan kualitas data sehingga hasil data mining menjadi lebih baik Tujuan preprocessing data
  8. 8. DATA CLEANING (PEMBERSIHAN DATA)
  9. 9. DATA CLEANING (PEMBERSIHAN DATA) Data seperti apa yang disebut kotor? Sekotor apa data yang ada sehingga perlu dibersihkan? Bisakah data kotor langsung ditambang? Adakah teknik data mining yang bisa digunakan untuk data kotor dan memberikan hasil yang baik?
  10. 10. DATA CLEANING (PEMBERSIHAN DATA) Incomplete: tidak memiliki nilai atribut, tidak memiliki atribut tertentu yang menarik, atau hanya berisi data agregat. Misal: Gender = " " (data hilang). Data in the Real World is Dirty: Banyak data yang berpotensi salah, misal akibat instrumen rusak, kesalahan manusia atau komputer, kesalahan transmisi.
  11. 11. Nama Pekerjaan Lokasi Rumah Gender Kartu Rumah Menikah Pulsa (ribu) Internet (ribu) Jumlah Anak Kategori Pelanggan Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Platinum Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Dedi Analis A Prabayar Kontrak Ya 150 200 3 Gold Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum Data Pelanggan Telepon Seluler
  12. 12. DATA CLEANING (PEMBERSIHAN DATA) Noisy: mengandung noise, error, atau outlier. Misal: Gaji = "-1000000 " (sebuah kesalahan). Data in the Real World is Dirty: Banyak data yang berpotensi salah, misal akibat instrumen rusak, kesalahan manusia atau komputer, kesalahan transmisi.
  13. 13. DATA CLEANING (PEMBERSIHAN DATA) Inconsistence: mengandung perbedaan dalam kode atau nama. Misal: Usia=“42”, Tanggal Lahir=“03/07/2010 Dulu peringkat "1, 2, 3", sekarang peringkat "A, B, C" Data in the Real World is Dirty: Banyak data yang berpotensi salah, misal akibat instrumen rusak, kesalahan manusia atau komputer, kesalahan transmisi.
  14. 14. DATA CLEANING (PEMBERSIHAN DATA) Perbedaan antara duplicate records. Misal: Disengaja (mis., data hilang yang disamarkan) Tanggal 1 Januari sebagai ulang tahun setiap orang Data in the Real World is Dirty: Banyak data yang berpotensi salah, misal akibat instrumen rusak, kesalahan manusia atau komputer, kesalahan transmisi.
  15. 15. DATA CLEANING (PEMBERSIHAN DATA) Incomplete: tidak memiliki nilai atribut, tidak memiliki atribut Noisy: mengandung noise, error, atau outlier. Inconsistence: mengandung perbedaan dalam kode atau nama. Perbedaan antara duplicate records. Data in the Real World is Dirty: Banyak data yang berpotensi salah, misal akibat instrumen rusak, kesalahan manusia atau komputer, kesalahan transmisi.
  16. 16. DATA CLEANING - PEMBERSIHAN DATA) Misalnya, banyak tupel tidak memiliki nilai tercatat untuk beberapa atribut, seperti pendapatan pelanggan dalam data penjualan. Incomplete (Missing Data) Data tidak selalu tersedia Kemungkinan penyebab data hilang: Kerusakan peralatan, tidak konsisten dengan data rekaman lainnya dan dengan demikian dihapus, data tidak masuk karena misunderstanding, data tertentu mungkin tidak dianggap penting pada saat penginputan data, tidak mendaftarkan riwayat atau perubahan data Data yang hilang mungkin perlu disimpulkan
  17. 17. DATA CLEANING - PEMBERSIHAN DATA) Incomplete (Missing Data) CONTOH CONTOH CONTOH
  18. 18. DATA CLEANING - PEMBERSIHAN DATA) Incomplete (Missing Data) CONTOH CONTOH CONTOH
  19. 19. DATA CLEANING - PEMBERSIHAN DATA) Incomplete (Missing Data) CONTOH CONTOH CONTOH Sigit adalah manajer pemasaran untuk perusahaan desain dan periklanan Internet kecil Bos Sigit memintanya untuk mengembangkan kumpulan data yang berisi informasi tentang pengguna Internet Perusahaan akan menggunakan data ini untuk menentukan jenis orang yang menggunakan Internet dan bagaimana perusahaan dapat memasarkan layanan mereka kepada kelompok pengguna ini Untuk menyelesaikan tugasnya, Sigit membuat survei online dan menempatkan tautan ke survei tersebut di beberapa situs web populer Dalam dua minggu, Sigit telah mengumpulkan cukup data untuk memulai analisis, tetapi dia menemukan bahwa datanya perlu didenormalisasi Dia juga mencatat bahwa beberapa pengamatan dalam himpunan memiliki nilai yang hilang atau tampaknya mengandung nilai yang tidak valid Sigit menyadari bahwa beberapa pekerjaan tambahan pada data perlu dilakukan sebelum analisis dimulai.
  20. 20. Abaikan tuple tersebut BAGAIMANA MENANGANI DATA YANG HILANG BAGAIMANA MENANGANI DATA YANG HILANG BAGAIMANA MENANGANI DATA YANG HILANG (MISSING DATA)? (MISSING DATA)? (MISSING DATA)? Digunakan jika tuple tersebut tidak memiliki label kelas (dalam kasus klasifikasi data) Kurang sesuai untuk data yang mempunyai banyak tuple dengan sedikit atribut kosong. Isi atribut kosong secara manual Membosankan, hal yang tidak mungkin? Isi data kosong secara otomatis dengan menggunakan: Konstanta global, seperti label "Tak dikenal" Nilai rata-rata (untuk himpunan data yang memiliki distribusi normal/simetris) atau median (condong untuk himpunan data yang memiliki distribusi asimetris. Nilai yang paling mungkin untuk mengisi atribut kosong Dapat ditentukan menggunakan regresi atau inferensi (seperti Bayesian atau Decision Tree)
  21. 21. DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Derau dalam himpunan data bisa berupa kesalahan atau variasi yang bersifat acak. Misalnya, suatu nilai yang jauh lebih kecil atau lebih besar dibandingkan yang lain. Cara menghaluskan data berderau: Diantaranya: Binning
  22. 22. Dilakukan dengan cara mengurutkan nilai-nilai pada suatu atribut, lalu membaginya ke dalam sejumlah wadah (bin) secara merata Penghalusan dapat dilakukan menggunakan tiga cara, yaitu rata-rata (mengganti semua nilai dengan rata-rata pada setiap bin, median (mengganti semua nilai dengan dengan median pada setiap bin, atau batas nilai minimum dan maksimum (mengganti semua nilai dengan nilai minimum atau maksimum yang terdekat pada semua bin). Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau
  23. 23. Nama Pekerjaan Lokasi Rumah Gender Kartu Rumah Menikah Pulsa (ribu) Internet (ribu) Jumlah Anak Kategori Pelanggan Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Platinum Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum Data Pelanggan Telepon Seluler
  24. 24. Dilakukan dengan cara mengurutkan nilai-nilai pada suatu atribut, lalu membaginya ke dalam sejumlah wadah (bin) secara merata. Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Internet (ribu) 150 300 100 200 400 380 70 250 270
  25. 25. Dilakukan dengan cara mengurutkan nilai-nilai pada suatu atribut, lalu membaginya ke dalam sejumlah wadah (bin) secara merata. Nilai-nilai atribut Internet yang telah diurutkan: 70, 100, 150, 200, 250, 270, 300, 380, 400 Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Internet (ribu) 150 300 100 200 400 380 70 250 270
  26. 26. Dilakukan dengan cara mengurutkan nilai-nilai pada suatu atribut, lalu membaginya ke dalam sejumlah wadah (bin) secara merata. Nilai-nilai atribut Internet yang telah diurutkan: 70, 100, 150, 200, 250, 270, 300, 380, 400 Dibagi ke dalam tiga bin. Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Internet (ribu) 150 300 100 200 400 380 70 250 270
  27. 27. Dilakukan dengan cara mengurutkan nilai-nilai pada suatu atribut, lalu membaginya ke dalam sejumlah wadah (bin) secara merata. Nilai-nilai atribut Internet yang telah diurutkan: 70, 100, 150, 200, 250, 270, 300, 380, 400 Dibagi secara merata ke dalam sejumlah bin. Bin 1: 70,100,150 Bin 2: 200, 250, 270 Bin 3: 300, 380, 400 Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Internet (ribu) 150 300 100 200 400 380 70 250 270
  28. 28. Penghalusan dengan rata-rata (pada setiap bin): Bin 1: 107,107,107 Bin 2: 240, 240, 240 Bin 3: 360, 360, 360 Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Internet (ribu) 150 300 100 200 400 380 70 250 270
  29. 29. Penghalusan dengan median (pada setiap bin): Bin 1: 100,100,100 Bin 2: 250, 250, 250 Bin 3: 380, 380, 380 Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Internet (ribu) 150 300 100 200 400 380 70 250 270
  30. 30. Penghalusan dengan nilai batas minimum dan maksimum (pada setiap bin): Bin 1: 80, 80, 150 Bin 2: 200, 270, 270 Bin 3: 300, 400, 400 Binning (Pewadahan) DATA CLEANING - PEMBERSIHAN DATA) Noisy Menghaluskan data berderau Internet (ribu) 150 300 100 200 400 380 70 250 270
  31. 31. Jika data outliner sudah ditemukan, data dapat dibuang. Data outliner umumnya tidak banyak, hanya sekitar 2% dari jumlah data. Data-data outliner dapat ditemukan menggunakan tendensi sentral, grafik statistik boxplot, berbagai teknik visualisasi, atau clustering. DATA CLEANING - PEMBERSIHAN DATA) Membuang Outliner Internet (ribu) 150 300 100 200 400 380 70 250 270
  32. 32. Dikoreksi secara manual Menggunakan aplikasi bantu (tools) komersial untuk melakukan transformasi data. Seperti ETL (Extraction/Transformation/Loading). Memperbaiki inkonsistensi: Disebabkan diantaranya oleh: kurang bagusnya desain formulir pemasukan data, kesalahan operator memasukkan data, kesalahan yang disengaja pengguna, data kadaluarsa, penggunaan kode yang inkonsisten, kesalahan sistem, dll. DATA CLEANING - PEMBERSIHAN DATA) Memperbaiki Inkonsistensi 150 300 100 200 400 380 70 250 270
  33. 33. Mengisi nilai yang hilang Menghaluskan noisy data (data berderau) Mengidentifikasi atau menghapus outlier Menyelesaikan inkonsistensi Data Cleaning (Pembersihan Data) Normalisasi Pembuatan hierarki konsep 03 Data Transformasi & Data Diskretisasi Penggabungan data dari berbagai sumber seperti basis data, data cube, dan file. 02 Data Integrasi Pengurangan dimensi Pengurangan jumlah Kompresi data 04 Data Reduksi Tugas Utama dalam Prapemrosesan Data 01
  34. 34. Ginyard International Co. Integrasi Data Dalam data mining, integrasi sejumlah basis data seringkali harus dilakukan. Integrasi data yang baik akan menghasilkan data gabungan dengan sedikit redundansi dan/atau inkonsistensi. Permasalahan utama dalam integrasi data adalah heterogenitas semantik dan struktur dari semua data yang diintegrasikan. www.reallygreatsite.com
  35. 35. Nama Pekerjaan Lokasi Rumah Gender Kartu Rumah Menikah Pulsa (ribu) Internet (ribu) Jumlah Anak Kategori Pelanggan Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Premium Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum Nama Profesi Alamat Jenis Kelamin Prabayar Kontrak Menikah Pulsa (ribu) Internet (ribu) Jumlah Anak Kelompok Feni Dokter 2 W 0 0 1 600 380 1 1 Gito Guru 1 P 1 1 0 100 70 0 3 Hani Analis 3 W 1 1 0 200 250 0 2 Jodi Dokter 1 P 0 0 1 450 270 2 1
  36. 36. Metadata Data tentang data, yaitu segala hal yang menjelaskan tentang data. Misal: nama atribut, arti semantik dari atribut, tipe data, rentang nilai yang diizinkan pada atribut tersebut, dan aturan untuk menangani atribut tak bernilai, nol, dan nilai kosong.
  37. 37. Nama Pekerjaan Lokasi Rumah Gender Kartu Rumah Menikah Pulsa (ribu) Internet (ribu) Jumlah Anak Kategori Pelanggan Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Premium Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum
  38. 38. Mengisi nilai yang hilang Menghaluskan noisy data (data berderau) Mengidentifikasi atau menghapus outlier Menyelesaikan inkonsistensi Data Cleaning (Pembersihan Data) Normalisasi Pembuatan hierarki konsep 03 Data Transformasi & Data Diskretisasi Penggabungan data dari berbagai sumber seperti basis data, data cube, dan file. 02 Data Integrasi Pengurangan dimensi Pengurangan jumlah Kompresi data 04 Data Reduksi Tugas Utama dalam Prapemrosesan Data 01
  39. 39. Reduksi Data Mendapat data yang direduksi menjadi jauh lebih kecil dengan tetap menjaga integritas yang terdapat pada data asli. Kenapa Reduksi Data? Basis data/gudang data yang memungkinkan menyimpan terabyte data Analisis data yang kompleks membutuhkan waktu yang sangat lama untuk dijalankan pada kumpulan data yang lengkap
  40. 40. Mereduksi dimensi (jumlah atribut) data. Memungkinkan sebaran data dapat divisualisasikan sehingga lebih mudah dipahami. Feature Extraction (Wavelets transforms, Principal Component Analysis) dan Feature Selection (Filter Approach, Wrapper Approach, Embedded Approach) Reduksi Dimensi Reduksi Keterbilangan (Numerosity Reduction) Menggunakan metode-metode transformasi, berupa lossless atau lossy. Kompresi Data Teknik Reduksi Data Regression dan Log-Linear Models Histograms, clustering, sampling
  41. 41. Nama Pekerjaan Lokasi Rumah Gender Kartu Rumah Menikah Pulsa (ribu) Internet (ribu) Jumlah Anak Kategori Pelanggan Andi Analis A Pria Prabayar Kontrak Tidak 100 150 0 Silver Budi Dokter A Pria Pascabayar Pribadi Ya 500 300 2 Premium Citra Guru B Wanita Prabayar Kontrak Tidak 100 100 0 Silver Dedi Analis A Pria Prabayar Kontrak Ya 150 200 3 Gold Evan Dokter C Pria Pascabayar Pribadi Ya 700 400 4 Platinum Feni Dokter B Wanita Pascabayar Pribadi Ya 600 380 1 Platinum Gito Guru A Pria Prabayar Kontrak Tidak 100 70 0 Silver Hani Analis C Wanita Prabayar Kontrak Tidak 200 250 0 Gold Jodi Dokter A Pria Pascabayar Pribadi Ya 450 270 2 Platinum Seleksi Atribut
  42. 42. Objek Panjang Lebar Tinggi Kelas Objek 1 2,1 1,5 0,8 Meja Objek 2 2,3 1,7 0,8 Meja Objek 3 2,1 1,3 0,8 Kursi Objek 4 1,6 1,5 0,8 Kursi Objek 5 2,5 1,9 0,8 Meja Principal Component Analysis
  43. 43. Objek Panjang Lebar Kelas Objek 1 2,1 1,5 Meja Objek 2 2,3 1,7 Meja Objek 3 2,1 1,3 Kursi Objek 4 1,6 1,5 Kursi Objek 5 2,5 1,9 Meja Principal Component Analysis Simbol
  44. 44. Principal Component Analysis Panjang 2,1 1,5 Lebar Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).
  45. 45. Principal Component Analysis Panjang 2,1 1,5 Lebar Visualisasi data lima objek menggunakan satu dimensi Lebar
  46. 46. Principal Component Analysis Panjang 2,1 1,5 Lebar Visualisasi data lima objek menggunakan satu dimensi Panjang
  47. 47. Principal Component Analysis Panjang 2,1 1,5 Lebar Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar). Data tersebut hanya bisa direduksi hingga menjadi 2 dimensi, tidak bisa lebih kecil lagi. Satu dimensi tidak cukup untuk membedakan kedua kelas karena terdapat data-data yang tumpang tindih. Apakah ada cara lain agar data dua dimensi dapat direduksi menjadi satu dimensi?
  48. 48. Principal Component Analysis Panjang 2,1 1,5 Lebar Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).
  49. 49. Principal Component Analysis Panjang 2,1 1,5 Lebar Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).
  50. 50. Principal Component Analysis Panjang 2,1 1,5 Lebar Visualisasi data lima objek ke dalam ruang dua dimensi (Panjang dan Lebar).
  51. 51. Principal Component Analysis PCA adalah sebuah metode matematis yang mentransformasikan data ke dalam ranah baru. Metode PCA adalah alat bantu matematis yang berusaha melihat data dari sudut pandang yang lain. Istilah PCA digunakan dalam berbagai bidang (mis. statistik, geometri, rekayasa) dengan istilah-istilah yang berbeda. Tujuan PCA adalah memperjelas visualisasi dan mempermudah analisis data. Untuk data yang kecil, PCA bisa dihitung secara matematis. Untuk data yang sangat besar (secara jumlah dan dimensi), PCA bisa diaproksimasi menggunakan Jaringan Syaraf Tiruan (JST) bernama Hebbian Network.
  52. 52. Latihan! Lakukan eksperimen mengikuti buku Markus Hofmann (Rapid Miner - Data Mining Use Case) Chapter 4 (k- Nearest Neighbor Classification II) hal. 45-51 Gunakan Data set yang terdapat di: Analisis metode preprocessing apa saja yang digunakan dan mengapa perlu dilakukan pada dataset tersebut! https://sites.google.com/site/dataminingforthemasses/
  53. 53. Mereduksi dimensi (jumlah atribut) data. Memungkinkan sebaran data dapat divisualisasikan sehingga lebih mudah dipahami. Feature Extraction (Wavelets transforms, Principal Component Analysis) dan Feature Selection (Filter Approach, Wrapper Approach, Embedded Approach) Reduksi Dimensi Reduksi Keterbilangan (Numerosity Reduction) Menggunakan metode-metode transformasi, berupa lossless atau lossy. Kompresi Data Teknik Reduksi Data Regression dan Log-Linear Models Histograms, clustering, sampling
  54. 54. Reduksi Keterbilangan (Numerosity Reduction) Teknik Reduksi Data Metode Parametik (Regression dan Log-Linear Models) Metoda Non-parametik (Histograms, clustering, sampling) Suatu data warehouse bisa menyimpan terabytes data Analisis/menambang data kompleks bisa membutuhkan waktu sangat lama untuk dijalankan pada data set komplit (tak efisien). Reduksi Data Mengurangi ukuran data set tetapi menghasilkan hasil analitis yang sama (hampir sama).
  55. 55. A1 A2 A3 ... A126 T1 T2 T3 T4 …. T2000 A1 A3 ... A115 T1 T4 …. T1456 Reduksi Keterbilangan (Numerosity Reduction) Teknik Reduksi Data Regression dan Log-Linear Models Histograms, clustering, sampling
  56. 56. Reduksi Keterbilangan (Numerosity Reduction) Teknik Reduksi Data Regression dan Log-Linear Models Histograms, clustering, sampling Regresi Linear Suatu regresi linear biasa mencari persamaan garis "terbaik" yang paling mendekati nilai-nilai dari dua buah atribut hingga suatu atribut dapat digunakan untuk memprediksi atribut yang lain. Multiple linear regression Digunakan untuk lebih dari dua atribut Log-linear regression Salah satu metode untuk analisa data kualitatif, digunakan untuk menganalisa hubungan antar variabel-variabel kategori. Mendekati distribusi peluang multidimensional diskrit
  57. 57. Suatu regresi linear biasa mencari persamaan garis "terbaik" yang paling mendekati nilai-nilai dari dua buah atribut hingga suatu atribut dapat digunakan untuk memprediksi atribut yang lain. Reduksi Keterbilangan (Numerosity Reduction) Teknik Reduksi Data Regression dan Log-Linear Models Histograms, clustering, sampling Regresi Linear = garis regresi/variabel response a = konstanta (intersep), perpotongan dengan sumbu vertikal b = konstanta regresi (slope) X = variabel bebas/predictor
  58. 58. Reduksi Keterbilangan (Numerosity Reduction) Teknik Reduksi Data Regression dan Log-Linear Models Histograms, clustering, sampling Multiple linear regression Digunakan untuk lebih dari dua atribut
  59. 59. Reduksi Keterbilangan (Numerosity Reduction) Teknik Reduksi Data Regression dan Log-Linear Models Histograms, clustering, sampling Log-linear regression Salah satu metode untuk analisa data kualitatif, digunakan untuk menganalisa hubungan antar variabel-variabel kategori. Mendekati distribusi peluang multidimensional diskrit
  60. 60. Nama Internet (ribu) Andi 70 Budi 100 Citra 150 Dedi 200 Evan 250 Feni 270 Gito 300 Hani 380 Jodi 400 Mereduksi data dengan cara pewadahan (binning) seperti pada pembersihan data. Setiap wadah merepresentasikan rentang nilai kontinu dalam atribut tersebut. Histogram
  61. 61. Nama Internet (ribu) Andi 70 Budi 100 Citra 150 Dedi 200 Evan 250 Feni 270 Gito 300 Hani 380 Jodi 400 Histogram
  62. 62. Nama Internet (ribu) Andi 70 Budi 100 Citra 150 Dedi 200 Evan 250 Feni 270 Gito 300 Hani 380 Jodi 400 Histogram
  63. 63. Nama Internet (ribu) Internet (histogram) Andi 70 0-150 Budi 100 0-150 Citra 150 0-150 Dedi 200 151-300 Evan 250 151-300 Feni 270 151-300 Gito 300 151-300 Hani 380 301-450 Jodi 400 301-450 Histogram
  64. 64. Nama Internet (ribu) Internet (histogram) Andi 70 0-150 Budi 100 0-150 Citra 150 0-150 Dedi 200 151-300 Evan 250 151-300 Feni 270 151-300 Gito 300 151-300 Hani 380 301-450 Jodi 400 301-450 Internet (histogram) Internet (histogram) 0-150 3 151-300 4 301-450 2 Histogram
  65. 65. Internet (histogram) Internet (histogram) 0-150 3 151-300 4 301-450 2 Histogram
  66. 66. Internet (histogram) Internet (histogram) 0-150 3 151-300 4 301-450 2 Histogram
  67. 67. Visualisasi Data Mining Menggunakan Library Python, PLOTLY
  68. 68. Marketing Objectives Increase Brand Awareness Enter New & International Markets Increase Customer Base Increase Sales
  69. 69. Visualisasi Data Data Mining Menggunakan Library PLOTLY
  70. 70. Beberapa Jenis Grafis Bar Chart Pie Chart Histogram Box Plot
  71. 71. Beberapa Jenis Grafis Bar Chart Digunakan saat Anda perlu membandingkan beberapa kelompok data yang berbed dan digunakan untuk mengukur performa.
  72. 72. Beberapa Jenis Grafis Pie Chart Digunakan untuk mewakili beberapa variabel berbeda yang ada dalam satu kelompok besar.
  73. 73. Beberapa Jenis Grafis Histogram Histogram merupakan visualisasi data yang digunakan untuk menampilkan ringkasan data. Umumnya, grafik ini dipakai saat data menampilkan variabel yang kontinu, misalnya performa tim olahraga dari tahun ke tahun.
  74. 74. Beberapa Jenis Grafis Box Plot Diagram ini cocok untuk menampilkan distribusi data.

×