Dokumen tersebut membahas tentang Data Science dan Data Mining. Materi kuliah mencakup konsep Data Science, Data Analytics, proses preprocessing data, teknik-teknik mining seperti asosiasi, klasifikasi dan clustering, serta aplikasi Data Mining di berbagai bidang."
PENGENDALIAN MUTU prodi Blitar penting untuk dimiliki oleh masyarakat .pptx
Pengantar Big Data dan Data Mining.pptx
1. DATA MINING dan Data Science
RUDIMAN, S.KOM., M.SC.
PRODI TEKNIK INFORMATIKA
UNIVERSITAS MUHAMMADIYAH KALIMANTAN TIMUR
1
2. Materi Kuliah
Data Science, Data Analytic.
Data Mining.
Data Preprocessing: Cleaning, Integration, Reduction.
Mining frequent pattern, asosiasi
Klasifikasi
Clustering
Mining streams, time-series, sequence data
Text Mining
2
3. Pengantar
Belajar Dari data
Penghasil Data
Data Science
Data Analytics
Mengapa data mining?
Apa data mining?
Data Mining: data apa saja?
Fungsi data mining
Klasifikasi sistem data mining
10 algoritma data mining yang paling umum
Permasalahan dalam data mining
3
4. Belajar dari Data (1)
Setiap hari manusia modern setiap langkahnya selalu meninggalkan jejak
digital dan direkam kedalam sistem komputer.
Bank menyimpan data transaksi data perbankan anda.
Toko-toko online menyimpan sejarah belanja anda.
Jaringan telepon selular mencatat kemana saja anda pergi.
Media sosial mencatat interaksi anda dengan teman, apa yang anda bicarakan
dan anda sukai.
Layanan streaming musik mencatat jenis lagu selera anda.
Ojek online mencatat perjalanan dan pesanan makanan anda, semua data
tentang kehidupan anda berceceran dimana-mana.
5. Penghasil Data
Banyaknya data yang dihasilkan manusia karena ponsel pintar selalu
terkoneksi dengan internet. Semakin tinggi pengguna smartphone maka
semakin tinggi intensitas manusia dalam menghasilkan data.
Hasil riset oleh DOMO menyebutkan di tahun 2020 rata-rata setiap
manusia menghasilkan data sebesar 1,7 MB per detik, cukup kecil setiap
hari namun ada 7 milyar lebih manusia di bumi.
Selain manusia penghasil data dari aktivitasnya namun mesin juga
menghasilkan data yaitu berasal dari sensor-sensor dan peralatan
elektronik.
Hasil riset oleh IDC menyebutkan pada tahun 2025, 30% data yang ada di
dunia akan dihasilkan oleh mesin bukan oleh manusia.
Dunia akan dibanjiri data yang tersimpan di berbagai macam sistem
komputer, hingga dalam skala sangat besar disebut Big Data.
6. Data Science
Data yang banyak akan bermanfaat jika mampu digunakan dengan
menggali nilai-nilai yang terkandung di dalamnya, sebaliknya data
yang tidak bermanfaat hanya akan menumpuk dan menghabiskan
media penyimpanan sehingga diperlukan Data Science untuk
membantu mendapatkan manfaat dari data.
Data Science adalah ilmu multidisipliner yang mempelajari
tentang upaya mendapatkan pemahaman yang lebih dari
berbagai macam data.
Tujuan Data Science agar didapatkan kesimpulan dari informasi yang
terkandung di dalam data sehingga orang dapat mengambil
keputusan dan tindakan yang tepat.
7. Data Science (2)
Data science dalam kehidupan sehari-hari dan umum
digunakan secara sistematis oleh dunia industri khususnya
perusahaan besar dan organisasi, misalnya:
Pemasaran Digital
Merancang Produk Baru
Meningkatkan kualitas layanan kepada pelanggan
Bidang kesehatan
Bidang ilmiah dan
Bidang penyusunan kebijakan publik.
8. Data Science (3)
Praktik Data Science juga dimiliki usaha kecil dan usaha
menengah agar bisa memiliki cukup banyak data yang
berpotensi nilai tinggi dan sangat berguna untuk upaya
peningkatan usaha yaitu:
Transaksi penjulan toko sembako
Penjualan obat di Apotek
Penjualan makanan di Restoran
Transaksi penjualan paket pulsa di Kounter
Penjualan online Droopsheet.
9. Data Analytics
Data analytics difokuskan pada pemecahan permasalahan atau
menjawab pertayaan tertentu yang spesifik.
Data analytics dapat memberikan kesimpulan dari apa yang
sudah diketahui sebelumnya.
Data Science menghasilkan pemahaman yang lebih luas yaitu
menemukan hal-hal penting apa saja yang terkandung di
dalam data dan data yang dianggap potensial yang dapat
dijadikan pertayaan lebih lanjut.
10. Mengapa DM: Banjir Data
Twitter: 8000an tweet per detik 600 juta tweet per
hari.
Facebook: 30 milyar item (link, status, note, foto dst)
per bulan. 500 juta user menghabiskan 700 milyar
menit per bulan di situs FB.
Indomaret: 4500an gerai, asumsikan 3 transaksi per
menit = 12 juta transaksi per hari se Indonesia.
Kartu kredit visa: berlaku di 200 negara. 10 ribu
transaksi per detik 850 juta transaksi per hari.
10
12. Mengapa data mining?
Digitalisasi, kemajuan sistem informasi data,
data, data (Tera Peta)
Web berita, blog, twitter, forum, flickr, fb,
youtube
Streaming data twitter, f4, sensor (satelit)
12
13. Evolusi DB
60-an: koleksi data (file system primitif)
70-80: MIS (Sistem Informasi Management)
80-sekarang: OO, Deductive, Spatial, Multimedia
90-sekarang: Web based (XML, web mining),
Datawarehouse, OLAP, Text Database, Text + Data
mining
05-sekarang: Stream data management and mining,
Cloud, Web
13
14. Apa Data Mining?
Data mining (pencarian pengetahuan dari data)
Mengekstrak secara otomatis pola atau pengetahuan
yang menarik (tidak sederhana, tersembunyi, tidak
diketahui sebelumnya, berpotensi berguna) dari data
dalam jumlah sangat besar.
14
15. Apa Datamining? (lanj)
Nama alternatif: Knowledge discovery (mining) in
databases (KDD), knowledge extraction,
data/pattern analysis, data archeology, data
dredging, information harvesting, business
intelligence dsb
Keuntungan bagi organisasi yang menerapkan data
mining?
15
16. Keuntungan Datamining
Perusahaan fokus ke informasi yg berharga di
datawarehouse/databasenya.
Meramalkan masa depan perusahaan dapat
mempersiapkan diri
16
17. Contoh: Proses Penciptaan Data Mining
Midwest grocery chain menggunakan DM untuk
menganalisisi pola pembelian: saat pria membeli popok di
hari Kamis dan Sabtu, mereka juga membeli minuman.
Analisis lebih lanjut: pembeli ini belanja di hari kamis dan
sabtu, tapi di hari kamis jumlah item lebih sedikit. Kesimpulan
yang diambil: pembeli membeli minuman untuk dihabiskan
saat weekend.
Tindak lanjut: menjual minuman dengan harga full di hari
Kamis dan Sabtu. Mendekatkan posisi popok dan minuman.
17
18. Contoh Kinerja Aplikasi
Bank me-mining transaksi customer untuk
mengidentifikasi customer yang kemungkinan besar
tertarik terhadap produk baru.
Setelah teknik ini digunakan, terjadi peningkatan 20
kali lipat penurunan biaya dibandingkan dengan cara
biasa.
18
20. Datamining di DB vs Independen
Oracle 9i
MS SQL Server
IBM Intelligent Miner V7R1
NCR Teraminer
Kelebihan dan Kerugiannya?
20
21. Proses Datamining
Pembersihan Data
Data Integration
Databases
Data Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation
Diambil dari www.cs.uiuc.edu/~hanj
21
22. Data Mining dan Business Intelligence
Semakin mendukung
pengambilan keputusan
End User
Business
Analyst
Data
Analyst
DBA
Pengambil
an
Keputusan
Presentasi Data
Teknik Visualiasi
Data Mining
Penemuan Informasi
Eksplorasi Data
Statistical Summary, Querying, and Reporting
Data Preprocessing/Integrasi, Data Warehouses
Sumber Data
Database, Web, Paper, Files, Web, eksperimen
Diambil dari www.cs.uiuc.edu/~hanj
22
23. Data Mining: Multi Disiplin Ilmu
Data Mining
Teknologi DB Statistik
Machine
Learning
Pattern
Recognition
Algoritma
Ilmu Lain
Visualisasi
23
24. Mengapa tidak analisis data biasa?
Jumlah data yang sangat besar
Algoritma harus scalable untuk menangani data yang sangat
besar (tera)
Dimensi yang sangat besar: ribuan field
Data Kompleks
Aliran data dan sensor
Data terstruktur, graph, social networdk, multi-linked data
Database dari berbagai sumber, database lama
Spasial (peta), multimedia, text, web
Software Simulator
24
25. Persepsi Pada Data Mining
Data
Relational, datawarehouse,web, transaksional, stream, OO, spasial, text,
multimedia
Pengetahuan yang akan ditambang
Karakterisitik, diskriminasi, asosiasi, klasifikasi, clustering, trend, outlier
Teknik
Database, OLAP, machine learning, statistik, visualiasi
Penerapan
Retail, telekomunikasi, banking, analisis kejahatan, biodata mining, saham, text
mining, web mining
25
26. Klasifikasi sistem Data Mining
Fungsi
Deskriptif
Prediktif
Sudut pandang:
Data : Jenis data yang akan ditambang
Pengetahuan view: Pengetahuan yang akan ditemukan
Teknik: Teknik yang akan digunakan
Aplikasi
26
27. Data Mining: Data apa saja?
Database Tradisional
Relational database, data warehouse, transactional database
Advanced Database
Data streams dan data sensor
Time-series data, temporal data, sequence data (incl. bio-sequences)
Structure data, graphs, social networks and multi-linked data
Object-relational databases
Heterogeneous databases dan legacy databases
Spatial data dan spatiotemporal data
Multimedia database
Text databases
World-Wide Web
27
29. Permasalahan Pada DM
Metodologi
Mining beragam pengetahuan dari beragam sumber data
Kinerja: efesiensi, efektivitas dan skalabilitas
Evaluasi pola
Background knowledge
Noise (gangguan) dan data yang tidak lengkap
Distributed dan paralel method.
knowledge fusion (penggabungan)
29
30. Permasalahan DM (lanj)
Interaksi Pengguna
Data mining query languages dan ad-hoc mining
Visualisasi
Interactive mining
Aplikasi
Domain spesifiik
Perlindungan data
30