SlideShare una empresa de Scribd logo
1 de 30
DATA MINING dan Data Science
RUDIMAN, S.KOM., M.SC.
PRODI TEKNIK INFORMATIKA
UNIVERSITAS MUHAMMADIYAH KALIMANTAN TIMUR
1
Materi Kuliah
 Data Science, Data Analytic.
 Data Mining.
 Data Preprocessing: Cleaning, Integration, Reduction.
 Mining frequent pattern, asosiasi
 Klasifikasi
 Clustering
 Mining streams, time-series, sequence data
 Text Mining
2
Pengantar
 Belajar Dari data
 Penghasil Data
 Data Science
 Data Analytics
 Mengapa data mining?
 Apa data mining?
 Data Mining: data apa saja?
 Fungsi data mining
 Klasifikasi sistem data mining
 10 algoritma data mining yang paling umum
 Permasalahan dalam data mining
3
Belajar dari Data (1)
 Setiap hari manusia modern setiap langkahnya selalu meninggalkan jejak
digital dan direkam kedalam sistem komputer.
 Bank menyimpan data transaksi data perbankan anda.
 Toko-toko online menyimpan sejarah belanja anda.
 Jaringan telepon selular mencatat kemana saja anda pergi.
 Media sosial mencatat interaksi anda dengan teman, apa yang anda bicarakan
dan anda sukai.
 Layanan streaming musik mencatat jenis lagu selera anda.
 Ojek online mencatat perjalanan dan pesanan makanan anda, semua data
tentang kehidupan anda berceceran dimana-mana.
Penghasil Data
 Banyaknya data yang dihasilkan manusia karena ponsel pintar selalu
terkoneksi dengan internet. Semakin tinggi pengguna smartphone maka
semakin tinggi intensitas manusia dalam menghasilkan data.
 Hasil riset oleh DOMO menyebutkan di tahun 2020 rata-rata setiap
manusia menghasilkan data sebesar 1,7 MB per detik, cukup kecil setiap
hari namun ada 7 milyar lebih manusia di bumi.
 Selain manusia penghasil data dari aktivitasnya namun mesin juga
menghasilkan data yaitu berasal dari sensor-sensor dan peralatan
elektronik.
 Hasil riset oleh IDC menyebutkan pada tahun 2025, 30% data yang ada di
dunia akan dihasilkan oleh mesin bukan oleh manusia.
 Dunia akan dibanjiri data yang tersimpan di berbagai macam sistem
komputer, hingga dalam skala sangat besar disebut Big Data.
Data Science
 Data yang banyak akan bermanfaat jika mampu digunakan dengan
menggali nilai-nilai yang terkandung di dalamnya, sebaliknya data
yang tidak bermanfaat hanya akan menumpuk dan menghabiskan
media penyimpanan sehingga diperlukan Data Science untuk
membantu mendapatkan manfaat dari data.
 Data Science adalah ilmu multidisipliner yang mempelajari
tentang upaya mendapatkan pemahaman yang lebih dari
berbagai macam data.
 Tujuan Data Science agar didapatkan kesimpulan dari informasi yang
terkandung di dalam data sehingga orang dapat mengambil
keputusan dan tindakan yang tepat.
Data Science (2)
 Data science dalam kehidupan sehari-hari dan umum
digunakan secara sistematis oleh dunia industri khususnya
perusahaan besar dan organisasi, misalnya:
 Pemasaran Digital
 Merancang Produk Baru
 Meningkatkan kualitas layanan kepada pelanggan
 Bidang kesehatan
 Bidang ilmiah dan
 Bidang penyusunan kebijakan publik.
Data Science (3)
 Praktik Data Science juga dimiliki usaha kecil dan usaha
menengah agar bisa memiliki cukup banyak data yang
berpotensi nilai tinggi dan sangat berguna untuk upaya
peningkatan usaha yaitu:
 Transaksi penjulan toko sembako
 Penjualan obat di Apotek
 Penjualan makanan di Restoran
 Transaksi penjualan paket pulsa di Kounter
 Penjualan online Droopsheet.
Data Analytics
 Data analytics difokuskan pada pemecahan permasalahan atau
menjawab pertayaan tertentu yang spesifik.
 Data analytics dapat memberikan kesimpulan dari apa yang
sudah diketahui sebelumnya.
 Data Science menghasilkan pemahaman yang lebih luas yaitu
menemukan hal-hal penting apa saja yang terkandung di
dalam data dan data yang dianggap potensial yang dapat
dijadikan pertayaan lebih lanjut.
Mengapa DM: Banjir Data
 Twitter: 8000an tweet per detik  600 juta tweet per
hari.
 Facebook: 30 milyar item (link, status, note, foto dst)
per bulan. 500 juta user menghabiskan 700 milyar
menit per bulan di situs FB.
 Indomaret: 4500an gerai, asumsikan 3 transaksi per
menit = 12 juta transaksi per hari se Indonesia.
 Kartu kredit visa: berlaku di 200 negara. 10 ribu
transaksi per detik  850 juta transaksi per hari.
10
Mengapa Datamining
We are drowning in data,
but starving for
knowledge!
11
Mengapa data mining?
 Digitalisasi, kemajuan sistem informasi data,
data, data (Tera  Peta)
 Web  berita, blog, twitter, forum, flickr, fb,
youtube
 Streaming data  twitter, f4, sensor (satelit)
12
Evolusi DB
 60-an: koleksi data (file system primitif)
 70-80: MIS (Sistem Informasi Management)
 80-sekarang: OO, Deductive, Spatial, Multimedia
 90-sekarang: Web based (XML, web mining),
Datawarehouse, OLAP, Text Database, Text + Data
mining
 05-sekarang: Stream data management and mining,
Cloud, Web
13
Apa Data Mining?
 Data mining (pencarian pengetahuan dari data)
 Mengekstrak secara otomatis pola atau pengetahuan
yang menarik (tidak sederhana, tersembunyi, tidak
diketahui sebelumnya, berpotensi berguna) dari data
dalam jumlah sangat besar.
14
Apa Datamining? (lanj)
 Nama alternatif: Knowledge discovery (mining) in
databases (KDD), knowledge extraction,
data/pattern analysis, data archeology, data
dredging, information harvesting, business
intelligence dsb
 Keuntungan bagi organisasi yang menerapkan data
mining?
15
Keuntungan Datamining
 Perusahaan fokus ke informasi yg berharga di
datawarehouse/databasenya.
 Meramalkan masa depan  perusahaan dapat
mempersiapkan diri
16
Contoh: Proses Penciptaan Data Mining
Midwest grocery chain menggunakan DM untuk
menganalisisi pola pembelian: saat pria membeli popok di
hari Kamis dan Sabtu, mereka juga membeli minuman.
Analisis lebih lanjut: pembeli ini belanja di hari kamis dan
sabtu, tapi di hari kamis jumlah item lebih sedikit. Kesimpulan
yang diambil: pembeli membeli minuman untuk dihabiskan
saat weekend.
Tindak lanjut: menjual minuman dengan harga full di hari
Kamis dan Sabtu. Mendekatkan posisi popok dan minuman.
17
Contoh Kinerja Aplikasi
Bank me-mining transaksi customer untuk
mengidentifikasi customer yang kemungkinan besar
tertarik terhadap produk baru.
Setelah teknik ini digunakan, terjadi peningkatan 20
kali lipat penurunan biaya dibandingkan dengan cara
biasa.
18
Contoh Aplikasi
Perusahaan transportasi memining data
customer untuk mengelompokan
customer yang memiliki nilai tinggi yang
perlu diprioritaskan.
19
Datamining di DB vs Independen
 Oracle 9i
 MS SQL Server
 IBM Intelligent Miner V7R1
 NCR Teraminer
 Kelebihan dan Kerugiannya?
20
Proses Datamining
Pembersihan Data
Data Integration
Databases
Data Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation
Diambil dari www.cs.uiuc.edu/~hanj
21
Data Mining dan Business Intelligence
Semakin mendukung
pengambilan keputusan
End User
Business
Analyst
Data
Analyst
DBA
Pengambil
an
Keputusan
Presentasi Data
Teknik Visualiasi
Data Mining
Penemuan Informasi
Eksplorasi Data
Statistical Summary, Querying, and Reporting
Data Preprocessing/Integrasi, Data Warehouses
Sumber Data
Database, Web, Paper, Files, Web, eksperimen
Diambil dari www.cs.uiuc.edu/~hanj
22
Data Mining: Multi Disiplin Ilmu
Data Mining
Teknologi DB Statistik
Machine
Learning
Pattern
Recognition
Algoritma
Ilmu Lain
Visualisasi
23
Mengapa tidak analisis data biasa?
 Jumlah data yang sangat besar
 Algoritma harus scalable untuk menangani data yang sangat
besar (tera)
 Dimensi yang sangat besar: ribuan field
 Data Kompleks
 Aliran data dan sensor
 Data terstruktur, graph, social networdk, multi-linked data
 Database dari berbagai sumber, database lama
 Spasial (peta), multimedia, text, web
 Software Simulator
24
Persepsi Pada Data Mining
 Data
 Relational, datawarehouse,web, transaksional, stream, OO, spasial, text,
multimedia
 Pengetahuan yang akan ditambang
 Karakterisitik, diskriminasi, asosiasi, klasifikasi, clustering, trend, outlier
 Teknik
 Database, OLAP, machine learning, statistik, visualiasi
 Penerapan
 Retail, telekomunikasi, banking, analisis kejahatan, biodata mining, saham, text
mining, web mining
25
Klasifikasi sistem Data Mining
 Fungsi
 Deskriptif
 Prediktif
 Sudut pandang:
 Data : Jenis data yang akan ditambang
 Pengetahuan view: Pengetahuan yang akan ditemukan
 Teknik: Teknik yang akan digunakan
 Aplikasi
26
Data Mining: Data apa saja?
 Database Tradisional
 Relational database, data warehouse, transactional database
 Advanced Database
 Data streams dan data sensor
 Time-series data, temporal data, sequence data (incl. bio-sequences)
 Structure data, graphs, social networks and multi-linked data
 Object-relational databases
 Heterogeneous databases dan legacy databases
 Spatial data dan spatiotemporal data
 Multimedia database
 Text databases
 World-Wide Web
27
Top-10 Algorithm di ICDM’06
 #1: C4.5 (61 votes)
 #2: K-Means (60 votes)
 #3: SVM (58 votes)
 #4: Apriori (52 votes)
 #5: EM (48 votes)
 #6: PageRank (46 votes)
 #7: AdaBoost (45 votes)
 #7: kNN (45 votes)
 #7: Naive Bayes (45 votes)
 #10: CART (34 votes)
28
Permasalahan Pada DM
 Metodologi
 Mining beragam pengetahuan dari beragam sumber data
 Kinerja: efesiensi, efektivitas dan skalabilitas
 Evaluasi pola
 Background knowledge
 Noise (gangguan) dan data yang tidak lengkap
 Distributed dan paralel method.
 knowledge fusion (penggabungan)
29
Permasalahan DM (lanj)
 Interaksi Pengguna
 Data mining query languages dan ad-hoc mining
 Visualisasi
 Interactive mining
 Aplikasi
 Domain spesifiik
 Perlindungan data
30

Más contenido relacionado

Similar a Pengantar Big Data dan Data Mining.pptx

PMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdfPMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdfAndri946883
 
Big Data - Python for Data Science (Bahas Indonesia)
Big Data - Python for Data Science (Bahas Indonesia)Big Data - Python for Data Science (Bahas Indonesia)
Big Data - Python for Data Science (Bahas Indonesia)ArianDerida
 
Consumer behavior and big data
Consumer behavior and big dataConsumer behavior and big data
Consumer behavior and big dataRossiFatmawati
 
Pengantar-Big-Data.pdf
Pengantar-Big-Data.pdfPengantar-Big-Data.pdf
Pengantar-Big-Data.pdfDedek28
 
pengenalan-Pengantar-Big-Data _____.pptx
pengenalan-Pengantar-Big-Data _____.pptxpengenalan-Pengantar-Big-Data _____.pptx
pengenalan-Pengantar-Big-Data _____.pptxbaktilast1
 
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptxPengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptxBatakMusikGroup
 
Alin dian ayuni 6018210055 consumer & big data
Alin dian ayuni 6018210055 consumer & big dataAlin dian ayuni 6018210055 consumer & big data
Alin dian ayuni 6018210055 consumer & big dataAlinDianAyuni
 
Consumer behavior and big data
Consumer behavior and big dataConsumer behavior and big data
Consumer behavior and big dataHallifatulAmbyah
 
Data Mining Diskusi 1.docx
Data Mining Diskusi 1.docxData Mining Diskusi 1.docx
Data Mining Diskusi 1.docxHendroGunawan8
 
Consumer behavior and big data
Consumer behavior and big dataConsumer behavior and big data
Consumer behavior and big dataNurulKhoerunisa1
 
Big Data, Media, Social Network and Statistics
Big Data, Media, Social Network and StatisticsBig Data, Media, Social Network and Statistics
Big Data, Media, Social Network and StatisticsIsmail Fahmi
 
Information systems and people
Information systems and peopleInformation systems and people
Information systems and peopleYuliWahyu2
 
Data warehouse dan data mining dianvs.blogspot.com
Data warehouse dan data mining dianvs.blogspot.comData warehouse dan data mining dianvs.blogspot.com
Data warehouse dan data mining dianvs.blogspot.comsuleman ganteng
 
adoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdf
adoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdfadoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdf
adoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdfDinarSafa1
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data AnalyticsRarasPrasaty
 

Similar a Pengantar Big Data dan Data Mining.pptx (20)

2. Pengantar Data Mining
2. Pengantar Data Mining2. Pengantar Data Mining
2. Pengantar Data Mining
 
Pertemuan 1 Pengantar DW
Pertemuan 1 Pengantar DWPertemuan 1 Pengantar DW
Pertemuan 1 Pengantar DW
 
Konsep dan teknologi data mining
Konsep dan teknologi data miningKonsep dan teknologi data mining
Konsep dan teknologi data mining
 
PMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdfPMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdf
 
Big Data - Python for Data Science (Bahas Indonesia)
Big Data - Python for Data Science (Bahas Indonesia)Big Data - Python for Data Science (Bahas Indonesia)
Big Data - Python for Data Science (Bahas Indonesia)
 
Presentation1.pptx
Presentation1.pptxPresentation1.pptx
Presentation1.pptx
 
Consumer behavior and big data
Consumer behavior and big dataConsumer behavior and big data
Consumer behavior and big data
 
Pengantar-Big-Data.pdf
Pengantar-Big-Data.pdfPengantar-Big-Data.pdf
Pengantar-Big-Data.pdf
 
pengenalan-Pengantar-Big-Data _____.pptx
pengenalan-Pengantar-Big-Data _____.pptxpengenalan-Pengantar-Big-Data _____.pptx
pengenalan-Pengantar-Big-Data _____.pptx
 
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptxPengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
 
Alin dian ayuni 6018210055 consumer & big data
Alin dian ayuni 6018210055 consumer & big dataAlin dian ayuni 6018210055 consumer & big data
Alin dian ayuni 6018210055 consumer & big data
 
Consumer behavior and big data
Consumer behavior and big dataConsumer behavior and big data
Consumer behavior and big data
 
Big data
Big dataBig data
Big data
 
Data Mining Diskusi 1.docx
Data Mining Diskusi 1.docxData Mining Diskusi 1.docx
Data Mining Diskusi 1.docx
 
Consumer behavior and big data
Consumer behavior and big dataConsumer behavior and big data
Consumer behavior and big data
 
Big Data, Media, Social Network and Statistics
Big Data, Media, Social Network and StatisticsBig Data, Media, Social Network and Statistics
Big Data, Media, Social Network and Statistics
 
Information systems and people
Information systems and peopleInformation systems and people
Information systems and people
 
Data warehouse dan data mining dianvs.blogspot.com
Data warehouse dan data mining dianvs.blogspot.comData warehouse dan data mining dianvs.blogspot.com
Data warehouse dan data mining dianvs.blogspot.com
 
adoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdf
adoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdfadoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdf
adoc.pub_buku-saku-big-data-kementerian-komunikasi-dan-info.pdf
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 

Último

MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxMATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxrikosyahputra0173
 
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxUKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxzidanlbs25
 
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Shary Armonitha
 
MARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptxMARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptxmariaboisala21
 
Menggunakan Data matematika kelas 7.pptx
Menggunakan Data matematika kelas 7.pptxMenggunakan Data matematika kelas 7.pptx
Menggunakan Data matematika kelas 7.pptxImahMagwa
 
Geologi Jawa Timur-Madura Kelompok 6.pdf
Geologi Jawa Timur-Madura Kelompok 6.pdfGeologi Jawa Timur-Madura Kelompok 6.pdf
Geologi Jawa Timur-Madura Kelompok 6.pdfAuliaAulia63
 
PENGENDALIAN MUTU prodi Blitar penting untuk dimiliki oleh masyarakat .pptx
PENGENDALIAN MUTU prodi Blitar penting untuk dimiliki oleh masyarakat .pptxPENGENDALIAN MUTU prodi Blitar penting untuk dimiliki oleh masyarakat .pptx
PENGENDALIAN MUTU prodi Blitar penting untuk dimiliki oleh masyarakat .pptxheru687292
 

Último (7)

MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxMATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
 
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxUKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
 
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
 
MARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptxMARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptx
 
Menggunakan Data matematika kelas 7.pptx
Menggunakan Data matematika kelas 7.pptxMenggunakan Data matematika kelas 7.pptx
Menggunakan Data matematika kelas 7.pptx
 
Geologi Jawa Timur-Madura Kelompok 6.pdf
Geologi Jawa Timur-Madura Kelompok 6.pdfGeologi Jawa Timur-Madura Kelompok 6.pdf
Geologi Jawa Timur-Madura Kelompok 6.pdf
 
PENGENDALIAN MUTU prodi Blitar penting untuk dimiliki oleh masyarakat .pptx
PENGENDALIAN MUTU prodi Blitar penting untuk dimiliki oleh masyarakat .pptxPENGENDALIAN MUTU prodi Blitar penting untuk dimiliki oleh masyarakat .pptx
PENGENDALIAN MUTU prodi Blitar penting untuk dimiliki oleh masyarakat .pptx
 

Pengantar Big Data dan Data Mining.pptx

  • 1. DATA MINING dan Data Science RUDIMAN, S.KOM., M.SC. PRODI TEKNIK INFORMATIKA UNIVERSITAS MUHAMMADIYAH KALIMANTAN TIMUR 1
  • 2. Materi Kuliah  Data Science, Data Analytic.  Data Mining.  Data Preprocessing: Cleaning, Integration, Reduction.  Mining frequent pattern, asosiasi  Klasifikasi  Clustering  Mining streams, time-series, sequence data  Text Mining 2
  • 3. Pengantar  Belajar Dari data  Penghasil Data  Data Science  Data Analytics  Mengapa data mining?  Apa data mining?  Data Mining: data apa saja?  Fungsi data mining  Klasifikasi sistem data mining  10 algoritma data mining yang paling umum  Permasalahan dalam data mining 3
  • 4. Belajar dari Data (1)  Setiap hari manusia modern setiap langkahnya selalu meninggalkan jejak digital dan direkam kedalam sistem komputer.  Bank menyimpan data transaksi data perbankan anda.  Toko-toko online menyimpan sejarah belanja anda.  Jaringan telepon selular mencatat kemana saja anda pergi.  Media sosial mencatat interaksi anda dengan teman, apa yang anda bicarakan dan anda sukai.  Layanan streaming musik mencatat jenis lagu selera anda.  Ojek online mencatat perjalanan dan pesanan makanan anda, semua data tentang kehidupan anda berceceran dimana-mana.
  • 5. Penghasil Data  Banyaknya data yang dihasilkan manusia karena ponsel pintar selalu terkoneksi dengan internet. Semakin tinggi pengguna smartphone maka semakin tinggi intensitas manusia dalam menghasilkan data.  Hasil riset oleh DOMO menyebutkan di tahun 2020 rata-rata setiap manusia menghasilkan data sebesar 1,7 MB per detik, cukup kecil setiap hari namun ada 7 milyar lebih manusia di bumi.  Selain manusia penghasil data dari aktivitasnya namun mesin juga menghasilkan data yaitu berasal dari sensor-sensor dan peralatan elektronik.  Hasil riset oleh IDC menyebutkan pada tahun 2025, 30% data yang ada di dunia akan dihasilkan oleh mesin bukan oleh manusia.  Dunia akan dibanjiri data yang tersimpan di berbagai macam sistem komputer, hingga dalam skala sangat besar disebut Big Data.
  • 6. Data Science  Data yang banyak akan bermanfaat jika mampu digunakan dengan menggali nilai-nilai yang terkandung di dalamnya, sebaliknya data yang tidak bermanfaat hanya akan menumpuk dan menghabiskan media penyimpanan sehingga diperlukan Data Science untuk membantu mendapatkan manfaat dari data.  Data Science adalah ilmu multidisipliner yang mempelajari tentang upaya mendapatkan pemahaman yang lebih dari berbagai macam data.  Tujuan Data Science agar didapatkan kesimpulan dari informasi yang terkandung di dalam data sehingga orang dapat mengambil keputusan dan tindakan yang tepat.
  • 7. Data Science (2)  Data science dalam kehidupan sehari-hari dan umum digunakan secara sistematis oleh dunia industri khususnya perusahaan besar dan organisasi, misalnya:  Pemasaran Digital  Merancang Produk Baru  Meningkatkan kualitas layanan kepada pelanggan  Bidang kesehatan  Bidang ilmiah dan  Bidang penyusunan kebijakan publik.
  • 8. Data Science (3)  Praktik Data Science juga dimiliki usaha kecil dan usaha menengah agar bisa memiliki cukup banyak data yang berpotensi nilai tinggi dan sangat berguna untuk upaya peningkatan usaha yaitu:  Transaksi penjulan toko sembako  Penjualan obat di Apotek  Penjualan makanan di Restoran  Transaksi penjualan paket pulsa di Kounter  Penjualan online Droopsheet.
  • 9. Data Analytics  Data analytics difokuskan pada pemecahan permasalahan atau menjawab pertayaan tertentu yang spesifik.  Data analytics dapat memberikan kesimpulan dari apa yang sudah diketahui sebelumnya.  Data Science menghasilkan pemahaman yang lebih luas yaitu menemukan hal-hal penting apa saja yang terkandung di dalam data dan data yang dianggap potensial yang dapat dijadikan pertayaan lebih lanjut.
  • 10. Mengapa DM: Banjir Data  Twitter: 8000an tweet per detik  600 juta tweet per hari.  Facebook: 30 milyar item (link, status, note, foto dst) per bulan. 500 juta user menghabiskan 700 milyar menit per bulan di situs FB.  Indomaret: 4500an gerai, asumsikan 3 transaksi per menit = 12 juta transaksi per hari se Indonesia.  Kartu kredit visa: berlaku di 200 negara. 10 ribu transaksi per detik  850 juta transaksi per hari. 10
  • 11. Mengapa Datamining We are drowning in data, but starving for knowledge! 11
  • 12. Mengapa data mining?  Digitalisasi, kemajuan sistem informasi data, data, data (Tera  Peta)  Web  berita, blog, twitter, forum, flickr, fb, youtube  Streaming data  twitter, f4, sensor (satelit) 12
  • 13. Evolusi DB  60-an: koleksi data (file system primitif)  70-80: MIS (Sistem Informasi Management)  80-sekarang: OO, Deductive, Spatial, Multimedia  90-sekarang: Web based (XML, web mining), Datawarehouse, OLAP, Text Database, Text + Data mining  05-sekarang: Stream data management and mining, Cloud, Web 13
  • 14. Apa Data Mining?  Data mining (pencarian pengetahuan dari data)  Mengekstrak secara otomatis pola atau pengetahuan yang menarik (tidak sederhana, tersembunyi, tidak diketahui sebelumnya, berpotensi berguna) dari data dalam jumlah sangat besar. 14
  • 15. Apa Datamining? (lanj)  Nama alternatif: Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence dsb  Keuntungan bagi organisasi yang menerapkan data mining? 15
  • 16. Keuntungan Datamining  Perusahaan fokus ke informasi yg berharga di datawarehouse/databasenya.  Meramalkan masa depan  perusahaan dapat mempersiapkan diri 16
  • 17. Contoh: Proses Penciptaan Data Mining Midwest grocery chain menggunakan DM untuk menganalisisi pola pembelian: saat pria membeli popok di hari Kamis dan Sabtu, mereka juga membeli minuman. Analisis lebih lanjut: pembeli ini belanja di hari kamis dan sabtu, tapi di hari kamis jumlah item lebih sedikit. Kesimpulan yang diambil: pembeli membeli minuman untuk dihabiskan saat weekend. Tindak lanjut: menjual minuman dengan harga full di hari Kamis dan Sabtu. Mendekatkan posisi popok dan minuman. 17
  • 18. Contoh Kinerja Aplikasi Bank me-mining transaksi customer untuk mengidentifikasi customer yang kemungkinan besar tertarik terhadap produk baru. Setelah teknik ini digunakan, terjadi peningkatan 20 kali lipat penurunan biaya dibandingkan dengan cara biasa. 18
  • 19. Contoh Aplikasi Perusahaan transportasi memining data customer untuk mengelompokan customer yang memiliki nilai tinggi yang perlu diprioritaskan. 19
  • 20. Datamining di DB vs Independen  Oracle 9i  MS SQL Server  IBM Intelligent Miner V7R1  NCR Teraminer  Kelebihan dan Kerugiannya? 20
  • 21. Proses Datamining Pembersihan Data Data Integration Databases Data Warehouse Task-relevant Data Selection Data Mining Pattern Evaluation Diambil dari www.cs.uiuc.edu/~hanj 21
  • 22. Data Mining dan Business Intelligence Semakin mendukung pengambilan keputusan End User Business Analyst Data Analyst DBA Pengambil an Keputusan Presentasi Data Teknik Visualiasi Data Mining Penemuan Informasi Eksplorasi Data Statistical Summary, Querying, and Reporting Data Preprocessing/Integrasi, Data Warehouses Sumber Data Database, Web, Paper, Files, Web, eksperimen Diambil dari www.cs.uiuc.edu/~hanj 22
  • 23. Data Mining: Multi Disiplin Ilmu Data Mining Teknologi DB Statistik Machine Learning Pattern Recognition Algoritma Ilmu Lain Visualisasi 23
  • 24. Mengapa tidak analisis data biasa?  Jumlah data yang sangat besar  Algoritma harus scalable untuk menangani data yang sangat besar (tera)  Dimensi yang sangat besar: ribuan field  Data Kompleks  Aliran data dan sensor  Data terstruktur, graph, social networdk, multi-linked data  Database dari berbagai sumber, database lama  Spasial (peta), multimedia, text, web  Software Simulator 24
  • 25. Persepsi Pada Data Mining  Data  Relational, datawarehouse,web, transaksional, stream, OO, spasial, text, multimedia  Pengetahuan yang akan ditambang  Karakterisitik, diskriminasi, asosiasi, klasifikasi, clustering, trend, outlier  Teknik  Database, OLAP, machine learning, statistik, visualiasi  Penerapan  Retail, telekomunikasi, banking, analisis kejahatan, biodata mining, saham, text mining, web mining 25
  • 26. Klasifikasi sistem Data Mining  Fungsi  Deskriptif  Prediktif  Sudut pandang:  Data : Jenis data yang akan ditambang  Pengetahuan view: Pengetahuan yang akan ditemukan  Teknik: Teknik yang akan digunakan  Aplikasi 26
  • 27. Data Mining: Data apa saja?  Database Tradisional  Relational database, data warehouse, transactional database  Advanced Database  Data streams dan data sensor  Time-series data, temporal data, sequence data (incl. bio-sequences)  Structure data, graphs, social networks and multi-linked data  Object-relational databases  Heterogeneous databases dan legacy databases  Spatial data dan spatiotemporal data  Multimedia database  Text databases  World-Wide Web 27
  • 28. Top-10 Algorithm di ICDM’06  #1: C4.5 (61 votes)  #2: K-Means (60 votes)  #3: SVM (58 votes)  #4: Apriori (52 votes)  #5: EM (48 votes)  #6: PageRank (46 votes)  #7: AdaBoost (45 votes)  #7: kNN (45 votes)  #7: Naive Bayes (45 votes)  #10: CART (34 votes) 28
  • 29. Permasalahan Pada DM  Metodologi  Mining beragam pengetahuan dari beragam sumber data  Kinerja: efesiensi, efektivitas dan skalabilitas  Evaluasi pola  Background knowledge  Noise (gangguan) dan data yang tidak lengkap  Distributed dan paralel method.  knowledge fusion (penggabungan) 29
  • 30. Permasalahan DM (lanj)  Interaksi Pengguna  Data mining query languages dan ad-hoc mining  Visualisasi  Interactive mining  Aplikasi  Domain spesifiik  Perlindungan data 30