Bab 2 membahas landasan teori sistem manajemen arsip digital termasuk konsep klusterisasi dokumen, text mining, analisis struktur dokumen, dan algoritma DIG untuk mengelompokkan dokumen berdasarkan kesamaan.
Peran Sumber Basis Data Terbuka : Infrastruktur dan Memulai Ide Riset
Bab ii
1. BAB II
LANDASAN TEORI
Sistem manajemen arsip digital pada tugas akhir ini adalah mengelompokkan
dokumen-dokumen arsip yang berbentuk file menjadi sebuah kelompok-kelompok
tertentu sehingga dapat diambil informasi yang lebih baik dari pengelompokkan
tersebut. Sistem pengelompokkannya (klasterisasi) menggunakan algoritma DIG
(Document Index Graph) untuk mencari keterkaitan antar dokumen dan
dikelompokkan menjadi beberapa kategori tertentu. Pada tahap ini terlebih dahulu
akan dipaparkan mengenai beberapa teori yang mendasari tugas akhir ini diantaranya
adalah konsep klusterisasi document, text mining, analisa struktur dokumen dan
kesamaan antar dokumen, konsep graph, konsep algoritma DIG (Document Index
Graph), dan metode evaluasi untuk mengukur kinerja sistem.
2.1 Konsep Klasterisasi Dokumen
Secara umum document clustering adalah proses mengelompokkan dokumen
berdasarkan kemiripan antara satu dengan yang lain dalam satu gugus [3, 4].
Tujuannya adalah untuk memisahkan dokumen yang relevan dari dokumen yang
tidak relevan [5]. Pengelompokan ini didasarkan pada hipotesa yang dikemukakan
oleh Van Rijsbergen bahwa dokumen-dokumen yang berkaitan erat cenderung sesuai
dengan permintaan informasi yang sama [6, 7]. Atau dengan kata lain, dokumen-
dokumen yang relevan dengan suatu query cenderung memiliki kemiripan satu sama
lain dari pada dokumen yang tidak relevan, sehingga dapat dikelompokkan ke dalam
suatu gugus [4]. Oleh karena itu, suatu gugus berisi kelompok dokumen homogen
yang saling berkaitan antara satu dengan yang lain.
Document Clustering dapat dilakukan sebelum atau sesudah proses temu
kembali [8]. Pada document clustering yang dilakukan sebelum proses temu kembali
informasi, koleksi dokumen dikelompokkan ke dalam gugus berdasarkan kemiripan
(similarity) antar dokumen.Selanjutnya dalam proses temu kembali informasi, apabila
suatu dokumen ditemukan maka seluruh dokumen yang berada dalam gugus yang
2. sama dengan dokumen tersebut juga dapat ditemukan. Sedangkan document
clustering yang dilakukan setelah proses temu kembali informasi, dokumen-dokumen
yang dihasilkan disajikan dalam gugus yang terbentuk berdasar kemiripan antar
dokumen tersebut, sehingga mempermudah pencari informasi untuk memberikan
interpretasi terhadap hasil penelusuran sesuai dengan kebutuhannya [9].
Dalam sistem temu kembali informasi, document clustering memberikan
beberapa manfaat, antara lain:
• Mempercepat pemrosesan query dengan menelusur hanya pada sejumlah
kecil anggota atau wakil gugus, sehingga dapat mempercepat proses temu
kembali informasi [5].
• Membantu melokalisir dokumen yang relevan [9].
• Membentuk kelas-kelas dokumen sehingga mempermudah penjelajahan
dan pemberian interpretasi terhadap hasil penelusuran [4].
• Meningkatkan efektivitas dan efisiensi temu kembali informasi dan
memberikan alternatif metode penelusuran [10].
Selain itu, penggabungan antara penelusuran secara menyeluruh (full search)
dengan penelusuran berbasis gugus (cluster-based retrieval) dapat meningkatkan
ketelitian sampai dengan 25% [6]. Hal senada dikemukakan oleh Jian Zhang, et al.
[8] bahwa penggabungan antara metode penggugusan dengan fusion (pemberian
peringkat terdadap dokumen secara keseluruhan) akan meningkatkan efektivitas temu
kembali informasi. Adapun dalam hal penyajian hasil penelusuran, penggabungan
antara gugus dan daftar peringkat dapat membantu pemakai dalam menemukan
informasi yang relevan [11].
2.1.1 Pembentukan gugus dokumen klusterisasi
Pembentukan gugus dokumen dalam sistem temu kembali informasi
merupakan proses yang kompleks, karena melibatkan pemilihan unsur yang dapat
mewakili sekelompok dokumen, penetapan fungsi untuk menghubungkan satu
dokumen dengan dokumen yang lain, penetapan fungsi untuk menghubungkan
3. dokumen dengan query dan membangun metode atau algoritma penggugusan [12].
Prinsip dasar dalam document clustering adalah menentukan ukuran kemiripan antar
dokumen yang akan dikelompokkan dan menjadikannya sebagai dasar untuk
menghasilkan gugus.
Kemiripan antar dokumen dapat didasarkan pada beberapa variabel seperti
journal intercitation, co-citation (journal co-citation, document co-citation, author
co-citation), biblioGraphic coupling, co-descriptor, dan co-classification. Adapun
kemiripan antara dua dokumen X dan Y dapat diukur dengan beberapa cara, yaitu:
1. Simple matching : |X Y|
2. Dice’s coefficient : 2 | X Y|/|X|+|Y|
3. Jaccard’s coefficient : | X Y |/|X Y|
4. Cosine coefficient : |X Y|/|X|1/2.|Y|1/2.
5. Overlap coefficient : |X Y|/min(X,Y)
pembentukan gugus biasanya dikategorikan menurut tipe dari struktur gugus
yang dihasilkan. Secara umum metode penggugusan terbagi menjadi dua, yaitu
metode non-hirarkhis dan metode hirarkhis.
2.1.2 Metode Non-Hirarkhis
Metode non-hirarkhis disebut juga metode partisi, yaitu membagi serangkaian
data yang terdiri dari N obyek ke dalam M gugus yang tidak saling tumpang-tindih
(overlap) [10]. Secara lebih rinci, Salton [13] mengemukakan bahwa pembentukan
gugus dokumen dalam sistem temu kembali informasi dengan metode non-hirarkhis
adalah sebagi berikut:
a. Membandingkan ciri-ciri identifikasi (identifier) suatu dokumen dengan
dokumen lain yang ada dalam koleksi dan mengelompokkan dokumen-
dokumen yang memiliki serangkaian ciri-ciri identifikasi yang serupa ke dalam
satu gugus.
4. b. Pada setiap gugus dokumen yang dihasilkan, dipilih sebuah unsur yang dapat
mewakili seluruh dokumen yang ada dalam gugus yang bersangkutan yang
disebut centroid. Menurut Rasmussen [10] centroid atau perwakilan gugus
adalah sebuah record yang dapat mewakili ciri -ciri atau karakteristik dokumen
dalam sebuah gugus.
c. Proses penelusuran dilakukan dalam dua tahap, yaitu: 1) membandingkan query
dengan centroid pada masing-masing gugus dokumen; 2) mencocokkan query
dengan masing-masing dokumen dalam gugus yang mengandung centroid yang
paling sesuai.
Proses pembentukan gugus dokumen dan penelusuran tersebut dapat diilustrasikan
seperti pada Gambar 2.1
Gambar 2.1 Pembentukan gugus dokumen dengan metode non-hirarkhis dan proses
penelusurannya [13].
Seiring dengan perkembangan teknologi komputer, metode penggugusan non-
hirarkhis ini juga menggunakan algoritma yang semakin kompleks. Sebagai contoh
adalah penerapan algoritma genetik [14] dan metode iterative clustering [15].
2.1.3 Metode Hirarkhis
5. Pembentukan gugus dokumen dalam sistem temu kembali informasi dengan
metode hirarkhis adalah sebagi berikut:
a. Mengidentifikasi dua dokumen yang paling mirip dan menggabungkannya
menjadi sebuah gugus.
b. Mengidentifikasi dan menggabungkan dua dokumen yang paling mirip
berikutnya menjadi sebuah gugus sampai semua dokumen tergabung dalam
gugus-gugus yang terbentuk.
Struktur gugus yang dihasilkan oleh metode hirarkhis ini biasanya
diperlihatkan struktur dendrogram atau diagram pohon seperti terlihat pada Gambar
2.2 dan 2.3
Gambar 2.2 Dendrogram dari Hierarchical Clustering [16]
6. Gambar 2.3 Pohon dari Hierarchical Clustering [13]
Kemiripan antar dokumen ditentukan dengan mengukur jarak antar dokumen.
Dua dokumen yang mempunyai jarak paling kecil dikatakan mempunyai kemiripan
paling tinggi dan dikelompokkan ke dalam satu gugus yang sama. Sebaliknya dua
dokumen yang mempunyai jarak paling besar dikatakan mempunyai kemiripan paling
rendah, dan dimasukkan ke dalam gugus yang berbeda. Beberapa metode yang dapat
digunakan untuk menentukan jarak antar dua dokumen antara lain: single link,
complete link, group average link, ward’s method, centroid method dan median
method [10].
2.2 Text Mining
Text mining merupakan salah satu bentuk eksplorasi dan analisis data teks
yang bertujuan untuk mendapatkan pengetahuan baru baik itu melalui cara otomatis
maupun semi otomatis [16]. Text mining bisa dianggap subjek riset yang tergolong
baru. Text mining dapat memberikan solusi dari permasalahan seperti pemrosesan,
pengorganisasian/pengelompokkan dan menganalisa unstructured text dalam jumlah
besar.
Menurut Candra [17], text mining adalah salah satu bidang khusus dari data
mining. Text mining dapat didefinisikan sebagai suatu proses menggali informasi
7. dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools
analisis yang merupakan komponen-komponen dalam data mining yang salah satunya
adalah kategorisasi. Tujuan dari text mining adalah untuk mendapatkan informasi
yang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text
mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau
minimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu
pengkategorisasian teks (text categorization) dan pengelompokan teks (text
clustering).
Menurut Hilda [18] text mining adalah data mining dengan input data berupa
teks. Text mining muncul karena sekitar 90% data di dunia dalam bentuk format tidak
terstruktur, adanya kebutuhan bisnis, yang asalnya document retrieval menjadi
knowledge discovery. Dari definisi menurut Candra T. dan Hilda W, peneliti dapat
menyimpulkan bahwa text mining bisa disimpulakan menjadi sebuah teknik dimana
inputan text dapat mewakili untuk memanggil beberapa dokumen dengan keterkaitan
yang sudah disusun dalam sebuah algoritma.
Dalam memberikan solusi, text mining mengadopsi dan mengembangkan
banyak teknik dari bidang lain, seperti data mining, information retrieval, statistik
dan matematik, machine learning, linguistic, natural languange processing, dan
visualization. Kegiatan riset untuk text mining antara lain ekstraksi dan penyimpanan
teks, preprocessing akan isi (content) teks, pengumpulan data statistik dan indexing,
dan analisa konten.
Menurut Tatas wicaksono [19], permasalahan yang dihadapi pada text mining
sama dengan permasalahan yang terdapat pada data mining, yaitu jumlah data yang
besar, dimensi yang tinggi, data dan struktur yang terus berubah, dan data noise.
Perbedaan di antara keduanya adalah pada data yang digunakan. Pada data mining,
data yang digunakan adalah structured data, sedangkan pada text mining data yang
digunakan text mining pada umumnya adalah unstructured data atau minimal
semistructured. Hal ini menyebabkan adanya tantangan tambahan pada text mining
yaitu struktur teks yang kompleks dan tidak lengkap, arti yang tidak jelas dan tidak
standard, dan bahasa yang berbeda ditambah translasi yang tidak akurat. Salah satu
8. elemen kunci dari text mining adalah kumpulan dokumen yang berbasis teks. Pada
prakteknya, text mining ditujukan untuk menemukan pola dari sekumpulan dokumen
yang jumlahnya sangat besar dan bisa mencapai jumlah ribuan bahkan sampai jutaan.
Koleksi dokumen bisa statis, dimana dokumen tidak berubah atau dinamis, dimana
dokumen selalu di update sepanjang waktu.
Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan
perhitungan hanya pada dokumen, tetapi pada juga feature. Menurut Hilda [18], ada
empat macam feature yang sering digunakan:
a) Character, merupakan komponan individual, bisa huruf, angka, karakter spesial
dan spasi, merupakan blok pembangun pada level paling tinggi pembentuk
semantik feature, seperti kata, term dan concept. Pada umumnya, representasi
character-based ini jarang digunakan pada beberapa teknik pemrosesan teks.
b) Words, tiap-tiap kata dalam dokumen.
c) Terms merupakan single word dan phrase multiword yang terpilih secara
langsung dari corpus. Representasi term-based dari dokumen tersusun dari
subset term dalam dokumen.
d) Concept, merupakan feature yang di-generate dari sebuah dokumen secara
manual, rule-based, atau metodologi lain. Struktur data yang baik dapat
memudahkan proses komputerisasi secara otomatis. Pada text mining, informasi
yang akan digali berisi informasi-informasi yang strukturnya sembarang. Oleh
karena itu, diperlukan proses pengubahan bentuk menjadi data yang terstruktur
sesuai kebutuhannya untuk proses dalam data mining, yang biasanya akan
menjadi nilai-nilai numerik. Proses ini sering disebut text preprocessing. Setelah
data menjadi data terstruktur dan berupa nilai numerik maka data dapat dijadikan
sebagai sumber data yang dapat diolah lebih lanjut.
2.3 Analisis Struktur Dokumen
Setiap dokumen memiliki struktur tersendiri, umumnya sebuah dokumen
memiliki bagian judul dan isi dokumen. Idenya, beberapa bagian dari sebuah
9. dokumen mempunyai nilai informasi yang lebih tinggi dari bagian lainnya. Oleh
karena itu bagian tersebut mempunyai tingkat kepentingan yang berbeda sesuai
posisinya dalam sebuah dokumen [20]. Misalnya sebuah dokumen teks, yang terdiri
dari judul dan isi dokumen. Dari dokumen tersebut mempunyai beberapa kata yang
terletak pada bagian judul dan pada bagian isi dokumen. Tentunya kata-kata yang
terletak pada bagian judul akan memiliki nilai kepentingan yang lebih tinggi dari
pada kata-kata yang berada pada bagian isi dokumen.
Biasanya, tingkat kepentingan sebuah kata yang terdapat di dalam suatu
dokumen dibagi menjadi tiga tingkat, yaitu; tinggi, sedang, dan rendah. Contoh
bagian dari dokumen yang mempunyai tingkat kepentingan tinggi adalah judul.
Contoh bagian dokumen yang mempunyai tingkat kepentingan sedang adalah kata-
kata yang dicetak tebal, kata-kata yang dicetak miring, atau kata-kata yang diberi
warna. Sedangkan tingkat kepentingan rendah biasanya isi dokumen yang tidak
termasuk ke dalam tingkat kepentingan tinggi maupun tingkat kepentingan sedang.
Sehingga dalam kita mengelompokkan sebuah document hal ini menjadi
pertimbangan yang penting untuk menentukan proses yang akan dijalankan nantinya
mengenai struktur dokumen apakah digunakan seluruhnya atau dipilih pada bagian
tertentu, pemilihan fokus mengenai struktur tersebut disesuaikan dengan tingkat
kebutuhan sistem.
2.4 Konsep Graph dan Penerapannya
Pada bagian ini akan dijelaskan konsep dasar teori Graph dan penerapannya
pada pengelompokkan dokumen yang akan menggambarkan proses penggunaanya
dan contoh kasusnya.
2.4.1 Dasar Teori Graph
Graph adalah sekumpulan benda-benda yang disebut simpul (node/vertex)
yang dihubungkan oleh sisi (edge). Biasanya Graph digambarkan sebagai kumpulan
titik-titik (sebagai simpul) yang dihubungkan oleh garis-garis (sebagai sisi). Suatu
10. graph G dapat dinyatakan sebagai G = <V,E> dimana V merupakan himpunan dari
simpul yang berada pada G dan E merupakan himpunan sisi pada G [21] Selain
simpul dan sisi, terdapat pula lintasan (path). Lintasan merupakan jalur yang harus
ditempuh untuk mencapai suatu simpul dari simpul lain. Panjang lintasan merupakan
banyaknya sisi yang terdapat pada lintasan tersebut [22].
Berikut adalah salah satu contoh dari graph yang diperlihatkan pada gambar 2.4:
6
4 5
1
3 2
Gambar 2.4 Contoh Graph
Dari gambar graph di atas, dapat dilihat bahwa:
1. Simpul pada graph dituliskan sebagai V = {1,2,3,4,5,6}
2. Sisi pada graph dituliskan sebagai E = {(1,2),(1,5),(2,3),(2,5),(3,4),(4,5),(4,6)}
3. Salah satu lintasan untuk mencapai simpul 3 dari simpul 1 adalah 1-2-3 dimana
panjang lintasannya adalah 2.
Berdasarkan orientasi arah pada sisi, secara umum graph dapat dibagi menjadi
2 jenis, yaitu graph berarah dan graph tak berarah. graph berarah merupakan graph
dimana setiap sisinya memiliki arah sehingga simpul (1,2) dan (2,1) tidaklah sama.
Sebaliknya, pada graph tak berarah, simpul (1,2) dan (2,1) dianggap sama. Gambar 1
di atas merupakan contoh graph tak berarah. Sedangkan contoh dari graph berarah
sebagaimana ditunjukkan pada gambar 2.5 adalah sebagai berikut.
11. Gambar 2.5 Graph Berarah
Simpul yang terdapat pada graph berarah di atas adalah V = {1,2,3,4,5,6} dan
sisinya adalah E = {(1,2), (1,3), (1,4), (1,5), (2,3), (2,5), (3,1), (3,4), (4,2), (4,5), (5,4),
(6,4)}. Dapat dilihat dari gambar bahwa sisi (1,3) dan (3,1) tidaklah sama karena
keduanya memiliki asal dan arah simpul yang berbeda. Karena sisinya berbeda, maka
lintasan yang dihasilkan pun berbeda. Bila graph di atas bukan merupakan graph
berarah, maka untuk mencapai simpul 6 dari simpul 1 dapat melewati simpul 4,
sehingga lintasan yang dibentuk adalah 1-4-6. Namun karena graph tersebut
merupakan graph, maka tidak ada lintasan yang dapat dilalui untuk mencapai simpul
6 dari simpul 1. Ini disebabkan tidak ada satu sisi pun yang mengarah ke simpul 6.
2.4.2 Aplikasi Graph dalam pengelompokan dokumen
Dalam penggunaan algoritma DIG, graph yang dibangun adalah graph
berarah. Dalam graph ini, arah dari setiap sisi menunjukkan struktur kalimat yang
ada pada setiap dokumen. graph ini dibangun dari :
1. Simpul
Simpul merupakan kata unik yang ada pada setiap dokumen. Setiap kata yang
terdapat pada dua buah dokumen yang sedang dibandingkan harus terdapat pada
himpunan simpul graph.
2. Sisi
12. Sisi merupakan penghubung antarsimpul. Pada sisi terdapat informasi berupa
nomor sisi yang menunjukkan posisi kata dalam kalimat dan dalam dokumen.
Karena graph ini merupakan graph berarah, maka sisi dalam graph ini pun
memiliki arah. Arah yang ditunjukkan menunjukkan urutan kata pada dokumen.
3. Lintasan
Lintasan yang dibentuk dari simpul dan sisi merupakan representasi sebuah
kalimat tertentu. Pada algoritma DIG, setiap kalimat pada setiap dokumen akan
diproses satu per satu. Setiap kata yang belum ada di dalam kumpulan graph akan
ditambahkan sebagai simpul. Sedangkan jika kata tersebut sudah ada dalam
kumpulan graph, maka akan ditambahkan sisi baru. Untuk setiap kata yang
bertetangga dihubungkan dengan sisi. Untuk mendapatkan matching phrase,
dibuatkan daftar data dokumen-dokumen yang mempunyai sisi serupa ke dalam
sebuah tabel. Jika matching phrase berikutnya mempunyai sisi yang merupakan
kelanjutan dari sisi sebelumnya, maka matching phrase tersebut digabungkan
dengan matching phrase sebelumnya. Begitu seterusnya sampai seluruh dokumen
selesai diproses [23].
Berikut adalah ilustrasi pembentukan graph menggunakan algoritma DIG. Pada
ilustrasi ini hanya digunakan tiga buah dokumen saja, yaitu dokumen A, dokumen
B, dan dokumen C, dimana masing-masing dokumen memiliki kalimat yang terdiri
dari dua atau lebih kata. Ilustrasinya adalah sebagai berikut:
Dokumen A :
Pada dokumen A, terdapat kalimat-kalimat:
mengerjakan tugas
mengerjakan tugas makalah
tugas makalah pelajaran strukdis
Dokumen B :
Pada dokumen B terdapat kalimat-kalimat:
tugas laporan
tugas makalah wajib
Dokumen C :
13. Pada dokumen C terdapat kalimat-kalimat:
laporan praktikum
praktikum kimia
anggota kelompok praktikum
pelajaran kimia
Langkah pertama yang dilakukan adalah membuat graph berdasarkan
kalimat-kalimat pada dokumen A dimana setiap kata yang terdapat pada dokumen A
menjadi simpul dalam GRAPH .
Graph yang dibentuk dari dokumen A adalah seperti yang ditunjukkan pada gambar
2.6 :
mengerjakan
makalah
tugas
pelajaran strukdis
Gambar 2.6 Graph A yang dibentuk dari dokumen A
Dari gambar graph di atas, terlihat bahwa graph tersebut memiliki:
1. Simpul
Simpul yang terdapat pada graph A adalah seluruh kata yang terdapat pada
dokumen A, yaitu V = {mengerjakan,tugas,makalah,pelajaran,strukdis}.
2. Sisi
Sisi yang terdapat pada graph A adalah kata-kata yang letaknya bersebelahan pada
dokumen, yaitu E = {(mengerjakan,tugas), (tugas,makalah), (makalah,pelajaran),
(pelajaran,strukdis)}.
3. Lintasan
Lintasan yang terbentuk pada graph A berjumlah 3 buah, yaitu :
a. mengerjakan – tugas
b. mengerjakan – tugas – makalah
c. tugas – makalah – pelajaran – strukdis
14. Setelah mendapatkan graph A, maka langkah selanjutnya adalah membuat
graph yang meliputi dokumen A dan dokumen B, yaitu graph B. Penggambaran
dari graph B seperti yang ditunjukkan pada gambar 2.7 dalah sebagai berikut:
mengerjakan
makalah pelajaran
tugas
strukdis
laporan wajib
Gambar 2.7 Graph B yang dibentuk dari dokumen A dan dokumen B
Dari gambar graph B di atas, terlihat bahwa graph tersebut memiliki:
1. Simpul
Simpul yang terdapat pada graph B adalah seluruh kata yang terdapat pada
dokuman A dan dokumen B, yaitu V = {mengerjakan, tugas, makalah, pelajaran,
strukdis, laporan, wajib}.
2. Sisi
Sisi yang terdapat pada graph B adalah E = {(mengerjakan,tugas),
(tugas,makalah), (makalah,pelajaran), (pelajaran,strukdis), (tugas, laporan),
(makalah wajib)}.
3. Lintasan
Lintasan yang terbentuk pada graph A berjumlah 3 buah, yaitu :
a. mengerjakan – tugas
b. mengerjakan – tugas – makalah
c. tugas – makalah – pelajaran – strukdis
d. tugas – laporan
e. tugas – makalah - wajib
Dari gambar graph B pula, terlihat adanya keterkaitan antara dokumen A dan
dokumen B, yaitu pada sisi (tugas laporan) dan (makalah wajib).
mengerjakan
Setelah mendapatkan graph A makalah
dan Graph B, langkah selanjutnya adalah
tugas
membuat graph yang meliputi dokumen A, dokumen B, dan dokumen C, yaitu
pelajaran
strukdis
laporan wajib
kimia
Kelompok
wajib anggota
15. graph C. Penggambaran dari Graph C seperti yang ditunjukkan pada gambar 2.8
adalah sebagai berikut:
Gambar 2.8 Graph C yang dibentuk dari dokumen A, dokumen B, dan dokumen C
Dari gambar graph C di atas, terlihat bahwa graph tersebut memiliki:
1. Simpul
Simpul yang terdapat pada graph A adalah V= mengerjakan, tugas, makalah,
pelajaran, strukdis, laporan, wajib, praktikum, kimia, anggota, kelompok}
2. Sisi
Sisi yang terdapat pada graph A adalah E = {(mengerjakan, tugas), (tugas,
makalah), (makalah, pelajaran), (pelajaran, strukdis), (tugas laporan), (makalah
wajib), (laporan, praktikum), (praktikum, kimia), (anggota, kelompok),
(kelompok, praktikum) , (pelajaran kimia)}.
3. Lintasan
Lintasan yang terbentuk pada graph A berjumlah 3 buah, yaitu :
a. mengerjakan – tugas
b. mengerjakan – tugas – makalah
c. tugas – makalah – pelajaran – strukdis
d. tugas – laporan
e. tugas – makalah – wajib
f. laporan – praktikum
g. praktikum – kimia
h. anggota – kelompok – praktikum
i. pelajaran – kimia
16. Dari gambar graph C pula, terlihat adanya keterkaitan antara dokumen A, dokumen
B dan dokumen C.
Keterkaitan antara dokumen A dan dokumen B terdapat pada sisi (tugas
laporan) dan (makalah wajib). Keterkaitan antara dokumen B dan dokumen C
terdapat pada sisi (laporan,praktikum). Terakhir, keterkaitan antara dokumen A dan
dokumen C terdapat pada sisi (pelajaran,kimia).
Contoh kasus di atas merupakan contoh kasus yang mencari keterkaitan antara
3 buah dokumen. Jumlah kata dan frasa dalam setiap dokumen pun hanya sedikit.
Padahal dalam kenyataannya, jumlah dokumen yang ada di dunia ini sangatlah
banyak, tidak sekadar 10 atau 100 buah. Dalam setiap dokumen pun jumlah kata dan
frasanya bisa mencapai ribuan bahkan lebih. Akan sangat sulit dilakukan bila graph
dibuat secara manual. Perlu ada penanganan yang lebih baik agar setiap dokumen
yang ada dapat tergambarkan keterkaitannya. Untuk itulah dibuat algoritma DIG ini
agar proses mengaitkan dokumen-dokumen dapat dilakukan dengan lebih cepat dan
mudah.
2.5 Algoritma DIG (Document Index Graph)
Document Index Graph (Selanjutnya disingkat DIG) menyusun dokumen
dengan memperbaiki struktur kalimat pada dokumen asli. Hal ini mengijinkan kita
untuk menggunakannya dalam mencari informasi yang lebih untuk menemukan frasa
dari pada kata. Selain itu, DIG juga menangkap level yang berbeda dan lebih
signifikan pada kalimat aslinya, hal itu mengijinkan kita untuk menggunakan kalimat
tersebut secara lebih signifikan dan lebih baik.
2.5.1 Struktur DIG
DIG secara langsung tersusun dari sebuah graph (digraph) G – (V,E) Dimana
V : kumpulan dari nodes {v1, v2, …….., vN}, dimana tiap node v merepresentasikan
sebuah kata yang unik pada seluruh dokumen yang sudah ditentukan.
17. E :Kumpulan dari edges {e1,e2,……., eM}, seperti tiap-tiap edge
merupakan susunan dari pasangan tiap node (vi,vj). Edge (vi,vj) berasal
dari vi ke vj, dan vj adalah berdekatan dengan vi. dari vi ke vj ada
ujungnya, dan jika dalam proses selanjutnya kata vj muncul kebali maka
tidak ditulis kembali melainkan mengacu pada sebelumnya yang sudah
ada yaitu vi dalam dokumen apapun.
Definisi diatas merupakan gambara penyusun graph yang terdiri dari beberapa
node yang terdiri dari berbagai macam kata-kata unik pada setiap dokumen yang
ditentukan. Jalur atau path yang dibentuk oleh node dan edge merupakan representasi
dari sebuah kalimat tertentu dari seluruh dokumen.
Node pada graph membawa informasi tentang dokumen yang nampak,
sepanjang informasi yang terdapat dalam sebuah kalimat. Struktur kalimat selalu
diperbaharui ujungnya selama proses clustering. Akan dibentuk informasi daftar kata
dari kalimat pada tiap dokumen yang di kluster. Berikut contoh gambar DIG.
Gambar 2.9 Contoh Dokumen Index Graph
18. Pada contoh diatas menggambarkan susunan dokumen graph dengan
menggunakan 3 dokumen. Tiap-tipa dokumen terdapat nomor dari kalimat dengan
beberapa kesamaan diantara dokumen-dokumennya. Jika kita liat graph diatas, tiap
ujung dibuat hanya diantara dua node dan hal itu digambarkan dengan dua node
diantara dokumen yang lainnya. Hal ini menggambarkan susunan path pada graph.
Garis putus-putus menggambarkan kalimat dari dokumen 1, garis putus-putus ke-2
mewakili kalimat dari dokumen 2, dan garis putus-putus ke-3 mewakili kalimat dari
dokumen 3. Jika frasa ditampilkan lebihdari sekali dalam dokumen, jumlah tiap kata-
kata yang membentuk frase meningkat maka kalimat informasi dalam node
mencerminkan terjadinya beberapa frasa tersebut. Seperti disebutkan sebelumnya,
pencocokan frase menjadi dokumen menjadi tugas tersendiri untuk mencari kesamaan
diantara dokumen yang berbeda.
Contoh yang disajikan di sini adalah salah sat yang sederhana. Pada
kenyataannya banyak dokumen akan berisi ratusan atau ribuan kata-kata. Dengan
mengatur dokumen yang sangat besar, graph bisa menjadi lebih kompleks dalam hal
penggunaan memori. Biasanya, graph jumlah node akan persis sama dengan jumlah
dari kata-kata unik dalam kumpulan data.
19. Gambar 2.10 Penambahan penyusunan Algoritma DIG
2.5.2 Membangun Graph
DIG dibangun secara bertahap dengan memproses satu dokumen pada suatu
waktu. Ketika sebuah dokumen baru diperkenalkan, maka dokumen itu akan di scan
secara berurutan, dan graph akan diperbarui dengan informasi terbaru pada setiap
20. kalimat yang diperlukan. Kata-kata baru yang ditambahkan ke graph yang diperlukan
dan terhubung dengan node yang lain sehingga mencerminkan struktur kalimat.
Proses membangun graph akan mengurangi penggunaan memori ketika tidak ada
yang baru, kata-kata yang diperkenalkan oleh dokumen baru (atau sangat sedikit kata-
kata baru yang diperkenalkan). Pada titik ini graph menjadi lebih stabil, dan operasi
hanya diperlukan adalah untuk memperbarui struktur kalimat dalam graph ik untuk
mengakomodasi kalimat baru yang diperkenalkan. Hal ini sangat penting untuk
dicatat bahwa sebagai pengenalan dokumen baru hanya akan memerlukan
pemeriksaan (atau Selain itu) dari kata-kata yang muncul dalam dokumen itu, dan
tidak setiap node dalam graph. Di sinilah efisiensi model berasal.
Seiring dengan penyusunan struktur kalimat, tingkat signifikansi dari setiap
kalimat juga dicatat dalam graph. Hal ini memungkinkan kita untuk mengingat
informasi seperti saat kita mencocokkan kalimat dari dokumen lain. Melanjutkan dari
contoh diperkenalkan sebelumnya, berikut algoritma proses membangun graph yang
mewakili tiga dokumen yang diilustrasikan pada Gambar 2.11
21. Gambar 2.11 Algoritma Pembangun Graph dan penyamaan frasa
Penekanan di sini adalah pada proses inkremental konstruksi, di mana node
baru ditambahkan dan tepi baru akan dibuat bertahap pada pengenalan dokumen baru.
Tidak seperti teknik pencocokan frasa tradisional yang biasanya digunakan dalam
literatur temu kembali informasi, yang DIG menyediakan informasi lengkap tentang
pencocokan frasa penuh terjadi diantara setiap pasangan dokumen. Sementara cara
pencocokan frasa metode tradisional yang cocok ditujukan untuk mencari dan
pengambilan frase dokumen yang cocok untuk query tertentu, DIG ini ditujukan
untuk memberikan informasi tentang kesamaan dokumen dan mengijinkan overlap
clustering antara setiap pasangan dokumen. Hal ini akan membantu dalam
menentukan tingkat kesamaan antara dokumen.
22. 2.6 Analisa Kesamaan Dokumen dan Evaluasi Klusterisasi
Nilai kesamaan dokumen dapat dihitung melalui beberapa pendekatan :
2.6.1 Single Term
Single term atau kesamaan dokumen berbasis kata, merupakan nilai kesamaan
dokumen yang dilihat berdasarkan term-term yang berada di antara dua dokumen
yang sedang dibandingkan. Metode Cosine Based Similarity dapat digunakan untuk
memperoleh nilai kesamaan dokumen berbasis kata. Dengan mengukur dua vektor
berdimensi n dengan menemukan sudut diantara keduanya. Untuk text-matching,
atribut yang biasa dipakai adalah vektor TF-IDF. Ukuran kesamaan dokumen d1
dengan dokumen d2 dapat dihitung dengan persamaan 2.1 :
(2.1)
TF atau term frequency merupakan banyaknya term dalam sebuah dokumen.
Pembobotan TF diperoleh dari perhitungan dengan persamaan 2.2 :
(2.2)
f = frekuensi term dalam sebuah dokumen
m = frekuensi maksimum dari suatu term yang terdapat dalam sebuah dokumen
Sedangkan IDF atau Inverse Document Frequency merupakan banyaknya term
tertentu dalam keseluruhan dokumen. Pembobotan IDF dapat dihitung dengan rumus
2.3 :
(2.3)
n = jumlah seluruh dokumen
nj = jumlah dokumen yang mempunyai term j
23. 2.6.2 Phrase Based Similarity
Metode ini akan menggunakan frasa sebagai tolok ukur kesamaan dokumen.
Persamaan dokumen yang diukur berdasarkan term dianggap belum memberikan
hasil yang terbaik [3]. Dengan memperhatikan urutan dari beberapa kata yang
terdapat di antara dua dokumen yang sedang dibandingkan diharapkan dapat
meningkatkan nilai akurasi pengelompokan dokumen.
Ukuran kesamaan dokumen dihitung berdasarkan shared phrase pada masing-masing
pasangan dokumen.
Faktor –faktor shared phrase dalam menentukan kesamaan dokumen :
a. jumlah matching phrase,
b. panjang matching phrase,
c. frekuensi matching phrase di kedua dokumen
d. level signifikan (weight) dari matching phrase di kedua dokumen tersebut.
Kesamaan berbasis frasa antara 2 dokumen, d1 dan d2 dapat dihitung dengan
persamaan :
(2.4)
(2.5)
2.6.3 Gabungan antara Single Term dan Phrase Based Similarity
Kesamaan dokumen akhir dihitung dari kombinasi antara kesamaan berbasis
kata dengan kesamaaan berbasis frasa dengan persamaan berikut:
Sim ( ) = , sim ( + (1 – ) , sim ( ) (2.6)
24. 2.6.4 Evaluasi Klusterisasi
Evaluasi ini dilakukan untuk mengetahui kinerja dari algoritma klusterisasi
dalam tahap uji coba. Pengukuran ini didasarkan pada 2 ukuran kualitas kluster yang
biasa digunakan dalam literatur pengukuran klusterisasi dokumen.
• F-measure
R= (2.7)
= (2.8)
Nij = jumlah anggota kelas ke-i pada kluster ke-j
Ni = jumlah anggota kelas ke-i
Nj = jumlah anggota kluster ke-j
F-measure dari kluster Cj dan kelas Ki dapat didefinisikan sebagai :
F (i) = (2.9)
Untuk histogram klustering, F-measure dari setiap kelasnya merupakan rata-
rata nilai F-measure dari tiap kelas pada keseluruhan kluster yang terbentuk.
F (C) = (2.10)
|i| = jumlah anggota masing-masing kelas ke-i
• Entropy
Entropy mengukur kemurnian dari kluster yang dihasilkan dengan
memperhatikan pada kategori yang ada. Nilai Entropy yang lebih kecil
menghasilkan kluster yang lebih bagus kualitasnya.
= (2.11)
Total entropy dihitung sebagai jumlah dari nilai entropy tiap-tiap kluster yang
terbentuk.
(2.12)
Nj = jumlah dokumen yang diklusterkan dalam satu kategori
25. N = total jumlah dokumen
pij = peluang dokumen kluster j masuk ke kelas i