SlideShare una empresa de Scribd logo
1 de 25
BAB II
                             LANDASAN TEORI


       Sistem manajemen arsip digital pada tugas akhir ini adalah mengelompokkan
dokumen-dokumen arsip yang berbentuk file menjadi sebuah kelompok-kelompok
tertentu sehingga dapat diambil informasi yang lebih baik dari pengelompokkan
tersebut. Sistem pengelompokkannya (klasterisasi) menggunakan algoritma DIG
(Document Index Graph) untuk mencari keterkaitan antar dokumen dan
dikelompokkan menjadi beberapa kategori tertentu. Pada tahap ini terlebih dahulu
akan dipaparkan mengenai beberapa teori yang mendasari tugas akhir ini diantaranya
adalah konsep klusterisasi document, text mining, analisa struktur dokumen dan
kesamaan antar dokumen, konsep graph, konsep algoritma DIG (Document Index
Graph), dan metode evaluasi untuk mengukur kinerja sistem.


2.1   Konsep Klasterisasi Dokumen
       Secara umum document clustering adalah proses mengelompokkan dokumen
berdasarkan kemiripan antara satu dengan yang lain dalam satu gugus [3, 4].
Tujuannya adalah untuk memisahkan dokumen yang relevan dari dokumen yang
tidak relevan [5]. Pengelompokan ini didasarkan pada hipotesa yang dikemukakan
oleh Van Rijsbergen bahwa dokumen-dokumen yang berkaitan erat cenderung sesuai
dengan permintaan informasi yang sama [6, 7]. Atau dengan kata lain, dokumen-
dokumen yang relevan dengan suatu query cenderung memiliki kemiripan satu sama
lain dari pada dokumen yang tidak relevan, sehingga dapat dikelompokkan ke dalam
suatu gugus [4]. Oleh karena itu, suatu gugus berisi kelompok dokumen homogen
yang saling berkaitan antara satu dengan yang lain.
       Document Clustering dapat dilakukan sebelum atau sesudah proses temu
kembali [8]. Pada document clustering yang dilakukan sebelum proses temu kembali
informasi, koleksi dokumen dikelompokkan ke dalam gugus berdasarkan kemiripan
(similarity) antar dokumen.Selanjutnya dalam proses temu kembali informasi, apabila
suatu dokumen ditemukan maka seluruh dokumen yang berada dalam gugus yang
sama dengan dokumen tersebut juga dapat ditemukan. Sedangkan document
clustering yang dilakukan setelah proses temu kembali informasi, dokumen-dokumen
yang dihasilkan disajikan dalam gugus yang terbentuk berdasar kemiripan antar
dokumen tersebut, sehingga mempermudah pencari informasi untuk memberikan
interpretasi terhadap hasil penelusuran sesuai dengan kebutuhannya [9].
        Dalam sistem temu kembali informasi, document clustering memberikan
beberapa manfaat, antara lain:
        •   Mempercepat pemrosesan query dengan menelusur hanya pada sejumlah
            kecil anggota atau wakil gugus, sehingga dapat mempercepat proses temu
            kembali informasi [5].
        •   Membantu melokalisir dokumen yang relevan [9].
        •   Membentuk kelas-kelas dokumen sehingga mempermudah penjelajahan
            dan pemberian interpretasi terhadap hasil penelusuran [4].
        •   Meningkatkan efektivitas dan efisiensi temu kembali informasi dan
            memberikan alternatif metode penelusuran [10].
        Selain itu, penggabungan antara penelusuran secara menyeluruh (full search)
dengan penelusuran berbasis gugus (cluster-based retrieval) dapat meningkatkan
ketelitian sampai dengan 25% [6]. Hal senada dikemukakan oleh Jian Zhang, et al.
[8] bahwa penggabungan antara metode penggugusan dengan fusion (pemberian
peringkat terdadap dokumen secara keseluruhan) akan meningkatkan efektivitas temu
kembali informasi. Adapun dalam hal penyajian hasil penelusuran, penggabungan
antara gugus dan daftar peringkat dapat membantu pemakai dalam menemukan
informasi yang relevan [11].


2.1.1   Pembentukan gugus dokumen klusterisasi

        Pembentukan gugus dokumen dalam sistem temu kembali informasi
merupakan proses yang kompleks, karena melibatkan pemilihan unsur yang dapat
mewakili sekelompok dokumen, penetapan fungsi untuk menghubungkan satu
dokumen dengan dokumen yang lain, penetapan fungsi untuk menghubungkan
dokumen dengan query dan membangun metode atau algoritma penggugusan [12].
Prinsip dasar dalam document clustering adalah menentukan ukuran kemiripan antar
dokumen yang akan dikelompokkan dan menjadikannya sebagai dasar untuk
menghasilkan gugus.

         Kemiripan antar dokumen dapat didasarkan pada beberapa variabel seperti
journal intercitation, co-citation (journal co-citation, document co-citation, author
co-citation), biblioGraphic coupling, co-descriptor, dan co-classification. Adapun
kemiripan antara dua dokumen X dan Y dapat diukur dengan beberapa cara, yaitu:
   1. Simple matching          : |X Y|

   2. Dice’s coefficient       : 2 | X Y|/|X|+|Y|

   3. Jaccard’s coefficient : | X Y |/|X Y|

   4. Cosine coefficient       : |X Y|/|X|1/2.|Y|1/2.

   5. Overlap coefficient      : |X Y|/min(X,Y)

         pembentukan gugus biasanya dikategorikan menurut tipe dari struktur gugus
yang dihasilkan. Secara umum metode penggugusan terbagi menjadi dua, yaitu
metode non-hirarkhis dan metode hirarkhis.


2.1.2    Metode Non-Hirarkhis

         Metode non-hirarkhis disebut juga metode partisi, yaitu membagi serangkaian
data yang terdiri dari N obyek ke dalam M gugus yang tidak saling tumpang-tindih
(overlap) [10]. Secara lebih rinci, Salton [13] mengemukakan bahwa pembentukan
gugus dokumen dalam sistem temu kembali informasi dengan metode non-hirarkhis
adalah sebagi berikut:
  a. Membandingkan ciri-ciri identifikasi (identifier) suatu dokumen dengan
        dokumen lain yang ada dalam koleksi dan mengelompokkan dokumen-
        dokumen yang memiliki serangkaian ciri-ciri identifikasi yang serupa ke dalam
        satu gugus.
b. Pada setiap gugus dokumen yang dihasilkan, dipilih sebuah unsur yang dapat
     mewakili seluruh dokumen yang ada dalam gugus yang bersangkutan yang
     disebut centroid. Menurut Rasmussen [10] centroid atau perwakilan gugus
     adalah sebuah record yang dapat mewakili ciri -ciri atau karakteristik dokumen
     dalam sebuah gugus.
  c. Proses penelusuran dilakukan dalam dua tahap, yaitu: 1) membandingkan query
     dengan centroid pada masing-masing gugus dokumen; 2) mencocokkan query
     dengan masing-masing dokumen dalam gugus yang mengandung centroid yang
     paling sesuai.

Proses pembentukan gugus dokumen dan penelusuran tersebut dapat diilustrasikan
seperti pada Gambar 2.1




Gambar 2.1 Pembentukan gugus dokumen dengan metode non-hirarkhis dan proses
                                penelusurannya [13].

       Seiring dengan perkembangan teknologi komputer, metode penggugusan non-
hirarkhis ini juga menggunakan algoritma yang semakin kompleks. Sebagai contoh
adalah penerapan algoritma genetik [14] dan metode iterative clustering [15].


2.1.3 Metode Hirarkhis
Pembentukan gugus dokumen dalam sistem temu kembali informasi dengan
metode hirarkhis adalah sebagi berikut:
    a. Mengidentifikasi dua dokumen yang paling mirip dan menggabungkannya
       menjadi sebuah gugus.
    b. Mengidentifikasi dan menggabungkan dua dokumen yang paling mirip
       berikutnya menjadi sebuah gugus sampai semua dokumen tergabung dalam
       gugus-gugus yang terbentuk.

       Struktur gugus yang dihasilkan oleh metode hirarkhis ini biasanya
diperlihatkan struktur dendrogram atau diagram pohon seperti terlihat pada Gambar
2.2 dan 2.3




              Gambar 2.2 Dendrogram dari Hierarchical Clustering [16]
Gambar 2.3 Pohon dari Hierarchical Clustering [13]

          Kemiripan antar dokumen ditentukan dengan mengukur jarak antar dokumen.
Dua dokumen yang mempunyai jarak paling kecil dikatakan mempunyai kemiripan
paling tinggi dan dikelompokkan ke dalam satu gugus yang sama. Sebaliknya dua
dokumen yang mempunyai jarak paling besar dikatakan mempunyai kemiripan paling
rendah, dan dimasukkan ke dalam gugus yang berbeda. Beberapa metode yang dapat
digunakan untuk menentukan jarak antar dua dokumen antara lain: single link,
complete link, group average link, ward’s method, centroid method dan median
method [10].


2.2      Text Mining

          Text mining merupakan salah satu bentuk eksplorasi dan analisis data teks
yang bertujuan untuk mendapatkan pengetahuan baru baik itu melalui cara otomatis
maupun semi otomatis [16]. Text mining bisa dianggap subjek riset yang tergolong
baru. Text mining dapat memberikan solusi dari permasalahan seperti pemrosesan,
pengorganisasian/pengelompokkan dan menganalisa unstructured text dalam jumlah
besar.
          Menurut Candra [17], text mining adalah salah satu bidang khusus dari data
mining. Text mining dapat didefinisikan sebagai suatu proses menggali informasi
dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools
analisis yang merupakan komponen-komponen dalam data mining yang salah satunya
adalah kategorisasi. Tujuan dari text mining adalah untuk mendapatkan informasi
yang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text
mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau
minimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu
pengkategorisasian teks (text categorization) dan pengelompokan teks (text
clustering).
       Menurut Hilda [18] text mining adalah data mining dengan input data berupa
teks. Text mining muncul karena sekitar 90% data di dunia dalam bentuk format tidak
terstruktur, adanya kebutuhan bisnis, yang asalnya document retrieval menjadi
knowledge discovery. Dari definisi menurut Candra T. dan Hilda W, peneliti dapat
menyimpulkan bahwa text mining bisa disimpulakan menjadi sebuah teknik dimana
inputan text dapat mewakili untuk memanggil beberapa dokumen dengan keterkaitan
yang sudah disusun dalam sebuah algoritma.
       Dalam memberikan solusi, text mining mengadopsi dan mengembangkan
banyak teknik dari bidang lain, seperti data mining, information retrieval, statistik
dan matematik, machine learning, linguistic, natural languange processing, dan
visualization. Kegiatan riset untuk text mining antara lain ekstraksi dan penyimpanan
teks, preprocessing akan isi (content) teks, pengumpulan data statistik dan indexing,
dan analisa konten.
       Menurut Tatas wicaksono [19], permasalahan yang dihadapi pada text mining
sama dengan permasalahan yang terdapat pada data mining, yaitu jumlah data yang
besar, dimensi yang tinggi, data dan struktur yang terus berubah, dan data noise.
Perbedaan di antara keduanya adalah pada data yang digunakan. Pada data mining,
data yang digunakan adalah structured data, sedangkan pada text mining data yang
digunakan text mining pada umumnya adalah unstructured data atau minimal
semistructured. Hal ini menyebabkan adanya tantangan tambahan pada text mining
yaitu struktur teks yang kompleks dan tidak lengkap, arti yang tidak jelas dan tidak
standard, dan bahasa yang berbeda ditambah translasi yang tidak akurat. Salah satu
elemen kunci dari text mining adalah kumpulan dokumen yang berbasis teks. Pada
prakteknya, text mining ditujukan untuk menemukan pola dari sekumpulan dokumen
yang jumlahnya sangat besar dan bisa mencapai jumlah ribuan bahkan sampai jutaan.
Koleksi dokumen bisa statis, dimana dokumen tidak berubah atau dinamis, dimana
dokumen selalu di update sepanjang waktu.
         Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan
perhitungan hanya pada dokumen, tetapi pada juga feature. Menurut Hilda [18], ada
empat macam feature yang sering digunakan:
a) Character, merupakan komponan individual, bisa huruf, angka, karakter spesial
      dan spasi, merupakan blok pembangun pada level paling tinggi pembentuk
      semantik feature, seperti kata, term dan concept. Pada umumnya, representasi
      character-based ini jarang digunakan pada beberapa teknik pemrosesan teks.
b) Words, tiap-tiap kata dalam dokumen.
c) Terms merupakan single word dan phrase multiword yang terpilih secara
      langsung dari corpus. Representasi term-based dari dokumen tersusun dari
      subset term dalam dokumen.
d) Concept, merupakan feature yang di-generate dari sebuah dokumen secara
      manual, rule-based, atau metodologi lain. Struktur data yang baik dapat
      memudahkan proses komputerisasi secara otomatis. Pada text mining, informasi
      yang akan digali berisi informasi-informasi yang strukturnya sembarang. Oleh
      karena itu, diperlukan proses pengubahan bentuk menjadi data yang terstruktur
      sesuai kebutuhannya untuk proses dalam data mining, yang biasanya akan
      menjadi nilai-nilai numerik. Proses ini sering disebut text preprocessing. Setelah
      data menjadi data terstruktur dan berupa nilai numerik maka data dapat dijadikan
      sebagai sumber data yang dapat diolah lebih lanjut.


2.3    Analisis Struktur Dokumen

         Setiap dokumen memiliki struktur tersendiri, umumnya sebuah dokumen
memiliki bagian judul dan isi dokumen. Idenya, beberapa bagian dari sebuah
dokumen mempunyai nilai informasi yang lebih tinggi dari bagian lainnya. Oleh
karena itu bagian tersebut mempunyai tingkat kepentingan yang berbeda sesuai
posisinya dalam sebuah dokumen [20]. Misalnya sebuah dokumen teks, yang terdiri
dari judul dan isi dokumen. Dari dokumen tersebut mempunyai beberapa kata yang
terletak pada bagian judul dan pada bagian isi dokumen. Tentunya kata-kata yang
terletak pada bagian judul akan memiliki nilai kepentingan yang lebih tinggi dari
pada kata-kata yang berada pada bagian isi dokumen.
       Biasanya, tingkat kepentingan sebuah kata yang terdapat di dalam suatu
dokumen dibagi menjadi tiga tingkat, yaitu; tinggi, sedang, dan rendah. Contoh
bagian dari dokumen yang mempunyai tingkat kepentingan tinggi adalah judul.
Contoh bagian dokumen yang mempunyai tingkat kepentingan sedang adalah kata-
kata yang dicetak tebal, kata-kata yang dicetak miring, atau kata-kata yang diberi
warna. Sedangkan tingkat kepentingan rendah biasanya isi dokumen yang tidak
termasuk ke dalam tingkat kepentingan tinggi maupun tingkat kepentingan sedang.
       Sehingga dalam kita mengelompokkan sebuah document hal ini menjadi
pertimbangan yang penting untuk menentukan proses yang akan dijalankan nantinya
mengenai struktur dokumen apakah digunakan seluruhnya atau dipilih pada bagian
tertentu, pemilihan fokus mengenai struktur tersebut disesuaikan dengan tingkat
kebutuhan sistem.


2.4   Konsep Graph dan Penerapannya

       Pada bagian ini akan dijelaskan konsep dasar teori Graph dan penerapannya
pada pengelompokkan dokumen yang akan menggambarkan proses penggunaanya
dan contoh kasusnya.

2.4.1 Dasar Teori Graph

       Graph adalah sekumpulan benda-benda yang disebut simpul (node/vertex)
yang dihubungkan oleh sisi (edge). Biasanya Graph digambarkan sebagai kumpulan
titik-titik (sebagai simpul) yang dihubungkan oleh garis-garis (sebagai sisi). Suatu
graph G dapat dinyatakan sebagai G = <V,E> dimana V merupakan himpunan dari
simpul yang berada pada G dan E merupakan himpunan sisi pada G [21] Selain
simpul dan sisi, terdapat pula lintasan (path). Lintasan merupakan jalur yang harus
ditempuh untuk mencapai suatu simpul dari simpul lain. Panjang lintasan merupakan
banyaknya sisi yang terdapat pada lintasan tersebut [22].

Berikut adalah salah satu contoh dari graph yang diperlihatkan pada gambar 2.4:

                        6
                                   4              5
                                                             1

                                       3          2


                             Gambar 2.4 Contoh Graph

Dari gambar graph di atas, dapat dilihat bahwa:
  1. Simpul pada graph dituliskan sebagai V = {1,2,3,4,5,6}
  2. Sisi pada graph dituliskan sebagai E = {(1,2),(1,5),(2,3),(2,5),(3,4),(4,5),(4,6)}
  3. Salah satu lintasan untuk mencapai simpul 3 dari simpul 1 adalah 1-2-3 dimana
     panjang lintasannya adalah 2.

       Berdasarkan orientasi arah pada sisi, secara umum graph dapat dibagi menjadi
2 jenis, yaitu graph berarah dan graph tak berarah. graph berarah merupakan graph
dimana setiap sisinya memiliki arah sehingga simpul (1,2) dan (2,1) tidaklah sama.
Sebaliknya, pada graph tak berarah, simpul (1,2) dan (2,1) dianggap sama. Gambar 1
di atas merupakan contoh graph tak berarah. Sedangkan contoh dari graph berarah
sebagaimana ditunjukkan pada gambar 2.5 adalah sebagai berikut.
Gambar 2.5 Graph Berarah

          Simpul yang terdapat pada graph berarah di atas adalah V = {1,2,3,4,5,6} dan
sisinya adalah E = {(1,2), (1,3), (1,4), (1,5), (2,3), (2,5), (3,1), (3,4), (4,2), (4,5), (5,4),
(6,4)}. Dapat dilihat dari gambar bahwa sisi (1,3) dan (3,1) tidaklah sama karena
keduanya memiliki asal dan arah simpul yang berbeda. Karena sisinya berbeda, maka
lintasan yang dihasilkan pun berbeda. Bila graph di atas bukan merupakan graph
berarah, maka untuk mencapai simpul 6 dari simpul 1 dapat melewati simpul 4,
sehingga lintasan yang dibentuk adalah 1-4-6. Namun karena graph tersebut
merupakan graph, maka tidak ada lintasan yang dapat dilalui untuk mencapai simpul
6 dari simpul 1. Ini disebabkan tidak ada satu sisi pun yang mengarah ke simpul 6.


2.4.2     Aplikasi Graph dalam pengelompokan dokumen

          Dalam penggunaan algoritma DIG, graph yang dibangun adalah graph
berarah. Dalam graph ini, arah dari setiap sisi menunjukkan struktur kalimat yang
ada pada setiap dokumen. graph ini dibangun dari :
1. Simpul
   Simpul merupakan kata unik yang ada pada setiap dokumen. Setiap kata yang
   terdapat pada dua buah dokumen yang sedang dibandingkan harus terdapat pada
   himpunan simpul graph.
2. Sisi
Sisi merupakan penghubung antarsimpul. Pada sisi terdapat informasi berupa
  nomor sisi yang menunjukkan posisi kata dalam kalimat dan dalam dokumen.
  Karena graph ini merupakan graph berarah, maka sisi dalam graph ini pun
  memiliki arah. Arah yang ditunjukkan menunjukkan urutan kata pada dokumen.
3. Lintasan
  Lintasan yang dibentuk dari simpul dan sisi merupakan representasi sebuah
  kalimat tertentu. Pada algoritma DIG, setiap kalimat pada setiap dokumen akan
  diproses satu per satu. Setiap kata yang belum ada di dalam kumpulan graph akan
  ditambahkan sebagai simpul. Sedangkan jika kata tersebut sudah ada dalam
  kumpulan graph, maka akan ditambahkan sisi baru. Untuk setiap kata yang
  bertetangga dihubungkan dengan sisi. Untuk mendapatkan matching phrase,
  dibuatkan daftar data dokumen-dokumen yang mempunyai sisi serupa ke dalam
  sebuah tabel. Jika matching phrase berikutnya mempunyai sisi yang merupakan
  kelanjutan dari sisi sebelumnya, maka matching phrase tersebut digabungkan
  dengan matching phrase sebelumnya. Begitu seterusnya sampai seluruh dokumen
  selesai diproses [23].
  Berikut adalah ilustrasi pembentukan graph menggunakan algoritma DIG. Pada
  ilustrasi ini hanya digunakan tiga buah dokumen saja, yaitu dokumen A, dokumen
  B, dan dokumen C, dimana masing-masing dokumen memiliki kalimat yang terdiri
  dari dua atau lebih kata. Ilustrasinya adalah sebagai berikut:
  Dokumen A :
  Pada dokumen A, terdapat kalimat-kalimat:
   mengerjakan tugas
   mengerjakan tugas makalah
   tugas makalah pelajaran strukdis
   Dokumen B :
    Pada dokumen B terdapat kalimat-kalimat:
    tugas laporan
    tugas makalah wajib
   Dokumen C :
Pada dokumen C terdapat kalimat-kalimat:
    laporan praktikum
    praktikum kimia
    anggota kelompok praktikum
    pelajaran kimia
           Langkah pertama yang dilakukan adalah membuat graph berdasarkan
kalimat-kalimat pada dokumen A dimana setiap kata yang terdapat pada dokumen A
menjadi simpul dalam GRAPH .
Graph yang dibentuk dari dokumen A adalah seperti yang ditunjukkan pada gambar
2.6 :
        mengerjakan
                                      makalah
                      tugas

                                                 pelajaran      strukdis



                 Gambar 2.6 Graph A yang dibentuk dari dokumen A

Dari gambar graph di atas, terlihat bahwa graph tersebut memiliki:
1. Simpul
   Simpul yang terdapat pada graph A adalah seluruh kata yang terdapat pada
   dokumen A, yaitu V = {mengerjakan,tugas,makalah,pelajaran,strukdis}.
2. Sisi
   Sisi yang terdapat pada graph A adalah kata-kata yang letaknya bersebelahan pada
   dokumen, yaitu E = {(mengerjakan,tugas), (tugas,makalah), (makalah,pelajaran),
   (pelajaran,strukdis)}.
3. Lintasan
   Lintasan yang terbentuk pada graph A berjumlah 3 buah, yaitu :
   a. mengerjakan – tugas
   b. mengerjakan – tugas – makalah
   c. tugas – makalah – pelajaran – strukdis
Setelah mendapatkan graph A, maka langkah selanjutnya adalah membuat
              graph yang meliputi dokumen A dan dokumen B, yaitu graph B. Penggambaran
              dari graph B seperti yang ditunjukkan pada gambar 2.7 dalah sebagai berikut:

                        mengerjakan
                                                         makalah          pelajaran
                                       tugas

                                                                                          strukdis



                                                     laporan                wajib

Gambar 2.7 Graph B yang dibentuk dari dokumen A dan dokumen B
              Dari gambar graph B di atas, terlihat bahwa graph tersebut memiliki:
              1. Simpul
                 Simpul yang terdapat pada graph B adalah seluruh kata yang terdapat pada
                 dokuman A dan dokumen B, yaitu V = {mengerjakan, tugas, makalah, pelajaran,
                 strukdis, laporan, wajib}.
              2. Sisi
                 Sisi yang terdapat pada         graph       B      adalah E = {(mengerjakan,tugas),
                 (tugas,makalah),     (makalah,pelajaran),       (pelajaran,strukdis),   (tugas,      laporan),
                 (makalah wajib)}.
              3. Lintasan
                 Lintasan yang terbentuk pada graph A berjumlah 3 buah, yaitu :
                 a. mengerjakan – tugas
                 b. mengerjakan – tugas – makalah
                 c. tugas – makalah – pelajaran – strukdis
                 d. tugas – laporan
                 e. tugas – makalah - wajib
              Dari gambar graph        B pula, terlihat adanya keterkaitan antara dokumen A dan
              dokumen B, yaitu pada sisi (tugas laporan) dan (makalah wajib).
                        mengerjakan
                   Setelah mendapatkan graph A makalah
                                                dan Graph B, langkah selanjutnya adalah
                                   tugas
              membuat graph yang meliputi dokumen A, dokumen B, dan dokumen C, yaitu
                                                           pelajaran


                                                                                           strukdis

                                                             laporan        wajib
                           kimia
                                                     Kelompok
                                      wajib                                 anggota
graph C. Penggambaran dari Graph C seperti yang ditunjukkan pada gambar 2.8
adalah sebagai berikut:




 Gambar 2.8 Graph C yang dibentuk dari dokumen A, dokumen B, dan dokumen C

Dari gambar graph C di atas, terlihat bahwa graph tersebut memiliki:
1. Simpul
   Simpul yang terdapat pada graph A adalah V= mengerjakan, tugas, makalah,
   pelajaran, strukdis, laporan, wajib, praktikum, kimia, anggota, kelompok}
2. Sisi
   Sisi yang terdapat pada graph        A adalah E = {(mengerjakan, tugas), (tugas,
   makalah), (makalah, pelajaran), (pelajaran, strukdis), (tugas laporan), (makalah
   wajib),    (laporan,   praktikum),   (praktikum,   kimia),   (anggota,   kelompok),
   (kelompok, praktikum) , (pelajaran kimia)}.
3. Lintasan
   Lintasan yang terbentuk pada graph A berjumlah 3 buah, yaitu :
   a. mengerjakan – tugas
   b. mengerjakan – tugas – makalah
   c. tugas – makalah – pelajaran – strukdis
   d. tugas – laporan
   e. tugas – makalah – wajib
   f. laporan – praktikum
   g. praktikum – kimia
   h. anggota – kelompok – praktikum
   i. pelajaran – kimia
Dari gambar graph C pula, terlihat adanya keterkaitan antara dokumen A, dokumen
B dan dokumen C.
         Keterkaitan antara dokumen A dan dokumen B terdapat pada sisi (tugas
laporan) dan (makalah wajib). Keterkaitan antara dokumen B dan dokumen C
terdapat pada sisi (laporan,praktikum). Terakhir, keterkaitan antara dokumen A dan
dokumen C terdapat pada sisi (pelajaran,kimia).
         Contoh kasus di atas merupakan contoh kasus yang mencari keterkaitan antara
3 buah dokumen. Jumlah kata dan frasa dalam setiap dokumen pun hanya sedikit.
Padahal dalam kenyataannya, jumlah dokumen yang ada di dunia ini sangatlah
banyak, tidak sekadar 10 atau 100 buah. Dalam setiap dokumen pun jumlah kata dan
frasanya bisa mencapai ribuan bahkan lebih. Akan sangat sulit dilakukan bila graph
dibuat secara manual. Perlu ada penanganan yang lebih baik agar setiap dokumen
yang ada dapat tergambarkan keterkaitannya. Untuk itulah dibuat algoritma DIG ini
agar proses mengaitkan dokumen-dokumen dapat dilakukan dengan lebih cepat dan
mudah.


2.5     Algoritma DIG (Document Index Graph)

         Document Index Graph (Selanjutnya disingkat DIG) menyusun dokumen
dengan memperbaiki struktur kalimat pada dokumen asli. Hal ini mengijinkan kita
untuk menggunakannya dalam mencari informasi yang lebih untuk menemukan frasa
dari pada kata. Selain itu, DIG juga menangkap level yang berbeda dan lebih
signifikan pada kalimat aslinya, hal itu mengijinkan kita untuk menggunakan kalimat
tersebut secara lebih signifikan dan lebih baik.

2.5.1    Struktur DIG

         DIG secara langsung tersusun dari sebuah graph (digraph) G – (V,E) Dimana
V : kumpulan dari nodes {v1, v2, …….., vN}, dimana tiap node v merepresentasikan
sebuah kata yang unik pada seluruh dokumen yang sudah ditentukan.
E :Kumpulan dari edges {e1,e2,……., eM}, seperti tiap-tiap edge
             merupakan susunan dari pasangan tiap node (vi,vj). Edge (vi,vj) berasal
             dari vi ke vj, dan vj adalah berdekatan dengan vi. dari vi ke vj ada
             ujungnya, dan jika dalam proses selanjutnya kata vj muncul kebali maka
             tidak ditulis kembali melainkan mengacu pada sebelumnya yang sudah
             ada yaitu vi dalam dokumen apapun.

       Definisi diatas merupakan gambara penyusun graph yang terdiri dari beberapa
node yang terdiri dari berbagai macam kata-kata unik pada setiap dokumen yang
ditentukan. Jalur atau path yang dibentuk oleh node dan edge merupakan representasi
dari sebuah kalimat tertentu dari seluruh dokumen.
        Node pada graph membawa informasi tentang dokumen yang nampak,
sepanjang informasi yang terdapat dalam sebuah kalimat. Struktur kalimat selalu
diperbaharui ujungnya selama proses clustering. Akan dibentuk informasi daftar kata
dari kalimat pada tiap dokumen yang di kluster. Berikut contoh gambar DIG.




                    Gambar 2.9 Contoh Dokumen Index Graph
Pada contoh diatas menggambarkan susunan dokumen graph dengan
menggunakan 3 dokumen. Tiap-tipa dokumen terdapat nomor dari kalimat dengan
beberapa kesamaan diantara dokumen-dokumennya. Jika kita liat graph diatas, tiap
ujung dibuat hanya diantara dua node dan hal itu digambarkan dengan dua node
diantara dokumen yang lainnya. Hal ini menggambarkan susunan path pada graph.
Garis putus-putus menggambarkan kalimat dari dokumen 1, garis putus-putus ke-2
mewakili kalimat dari dokumen 2, dan garis putus-putus ke-3 mewakili kalimat dari
dokumen 3. Jika frasa ditampilkan lebihdari sekali dalam dokumen, jumlah tiap kata-
kata yang membentuk frase meningkat maka kalimat informasi dalam node
mencerminkan terjadinya beberapa frasa tersebut. Seperti disebutkan sebelumnya,
pencocokan frase menjadi dokumen menjadi tugas tersendiri untuk mencari kesamaan
diantara dokumen yang berbeda.
        Contoh yang disajikan di sini adalah salah sat yang sederhana. Pada
kenyataannya banyak dokumen akan berisi ratusan atau ribuan kata-kata. Dengan
mengatur dokumen yang sangat besar, graph bisa menjadi lebih kompleks dalam hal
penggunaan memori. Biasanya, graph jumlah node akan persis sama dengan jumlah
dari kata-kata unik dalam kumpulan data.
Gambar 2.10 Penambahan penyusunan Algoritma DIG




2.5.2   Membangun Graph

        DIG dibangun secara bertahap dengan memproses satu dokumen pada suatu
waktu. Ketika sebuah dokumen baru diperkenalkan, maka dokumen itu akan di scan
secara berurutan, dan graph akan diperbarui dengan informasi terbaru pada setiap
kalimat yang diperlukan. Kata-kata baru yang ditambahkan ke graph yang diperlukan
dan terhubung dengan node yang lain sehingga mencerminkan struktur kalimat.
Proses membangun graph akan mengurangi penggunaan memori ketika tidak ada
yang baru, kata-kata yang diperkenalkan oleh dokumen baru (atau sangat sedikit kata-
kata baru yang diperkenalkan). Pada titik ini graph menjadi lebih stabil, dan operasi
hanya diperlukan adalah untuk memperbarui struktur kalimat dalam graph ik untuk
mengakomodasi kalimat baru yang diperkenalkan. Hal ini sangat penting untuk
dicatat bahwa sebagai pengenalan dokumen baru hanya akan memerlukan
pemeriksaan (atau Selain itu) dari kata-kata yang muncul dalam dokumen itu, dan
tidak setiap node dalam graph. Di sinilah efisiensi model berasal.
       Seiring dengan penyusunan struktur kalimat, tingkat signifikansi dari setiap
kalimat juga dicatat dalam graph. Hal ini memungkinkan kita untuk mengingat
informasi seperti saat kita mencocokkan kalimat dari dokumen lain. Melanjutkan dari
contoh diperkenalkan sebelumnya, berikut algoritma proses membangun graph yang
mewakili tiga dokumen yang diilustrasikan pada Gambar 2.11
Gambar 2.11 Algoritma Pembangun Graph dan penyamaan frasa

       Penekanan di sini adalah pada proses inkremental konstruksi, di mana node
baru ditambahkan dan tepi baru akan dibuat bertahap pada pengenalan dokumen baru.
Tidak seperti teknik pencocokan frasa tradisional yang biasanya digunakan dalam
literatur temu kembali informasi, yang DIG menyediakan informasi lengkap tentang
pencocokan frasa penuh terjadi diantara setiap pasangan dokumen. Sementara cara
pencocokan frasa metode tradisional yang cocok ditujukan untuk mencari dan
pengambilan frase dokumen yang cocok untuk query tertentu, DIG ini ditujukan
untuk memberikan informasi tentang kesamaan dokumen dan mengijinkan overlap
clustering antara setiap pasangan dokumen. Hal ini akan membantu dalam
menentukan tingkat kesamaan antara dokumen.
2.6     Analisa Kesamaan Dokumen dan Evaluasi Klusterisasi

Nilai kesamaan dokumen dapat dihitung melalui beberapa pendekatan :

2.6.1    Single Term
         Single term atau kesamaan dokumen berbasis kata, merupakan nilai kesamaan
dokumen yang dilihat berdasarkan term-term yang berada di antara dua dokumen
yang sedang dibandingkan. Metode Cosine Based Similarity dapat digunakan untuk
memperoleh nilai kesamaan dokumen berbasis kata. Dengan mengukur dua vektor
berdimensi n dengan menemukan sudut diantara keduanya. Untuk text-matching,
atribut yang biasa dipakai adalah vektor TF-IDF. Ukuran kesamaan dokumen d1
dengan dokumen d2 dapat dihitung dengan persamaan 2.1 :

                                                                             (2.1)

TF atau term frequency merupakan banyaknya term dalam sebuah dokumen.
Pembobotan TF diperoleh dari perhitungan dengan persamaan 2.2 :

                                                                             (2.2)

f = frekuensi term dalam sebuah dokumen
m = frekuensi maksimum dari suatu term yang terdapat dalam sebuah dokumen

Sedangkan IDF atau Inverse Document Frequency merupakan banyaknya term
tertentu dalam keseluruhan dokumen. Pembobotan IDF dapat dihitung dengan rumus
2.3 :

                                                                             (2.3)

n = jumlah seluruh dokumen
nj = jumlah dokumen yang mempunyai term j
2.6.2 Phrase Based Similarity

       Metode ini akan menggunakan frasa sebagai tolok ukur kesamaan dokumen.
Persamaan dokumen yang diukur berdasarkan term dianggap belum memberikan
hasil yang terbaik [3]. Dengan memperhatikan urutan dari beberapa kata yang
terdapat di antara dua dokumen yang sedang dibandingkan diharapkan dapat
meningkatkan nilai akurasi pengelompokan dokumen.
Ukuran kesamaan dokumen dihitung berdasarkan shared phrase pada masing-masing
pasangan dokumen.

Faktor –faktor shared phrase dalam menentukan kesamaan dokumen :
  a. jumlah matching phrase,
  b. panjang matching phrase,
  c. frekuensi matching phrase di kedua dokumen
  d. level signifikan (weight) dari matching phrase di kedua dokumen tersebut.
Kesamaan berbasis frasa antara 2 dokumen, d1 dan d2 dapat dihitung dengan
persamaan :


                                                                                 (2.4)



                                                                                 (2.5)



2.6.3 Gabungan antara Single Term dan Phrase Based Similarity
     Kesamaan dokumen akhir dihitung dari kombinasi antara kesamaan berbasis
kata dengan kesamaaan berbasis frasa dengan persamaan berikut:
      Sim (       ) = , sim (          + (1 –   ) , sim (        )               (2.6)
2.6.4 Evaluasi Klusterisasi
       Evaluasi ini dilakukan untuk mengetahui kinerja dari algoritma klusterisasi
dalam tahap uji coba. Pengukuran ini didasarkan pada 2 ukuran kualitas kluster yang
biasa digunakan dalam literatur pengukuran klusterisasi dokumen.
   •    F-measure

                                     R=                                           (2.7)


                                               =                                  (2.8)

        Nij = jumlah anggota kelas ke-i pada kluster ke-j
        Ni = jumlah anggota kelas ke-i
        Nj = jumlah anggota kluster ke-j

        F-measure dari kluster Cj dan kelas Ki dapat didefinisikan sebagai :

                                           F (i) =                                (2.9)

        Untuk histogram klustering, F-measure dari setiap kelasnya merupakan rata-
        rata nilai F-measure dari tiap kelas pada keseluruhan kluster yang terbentuk.

                                   F (C) =                                      (2.10)

        |i| = jumlah anggota masing-masing kelas ke-i

   •    Entropy
        Entropy mengukur kemurnian dari kluster yang dihasilkan dengan
        memperhatikan pada kategori yang ada. Nilai Entropy yang lebih kecil
        menghasilkan kluster yang lebih bagus kualitasnya.
                                     =                                          (2.11)
        Total entropy dihitung sebagai jumlah dari nilai entropy tiap-tiap kluster yang
        terbentuk.

                                                                                (2.12)

        Nj = jumlah dokumen yang diklusterkan dalam satu kategori
N = total jumlah dokumen
pij = peluang dokumen kluster j masuk ke kelas i

Más contenido relacionado

Similar a Bab ii

Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...
Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...
Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...ym.ygrex@comp
 
1 7 amir temu kembali informasi berbasis kluster untuk sistem temu kembali i...
1 7 amir  temu kembali informasi berbasis kluster untuk sistem temu kembali i...1 7 amir  temu kembali informasi berbasis kluster untuk sistem temu kembali i...
1 7 amir temu kembali informasi berbasis kluster untuk sistem temu kembali i...ym.ygrex@comp
 
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...Ainul Yaqin
 
ppt TEKNIK ANALISIS DATA.pptx
ppt TEKNIK ANALISIS DATA.pptxppt TEKNIK ANALISIS DATA.pptx
ppt TEKNIK ANALISIS DATA.pptxBujangBaturusa
 
Bab ii isolehfix 1
Bab ii isolehfix 1Bab ii isolehfix 1
Bab ii isolehfix 1Ody Widodo
 
penggunaan condition pada C++ (devc++) dan penjelasannya
penggunaan condition pada C++ (devc++) dan penjelasannyapenggunaan condition pada C++ (devc++) dan penjelasannya
penggunaan condition pada C++ (devc++) dan penjelasannyaAngga Joe Amstrong
 
PPT-UEU-Metodologi-Penelitian-Pertemuan-11.ppt
PPT-UEU-Metodologi-Penelitian-Pertemuan-11.pptPPT-UEU-Metodologi-Penelitian-Pertemuan-11.ppt
PPT-UEU-Metodologi-Penelitian-Pertemuan-11.pptYogiPermadi6
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...butest
 
Makalah pengantar basis data 5109100164
Makalah pengantar basis data 5109100164Makalah pengantar basis data 5109100164
Makalah pengantar basis data 5109100164Budi Raharjo
 
Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...
Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...
Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...wahyudiyanto
 
Pertimbangan dalam perumusan masalah
Pertimbangan dalam perumusan masalahPertimbangan dalam perumusan masalah
Pertimbangan dalam perumusan masalah20012011
 
INFORMATION RETRIEVAL
INFORMATION RETRIEVAL INFORMATION RETRIEVAL
INFORMATION RETRIEVAL Bunayya
 
Manajemen basis data
Manajemen basis data Manajemen basis data
Manajemen basis data 'Oke Aflatun'
 
Makalah sistem informasi akuntansi (sistem manajemen database perpustakaan un...
Makalah sistem informasi akuntansi (sistem manajemen database perpustakaan un...Makalah sistem informasi akuntansi (sistem manajemen database perpustakaan un...
Makalah sistem informasi akuntansi (sistem manajemen database perpustakaan un...Jiantari Marthen
 
analisis data kualitatif
analisis data kualitatifanalisis data kualitatif
analisis data kualitatifingawiras
 
Analisis data kualitatif
Analisis data kualitatifAnalisis data kualitatif
Analisis data kualitatifwmkfirdaus
 
Peran Sumber Basis Data Terbuka : Infrastruktur dan Memulai Ide Riset
Peran Sumber Basis Data Terbuka : Infrastruktur dan Memulai Ide RisetPeran Sumber Basis Data Terbuka : Infrastruktur dan Memulai Ide Riset
Peran Sumber Basis Data Terbuka : Infrastruktur dan Memulai Ide RisetDwi Fajar Saputra
 

Similar a Bab ii (20)

Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...
Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...
Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...
 
1 7 amir temu kembali informasi berbasis kluster untuk sistem temu kembali i...
1 7 amir  temu kembali informasi berbasis kluster untuk sistem temu kembali i...1 7 amir  temu kembali informasi berbasis kluster untuk sistem temu kembali i...
1 7 amir temu kembali informasi berbasis kluster untuk sistem temu kembali i...
 
01 indo clust knsi 2007
01 indo clust knsi 200701 indo clust knsi 2007
01 indo clust knsi 2007
 
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
 
ppt TEKNIK ANALISIS DATA.pptx
ppt TEKNIK ANALISIS DATA.pptxppt TEKNIK ANALISIS DATA.pptx
ppt TEKNIK ANALISIS DATA.pptx
 
15749 5 pengelompokkan data mining
15749 5 pengelompokkan data mining15749 5 pengelompokkan data mining
15749 5 pengelompokkan data mining
 
Bab ii isolehfix 1
Bab ii isolehfix 1Bab ii isolehfix 1
Bab ii isolehfix 1
 
penggunaan condition pada C++ (devc++) dan penjelasannya
penggunaan condition pada C++ (devc++) dan penjelasannyapenggunaan condition pada C++ (devc++) dan penjelasannya
penggunaan condition pada C++ (devc++) dan penjelasannya
 
PPT-UEU-Metodologi-Penelitian-Pertemuan-11.ppt
PPT-UEU-Metodologi-Penelitian-Pertemuan-11.pptPPT-UEU-Metodologi-Penelitian-Pertemuan-11.ppt
PPT-UEU-Metodologi-Penelitian-Pertemuan-11.ppt
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
 
Makalah pengantar basis data 5109100164
Makalah pengantar basis data 5109100164Makalah pengantar basis data 5109100164
Makalah pengantar basis data 5109100164
 
Ir
IrIr
Ir
 
Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...
Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...
Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...
 
Pertimbangan dalam perumusan masalah
Pertimbangan dalam perumusan masalahPertimbangan dalam perumusan masalah
Pertimbangan dalam perumusan masalah
 
INFORMATION RETRIEVAL
INFORMATION RETRIEVAL INFORMATION RETRIEVAL
INFORMATION RETRIEVAL
 
Manajemen basis data
Manajemen basis data Manajemen basis data
Manajemen basis data
 
Makalah sistem informasi akuntansi (sistem manajemen database perpustakaan un...
Makalah sistem informasi akuntansi (sistem manajemen database perpustakaan un...Makalah sistem informasi akuntansi (sistem manajemen database perpustakaan un...
Makalah sistem informasi akuntansi (sistem manajemen database perpustakaan un...
 
analisis data kualitatif
analisis data kualitatifanalisis data kualitatif
analisis data kualitatif
 
Analisis data kualitatif
Analisis data kualitatifAnalisis data kualitatif
Analisis data kualitatif
 
Peran Sumber Basis Data Terbuka : Infrastruktur dan Memulai Ide Riset
Peran Sumber Basis Data Terbuka : Infrastruktur dan Memulai Ide RisetPeran Sumber Basis Data Terbuka : Infrastruktur dan Memulai Ide Riset
Peran Sumber Basis Data Terbuka : Infrastruktur dan Memulai Ide Riset
 

Bab ii

  • 1. BAB II LANDASAN TEORI Sistem manajemen arsip digital pada tugas akhir ini adalah mengelompokkan dokumen-dokumen arsip yang berbentuk file menjadi sebuah kelompok-kelompok tertentu sehingga dapat diambil informasi yang lebih baik dari pengelompokkan tersebut. Sistem pengelompokkannya (klasterisasi) menggunakan algoritma DIG (Document Index Graph) untuk mencari keterkaitan antar dokumen dan dikelompokkan menjadi beberapa kategori tertentu. Pada tahap ini terlebih dahulu akan dipaparkan mengenai beberapa teori yang mendasari tugas akhir ini diantaranya adalah konsep klusterisasi document, text mining, analisa struktur dokumen dan kesamaan antar dokumen, konsep graph, konsep algoritma DIG (Document Index Graph), dan metode evaluasi untuk mengukur kinerja sistem. 2.1 Konsep Klasterisasi Dokumen Secara umum document clustering adalah proses mengelompokkan dokumen berdasarkan kemiripan antara satu dengan yang lain dalam satu gugus [3, 4]. Tujuannya adalah untuk memisahkan dokumen yang relevan dari dokumen yang tidak relevan [5]. Pengelompokan ini didasarkan pada hipotesa yang dikemukakan oleh Van Rijsbergen bahwa dokumen-dokumen yang berkaitan erat cenderung sesuai dengan permintaan informasi yang sama [6, 7]. Atau dengan kata lain, dokumen- dokumen yang relevan dengan suatu query cenderung memiliki kemiripan satu sama lain dari pada dokumen yang tidak relevan, sehingga dapat dikelompokkan ke dalam suatu gugus [4]. Oleh karena itu, suatu gugus berisi kelompok dokumen homogen yang saling berkaitan antara satu dengan yang lain. Document Clustering dapat dilakukan sebelum atau sesudah proses temu kembali [8]. Pada document clustering yang dilakukan sebelum proses temu kembali informasi, koleksi dokumen dikelompokkan ke dalam gugus berdasarkan kemiripan (similarity) antar dokumen.Selanjutnya dalam proses temu kembali informasi, apabila suatu dokumen ditemukan maka seluruh dokumen yang berada dalam gugus yang
  • 2. sama dengan dokumen tersebut juga dapat ditemukan. Sedangkan document clustering yang dilakukan setelah proses temu kembali informasi, dokumen-dokumen yang dihasilkan disajikan dalam gugus yang terbentuk berdasar kemiripan antar dokumen tersebut, sehingga mempermudah pencari informasi untuk memberikan interpretasi terhadap hasil penelusuran sesuai dengan kebutuhannya [9]. Dalam sistem temu kembali informasi, document clustering memberikan beberapa manfaat, antara lain: • Mempercepat pemrosesan query dengan menelusur hanya pada sejumlah kecil anggota atau wakil gugus, sehingga dapat mempercepat proses temu kembali informasi [5]. • Membantu melokalisir dokumen yang relevan [9]. • Membentuk kelas-kelas dokumen sehingga mempermudah penjelajahan dan pemberian interpretasi terhadap hasil penelusuran [4]. • Meningkatkan efektivitas dan efisiensi temu kembali informasi dan memberikan alternatif metode penelusuran [10]. Selain itu, penggabungan antara penelusuran secara menyeluruh (full search) dengan penelusuran berbasis gugus (cluster-based retrieval) dapat meningkatkan ketelitian sampai dengan 25% [6]. Hal senada dikemukakan oleh Jian Zhang, et al. [8] bahwa penggabungan antara metode penggugusan dengan fusion (pemberian peringkat terdadap dokumen secara keseluruhan) akan meningkatkan efektivitas temu kembali informasi. Adapun dalam hal penyajian hasil penelusuran, penggabungan antara gugus dan daftar peringkat dapat membantu pemakai dalam menemukan informasi yang relevan [11]. 2.1.1 Pembentukan gugus dokumen klusterisasi Pembentukan gugus dokumen dalam sistem temu kembali informasi merupakan proses yang kompleks, karena melibatkan pemilihan unsur yang dapat mewakili sekelompok dokumen, penetapan fungsi untuk menghubungkan satu dokumen dengan dokumen yang lain, penetapan fungsi untuk menghubungkan
  • 3. dokumen dengan query dan membangun metode atau algoritma penggugusan [12]. Prinsip dasar dalam document clustering adalah menentukan ukuran kemiripan antar dokumen yang akan dikelompokkan dan menjadikannya sebagai dasar untuk menghasilkan gugus. Kemiripan antar dokumen dapat didasarkan pada beberapa variabel seperti journal intercitation, co-citation (journal co-citation, document co-citation, author co-citation), biblioGraphic coupling, co-descriptor, dan co-classification. Adapun kemiripan antara dua dokumen X dan Y dapat diukur dengan beberapa cara, yaitu: 1. Simple matching : |X Y| 2. Dice’s coefficient : 2 | X Y|/|X|+|Y| 3. Jaccard’s coefficient : | X Y |/|X Y| 4. Cosine coefficient : |X Y|/|X|1/2.|Y|1/2. 5. Overlap coefficient : |X Y|/min(X,Y) pembentukan gugus biasanya dikategorikan menurut tipe dari struktur gugus yang dihasilkan. Secara umum metode penggugusan terbagi menjadi dua, yaitu metode non-hirarkhis dan metode hirarkhis. 2.1.2 Metode Non-Hirarkhis Metode non-hirarkhis disebut juga metode partisi, yaitu membagi serangkaian data yang terdiri dari N obyek ke dalam M gugus yang tidak saling tumpang-tindih (overlap) [10]. Secara lebih rinci, Salton [13] mengemukakan bahwa pembentukan gugus dokumen dalam sistem temu kembali informasi dengan metode non-hirarkhis adalah sebagi berikut: a. Membandingkan ciri-ciri identifikasi (identifier) suatu dokumen dengan dokumen lain yang ada dalam koleksi dan mengelompokkan dokumen- dokumen yang memiliki serangkaian ciri-ciri identifikasi yang serupa ke dalam satu gugus.
  • 4. b. Pada setiap gugus dokumen yang dihasilkan, dipilih sebuah unsur yang dapat mewakili seluruh dokumen yang ada dalam gugus yang bersangkutan yang disebut centroid. Menurut Rasmussen [10] centroid atau perwakilan gugus adalah sebuah record yang dapat mewakili ciri -ciri atau karakteristik dokumen dalam sebuah gugus. c. Proses penelusuran dilakukan dalam dua tahap, yaitu: 1) membandingkan query dengan centroid pada masing-masing gugus dokumen; 2) mencocokkan query dengan masing-masing dokumen dalam gugus yang mengandung centroid yang paling sesuai. Proses pembentukan gugus dokumen dan penelusuran tersebut dapat diilustrasikan seperti pada Gambar 2.1 Gambar 2.1 Pembentukan gugus dokumen dengan metode non-hirarkhis dan proses penelusurannya [13]. Seiring dengan perkembangan teknologi komputer, metode penggugusan non- hirarkhis ini juga menggunakan algoritma yang semakin kompleks. Sebagai contoh adalah penerapan algoritma genetik [14] dan metode iterative clustering [15]. 2.1.3 Metode Hirarkhis
  • 5. Pembentukan gugus dokumen dalam sistem temu kembali informasi dengan metode hirarkhis adalah sebagi berikut: a. Mengidentifikasi dua dokumen yang paling mirip dan menggabungkannya menjadi sebuah gugus. b. Mengidentifikasi dan menggabungkan dua dokumen yang paling mirip berikutnya menjadi sebuah gugus sampai semua dokumen tergabung dalam gugus-gugus yang terbentuk. Struktur gugus yang dihasilkan oleh metode hirarkhis ini biasanya diperlihatkan struktur dendrogram atau diagram pohon seperti terlihat pada Gambar 2.2 dan 2.3 Gambar 2.2 Dendrogram dari Hierarchical Clustering [16]
  • 6. Gambar 2.3 Pohon dari Hierarchical Clustering [13] Kemiripan antar dokumen ditentukan dengan mengukur jarak antar dokumen. Dua dokumen yang mempunyai jarak paling kecil dikatakan mempunyai kemiripan paling tinggi dan dikelompokkan ke dalam satu gugus yang sama. Sebaliknya dua dokumen yang mempunyai jarak paling besar dikatakan mempunyai kemiripan paling rendah, dan dimasukkan ke dalam gugus yang berbeda. Beberapa metode yang dapat digunakan untuk menentukan jarak antar dua dokumen antara lain: single link, complete link, group average link, ward’s method, centroid method dan median method [10]. 2.2 Text Mining Text mining merupakan salah satu bentuk eksplorasi dan analisis data teks yang bertujuan untuk mendapatkan pengetahuan baru baik itu melalui cara otomatis maupun semi otomatis [16]. Text mining bisa dianggap subjek riset yang tergolong baru. Text mining dapat memberikan solusi dari permasalahan seperti pemrosesan, pengorganisasian/pengelompokkan dan menganalisa unstructured text dalam jumlah besar. Menurut Candra [17], text mining adalah salah satu bidang khusus dari data mining. Text mining dapat didefinisikan sebagai suatu proses menggali informasi
  • 7. dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponen-komponen dalam data mining yang salah satunya adalah kategorisasi. Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu pengkategorisasian teks (text categorization) dan pengelompokan teks (text clustering). Menurut Hilda [18] text mining adalah data mining dengan input data berupa teks. Text mining muncul karena sekitar 90% data di dunia dalam bentuk format tidak terstruktur, adanya kebutuhan bisnis, yang asalnya document retrieval menjadi knowledge discovery. Dari definisi menurut Candra T. dan Hilda W, peneliti dapat menyimpulkan bahwa text mining bisa disimpulakan menjadi sebuah teknik dimana inputan text dapat mewakili untuk memanggil beberapa dokumen dengan keterkaitan yang sudah disusun dalam sebuah algoritma. Dalam memberikan solusi, text mining mengadopsi dan mengembangkan banyak teknik dari bidang lain, seperti data mining, information retrieval, statistik dan matematik, machine learning, linguistic, natural languange processing, dan visualization. Kegiatan riset untuk text mining antara lain ekstraksi dan penyimpanan teks, preprocessing akan isi (content) teks, pengumpulan data statistik dan indexing, dan analisa konten. Menurut Tatas wicaksono [19], permasalahan yang dihadapi pada text mining sama dengan permasalahan yang terdapat pada data mining, yaitu jumlah data yang besar, dimensi yang tinggi, data dan struktur yang terus berubah, dan data noise. Perbedaan di antara keduanya adalah pada data yang digunakan. Pada data mining, data yang digunakan adalah structured data, sedangkan pada text mining data yang digunakan text mining pada umumnya adalah unstructured data atau minimal semistructured. Hal ini menyebabkan adanya tantangan tambahan pada text mining yaitu struktur teks yang kompleks dan tidak lengkap, arti yang tidak jelas dan tidak standard, dan bahasa yang berbeda ditambah translasi yang tidak akurat. Salah satu
  • 8. elemen kunci dari text mining adalah kumpulan dokumen yang berbasis teks. Pada prakteknya, text mining ditujukan untuk menemukan pola dari sekumpulan dokumen yang jumlahnya sangat besar dan bisa mencapai jumlah ribuan bahkan sampai jutaan. Koleksi dokumen bisa statis, dimana dokumen tidak berubah atau dinamis, dimana dokumen selalu di update sepanjang waktu. Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan perhitungan hanya pada dokumen, tetapi pada juga feature. Menurut Hilda [18], ada empat macam feature yang sering digunakan: a) Character, merupakan komponan individual, bisa huruf, angka, karakter spesial dan spasi, merupakan blok pembangun pada level paling tinggi pembentuk semantik feature, seperti kata, term dan concept. Pada umumnya, representasi character-based ini jarang digunakan pada beberapa teknik pemrosesan teks. b) Words, tiap-tiap kata dalam dokumen. c) Terms merupakan single word dan phrase multiword yang terpilih secara langsung dari corpus. Representasi term-based dari dokumen tersusun dari subset term dalam dokumen. d) Concept, merupakan feature yang di-generate dari sebuah dokumen secara manual, rule-based, atau metodologi lain. Struktur data yang baik dapat memudahkan proses komputerisasi secara otomatis. Pada text mining, informasi yang akan digali berisi informasi-informasi yang strukturnya sembarang. Oleh karena itu, diperlukan proses pengubahan bentuk menjadi data yang terstruktur sesuai kebutuhannya untuk proses dalam data mining, yang biasanya akan menjadi nilai-nilai numerik. Proses ini sering disebut text preprocessing. Setelah data menjadi data terstruktur dan berupa nilai numerik maka data dapat dijadikan sebagai sumber data yang dapat diolah lebih lanjut. 2.3 Analisis Struktur Dokumen Setiap dokumen memiliki struktur tersendiri, umumnya sebuah dokumen memiliki bagian judul dan isi dokumen. Idenya, beberapa bagian dari sebuah
  • 9. dokumen mempunyai nilai informasi yang lebih tinggi dari bagian lainnya. Oleh karena itu bagian tersebut mempunyai tingkat kepentingan yang berbeda sesuai posisinya dalam sebuah dokumen [20]. Misalnya sebuah dokumen teks, yang terdiri dari judul dan isi dokumen. Dari dokumen tersebut mempunyai beberapa kata yang terletak pada bagian judul dan pada bagian isi dokumen. Tentunya kata-kata yang terletak pada bagian judul akan memiliki nilai kepentingan yang lebih tinggi dari pada kata-kata yang berada pada bagian isi dokumen. Biasanya, tingkat kepentingan sebuah kata yang terdapat di dalam suatu dokumen dibagi menjadi tiga tingkat, yaitu; tinggi, sedang, dan rendah. Contoh bagian dari dokumen yang mempunyai tingkat kepentingan tinggi adalah judul. Contoh bagian dokumen yang mempunyai tingkat kepentingan sedang adalah kata- kata yang dicetak tebal, kata-kata yang dicetak miring, atau kata-kata yang diberi warna. Sedangkan tingkat kepentingan rendah biasanya isi dokumen yang tidak termasuk ke dalam tingkat kepentingan tinggi maupun tingkat kepentingan sedang. Sehingga dalam kita mengelompokkan sebuah document hal ini menjadi pertimbangan yang penting untuk menentukan proses yang akan dijalankan nantinya mengenai struktur dokumen apakah digunakan seluruhnya atau dipilih pada bagian tertentu, pemilihan fokus mengenai struktur tersebut disesuaikan dengan tingkat kebutuhan sistem. 2.4 Konsep Graph dan Penerapannya Pada bagian ini akan dijelaskan konsep dasar teori Graph dan penerapannya pada pengelompokkan dokumen yang akan menggambarkan proses penggunaanya dan contoh kasusnya. 2.4.1 Dasar Teori Graph Graph adalah sekumpulan benda-benda yang disebut simpul (node/vertex) yang dihubungkan oleh sisi (edge). Biasanya Graph digambarkan sebagai kumpulan titik-titik (sebagai simpul) yang dihubungkan oleh garis-garis (sebagai sisi). Suatu
  • 10. graph G dapat dinyatakan sebagai G = <V,E> dimana V merupakan himpunan dari simpul yang berada pada G dan E merupakan himpunan sisi pada G [21] Selain simpul dan sisi, terdapat pula lintasan (path). Lintasan merupakan jalur yang harus ditempuh untuk mencapai suatu simpul dari simpul lain. Panjang lintasan merupakan banyaknya sisi yang terdapat pada lintasan tersebut [22]. Berikut adalah salah satu contoh dari graph yang diperlihatkan pada gambar 2.4: 6 4 5 1 3 2 Gambar 2.4 Contoh Graph Dari gambar graph di atas, dapat dilihat bahwa: 1. Simpul pada graph dituliskan sebagai V = {1,2,3,4,5,6} 2. Sisi pada graph dituliskan sebagai E = {(1,2),(1,5),(2,3),(2,5),(3,4),(4,5),(4,6)} 3. Salah satu lintasan untuk mencapai simpul 3 dari simpul 1 adalah 1-2-3 dimana panjang lintasannya adalah 2. Berdasarkan orientasi arah pada sisi, secara umum graph dapat dibagi menjadi 2 jenis, yaitu graph berarah dan graph tak berarah. graph berarah merupakan graph dimana setiap sisinya memiliki arah sehingga simpul (1,2) dan (2,1) tidaklah sama. Sebaliknya, pada graph tak berarah, simpul (1,2) dan (2,1) dianggap sama. Gambar 1 di atas merupakan contoh graph tak berarah. Sedangkan contoh dari graph berarah sebagaimana ditunjukkan pada gambar 2.5 adalah sebagai berikut.
  • 11. Gambar 2.5 Graph Berarah Simpul yang terdapat pada graph berarah di atas adalah V = {1,2,3,4,5,6} dan sisinya adalah E = {(1,2), (1,3), (1,4), (1,5), (2,3), (2,5), (3,1), (3,4), (4,2), (4,5), (5,4), (6,4)}. Dapat dilihat dari gambar bahwa sisi (1,3) dan (3,1) tidaklah sama karena keduanya memiliki asal dan arah simpul yang berbeda. Karena sisinya berbeda, maka lintasan yang dihasilkan pun berbeda. Bila graph di atas bukan merupakan graph berarah, maka untuk mencapai simpul 6 dari simpul 1 dapat melewati simpul 4, sehingga lintasan yang dibentuk adalah 1-4-6. Namun karena graph tersebut merupakan graph, maka tidak ada lintasan yang dapat dilalui untuk mencapai simpul 6 dari simpul 1. Ini disebabkan tidak ada satu sisi pun yang mengarah ke simpul 6. 2.4.2 Aplikasi Graph dalam pengelompokan dokumen Dalam penggunaan algoritma DIG, graph yang dibangun adalah graph berarah. Dalam graph ini, arah dari setiap sisi menunjukkan struktur kalimat yang ada pada setiap dokumen. graph ini dibangun dari : 1. Simpul Simpul merupakan kata unik yang ada pada setiap dokumen. Setiap kata yang terdapat pada dua buah dokumen yang sedang dibandingkan harus terdapat pada himpunan simpul graph. 2. Sisi
  • 12. Sisi merupakan penghubung antarsimpul. Pada sisi terdapat informasi berupa nomor sisi yang menunjukkan posisi kata dalam kalimat dan dalam dokumen. Karena graph ini merupakan graph berarah, maka sisi dalam graph ini pun memiliki arah. Arah yang ditunjukkan menunjukkan urutan kata pada dokumen. 3. Lintasan Lintasan yang dibentuk dari simpul dan sisi merupakan representasi sebuah kalimat tertentu. Pada algoritma DIG, setiap kalimat pada setiap dokumen akan diproses satu per satu. Setiap kata yang belum ada di dalam kumpulan graph akan ditambahkan sebagai simpul. Sedangkan jika kata tersebut sudah ada dalam kumpulan graph, maka akan ditambahkan sisi baru. Untuk setiap kata yang bertetangga dihubungkan dengan sisi. Untuk mendapatkan matching phrase, dibuatkan daftar data dokumen-dokumen yang mempunyai sisi serupa ke dalam sebuah tabel. Jika matching phrase berikutnya mempunyai sisi yang merupakan kelanjutan dari sisi sebelumnya, maka matching phrase tersebut digabungkan dengan matching phrase sebelumnya. Begitu seterusnya sampai seluruh dokumen selesai diproses [23]. Berikut adalah ilustrasi pembentukan graph menggunakan algoritma DIG. Pada ilustrasi ini hanya digunakan tiga buah dokumen saja, yaitu dokumen A, dokumen B, dan dokumen C, dimana masing-masing dokumen memiliki kalimat yang terdiri dari dua atau lebih kata. Ilustrasinya adalah sebagai berikut: Dokumen A : Pada dokumen A, terdapat kalimat-kalimat: mengerjakan tugas mengerjakan tugas makalah tugas makalah pelajaran strukdis Dokumen B : Pada dokumen B terdapat kalimat-kalimat: tugas laporan tugas makalah wajib Dokumen C :
  • 13. Pada dokumen C terdapat kalimat-kalimat: laporan praktikum praktikum kimia anggota kelompok praktikum pelajaran kimia Langkah pertama yang dilakukan adalah membuat graph berdasarkan kalimat-kalimat pada dokumen A dimana setiap kata yang terdapat pada dokumen A menjadi simpul dalam GRAPH . Graph yang dibentuk dari dokumen A adalah seperti yang ditunjukkan pada gambar 2.6 : mengerjakan makalah tugas pelajaran strukdis Gambar 2.6 Graph A yang dibentuk dari dokumen A Dari gambar graph di atas, terlihat bahwa graph tersebut memiliki: 1. Simpul Simpul yang terdapat pada graph A adalah seluruh kata yang terdapat pada dokumen A, yaitu V = {mengerjakan,tugas,makalah,pelajaran,strukdis}. 2. Sisi Sisi yang terdapat pada graph A adalah kata-kata yang letaknya bersebelahan pada dokumen, yaitu E = {(mengerjakan,tugas), (tugas,makalah), (makalah,pelajaran), (pelajaran,strukdis)}. 3. Lintasan Lintasan yang terbentuk pada graph A berjumlah 3 buah, yaitu : a. mengerjakan – tugas b. mengerjakan – tugas – makalah c. tugas – makalah – pelajaran – strukdis
  • 14. Setelah mendapatkan graph A, maka langkah selanjutnya adalah membuat graph yang meliputi dokumen A dan dokumen B, yaitu graph B. Penggambaran dari graph B seperti yang ditunjukkan pada gambar 2.7 dalah sebagai berikut: mengerjakan makalah pelajaran tugas strukdis laporan wajib Gambar 2.7 Graph B yang dibentuk dari dokumen A dan dokumen B Dari gambar graph B di atas, terlihat bahwa graph tersebut memiliki: 1. Simpul Simpul yang terdapat pada graph B adalah seluruh kata yang terdapat pada dokuman A dan dokumen B, yaitu V = {mengerjakan, tugas, makalah, pelajaran, strukdis, laporan, wajib}. 2. Sisi Sisi yang terdapat pada graph B adalah E = {(mengerjakan,tugas), (tugas,makalah), (makalah,pelajaran), (pelajaran,strukdis), (tugas, laporan), (makalah wajib)}. 3. Lintasan Lintasan yang terbentuk pada graph A berjumlah 3 buah, yaitu : a. mengerjakan – tugas b. mengerjakan – tugas – makalah c. tugas – makalah – pelajaran – strukdis d. tugas – laporan e. tugas – makalah - wajib Dari gambar graph B pula, terlihat adanya keterkaitan antara dokumen A dan dokumen B, yaitu pada sisi (tugas laporan) dan (makalah wajib). mengerjakan Setelah mendapatkan graph A makalah dan Graph B, langkah selanjutnya adalah tugas membuat graph yang meliputi dokumen A, dokumen B, dan dokumen C, yaitu pelajaran strukdis laporan wajib kimia Kelompok wajib anggota
  • 15. graph C. Penggambaran dari Graph C seperti yang ditunjukkan pada gambar 2.8 adalah sebagai berikut: Gambar 2.8 Graph C yang dibentuk dari dokumen A, dokumen B, dan dokumen C Dari gambar graph C di atas, terlihat bahwa graph tersebut memiliki: 1. Simpul Simpul yang terdapat pada graph A adalah V= mengerjakan, tugas, makalah, pelajaran, strukdis, laporan, wajib, praktikum, kimia, anggota, kelompok} 2. Sisi Sisi yang terdapat pada graph A adalah E = {(mengerjakan, tugas), (tugas, makalah), (makalah, pelajaran), (pelajaran, strukdis), (tugas laporan), (makalah wajib), (laporan, praktikum), (praktikum, kimia), (anggota, kelompok), (kelompok, praktikum) , (pelajaran kimia)}. 3. Lintasan Lintasan yang terbentuk pada graph A berjumlah 3 buah, yaitu : a. mengerjakan – tugas b. mengerjakan – tugas – makalah c. tugas – makalah – pelajaran – strukdis d. tugas – laporan e. tugas – makalah – wajib f. laporan – praktikum g. praktikum – kimia h. anggota – kelompok – praktikum i. pelajaran – kimia
  • 16. Dari gambar graph C pula, terlihat adanya keterkaitan antara dokumen A, dokumen B dan dokumen C. Keterkaitan antara dokumen A dan dokumen B terdapat pada sisi (tugas laporan) dan (makalah wajib). Keterkaitan antara dokumen B dan dokumen C terdapat pada sisi (laporan,praktikum). Terakhir, keterkaitan antara dokumen A dan dokumen C terdapat pada sisi (pelajaran,kimia). Contoh kasus di atas merupakan contoh kasus yang mencari keterkaitan antara 3 buah dokumen. Jumlah kata dan frasa dalam setiap dokumen pun hanya sedikit. Padahal dalam kenyataannya, jumlah dokumen yang ada di dunia ini sangatlah banyak, tidak sekadar 10 atau 100 buah. Dalam setiap dokumen pun jumlah kata dan frasanya bisa mencapai ribuan bahkan lebih. Akan sangat sulit dilakukan bila graph dibuat secara manual. Perlu ada penanganan yang lebih baik agar setiap dokumen yang ada dapat tergambarkan keterkaitannya. Untuk itulah dibuat algoritma DIG ini agar proses mengaitkan dokumen-dokumen dapat dilakukan dengan lebih cepat dan mudah. 2.5 Algoritma DIG (Document Index Graph) Document Index Graph (Selanjutnya disingkat DIG) menyusun dokumen dengan memperbaiki struktur kalimat pada dokumen asli. Hal ini mengijinkan kita untuk menggunakannya dalam mencari informasi yang lebih untuk menemukan frasa dari pada kata. Selain itu, DIG juga menangkap level yang berbeda dan lebih signifikan pada kalimat aslinya, hal itu mengijinkan kita untuk menggunakan kalimat tersebut secara lebih signifikan dan lebih baik. 2.5.1 Struktur DIG DIG secara langsung tersusun dari sebuah graph (digraph) G – (V,E) Dimana V : kumpulan dari nodes {v1, v2, …….., vN}, dimana tiap node v merepresentasikan sebuah kata yang unik pada seluruh dokumen yang sudah ditentukan.
  • 17. E :Kumpulan dari edges {e1,e2,……., eM}, seperti tiap-tiap edge merupakan susunan dari pasangan tiap node (vi,vj). Edge (vi,vj) berasal dari vi ke vj, dan vj adalah berdekatan dengan vi. dari vi ke vj ada ujungnya, dan jika dalam proses selanjutnya kata vj muncul kebali maka tidak ditulis kembali melainkan mengacu pada sebelumnya yang sudah ada yaitu vi dalam dokumen apapun. Definisi diatas merupakan gambara penyusun graph yang terdiri dari beberapa node yang terdiri dari berbagai macam kata-kata unik pada setiap dokumen yang ditentukan. Jalur atau path yang dibentuk oleh node dan edge merupakan representasi dari sebuah kalimat tertentu dari seluruh dokumen. Node pada graph membawa informasi tentang dokumen yang nampak, sepanjang informasi yang terdapat dalam sebuah kalimat. Struktur kalimat selalu diperbaharui ujungnya selama proses clustering. Akan dibentuk informasi daftar kata dari kalimat pada tiap dokumen yang di kluster. Berikut contoh gambar DIG. Gambar 2.9 Contoh Dokumen Index Graph
  • 18. Pada contoh diatas menggambarkan susunan dokumen graph dengan menggunakan 3 dokumen. Tiap-tipa dokumen terdapat nomor dari kalimat dengan beberapa kesamaan diantara dokumen-dokumennya. Jika kita liat graph diatas, tiap ujung dibuat hanya diantara dua node dan hal itu digambarkan dengan dua node diantara dokumen yang lainnya. Hal ini menggambarkan susunan path pada graph. Garis putus-putus menggambarkan kalimat dari dokumen 1, garis putus-putus ke-2 mewakili kalimat dari dokumen 2, dan garis putus-putus ke-3 mewakili kalimat dari dokumen 3. Jika frasa ditampilkan lebihdari sekali dalam dokumen, jumlah tiap kata- kata yang membentuk frase meningkat maka kalimat informasi dalam node mencerminkan terjadinya beberapa frasa tersebut. Seperti disebutkan sebelumnya, pencocokan frase menjadi dokumen menjadi tugas tersendiri untuk mencari kesamaan diantara dokumen yang berbeda. Contoh yang disajikan di sini adalah salah sat yang sederhana. Pada kenyataannya banyak dokumen akan berisi ratusan atau ribuan kata-kata. Dengan mengatur dokumen yang sangat besar, graph bisa menjadi lebih kompleks dalam hal penggunaan memori. Biasanya, graph jumlah node akan persis sama dengan jumlah dari kata-kata unik dalam kumpulan data.
  • 19. Gambar 2.10 Penambahan penyusunan Algoritma DIG 2.5.2 Membangun Graph DIG dibangun secara bertahap dengan memproses satu dokumen pada suatu waktu. Ketika sebuah dokumen baru diperkenalkan, maka dokumen itu akan di scan secara berurutan, dan graph akan diperbarui dengan informasi terbaru pada setiap
  • 20. kalimat yang diperlukan. Kata-kata baru yang ditambahkan ke graph yang diperlukan dan terhubung dengan node yang lain sehingga mencerminkan struktur kalimat. Proses membangun graph akan mengurangi penggunaan memori ketika tidak ada yang baru, kata-kata yang diperkenalkan oleh dokumen baru (atau sangat sedikit kata- kata baru yang diperkenalkan). Pada titik ini graph menjadi lebih stabil, dan operasi hanya diperlukan adalah untuk memperbarui struktur kalimat dalam graph ik untuk mengakomodasi kalimat baru yang diperkenalkan. Hal ini sangat penting untuk dicatat bahwa sebagai pengenalan dokumen baru hanya akan memerlukan pemeriksaan (atau Selain itu) dari kata-kata yang muncul dalam dokumen itu, dan tidak setiap node dalam graph. Di sinilah efisiensi model berasal. Seiring dengan penyusunan struktur kalimat, tingkat signifikansi dari setiap kalimat juga dicatat dalam graph. Hal ini memungkinkan kita untuk mengingat informasi seperti saat kita mencocokkan kalimat dari dokumen lain. Melanjutkan dari contoh diperkenalkan sebelumnya, berikut algoritma proses membangun graph yang mewakili tiga dokumen yang diilustrasikan pada Gambar 2.11
  • 21. Gambar 2.11 Algoritma Pembangun Graph dan penyamaan frasa Penekanan di sini adalah pada proses inkremental konstruksi, di mana node baru ditambahkan dan tepi baru akan dibuat bertahap pada pengenalan dokumen baru. Tidak seperti teknik pencocokan frasa tradisional yang biasanya digunakan dalam literatur temu kembali informasi, yang DIG menyediakan informasi lengkap tentang pencocokan frasa penuh terjadi diantara setiap pasangan dokumen. Sementara cara pencocokan frasa metode tradisional yang cocok ditujukan untuk mencari dan pengambilan frase dokumen yang cocok untuk query tertentu, DIG ini ditujukan untuk memberikan informasi tentang kesamaan dokumen dan mengijinkan overlap clustering antara setiap pasangan dokumen. Hal ini akan membantu dalam menentukan tingkat kesamaan antara dokumen.
  • 22. 2.6 Analisa Kesamaan Dokumen dan Evaluasi Klusterisasi Nilai kesamaan dokumen dapat dihitung melalui beberapa pendekatan : 2.6.1 Single Term Single term atau kesamaan dokumen berbasis kata, merupakan nilai kesamaan dokumen yang dilihat berdasarkan term-term yang berada di antara dua dokumen yang sedang dibandingkan. Metode Cosine Based Similarity dapat digunakan untuk memperoleh nilai kesamaan dokumen berbasis kata. Dengan mengukur dua vektor berdimensi n dengan menemukan sudut diantara keduanya. Untuk text-matching, atribut yang biasa dipakai adalah vektor TF-IDF. Ukuran kesamaan dokumen d1 dengan dokumen d2 dapat dihitung dengan persamaan 2.1 : (2.1) TF atau term frequency merupakan banyaknya term dalam sebuah dokumen. Pembobotan TF diperoleh dari perhitungan dengan persamaan 2.2 : (2.2) f = frekuensi term dalam sebuah dokumen m = frekuensi maksimum dari suatu term yang terdapat dalam sebuah dokumen Sedangkan IDF atau Inverse Document Frequency merupakan banyaknya term tertentu dalam keseluruhan dokumen. Pembobotan IDF dapat dihitung dengan rumus 2.3 : (2.3) n = jumlah seluruh dokumen nj = jumlah dokumen yang mempunyai term j
  • 23. 2.6.2 Phrase Based Similarity Metode ini akan menggunakan frasa sebagai tolok ukur kesamaan dokumen. Persamaan dokumen yang diukur berdasarkan term dianggap belum memberikan hasil yang terbaik [3]. Dengan memperhatikan urutan dari beberapa kata yang terdapat di antara dua dokumen yang sedang dibandingkan diharapkan dapat meningkatkan nilai akurasi pengelompokan dokumen. Ukuran kesamaan dokumen dihitung berdasarkan shared phrase pada masing-masing pasangan dokumen. Faktor –faktor shared phrase dalam menentukan kesamaan dokumen : a. jumlah matching phrase, b. panjang matching phrase, c. frekuensi matching phrase di kedua dokumen d. level signifikan (weight) dari matching phrase di kedua dokumen tersebut. Kesamaan berbasis frasa antara 2 dokumen, d1 dan d2 dapat dihitung dengan persamaan : (2.4) (2.5) 2.6.3 Gabungan antara Single Term dan Phrase Based Similarity Kesamaan dokumen akhir dihitung dari kombinasi antara kesamaan berbasis kata dengan kesamaaan berbasis frasa dengan persamaan berikut: Sim ( ) = , sim ( + (1 – ) , sim ( ) (2.6)
  • 24. 2.6.4 Evaluasi Klusterisasi Evaluasi ini dilakukan untuk mengetahui kinerja dari algoritma klusterisasi dalam tahap uji coba. Pengukuran ini didasarkan pada 2 ukuran kualitas kluster yang biasa digunakan dalam literatur pengukuran klusterisasi dokumen. • F-measure R= (2.7) = (2.8) Nij = jumlah anggota kelas ke-i pada kluster ke-j Ni = jumlah anggota kelas ke-i Nj = jumlah anggota kluster ke-j F-measure dari kluster Cj dan kelas Ki dapat didefinisikan sebagai : F (i) = (2.9) Untuk histogram klustering, F-measure dari setiap kelasnya merupakan rata- rata nilai F-measure dari tiap kelas pada keseluruhan kluster yang terbentuk. F (C) = (2.10) |i| = jumlah anggota masing-masing kelas ke-i • Entropy Entropy mengukur kemurnian dari kluster yang dihasilkan dengan memperhatikan pada kategori yang ada. Nilai Entropy yang lebih kecil menghasilkan kluster yang lebih bagus kualitasnya. = (2.11) Total entropy dihitung sebagai jumlah dari nilai entropy tiap-tiap kluster yang terbentuk. (2.12) Nj = jumlah dokumen yang diklusterkan dalam satu kategori
  • 25. N = total jumlah dokumen pij = peluang dokumen kluster j masuk ke kelas i