Definisi Tesaurus

  1. Berasal dari bahasa Yunani yaitu “ Thesauros yang artinya kekayaan, harta ataupun gudang tempat menyimpan harta benda atau kekayaan”. (Sri Rohyanti Z.: 2002: 1)
  2. Menurut Hornby dikutip Sri Rohyanti Z. (2002: 1) : Thesaurus adalah kamus kata-kata dan ungkapan yang dikumpulkan menurut kesamaan artinya dan sinonimnya. Dalam dunia perpustakaan, dokumntasi dan informasi, thesaurus dapat diartikan menurut fungsi dan strukturnya.
  3. Kamus Amerika Webster’s dikutip Sri Rohyanti Z. (2002: 1) mendefinisikan thesaurus sebagai suatu ‘buku yang berisi kata atau informasi mengenai bidang subyek tertentu atau suatu kelompok konsep, seperti kamus sinonim.
  4. Tesaurus adalah alat untuk pengawasan kosa kata (vocabulary control). (E. John Leide: 2002: 1)

Tesaurus

Tesaurus adalah bentuk yang berharga dalam sistem pencarian informasi. Sebuah tesaurus akan menyediakan daftar kata yang mengkoordinasikan pengindeksan maupun pencarian dokumen. Pembangunan tesaurus dapat dilakukan dengan dua cara, yaitu: dengan cara manual atau dengan cara otomatis. Dimana pembangunan tesaurus secara otomatis dilakukan dengan melakukan analisa terhadap kemunculan pasangan kata (co-word) dalam kumpulan dokumen.

Fungsi tesaurus

Fungsi tesaurus adalah sebagai berikut:
  1. Dalam dunia informasi digunakan untuk memecahkan masalah ketidakkonsistenan pada pengindeksan dokumen.
  2. Digunakan oleh pencari untuk memformulasikan ulang strategi pencarian yang tepat jika diperlukan.
  3. Dalam IR tesaurus digunakan untuk membantu pengindeksan dan penemuan kembali informasi , karena tesaurus dapat menyediakan konstanta yang tepat dan terkontrol sehingga pengguna dapat memilih istilah yang tepat.
  4. Dalam pencarian, pengguna dapat menggunakan tesaurus untuk mendesain strategi pencarian yang paling tepat.

Pembangunan tesaurus secara otomatis

Menurut Frakes dan Yates

Frakes dan Yates (Frakes, 1992) secara garis besar menentukan tiga fase dalam pembangunan tesaurus secara otomatis, yaitu:

Penyusunan daftar kata

  • Nominalisasi dan pemilihan term.
  • Pembangunan fase sesuai dengan level koordinasi yang dinginkan.
Perhitungan tingkat kemiripan (similarity)
  • Mengidentifikasi hubungan antar term secara statistik.

Pengorganisasian daftar kata

  • Mengorganisasikan kosa kata secara umum menjadi susunan hirarki berdasar hubungan yang telah terkomputasi.

Menurut Scrubert Foo

Proses tesaurus dapat dibagi menjadi dua sub fase, yaitu fase pembentukan kamus kata, dan fase pembangunan tesaurus.

Fase pembentukan kamus kata

Tujuan: membantu dalam mengekstrak term yang spesifik dengan domain (misalnya term dibidang ilmu komputer) dalam koneksi dokumen untuk pembentukan tesaurus kemudian. Langkah yang dilakukan:
  • Term Selection (pemilihan term)
  • Term Filtering
  • Term Spesification/Generalisation

Fase Pembangunan tesaurus

Dengan adanya kamus yang telah dibentuk pada fase pembentukan kamus kata, kemudian digunakan metode yang diusulkan oleh Chen untuk membangun tesaurus akhir.
  • Menghitung frekuensi term dan frekuensi dokumen
Pada saat ekstraksi dilakukan dua perhitungan frekuensi untuk setiap term. Frekuensi tersebut adalah frekuensi term, tfij, yaitu jumlah kemunculan term j di dokumen i, dan frekuensi dokumen, dfj, yaitu jumlah dokumen dimana terdapat term j.
  • Menghitung bobot term
Bobot term j pada dokumen i, dij, dihitung menggunakan rumus:
Dimana:
tfij  = jumlah kemunculan term j pada dokumen I
N  = jumlah total dokumen pada koleksi dokumen
dfj  = jumlah dokumen dimana term j muncul
Ij  = jumlah kata pada term (kata atau fase)
  • Analisa Asymmetric Co-ccurrence

Bobot kemiripan / similarity weight (cluster weight) dari term Tj terhadap Tk:


dijk merupakan bobot kombinasi dari kedua term Tj dan Tk pada dokumen i, yang didefinisikan dengan rumus:



Dimana:
tfijk  = Jumlah kemunculan kedua term j dan termk dalam dokumen i (nilai yang terkecil diantara keduanya yang diambil.
dfjk  = Jumlah dokumen dimana term j dan k muncul bersamaan.

Sedangkan weightingFactor digunakan untuk menyaring term yang terlalu umum pada saat analisa co-ocurence.
Rumus yang digunakan:


Algoritma Thesaurus

Dalam ditemukannya data oleh thesaurus tidak begitu saja ditemukan. Ini menggunakan algoritma tertentu dan algoritma yang digunakann adalah algoritma stemming.

Referensi:
Cholifah, Yudhi Purwananto, dan Arif Bramantoro. APLIKASI INFORMATION RETRIEVAL UNTUK PEMBENTUKAN TESAURUS BERBAHASAN INDONESIA SECARA OTOMATIS. SCAN VOL. II NOMOR 1 ISSN : 1978-0087

Download file .ppt-nya silahkan klik disini!!!

Post a Comment

Lebih baru Lebih lama