Nama/NIM : I Made Novi Dharma Jaya/1204505021
Jurusan/Fakultas/Perguruan Tinggi : Teknologi Informasi, Fakultas Teknik, Universitas Udayana
Mata Kuliah : Sistem Temu Kembali Informasi
Dosen : I Putu Agus Eka Pratama
Sistem Temu Kembali Informasi (Information Retrieval) adalah
metode yang digunakan untuk menemukan kembali informasi-informasi yang relevan
terhadap kebutuhan pengguna (user) dari suatu kumpulan informasi secara otomatis.
Sistem temu kembali informasi akan menentukan hasil detail dalam
pencarian suatu dokumen.
Hasil dari Sistem temu kembali informasi dapat diperoleh melalui
representasi dokumen maupun query, fungsi pencarian (retrieval
function) dan notasi kesesuaian (relevance notation) dokumen terhadap query. Salah satu model
sistem temu kembali informasi yang paling awal digunakan adalah model boolean. Model boolean
mempresentasikan dokumen sebagai suatu himpunan kata-kunci (set of keywords), sedangkan query direpresentasikan sebagai ekspresi boolean. Query dalam ekspresi boolean merupakan
kumpulan kata kunci yang saling dihubungkan melalui operator boolean seperti AND,
OR dan NOT serta menggunakan tanda kurung untuk menentukan scope operator.
Berikut merupakan metode yang biasa digunakan untuk melakukan Information Retrieval.
Model Boolean : Metode yang
digunakan untuk mendefinisikan pencarian dengan menyertakan persyaratan
mengenai apa yang ingin dicari dan apa yang tidak ingin ditampilkan secara
jelas.
Model Boolean
memberikan pengguna (user) kemungkinan kualifikasi hubungan antara istilah
pencarian oleh operator Boolean seperti AND (hubungannya), OR (disjungsi) atau NOT
(negasi).
R = T1 T2 AND NO
T3
Dalam kasus di atas akan membuat sistem mengambil
semua dokumen yang mengandung istilah pencarian T1 dan T2, namun tidak termasuk
yang mengandung salah satu dari kedua istilah maupun yang mengandung T3.
Kelemahan Model Boolean adalah tidak adanya
relevansi antara data yang diinginkan pengguna dan data yang dihasilkan.
Model Vector Space : model aljabar
untuk dokumen teks untuk menggambarkan dokumen (dan setiap objek)
sebagai vektor pengenal (identifier). Hal ini digunakan
dalam penyaringan informasi, pencarian informasi, pengindeksan dan
peringkat relevansi.
Dokumen dan query direpresentasikan sebagai vektor.
dj = (W1,j, W2,j,
…, Wt,j)
q = (W1,q, W2q, …, Wt,q)
Vektor tersebut
dikenakan operasi perkalian titik dan hasilnya menjadi acuan dalam menentukan
relevansi masukan pengguna (query) terhadap kumpulan dokumen.
Definisi dari istilah tergantung pada aplikasi. Biasanya istilah
adalah kata-kata tunggal, kata kunci, atau frase lagi. Jika kata-kata
yang dipilih menjadi persyaratan, dimensi dari vektor adalah jumlah kata dalam
kosa kata.
Operasi vektor dapat digunakan untuk membandingkan
dokumen dengan permintaan.
Kesamaan antara dokumen dan query
diukur berdasarkan sudut cosinus dari vector dokumen dan vector query (cosine
measure)
Cosine measure merupakan dot
product vector dibagi dengan perkalian dari panjang kedua vector.
Similarity atau sim(d,q) = 1 jika d
= q, sebaliknya sim(d,q) = 0 jika d dan q tidak memiliki kesamaan sama sekali,
sudut 900.
Daftar Pustaka