Selasa, 17 Maret 2015

Tugas 3

Nama/NIM : I Made Novi Dharma Jaya/1204505021
Jurusan/Fakultas/Perguruan Tinggi : Teknologi Informasi, Fakultas Teknik, Universitas Udayana
Mata Kuliah : Sistem Temu Kembali Informasi
Dosen : I Putu Agus Eka Pratama

Sistem Temu Kembali Informasi (Information Retrieval) adalah metode yang digunakan untuk menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna (user) dari suatu kumpulan informasi secara otomatis.

Sistem temu kembali informasi akan menentukan hasil detail dalam pencarian suatu dokumen.
Hasil dari Sistem temu kembali informasi dapat diperoleh melalui representasi dokumen maupun query, fungsi pencarian (retrieval function) dan notasi kesesuaian (relevance notation) dokumen terhadap query. Salah satu model sistem temu kembali informasi yang paling awal digunakan adalah model boolean. Model boolean mempresentasikan dokumen sebagai suatu himpunan kata-kunci (set of keywords), sedangkan query direpresentasikan sebagai ekspresi boolean. Query dalam ekspresi boolean merupakan kumpulan kata kunci yang saling dihubungkan melalui operator boolean seperti AND, OR dan NOT serta menggunakan tanda kurung untuk menentukan scope operator.

Berikut merupakan metode yang biasa digunakan untuk melakukan Information Retrieval.

Model Boolean : Metode yang digunakan untuk mendefinisikan pencarian dengan menyertakan persyaratan mengenai apa yang ingin dicari dan apa yang tidak ingin ditampilkan secara jelas.
Model Boolean memberikan pengguna (user) kemungkinan kualifikasi hubungan antara istilah pencarian oleh operator Boolean seperti AND (hubungannya), OR (disjungsi) atau NOT (negasi).

        R = T1 T2 AND NO T3

Dalam kasus di atas akan membuat sistem mengambil semua dokumen yang mengandung istilah pencarian T1 dan T2, namun tidak termasuk yang mengandung salah satu dari kedua istilah maupun yang mengandung T3.


Kelemahan Model Boolean adalah tidak adanya relevansi antara data yang diinginkan pengguna dan data yang dihasilkan.

Model Vector Space : model aljabar untuk dokumen teks untuk menggambarkan dokumen (dan setiap objek) sebagai vektor pengenal (identifier). Hal ini digunakan dalam penyaringan informasi, pencarian informasi, pengindeksan dan peringkat relevansi. 

Dokumen dan query direpresentasikan sebagai vektor.

dj = (W1,j, W2,j, …, Wt,j)
q = (W1,q, W2q, …, Wt,q)




















Vektor tersebut dikenakan operasi perkalian titik dan hasilnya menjadi acuan dalam menentukan relevansi masukan pengguna (query) terhadap kumpulan dokumen.
Definisi dari istilah tergantung pada aplikasi. Biasanya istilah adalah kata-kata tunggal, kata kunci, atau frase lagi. Jika kata-kata yang dipilih menjadi persyaratan, dimensi dari vektor adalah jumlah kata dalam kosa kata. 
Operasi vektor dapat digunakan untuk membandingkan dokumen dengan permintaan.
  
Kesamaan antara dokumen dan query diukur berdasarkan sudut cosinus dari vector dokumen dan vector query (cosine measure)
Cosine measure merupakan dot product vector dibagi dengan perkalian dari panjang kedua vector.
Similarity atau sim(d,q) = 1 jika d = q, sebaliknya sim(d,q) = 0 jika d dan q tidak memiliki kesamaan sama sekali, sudut 900.


Daftar Pustaka


Tidak ada komentar:

Posting Komentar