Rabu, 20 Juni 2012

Search Engine Semantic Web


Swoogle dan Semantic Web
 
Untuk melakukan pencarian berdasarkan data-data semantik web, dibuatlah suatu mesin pencari yang diberi nama Swoogle. Swoogle dirancang sebagai suatu sistem yang secara otomatis menemukan Semantic Web Document, mengindeks metadata yang ada di dalamnya, dan menjawab pertanyaan (query) yang diajukan.
Semantic Web Document (SWD) adalah dokumen yang berisikan data-data semantik web dalam format RDF.berikut ini adalah rangkaian Arsitektur Swoogle
Swoogle terdiri dari bagian-bagian berikut:
  • Web Crawler, yang tugasnya menelusuri situs-situs yang ada atau terdaftar untuk menemukan SWD.
  • Metadata Generator, yaitu untuk membuat metadata dari SWD.
  • Database, yaitu sebagai tempat penyimpan metadata.
  • Semantic Relationship Extractor, yaitu mencari keterkaitan semantik dari SWD yang ada.
  • N-Gram Indexing and Retrieval Engine, yaitu perangkat pembuat indeks berdasarkan N-Gram dan pencariannya kembali.
  • Query Interface, yaitu antarmuka untuk melakukan query terhadap sistem.
  • Web Service API, yaitu seperangkat antarmuka untuk keperluan pemrograman.
N-Gram adalah segmen teks yang terdiri dari n-karakter, termasuk pemisah antar kata (biasanya berupa spasi atau tanda baca). Pendekatan N-Gram yaitu dengan melakukan pergeseran bingkai (sliding window) dan mengambil contoh tiap-tiap pergeseran karakter. Penggunaan N-Gram dapat menghasilkan kamus yang lebih besar, karena tiap-tiap kata dapat mengandung sejumlah N-Gram. Satu keuntungan dari pendekatan ini adalah hubungan antar-kata dapat dijaga, yang biasanya tidak tercakup bila dilakukan pendekatan per kata.
Penggunaan N-Gram semakin penting terutama untuk istilah-istilah yang berupa referensi URI (Uniform Resource Identifier), URIrefs. Misalnya kata kunci pencarian adalah “time temporal interval point before after during day month year eventually calendar clock durations end begin zone”, maka ini akan mencakup dokumen-dokumen dengan URIrefs berikut:
  • http://foo.com/timeont.owl#timeInterval
  • http://foo.com/timeont.owl#CalendarClockInterval
  • http://purl.org/upper/temporal/t13.owl#timeThing
Bila menggunakan pencocokan kata per kata, maka dokumen-dokumen tersebut akan luput dari pencarian. 

                                                Gambar 1: Arsitektur dari Swoogle
 
Dalam gambar di atas terlihat 4 komponen utama: pencarian SWD, pembuatan metadata, analisa data, dan antarmuka. Arsitektur ini bersifat data-centris dan dapat diperluas. Tiap-tiap komponen bekerja secara independen dan berinteraksi antara satu dengan lainnya melalui database.
  1. Pencarian SWD, yaitu menemukan SWD yang potensial melalui jaringan web, dan menjaga informasi tentang SWD tersebut agar selalu terkini (up-to-date). Terdapat 4 mekanisme penentuan lokasi situs, yaitu (i) URL yang dikirim, (ii) Menelusuri web untuk menemukan situs-situs yang menjanjikan, (iii) Menelusuri web dari URL yang didapatkan dari mesin pencari (seperti Google), dan (iv) Melalui SwoogleBot yang memeriksa dan menganalisa SWD untuk menghasilkan kandidat baru.
  2. Pembuatan metadata, yaitu menyimpan gambaran dari suatu SWD dan membangkitkan metadata yang obyektif baik pada tingkat sintaks maupun semantik. Metadata yang dihasilkan tidak hanya karakterisasi dari masing-masing SWD, namun juga mencatat keterkaitan antar mereka.
  3. Analisa data, yaitu melakukan analisa dari metadata dan SWD yang ada dan menghasilkan laporan yang bersifat analitik, misalnya penggolongan dari SWD, mekanisme peringkat dari SWD, dan membuat indeks.
  4. Antarmuka, yaitu menyediakan layanan pencarian data bagi tiap agen (baik manusia ataupun perangkat lunak), melakukan akses terhadap metadata dan menelusuri semantik web yang ada. Saat ini telah tersedia antarmuka web di http://www.Swoogle.org, dan sedang dikerjakan antarmuka untuk agen perangkat lunak.
Saat ini Swoogle dapat digunakan secara online di http://Swoogle.umbc.edu/. Pengguna dapat memasukkan kata kunci yang ingin dicari untuk kemudian SWD yang sesuai akan ditampilkan menurut peringkat. Disediakan pula pencarian mode lanjut (advanced) sehingga user dapat memasukkan sejumlah batasan yang akan ditambahkan ke dalam SQL query untuk database.
Dikembangkan pula Swoogle2 yang memiliki 3 komponen utama: pencarian, kamus ontologi, dan pengukuran statistik dari koleksi SWD yang ada. 


                                                 Gambar 3: Tampilan situs Swoogle