Membantu Mengerjakan Tesis dan Disertasi

IMPLEMENTASI SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU DI PERPUSTAKAAN DAERAH BANDUNG PROVINSI JAWA BARAT

Nelly Indriani Widiastuti, Riki Hidayat

Teknik Informatika UNIKOM, Jl. Dipati Ukur no. 102-116 Bandung

E-Mail: indiwidi@gmail.com, riki.hidayat.91@gmail.com

Abstrak

Badan Perpustakaan dan Kearsipan Daerah (BAPUSIPDA) adalah lembaga

perpustakaan daerah ditingkat Provinsi Jawa Barat. Untuk memperoleh informasi buku

yang diperlukan, pengunjung perpustakaan harus mengetahui identitas buku tersebut.

Berdasarkan permasalahan tersebut perlu dikembangkan sistem pencarian informasi buku yang dapat menemukan informasi buku sesuai dengan kebutuhan pengunjung secara dinamis. Sistem tidak hanya terpaku kepada identitas buku seperti judul, pengarang, penerbit, dan lain-lain, melainkan gambaran kebutuhan pengunjung terhadap buku. Selain itu, pengunjung juga dapat menentukan relevan atau tidaknya informasi buku sebagai feedback untuk sistem agar sistem bisa menemukan informasi buku yang lebih relevan menurut pengunjung. Sistem ini dibangun dengan mengimplementasikan metode vector space model dan support vector machines.

Hasil penelitian dapat disimpulkan bahwa sistem pencarian informasi buku dapat mempermudah pengunjung untuk mencari informasi buku yang dibutuhkan.

Kata kunci : sistem pencarian informasi buku, vector space model, support vector machines

Abstract

Badan Perpustakaan dan Kearsipan Daerah (BAPUSIPDA) is the local library level, West Java Province. To obtain the necessary information books, library patrons visitors have to know the identity of the book.

Based on these problems, books information retrieval systems must be developed that can find information about the books that fit the needs of visitors dynamically. System, not only identity of the book such as title, author, publisher, etc., but the picture of the needs of visitors to the book. In addition, visitors can also determine whether or not the information relevant to the user as a feedback to the system so that the system can find the book more relevant information by visitors. The system is built by implementing methods of vector space model and support vector machines.

The research concluded that information retrieval systems to facilitate visitor books to find the information needed books.

Keyword : books Information Retrieval System, vector space model, support vector machines

PENDAHULUAN

Perpustakaan adalah salah satu tempat untuk memperoleh ilmu dengan cara yang sangat murah. Pengunjung hanya perlu mendaftarkan diri untuk dapat meminjam beberapa buku dengan nyaris tanpa biaya. Badan Perpustakaan dan Kearsipan Daerah (BAPUSIPDA) adalah perpustakaan daerah Bandung JawaBarat. Saat ini jumlah buku di

perpustakaan daerah tersebut sudah mencapai kurang lebih 180.000 eksemplar per tanggal 18 April 2012. Meskipun demikian dari sekian banyaknya jumlah buku yang ada di perpustakaan tersebut tetap masih belum bisa memenuhi kebutuhan masyarakat.

Untuk memperoleh buku yang diperlukan seseorang dapat datang langsung ke perpustakaan. Tetapi berdasarkan hasil wawancara terhadap beberapa pengunjung perpustakaan dapat disimpulkan bahwa untuk

mencari informasi buku yang diinginkan, hanya sedikit pengunjung yang sudah mengetahui identitas buku (judul, pengarang, subjek, dan lain-lain). Kebanyakan pengunjung justru tidak mengetahui informasi yang cukup tentang identitas buku yang akan dicari melainkan hanya mengetahui gambaran akan kebutuhannya mengenai informasi yang dibutuhkan terhadap buku.

Sistem pencarian yang ada di perpustakaan tidak dapat memecahkan solusi untuk permasalahan yang sudah dipaparkan sebelumnya karena masukan terhadap sistem masih sangat spesifik yaitu judul dan penulis buku tersebut. Berdasarkan uraian masalah tersebut perlu dikembangkan sistem pencarian informasi buku yang dapat menemukan informasi buku sesuai dengan gambaran kebutuhan pengunjung yang dinamis.

Information Retrieval System (IRS)

Information Retrieval (IR) atau pencarian informasi dapat didefinisikan sebagai upaya untuk menemukan materi atau dokumen yang sifatnya tidak terstruktur (misalnya teks) yang memenuhi kebutuhan informasi dari jumlah data yang sangat besar dalam sebuah sistem. Salah satu pengertian IR menurut Bill Frakes dan Ricardo Yates[1] adalah "sub bidang dari ilmu komputer yang mempelajari tentang pengumpulan data dan temu kembali dokumen". Dalam perkembangan selanjutnya IR dikembangkan menjadi automated IR systems yang menangani temu kembali data secara otomatis dalam jumlah data yang besar.

Tujuan dari sistem IR adalah memenuhi kebutuhan informasi pengguna dengan me-retrieve semua dokumen yang mungkin relevan, pada waktu yang sama me-retrieve sesedikit mungkin dokumen yang tidak relevan. Sistem IR yang baik memungkinkan pengguna menentukan secara cepat dan akurat apakah isi dari dokumen yang diterima memenuhi kebutuhannya. Agar representasi dokumen lebih baik, dokumen-dokumen dengan topik atau isi yang mirip dikelompokkan bersama¬sama [2].

Keefektifan dari temu kembali informasi yang diinginkan tergantung pada dua hal mendasar yaitu perilaku pengguna dan logical view. Perilaku pengguna berhubungan

dengan kegiatan pengguna menentukan query yang sesuai dengan informasi yang diinginkan. Logical view adalah representasi dokumen dalam bentuk koleksi keseluruhan kata-kata yang dikandungnya. Efektifitas dengan logical view dimana sistem harus dapat mereduksi kata yang disimpan dan mentransformasi logical view dari full text menjadi bentuk indeks. Hal ini dilakukan dengan meng-eliminasi stoplist (kata-kata yang terlalu umum seperti kata sandang, kata sambung, kata ganti, dll) dan melakukan proses stemming (pengubahan bentuk imbuhan ke bentuk dasar). Lebih jauh lagi adalah penggunaan metode-metode kompresi teks.

Gambar 1. Arsitektur IRS[3]

Proses yang ada didalam IRS dapat dilihat pada Gambar 1. Secara umum proses IRS adalah preprocessing, indexing, searching dan ranking.

Vector Space Model (VSM)

VSM adalah model sistem temu balik informasi yang mengibaratkan masing¬masing query dan dokumen sebagai sebuah vektor n-dimensi. Tiap dimensi pada vektor tersebut diwakili oleh satu term. Term yang digunakan biasanya berpatokan kepada term yang ada pada query, sehingga term yang ada pada dokumen tetapi tidak ada pada query biasanya diabaikan.

Secara umum prosedur VSM dibagi menjadi tiga tahap [4].

1. Document indexing yaitu kumpulan

term yang telah diekstrak dari teks dokumen.

2. Weighting yaitu pembobotan dari term yang sudah di-indeks untuk meningkatkan kualitas pencarian.

3. Ranking document berdasarkan tingkat kemiripan antara query dengan dokumen.

Gambar 2. Vector Space Model[5]

Contoh dari model ruang vektor tiga dimensi untuk dua dokumen D1 dan D2, satu query pengguna Q1, dan tiga term T1, T2 dan T3 diperlihatkan pada gambar 2.

Support Vector Machines (SVM)

Rancangan dasar dari sistem IR dapat ditingkatkan untuk menaikkan presisi dan recall serta memperbaiki matriks term-document. Isu pertama sering diselesaikan

menggunakan mekanisme relevance

feedback. Beberapa term ditambahkan ke dalam query awal agar dapat menemukan dokumen yang lebih relevan. Relevance feedback dapat dikerjakan secara manual maupun otomatis. Pada pendekatan manual, pengguna mengidentifikasi dokumen yang relevan dan term baru dipilih secara manual atau otomatis. Pada pendekatan otomatis,

dokumen relevan diidentifikasi

menggunakan dokumen yang berada di rangking paling atas, kemudian term-term baru dipilih secara otomatis.

Takashi Onoda, dkk dalam

penelitiannya yang berjudul Relevance Feedback Document Retrieval using Support Vector Machines, telah berhasil melakukan peningkatan kualitas pencarian dengan memodifikasi vektor query.

Support Vector Machines (SVM) adalah suatu teknik yang relatif baru (1992) untuk melakukan prediksi, baik dalam kasus klasifikasi maupun regresi, yang sangat populer belakangan ini. SVM berada dalam satu kelas dengan Artificial Neural Network (ANN) dalam hal fungsi dan kondisi permasalahan yang bisa diselesaikan. Keduanya masuk dalam kelas supervised learning. SVM selalu mencapai solusi yang sama untuk setiap running. Dalam teknik

ini, SVM berusaha untuk menemukan hyperplane (pemisah/classifier) yang optimal yang bisa memisahkan dua set data dari dua kelas yang berbeda.

Dalam hal ini fungsi pemisah yang dicari adalah fungsi linier. Fungsi ini bisa didefinisikan sebagai g(x) := sgn(f(x)) dengan f(x) = wT x + b. Teknik SVM berusaha menemukan fungsi hyperplane terbaik diantara fungsi yang tidak terbatas jumlahnya untuk memisahkan dua macam obyek. Hyperplane terbaik adalah hyperplane yang terletak di tengah-tengah antara dua set obyek dari dua kelas. Mencari hyperplane terbaik ekuivalen dengan memaksimalkan margin atau jarak antara dua set objek dari kelas yang berbeda.

Untuk menentukan hyperplane-pendukung (supporting hyperplane) dari kelas +1 (wx1 + b = +1) digunakan rumus (1) dan rumus (2) untuk menentukan hyperplane-pendukung dari kelas -1(wx2 + b = -1)

wx1 + b = +1 (1)

wx2 + b = -1 (2)

Margin antara dua kelas dapat dihitung dengan mencari jarak antara kedua hyperplane-pendukung dari kedua kelas. Rumus (3) digunakan untuk menghitung margin.

(wx1 + b = +1) - (wx2 + b = -1) (3)

= w(x1 – x2 ) = 2

= W

(IIWII (x1 − x2)) = 2

IIWII

Gambar 3 memperlihatkan bagaimana SVM bekerja untuk menemukan suatu fungsi pemisah dengan margin yang maksimal. Dengan memperbesar margin bisa meningkatkan probabilitas pengelompokkan suatu data secara benar.

ANALISA KEBUTUHAN DATA

Sistem yang dikembangkan adalah sistem pencarian hanya jika data pencarian tersedia. Data pencarian adalah identitas buku, dalam penelitian ini data yang dibutuhkan berupa judul, pengarang dan deskripsi.

Gambar 3. Mencari Fungsi Pemisah Optimal yang dapat Memisahkan Data Secara Linear[6]

Berdasarkan hasil analisa beberapa golongan buku, maka diperoleh karakteristik teks dari data buku yang perlu diperhatikan adalah sebagai berikut :

a. Bahasa

Terdapat beragam bahasa yang digunakan dalam buku yang ada di perpustakaan. Pada penelitian ini data buku yang digunakan merupakan data buku dengan teks berbahasa Indonesia dan bahasa Inggris.

b. Deskripsi Buku

Untuk mendapatkan deskripsi buku, dapat dilihat dari cover belakang buku. Alternatif lain yang bisa dijadikan deskripsi buku yaitu kata pengantar atau

daftar isi dari data buku.

c. Jenis Kata

Terdapat beragam jenis kata yang ada data buku, yaitu :

1) kata sesuai EYD,

2) kata yang biasa digunakan sehari-hari,

3) kata berimbuhan,

4) kata dasar

ANALISA PROSES

Sistem dibagi menjadi dua proses penting, yaitu proses pencarian dan proses pengolahan data. Proses pencarian dapat digunakan oleh pengunjung untuk melakukan proses pencarian informasi buku dan lihat deskripsi dari buku itu sendiri. Proses pencarian dalam penelitian ini adalah proses pencarian dinamis, dimana pengguna juga dapat menentukan sesuai atau tidak nya query dengan informasi buku yang

ditampilkan dari hasil pencarian, setelah itu sistem akan mengklasifikasikan seluruh data buku yang terdapat dalam database kedalam kategori relevan dan tidak relevan. Data buku yang ditampilkan adalah data buku yang masuk dalam kategori relevan.

Proses pengolahan data, khusus digunakan oleh operator untuk melakukan proses pengolahan (tambah, ubah, lihat detail, cari, dan hapus) data buku, pengolahan (tambah dan ubah) data golongan, dan melakukan optimisasi pada sistem pencarian. Gambar 4. Berikut ini adalah gambaran dari aktivitas sistem pencarian informasi buku :

Pengunjung Sistem

Masukkan Mencari dan Memberi Peringkat Data

Buku Berdasarkan Ukuran Kemiripan

Query

Menampilkan Maksimal 10 Informasi

Buku dengan Ukuran Kemiripan Tertinggi

Cek Data Buku yang

Relevan

Mengklasifikasi Seluruh Data Buku

Berdasarkan Hasil Cek Pengunjung

Menampilkan Informasi Buku Hasil

Klasifikasi

Gambar 4. Aktivitas Pencarian Informasi Buku

Analisa Keyword

Keyword yang dimaksud dalam penelitian ini adalah data buku yang merupakan gabungan dari judul, pengarang dan deskripsi buku yang sudah mengalami proses tokenizing, filtering dan stemming. Metode stemming yang digunakan dalam penelitian ini adalah Nazief & Adriani. Setiap data buku mempunyai keyword-nya masing¬masing yang akan digunakan sebagai poros data untuk proses pencarian informasi buku. Gambar 5. adalah gambaran proses pembuatan keyword.

Setelah keyword diperoleh, selanjutnya adalah tahapan yang ada dalam VSM yaitu

1. Memberikan bobot pada keyword. Pembobotan adalah proses merubah

keyword dan query menjadi bentuk vektor.

2. Normalisasi

3. Mengukur kemiripan yang dilakukan suatu perhitungan untuk mendapatkan ukuran kemiripan antara dokumen dengan query.

4. Ukuran ini hasil pengukuran kemiripan digunakan untuk perankingan dokumen sesuai dengan kemiripan relevansinya terhadap query.

5. Terakhir, sejumlah maksimal 10

dokumen, ditampilkan kepada

pengunjung[7].

Operator Sistem

Masukan Data Buku

Cek Isi Data

[Ada Field Kosong]

[Tidak Ada Field

Kosong]

Simpan Data Buku

Tokenisasi dan Hapus

Stopword

" Stemming .

Simpan Keyword

Menampilkan Pesan

Konfirmasi

Gambar 5. Pembuatan Keyword

Analisa Pelatihan

Pada proses pelatihan SVM bertujuan untuk menemukan vektor α dan konstanta b. Dalam proses pelatihan dibutuhkan satu set input-output data atau dalam kasus ini dibutuhkan dokumen relevan dan dokumen tidak relevan dimana penilaian relevan atau tidaknya suatu dokumen ditentutkan oleh pengguna. Dokumen-dokumen relevan diberi label 1 dan dokumen yang tidak relevan diberi label -1.

Sebagai contoh kasus, digunakan dokumen-dokumen yang terdapat dalam contoh kasus VSM dan diasumsikan D1 dan D2 sebagai dokumen relevan menurut pengguna dan D3 sebagai dokumen tidak

relavan. Maka, satu set input-output data dalam pelatihan bisa dilihat di tabel 1.

Tahap selanjutnya yaitu melakukan

kernelisasi menggunakan fungsi

polynomial kernel pangkat 2 yang didefinisikan sebagai K(xi , xi ) = (xi + xi’+12 ).

Tabel 1. Data Latih

D1 D2 D3

x1 0,208 0 0,163

x2 0,564 0 0

x3 0,564 0 0

x4 0,564 0 0

x5 0 0,408 0

x6 0 0,408 0

x7 0 0,408 0

x8 0 0,408 0

x9 0 0,408 0

x10 0 0,408 0

x11 0 0 0,441

x12 0 0 0,441

x13 0 0 0,441

x14 0 0 0,441

x15 0 0 0,441

y 1 1 -1

Analisa Klasifikasi

Takashi Onoda, dkk[9], mengusulkan

penggunaan SVM sebagai

pengklasifikasian dokumen dengan tahap¬tahap berikut ini :

1. Inisialisasi Pencarian

Hasil pencarian ini diperoleh dari metode VSM dengan cara menampilkan N peringkat teratas dokumen yang memiliki kemiripan terhadap query.

2. Penilaian Dokumen oleh Pengguna Pengguna mengevaluasi N peringkat teratas dokumen dan mengklasifikasi dokumen tersebut ke dalam dokumen

relevan atau tidak relevan. Setelah

pengguna selesai mengevaluasi, relevan dokumen dan dokumen yang tidak relevan diberi label +1 dan -1.

3. Penentuan Optimal Hyper-plane

Optimal hyperplane untuk

mengklasifikasikan relevan dan tidak relevan suatu dokumen dihasilkan oleh metode SVM.

4. Diskriminasi Dokumen dan Pencarian Informasi

Dokumen yang diperoleh dari langkah 1 dipetakan ke dalam ruang fitur, SVM mengklasifikasikan dokumen-dokumen tersebut sebagai dokumen yang relevan

dan tidak relevan. Kemudian sistem akan memilih dokumen-dokumen berdasarkan jarak optimal hyperplane dan margin area.

5. Menampilkan Hasil Akhir dari Pencarian Dokumen yang didapat, di beri peringkat sesuai dengan jarak antara dokumen dengan fungsi pemisah hyperplane, dimana fungsi pemisah ini ditetapkan oleh SVM. Dokumen yang didapat di tampilkan berdasarkan peringkat.

ANALISA FUNGSIONAL

Mendefinisikan analisa kebutuhan fungsional dan operasional sistem dengan

mendefinisikan skenario penggunaan

aplikasi. Pada aplikasi ini yang akan bertindak sebagai aktor yaitu pengunjung dan operator. Operator berperan mengelola

seluruh konten perangkat lunak.

Pengunjung berperan dalam melakukan proses pencarian.

Analisis yang dilakukan dimodelkan dengan menggunakan UML (Unified Modeling Language). Tahap-tahap pemodelan dalam analisa tersebut antara lain identifikasi aktor, use case diagram, skenario usecase, activity diagram, sequence diagram dan class diagram. Dalam jurnal yang ditampilan hanya usecase dan activity diagram.

Gambar 6. Use Case Diagram Sistem Pencarian

Informasi Buku

Untuk memperlihatkan hubungan-hubungan yang terjadi antara aktor-aktor dengan usecase dalam sistem dapat dilihat pada gambar 6. Operator dalam usecase adalah petugas perpustakaan yang bertugas memperbarui data buku,

Proses yang terjadi dalam pencarian informasi dalam sistem ini dapat dilihat pada gambar 7.

Pengunjung Sistem

Masukan

Query Cek Query

[tidak kosong]

~ [kosong] i

Menampilkan Pesan Melakukan Proses

Kesalahan Tokenization dan Filtering

Melakukan Proses

Stemming

Hitung Bobot Query Baca Bobot Keyword

[Data Buku]

Hitung Similiarity /•A~

Menampilkan Pesan/

Data Tidak Ditemukan [Tidak Ditemukan]

[Ditemukan]

Menampilkan

Informasi Buku

Gambar 7. Pencarian Data Buku

Aktivitas pencarian data buku lebih lanjut pada gambar 8. Merupakan aktivitas pengunjung untuk menemukan informasi buku yang lebih relevan dengan cara memilih beberapa informasi buku hasil dari proses pencarian data buku yang relevan berdasarkan penilaian pengunjung.

Aktivitas Optimisasi pada gambar 9. merupakan aktivitas operator untuk menghitung bobot dan normalisasi data buku serta membuat data tes untuk setiap data buku. Tahapan-tahapan aktivitas yang dilakukan pada saat optimisasi adalah :

Gambar 9. Optimasi Sistem Pencarian

IMPLEMENTASI DAN PENGUJIAN

Perangkat keras yang digunakan pada saat mengimplementasikan perangkat lunak dari Sistem Pencarian Informasi Buku di Perpustakaan Daerah Provinsi Jawa Barat adalah sebagai berikut :

1. Processor Intel(R) Core i3 2.1 GHz,

2. RAM 3GB,

3. VGA ATI Radeon HD 530v,

4. Hard Disk 320GB,

5. Monitor 14”, dan

6. Modem berkecepatan 153Kbps.

Perangkat lunak yang digunakan saat mengembangkan Sistem Pencarian Informasi Buku di Perpustakaan Daerah Provinsi Jawa Barat adalah sebagai berikut :

1. Sistem operasi Windows 7 Professional,

2. Bahasa pemrograman PHP 5.3.0,

3. Database MySQL Server 5.0.37,

4. Browser Maxthon 3.4.2.2000,

5. Macromedia Dreamweaver CS5, dan

6. UML Modeler Power Designer 12.

File-file yang berhasil diimplementasikan terdiri dari file-file tabel yang dibuat denganSQL, file kelas metode dan file antarmuka.

Pengujian perangkat lunak Sistem Pencarian Informasi Buku di Perpustakaan ini menggunakan dua data uji yaitu data buku dan data golongan. Pengujian dilakukan dengan metode Black Box untuk menguji fungsi-fungsi yang dapat dilihat pengguna. Metode Whitebox untuk menguji proses yang ada dalam metode SVM.

Dari hasil pengujian proses

klasifikasi yang dilakukan, maka didapat kesimpulan bahwa seluruh node yang ada pada setiap independent path telah dikerjakan , serta tidak terjadi pengulangan tak terhingga.

Selain pengujian fungsional, respon pengguna juga diperlukan untuk mengetahui kepuasan pengguna terhadap sistem. Hasil dari pengujian beta dapat disimpulkan bahwa sistem pencarian informasi buku yang telah dibangun dapat membantu pengguna khususnya pengunjung perpustakaan untuk menemukan buku yang dibutuhkan, karena mudah untuk digunakan dan cukup cepat dalam proses pencarian.

DAFTAR PUSTAKA

[1] Frakes, William B and Yates, Ricardo Baeza. Information Retrieval: Data Structures and Algorithms. 2004.

[2] Murad, AzmiMA., Martin,

Trevor.2007.Word Similarity for

Document Grouping using Soft Computing. IJCSNS International

Journal of Computer Science and

Network Security, Vol.7 No.8, August 2007, pp.20-27.

[3] Onoda T, Murata H , and Yamada S , Relevance feedback with active learning for document retrieval, in Proc. of IJCNN2003, pp. 1757–1762, 2003.

[4] Larsen, Jan. 1998. Vector Space Model.http://cogsys.imm.dtu.dk/thor/proj ects/multimedia/textmining/node5.html. Diakses pada tanggal 4 Juni 2012.

[5] Cios, Krzysztof J. Etc. Data Mining a Knowledge Discovery Approach, Springer. 2007.

[6] Santosa. Budi. Tutorial Support Vector Machines. Institut Teknologi Sepuluh Nopember, Surabaya.

[7] D. Harris, S. Behzad, G. C. David. Relevance Feedback using Support Vector Machines. AT&T Research.

CI-007 (wahyu)

CI-008 (wahyu)

Membantu Mengerjakan Tesis dan Disertasi

Sabtu, 19 Juli 2014

Tidak ada komentar:

Posting Komentar