Sistem Temu Kembali Informasi: September 2017

Makalah

Sistem Temu Kembali Informasi

Tokenisasi, Stopword Removal, dan Stemming

Oleh :

Alfun Adam 14.01.53.0109

Muhammad Gilang Budhi Laksana 16.01.63.0019

Kukuh Dwi Farizki 14.01.53.0131

Dosen Pengampu :

Dr.Drs. Eri Zuliarso, M.Kom

FAKULTAS TEKNOLOGI INFORMASI

UNIVERSITAS STIKUBANK

SEMARANG

2017

KATA PENGANTAR

Dengan menyebut nama Allah SWT yang Maha Pengasih lagi Maha Panyayang, Kami panjatkan puja dan puji syukur atas kehadirat-Nya, yang telah melimpahkan rahmat, hidayah, dan inayah-Nya kepada kami, sehingga kami dapat menyelesaikan makalah ilmiah tentang Tokenisasi, Stopword Removal, dan Stemming.

Harapan kami semoga makalah ini dapat menambah pengetahuan dan pengalaman bagi para pembaca, Untuk ke depannya dapat memperbaiki bentuk maupun menambah isi makalah agar menjadi lebih baik lagi. Atas dukungan moral dan materil yang diberikan dalam penyusunan makalah ini, maka penulis mengucapkan banyak terima kasih kepada :

1. Dr.Drs. Eri Zuliarso, M.Kom. selaku Dosen Mata Kuliah Sistem Temu Kembali Informasi.

2. Serta semua pihak yang turut serta memberikan semangat dan motivasi.

Penulis menyadari bahwa makalah ini belumlah sempurna. Oleh karena itu, saran dan kritik yang membangun dari rekan-rekan sangat dibutuhkan untuk penyempurnaan makalah ini.

Semarang, September 2017

Penulis

ABSTRAK

Sistem Temu Kembali Informasi (Information retrieval) adalah ilmu yang digunakan untuk mencari informasi dalam suatu dokumen, mencari dokumen itu sendiri dan mencari metadata yang menggambarkan suatu dokumen. Sistem Temu Kembali Informasi membantu pencarian informasi dengan memberikan koleksi informasi yang sesuai dengan kebutuhan pengguna. Salah satu cara meningkatkan kemampuan sistem temu kembali informasi untuk meningkatkan jumlah dokumen jurnal yang diberikan kepada user adalah dengan menggunakan Tokenizing, Stopword Removal, dan Stemming. Dengan penerapan ini diharapkan adanya hasil temuan data yang lebih banyak, namun tetap relevan terhadap kata kunci yang dimasukkan.

Kata Kunci : Information retrieval, Tokenizing, Stopword Removal, dan Stemming.

BAB I

PENDAHULUAN

1.1       Latar Belakang

            Pencarian informasi berupa text dalam dunia  Internet sangat besar frekuensinya. Karena hampir semua informasi di dalam dunia internetdidominasi oleh data berbemtuk textatau data berupa dokomen. Oleh sebab itu maka metode-metode untuk menemukankembali text tersebut terus ditingkatkan, inilah latar belakang penelitian sebuah metode dalam menemukan kembali informasi atau  Information Retrieval(IR).
            IR adalah pencarian informasi dalam satu atau lebih dokumen, mencari dokumen-dokumen, atau mencari informasi dari database. Proses IR dimulai saat pengguna memasukan sebuah  query ke sistem.Query adalah pernyataan dari informasi yang dibutuhkan oleh pengguna. Kemudian dilakukan proses IR untuk mendapatkan informasi yang diinginkan dari query yang diberikan. IR adalah salah satu solusi dalam mempermudah menemukan kembali informasi ataupun pemrosesan informasi yang pada umumnya dokumen dan data yang berbasis text.

           Penerapan IR ini diharapkan dapat menghasilkan pencarian dokumen dengan lebih relevan dan akurat sesuai kategorinya. Serta untuk menghemat waktu dan mempercepat kinerja pencarian dokumen yang akan dicari sesuai dengan kata kunci yang telah dimasukkan.

1.2       Rumusan Masalah

  1. Apa yang dimaksud dengan Tokenisasi, Stopword Removal, dan Stemming?
2. Jenis-Jenis Sistem Temu Kembali Informasi?

BAB II

LANDASAN TEORI

2.1 Information Retrieval

Information Retrieval (IR) atau sering disebut “temu kembali informasi” adalah bagaimana menemukan suatu dokumen dari dokumen-dokumen tidak terstruktur yang memberikan informasi yang dibutuhkan dari koleksi dokumen yang sangat besar yang tersimpan dalam komputer (Manning et.al, 2008). Tujuan dari system IR adalah untuk memenuhi kebutuhan informasi user dengan me-retrieve semua dokumen yang mungkin relevan, pada waktu yang sama me-retrive sesedikit mungkin dokumen yang tidak relevan.

Model information retrieval adalah model yang digunakan untuk melakukan pencocokan antara term (kata) dari query dengan term-term dalam koleksi dokumen, model yang terdapat dalam information retrieval terbagi dalam 3 model besar yaitu (Pardede, et.al, 2013) :

a) Set-theoretic models, model merepresentasikan dokumen sebagai himpunan kata atau frase. Contoh model ini ialah Standard Boolean Model dan Extended Boolean Model.

b) Algebratic model, model merepresentasikan dokumen dan query sebagai vektor atau matriks similarity antara vektor dokumen dan vektor query yang direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialah Vector Space Model (VSM), Latent Semantic Indexing (LSI) dan Generalized Vector

Space Model (GVSM).

c) Probabilistic model, model memperlakukan proses pengembalian dokumen sebagai sebuah probabilistic inference. Contoh model ini ialah penerapan Teorema Bayes dalamProbabilistic Model. Information retrieval system menggunakan metode vector space model sebagai suatu system memiliki beberapa proses yang membangun system secara keseluruhan. Proses information retrieval system terdiri dari tokenizing, stopword (filtering), stemming, indexing (inverted index) dan term similarity (Amin, 2012).

Adapun tahap-tahap yang terjadi pada proses indexing, yaitu :

1. Tokenizing dokumen, yaitu proses mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter tanda baca yang terdapat padatoken. Hingga pada akhirnya yang diperoleh hanya kumpulan kata-kata darisuatu teks/dokumen.

2. Stopword removal dokumen, yaitu kata-kata yang sering muncul dalam dokumen namun artinya tidak deskriptif dan tidak memiliki keterkaitan dengantema tertentu. Pada bahasa Indonesia, stopword disebut juga sebagai kata yang tidak penting, misalnya “di”, “oleh”, “pada”, “sebuah”, “karena” danlain sebagainya.

3. Stemming dokumen, yaitu tahap penghilangan imbuhan sehingga didapatkan kata dasar dari term-term dokumen inputan.

4. Term Weighting, yaitu proses pembobotan pada setiap term (kata) yang ada didalam dokumen.

2.2 Text Preprocessing

Text Preprocessing adalah mempersiapkan teks menjadi data yang akan mengalami proses pengolahan pada tahapan berikutnya. Tujuan dilakukan pre-processing adalah memilih setiap kata dari dokumen dan merubahnya menjadi katadasar yang memiliki arti sempit dan proses teks mining akan memberikan hasilyang lebih memuaskan.

2.2.1 Filtering (Stopword)

Tahap filtering adalah proses pembuangan term yang tidak memiliki arti atau tidak relevan. Term yang diperoleh pada tahap tokenisasi dicek dalam suatu daftarstopword, jika term masuk dalam daftar stopword maka term tidak akan diproses lebih lanjut, tapi jika term tidak termasuk dalam daftar stopword maka term akan diproses lebih lanjut. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya.

2.2.2 Tokenisasi

Pada tahap ini proses yang dilakukanya itu pemotongan string kalimat kalimat hasil filtering.

Gambar 2.1 Hasil Tokenisasi

2.2.3 Stemming

Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasikan kata-kata yang terdapat dalam suatu dokumen ke kata-kataakarnya (root word) dengan menggunakan aturan-aturan tertentu. Sebagai contoh, kata bersama, kebersamaan, menyamai, akan distem ke root wordnya yaitu “sama”.

Gambar 2.2 Hasil Stemming

2.3 Jenis-Jenis Sistem Temu Kembali Informasi

Menurut Chowdhury (1999) Sistem temu-kembali informasi pada dasarnya dibagi menjadi 2 jenis : Sistem temu-kembali informasi yang sifatnya lokal dan Sistem temu-kembali informasi yang sifatnya global.
Sistem temu kembali informasi dibagi menjadi dua kategori besar, yaitu:

1. Sistem temu-kembali informasi in house, yaitu Sistem temu-kembali informasi dibangun oleh perpustakaan atau pusat informasi tertentu untuk melayani terutama para pemakai dalam organisasi tersebut. Salah satu bentuk sistem temu kembali informasi in house adalah OPAC (Online Public Access Catalogue).

Sistem temu kembali informasi online, yaitu Sistem temu kembali informasi didesain untuk memberikan akses ke remote database kepada berbagai user. Sistem online ini menghubungkan para pemakai pada berbagai tempat melalui jaringan komunikasi elektronik. Bentuk yang paling populer dari sistem temu kembali informasi online adalah CD-ROM dan internet.

BAB III

SIMPULAN

Sistem Temu Kembali Informasi atau bisa disebut juga Information Retrievaldigunakan untuk menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis. Selain ituInformation retrieval juga bisa didefinisikan sebagai ilmu pencarian informasi pada dokumen, bisa berupa pencarian untuk dokumen itu sendiri, untuk menjelaskan dokumen, atau mencari di dalam database yang terdapat pada network seperti internet atau World Wide Web, untuk teks, suara, gambar, atau data.

DAFTAR PUSTAKA

Amin, Fatkhul. 2012. Sistem Temu Kembali Informasi dengan Metode Vector Space Model. Fakultas

Teknologi Informasi, Universitas Stikubank, Semarang.

Yanis, Evri. Tinjauan Implementasi Information Retrieval Untuk Pencarian Dokumen Menggunakan

Vector Space Model. Jurusan Teknik Informatika, Universitas Muhammadiyah, Riau, Pekanbaru.

http://sistemtemukembali.blogspot.co.id/

Sistem Temu Kembali Informasi

Rabu, 27 September 2017

Makalah Sistem Temu Kembali Informasi Tokenisasi, Stopword Removal, dan Stemming

Makalah Sistem Temu Kembali Informasi Tokenisasi, Stopword Removal, dan Stemming

Laporkan Penyalahgunaan