Makalah
Sistem Temu Kembali Informasi
Tokenisasi, Stopword Removal, dan Stemming
Oleh :
Alfun Adam
14.01.53.0109
Muhammad
Gilang Budhi Laksana 16.01.63.0019
Kukuh
Dwi Farizki 14.01.53.0131
Dosen
Pengampu :
Dr.Drs. Eri Zuliarso,
M.Kom
FAKULTAS TEKNOLOGI INFORMASI
UNIVERSITAS STIKUBANK
SEMARANG
2017
Penulis
1.1 Latar Belakang
Pencarian informasi berupa text dalam dunia Internet sangat besar frekuensinya. Karena hampir semua informasi di dalam dunia internetdidominasi oleh data berbemtuk textatau data berupa dokomen. Oleh sebab itu maka metode-metode untuk menemukankembali text tersebut terus ditingkatkan, inilah latar belakang penelitian sebuah metode dalam menemukan kembali informasi atau Information Retrieval(IR).
IR adalah pencarian informasi dalam satu atau lebih dokumen, mencari dokumen-dokumen, atau mencari informasi dari database. Proses IR dimulai saat pengguna memasukan sebuah query ke sistem.Query adalah pernyataan dari informasi yang dibutuhkan oleh pengguna. Kemudian dilakukan proses IR untuk mendapatkan informasi yang diinginkan dari query yang diberikan. IR adalah salah satu solusi dalam mempermudah menemukan kembali informasi ataupun pemrosesan informasi yang pada umumnya dokumen dan data yang berbasis text.
Penerapan IR ini diharapkan dapat menghasilkan pencarian dokumen dengan lebih relevan dan akurat sesuai kategorinya. Serta untuk menghemat waktu dan mempercepat kinerja pencarian dokumen yang akan dicari sesuai dengan kata kunci yang telah dimasukkan.
1.2 Rumusan Masalah
1. Apa yang dimaksud dengan Tokenisasi, Stopword Removal, dan Stemming?
2. Jenis-Jenis Sistem Temu Kembali Informasi?
Adapun tahap-tahap yang terjadi pada proses indexing, yaitu :
Sistem temu kembali informasi dibagi menjadi dua kategori besar, yaitu:
KATA PENGANTAR
Dengan
menyebut nama Allah SWT yang Maha Pengasih lagi Maha Panyayang, Kami panjatkan
puja dan puji syukur atas kehadirat-Nya, yang telah melimpahkan rahmat,
hidayah, dan inayah-Nya kepada kami, sehingga kami dapat menyelesaikan makalah
ilmiah tentang Tokenisasi, Stopword Removal, dan Stemming.
Harapan kami
semoga makalah ini dapat menambah pengetahuan dan pengalaman bagi para pembaca,
Untuk ke depannya dapat memperbaiki bentuk maupun menambah isi makalah agar
menjadi lebih baik lagi. Atas dukungan moral dan materil yang diberikan dalam
penyusunan makalah ini, maka penulis mengucapkan banyak terima kasih kepada :
1.
Dr.Drs. Eri Zuliarso,
M.Kom. selaku Dosen Mata Kuliah Sistem Temu Kembali Informasi.
2.
Serta semua pihak yang
turut serta memberikan semangat dan motivasi.
Penulis menyadari bahwa
makalah ini belumlah sempurna. Oleh karena itu, saran dan kritik yang membangun
dari rekan-rekan sangat dibutuhkan untuk penyempurnaan makalah ini.
Semarang, September 2017
ABSTRAK
Sistem Temu
Kembali Informasi (Information retrieval) adalah ilmu yang digunakan
untuk mencari informasi dalam suatu dokumen, mencari dokumen itu sendiri dan
mencari metadata yang menggambarkan suatu dokumen. Sistem Temu Kembali
Informasi membantu pencarian informasi dengan memberikan koleksi informasi yang
sesuai dengan kebutuhan pengguna. Salah satu cara meningkatkan kemampuan sistem
temu kembali informasi untuk meningkatkan jumlah dokumen jurnal yang diberikan
kepada user adalah dengan menggunakan Tokenizing, Stopword Removal, dan
Stemming. Dengan penerapan ini diharapkan adanya hasil temuan data
yang lebih banyak, namun tetap relevan terhadap kata kunci yang dimasukkan.
Kata Kunci : Information retrieval, Tokenizing,
Stopword Removal, dan Stemming.
BAB I
PENDAHULUAN
1.1 Latar Belakang
Pencarian informasi berupa text dalam dunia Internet sangat besar frekuensinya. Karena hampir semua informasi di dalam dunia internetdidominasi oleh data berbemtuk textatau data berupa dokomen. Oleh sebab itu maka metode-metode untuk menemukankembali text tersebut terus ditingkatkan, inilah latar belakang penelitian sebuah metode dalam menemukan kembali informasi atau Information Retrieval(IR).
IR adalah pencarian informasi dalam satu atau lebih dokumen, mencari dokumen-dokumen, atau mencari informasi dari database. Proses IR dimulai saat pengguna memasukan sebuah query ke sistem.Query adalah pernyataan dari informasi yang dibutuhkan oleh pengguna. Kemudian dilakukan proses IR untuk mendapatkan informasi yang diinginkan dari query yang diberikan. IR adalah salah satu solusi dalam mempermudah menemukan kembali informasi ataupun pemrosesan informasi yang pada umumnya dokumen dan data yang berbasis text.
Penerapan IR ini diharapkan dapat menghasilkan pencarian dokumen dengan lebih relevan dan akurat sesuai kategorinya. Serta untuk menghemat waktu dan mempercepat kinerja pencarian dokumen yang akan dicari sesuai dengan kata kunci yang telah dimasukkan.
1.2 Rumusan Masalah
1. Apa yang dimaksud dengan Tokenisasi, Stopword Removal, dan Stemming?
2. Jenis-Jenis Sistem Temu Kembali Informasi?
BAB II
LANDASAN TEORI
2.1 Information
Retrieval
Information Retrieval (IR) atau sering disebut “temu kembali
informasi” adalah bagaimana menemukan suatu dokumen dari dokumen-dokumen tidak
terstruktur yang memberikan informasi yang dibutuhkan dari koleksi dokumen yang
sangat besar yang tersimpan dalam komputer (Manning et.al, 2008). Tujuan
dari system IR adalah untuk memenuhi kebutuhan informasi user
dengan me-retrieve semua dokumen yang mungkin relevan, pada waktu
yang sama me-retrive sesedikit mungkin dokumen yang tidak relevan.
Model information retrieval adalah
model yang digunakan untuk melakukan pencocokan antara term (kata) dari query dengan term-term dalam
koleksi dokumen, model yang terdapat dalam information retrieval terbagi
dalam 3 model besar yaitu (Pardede, et.al, 2013) :
a) Set-theoretic models, model merepresentasikan
dokumen sebagai himpunan kata atau frase. Contoh model ini ialah Standard
Boolean Model dan Extended Boolean Model.
b) Algebratic model, model merepresentasikan dokumen
dan query sebagai vektor atau matriks similarity antara
vektor dokumen dan vektor query yang direpresentasikan sebagai
sebuah nilai skalar. Contoh model ini ialah Vector Space Model (VSM), Latent
Semantic Indexing (LSI) dan Generalized Vector
Space Model (GVSM).
c) Probabilistic model, model memperlakukan proses
pengembalian dokumen sebagai sebuah probabilistic inference. Contoh
model ini ialah penerapan Teorema Bayes dalamProbabilistic
Model. Information retrieval system menggunakan
metode vector space model sebagai suatu system memiliki
beberapa proses yang membangun system secara keseluruhan.
Proses information retrieval system terdiri dari tokenizing,
stopword (filtering), stemming, indexing (inverted index) dan term
similarity (Amin, 2012).
Adapun tahap-tahap yang terjadi pada proses indexing, yaitu :
1. Tokenizing dokumen, yaitu
proses mengubah dokumen
menjadi kumpulan term dengan cara
menghapus semua
karakter
tanda
baca yang terdapat padatoken. Hingga pada akhirnya yang diperoleh hanya
kumpulan kata-kata darisuatu teks/dokumen.
2. Stopword removal dokumen, yaitu kata-kata yang sering
muncul dalam
dokumen namun artinya tidak deskriptif dan tidak memiliki keterkaitan dengantema
tertentu. Pada
bahasa Indonesia, stopword disebut juga sebagai kata yang tidak penting, misalnya “di”, “oleh”, “pada”, “sebuah”, “karena” danlain sebagainya.
3. Stemming dokumen, yaitu tahap
penghilangan imbuhan sehingga didapatkan kata dasar
dari term-term dokumen inputan.
4. Term Weighting, yaitu proses
pembobotan pada setiap term (kata) yang ada didalam dokumen.
2.2
Text Preprocessing
Text Preprocessing adalah mempersiapkan
teks menjadi data yang akan
mengalami proses
pengolahan
pada tahapan berikutnya. Tujuan dilakukan pre-processing adalah memilih
setiap kata dari dokumen dan merubahnya menjadi katadasar yang memiliki arti sempit dan
proses teks mining akan memberikan hasilyang lebih memuaskan.
2.2.1 Filtering (Stopword)
Tahap filtering adalah
proses pembuangan term yang tidak memiliki arti atau tidak relevan. Term
yang diperoleh pada tahap tokenisasi dicek dalam suatu daftarstopword,
jika term masuk dalam daftar stopword maka term tidak akan
diproses lebih lanjut, tapi jika term tidak termasuk dalam daftar stopword maka
term akan diproses lebih lanjut. Contoh stopwords adalah “yang”,
“dan”, “di”, “dari” dan seterusnya.
2.2.2 Tokenisasi
Pada tahap ini proses yang dilakukanya itu pemotongan string kalimat kalimat
hasil filtering.
Gambar 2.1 Hasil
Tokenisasi
2.2.3 Stemming
Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasikan kata-kata yang terdapat dalam suatu dokumen ke kata-kataakarnya (root word) dengan menggunakan aturan-aturan tertentu. Sebagai contoh, kata bersama, kebersamaan, menyamai, akan distem ke root wordnya yaitu “sama”.
Gambar 2.2 Hasil Stemming
2.3 Jenis-Jenis
Sistem Temu Kembali Informasi
Menurut
Chowdhury (1999) Sistem temu-kembali informasi pada
dasarnya dibagi menjadi 2 jenis : Sistem temu-kembali informasi
yang sifatnya lokal dan Sistem temu-kembali informasi yang sifatnya
global.Sistem temu kembali informasi dibagi menjadi dua kategori besar, yaitu:
1.
Sistem temu-kembali
informasi in house, yaitu Sistem temu-kembali informasi dibangun oleh
perpustakaan atau pusat informasi tertentu untuk melayani terutama para pemakai
dalam organisasi tersebut. Salah satu bentuk sistem temu kembali informasi in
house adalah OPAC (Online Public Access Catalogue).
Sistem temu kembali
informasi online, yaitu Sistem temu kembali informasi didesain untuk memberikan
akses ke remote database kepada berbagai user. Sistem online ini menghubungkan
para pemakai pada berbagai tempat melalui jaringan komunikasi elektronik.
Bentuk yang paling populer dari sistem temu kembali informasi online adalah
CD-ROM dan internet.
BAB III
SIMPULAN
Sistem Temu Kembali
Informasi atau bisa disebut juga Information Retrievaldigunakan
untuk menemukan kembali informasi-informasi yang relevan terhadap kebutuhan
pengguna dari suatu kumpulan informasi secara otomatis. Selain ituInformation
retrieval juga bisa didefinisikan sebagai ilmu pencarian informasi
pada dokumen, bisa berupa pencarian untuk dokumen itu sendiri, untuk
menjelaskan dokumen, atau mencari di dalam database yang terdapat pada network
seperti internet atau World Wide Web, untuk teks, suara, gambar,
atau data.
DAFTAR PUSTAKA
Amin, Fatkhul. 2012. Sistem Temu Kembali
Informasi dengan Metode Vector Space Model. Fakultas
Teknologi Informasi, Universitas Stikubank, Semarang.
Yanis, Evri. Tinjauan Implementasi
Information Retrieval Untuk Pencarian Dokumen Menggunakan
Vector Space Model. Jurusan Teknik Informatika, Universitas Muhammadiyah, Riau,
Pekanbaru.
http://sistemtemukembali.blogspot.co.id/


