Peningkatan Algoritma Porter Stemmer Bahasa Indonesia berdasarkan Metode Morfologi dengan Mengaplikasikan 2 Tingkat Morfologi dan Aturan Kombinasi Awalan dan Akhiran

Putu Bagus Susastra Wiguna, Bimo Sunarfri Hantono

Abstract


Abstract— Stemmer has been used in document processing like: information retrieval, question answering, spell checking, language translator, document clustering, document classification. Stemmer method based on word morphology has some lack such as: incorrect prefix removal on root words beginning with the letter “k”, “t”, “s” and “p”, Incorrect suffix removal especially for “-kan” and “-an” suffix. To handle these problems, this research proposes a stemmer that uses two level morphology to root word beginning with the letter “k”, “t”, “s”, “p” and use prefix and suffix combination rules to remove suffix on a word. Example: “di-” as the prefix should only be paired with “kan-” as the suffix and should not be paired with “-an” as the suffix. The experiments showed that the proposed stemmer accuracy was 95.5%, better than the earlier stemmer based on word morphology. The accuracy of earlier stemmer based on word morphology was 82.5%.

Intisari— Stemmer telah digunakan secara luas dalampengolahan dokumen elektronik seperti: sistem temu kembali informasi (information retrieval), question answering, pemeriksaan ejaan, mesin penerjemah, clustering dokumen, klasifikasi dokumen. Metode stemmer dengan menggunakan morfologi suatu kata memiliki beberapa kekurangan seperti tidak tepat menghilangkan awalan pada kata dasar yang berawalan huruf “k”, “t”, “s” dan “p” serta tidak tepat dalam menghilangkan akhiran terutama untuk akhiran “-kan” dan “-an.” Untuk menyelesaikan masalah ini, penelitian ini menawarkan penggunaan 2 tingkat morfologi pada kata dasar berawalan huruf “k”, “t”, “s” dan “p” serta menggunakan aturan kombinasi awalan dan akhiran untuk menghilangkan akhiran pada suatu kata seperti awalan “di-” hanya boleh dipasangkan dengan akhiran “-kan” dan tidak boleh dengan akhiran “-an” Hasil dari penelitian ini adalah stemmer yang memiliki tingkat akurasi 95,5%, lebih baik dibandingkan stemmer sebelumnya yang menggunakan algoritma berdasarkan morfologi suatu kata. Stemmer sebelumnya yang menggunakan algoritma berdasarkan morfologi suatu kata memiliki tingkat akurasi 82,5%.

Kata Kunci— Stemmer, 2 tingkat morfologi, kombinasi awalan dan akhiran


Full Text:

PDF

References


J. B. Lovins, Development of a stemming algorithm. MIT Information Processing Group, Electronic Systems Laboratory, 1968.

D. Jurafsky and J. H. Martin, “Knowledge in Speech and Language Processing,” in Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Second Edition., Pearson-Prentice Hall, 2000.

F. Z. Tala, “A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia.” Master of Logic Project Institute for Logic, Language and Computation Universiteit van Amsterdam The Netherlands, 2003.

D. O. Baskoro, H. Malik, and M. H. Anshari, “PORTER STEMMER INFORMATION RETRIEVAL.” Computer Science Gadjah Mada University, 2012.

A. Purwarianti, “A non deterministic Indonesian stemmer,” in Electrical Engineering and Informatics (ICEEI), 2011 International Conference on, 2011, pp. 1–5.

F. Pisceldo, R. Mahendra, R. Manurung, and I. W. Arka, “A two-level morphological analyser for the indonesian language,” in Australasian Language Technology Association Workshop 2008, 2008, vol. 6, pp.142–150.

K. Koskenniemi, Two-Level Morphology: A General Computational Model for Word-Form Recognition and Production. University of Helsinki Department of General Linguistik Hallituskatu 11-13 SF-00100 Helsinki 10 Finland, 1983.

C. Silva and B. Ribeiro, “The importance of stop word removal on recall values in text categorization,” in Neural Networks, 2003. Proceedings of the International Joint Conference on, 2003, vol. 3, pp. 1661–1666.




DOI: http://dx.doi.org/10.22146/jnteti.v2i2.49

Refbacks

  • There are currently no refbacks.


Copyright (c) 2016 Jurnal Nasional Teknik Elektro dan Teknologi Informasi (JNTETI)

JNTETI (Jurnal Nasional Teknik Elektro dan Teknologi Informasi)

Departemen Teknik Elektro dan Teknologi Informasi, Fakultas Teknik Universitas Gadjah Mada
Jl. Grafika No 2. Kampus UGM Yogyakarta 55281
+62 274 552305
jnteti@ugm.ac.id