Stemming Kata Berimbuhan Tidak Baku Bahasa Indonesia Menggunakan Algoritma Jaro-Winkler Distance

Mudawil Qulub, Ema Utami, Andi Sunyoto

Abstract


Bahasa merupakan media untuk mengekspresikan keinginan, gagasan, dan perasaan. Dalam kaitannya dengan bahasa indonesia, bahasa dapat mencerminkan prilaku dalam sebuah masyarakat. Bahasa indonesia dapat digunakan secara formal maupun non-formal. Bahasa non-formal berbentuk kata tidak baku yang biasanya digunakan dalam komentar atau posting dalam media sosial. Salah satu contoh kata tidak baku adalah “nemenin” yang kata formalnya “menemani” dan kata dasarnya adalah “teman”. Dalam penelitian ini akan dilakukan pengujian akurasi algoritma Jaro-Winkler distance dalam mengubah kata imbuhan tidak baku menjadi bentuk dasarnya, proses ini disebut dengan stemming. Penelitian ini menggunakan data sebanyak 60 kata berimbuhan tidak baku. Hasil pengujian menunjukkan tingkat akurasi algoritma Jaro-Winkler sebesar 85% atau 51 kata berhasil di-stemming (3 overstemming, 6 unstemming, 0 understemming).
Kata Kunci—Kata Imbuhan Tidak Baku, Stemming, Jaro-Winkler Distance

Language that represents the media to attract interest, regulate, and feel. In reversing it with Indonesian, language can reflect behavior in a society. Indonesian can be used formally or informally. Non-formal language in the form of non-formal words used in comments or posts on social media. One example of a non-formal word is "accompanying" the formal word "accompany" and the basic word is "friend". In this research, the Jaro-Winkler algorithm will be tested the distance in changing non-formal affix words into a form of interaction, this process is called stemming. This research uses data as many as 60 words that are not standardized. The test results show the level of testing of the Jaro-Winkler algorithm is 85% or 51 words successfully stemmed (3 overstemming, 6 unstemming, 0 understemming).
Keywords— Non-Formal Affix, Stemming, Jaro-Winkler Distance


Full Text:

PDF

References


Nursyamsi, 2016, Kesalahan Penulisan Kata Bahasa Indonesia, Jurnal Ilmiah Sains dan Teknologi, No. 2, Vol. 15.

Putra, R. B. S., Utami, E., Raharjo, S., 2018, Optimalisasi Stemming Kata Berimbuhan Tidak Baku Pada Bahasa Indonesia Dengan Levenshtein Distance, Jurnal. Pengemb. IT, No. 2, Vol. 03, Hal. 200–205.

Rizki, A. S., Tjahyanto, A., Trialih, R., 2019, Comparison of stemming algorithms on Indonesian text processing, TELKOMNIKA, No. 1, Vol. 17, Hal. 95–103.

Putra, R. B, S., Utami, E., 2018, Non-formal Affixed Word Stemming in Indonesian Language, ICOIACT 2018, Yogyakarta, 6-7 Maret.

Setiawan, R., Kurniawan, A., Budiharto, W., Kartowisastro, I. H., Prabowo, H., 2016, Flexible Affix Classification for Stemming Indonesian Language, 13th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON), Chiang Mai, 28 Juni-1 Juli.

Aulia, A., Khairani, D., Hakiem, N., 2017, Development of a Retrieval System for Al Hadith in Bahasa (Case Study: Hadith Bukhari), 5th International Conference on Cyber and IT Service Management (CITSM), Bali, 8-10 Agustus.

Khotimah, K., 2012, Analysis of Indonesia Affixes in English Words Found in Mobile Guide Edition, LANTERN Jurnal, No. 2, Vol. 1, 54-59.

Novantara, P., Pasruli, O., 2017, Implementasi Algoritma Jaro-Winkler Distance Untuk Sistem Pendeteksi Plagiarisme Pada Dokumen Skripsi, Jurnal Buffer Informatika, No 2, Vol. 3.

A. Kornain, F. Yansen, and Tinaliah, 2014, Penerapan Algoritma Jaro-Winkler Distance untuk Sistem Pendeteksi Plagiarisme pada Dokumen Teks Berbahasa Indonesia, SPHP-ILKOM, pp. 1–9.

A. P. Sari, R. Saptono, and E. Suryani, 2018, The Implementation of Jaro-Winkler Distance and Naive Bayes Classifier for Identification System of Pests and Diseases on Paddy, vol. 7, no. 1, hal 1–7.

A. Prasetyo, W. M. Baihaqi, and I. S. Had, 2018, Algoritma Jaro-Winkler Distance: Fitur Autocorrect dan Spelling Suggestion Pada Penulisan Naskah Bahasa Indonesia di BMS TV, Jurnal Teknologi Informasi dan Ilmu Komputer, vol. 5, hal 435–444.




DOI: https://doi.org/10.24076/citec.2018v5i4.218

Refbacks

  • There are currently no refbacks.


Indexed by:

 

Dedicated to:

 

Creative Information Technology Journal (CITEC Journal) is licensed under a Creative Commons Attribution 4.0 International License