Pemilihan Parameter Terbaik pada Algoritma Winnowing dalam Mendeteksi Tingkat Kesamaan Dokumen Bahasa Indonesia

Wahyu Hidayat, Ema Utami, Anggit Dwi Hartanto

Abstract


Pengidentifikasian terkait plagiarisme terhadap dokumen berbahasa Indonesia telah dilakukan di penelitian terkait, untuk pendeteksi tingkat kesamaan dokumen. Dalam penelitian tersebut telah digunakan algoritma pendeteksi kesamaan dokumen dengan metode fingerprint sseperti Algoritma Winnowing. Algoritma Winnowing memiliki perbedaan pada penggunaan parameter seperti ada yang menggunakan k-gram dan n-gram. Dari perbedaan parameter tersebut dilakukan penelitian performa dari perbandingan penggunaan parameter yang berbeda pada pemotongan string pada tahap algoritma Winnowing sehingga dapat diketahui parameter yang mempunyai tingkat performa yang paling baik. Hasil penelitian pada k-gram memiliki tingkat nilai similarity yang tinggi namun ketika nilai jumlah k semakin besar akan mengurangi tingkat nilai similarit dengan rata-rata hasil pada k = 2 sebesar 0.5299, k = 3 sebesar 0.1689, k = 5 sebesar 0.0283 dan k = 7 sebesar 0.0095. Penerapan pemotongan string n-gram pada unigram memiliki rata-rata tingkat similarity sebesar 0.0683, bigram 0.003, pada trigram dan four-gram sebesar 0.000. Pada perbandingan kecepatan pemrosesan waktu k-gram dan n-gram tidak terlihat perbedaan yang signifikan dan keduanya mendominasi selama 6 detik.
Kata Kunci—Algoritma Winnowing, Jaccard Similarity, Fingerprint, K-gram, N-gram

Identification related to plagiarism of Indonesian language documents has been carried out in related research, such as for the purpose of detecting the level of similarity documents. In this research, algorithm similarity detection algorithms have been used, especially with the fingerprint method wich Winnowing algorithm. Winnowing algorithm using parameters such as those using k-gram and n-gram. From these different parameters, a study of the performance of the comparison the use of different parameters in the string cutting at the Winnowing algorithm stage can be found out which parameter has the best level of performance. The results of research on k-gram have a high level of similarity value, but when the value of the number of k gets bigger it will reduce the level of similarity values with an average result at k = 2 of 0.5299, k = 3 of 0.1689, k = 5 of 0.0283 and k = 7 in the amount of 0.0095. The application of cutting n-gram strings on unigram has an average similarity level of 0.0683, bigram 0.003, on trigrams and four-grams of 0.000. In the comparison of the processing speed of k-gram and n-gram time, there was no significant difference, and both dominated for 6 seconds.
Keywords— Winnowing algorithm, Jaccard Similarity, Fingerprint, K-gram, N-gram


Full Text:

PDF

References


Sunardi., Yudhana, A., Mukaromah, I. A., 2018, Implementasi Deteksi Plagiarisme Menggunakan Metode N-Gram Dan Jaccard Similarity Terhadap Algoritma Winnowing, Jurnal Transmisi, No. 3, Vol. 20, Hal. 105

ALAMSYAH, N., 2017, Perbandingan Algoritma Winnowing Dengan Algoritma Rabin Karp Untuk Mendeteksi Plagiarisme Pada Kemiripan Teks Judul Skripsi, Technologia Jurnal Ilmiah, No. 3, Vol. 8, Hal. 124

Harjanta, J., Tri, A., 2015, Preprocessing Text untuk Meminimalisir Kata yang Tidak Berarti dalam Proses Text Mining, Jurnal Informatika Upgris, No. 1, Vol. 1

Hariri, F. R., Utami, E., Amborowati, A., 2015, Learning Vector Quantization untuk Klasifikasi Abstrak Tesis, Citec Journal, No. 2, Vol. 2.

Hariri, F. R., Pamungkas, D. P., 2016, Self Organizing Map-Neural Network untuk Pengelompokan Abstrak, Citec Journal, No. 2, Vol. 3

Wirayasa, I. P. M., Wirawan, I. M. A., Pradnyana, A., 2019, Algoritma Bastal: Adaptasi Algoritma Nazief & Adriani Untuk Stemming Teks Bahasa Bali, Jurnal Nasional Pendidikan Teknik Informatika (JANAPATI), No. 1, Vol. 8

Pamungkas, H. Y., Fitrianingsih., 2019, Deteksi Similaritas Dokumen Ilmiah Menggunakan Algoritma Rabin-Karp, Jurnal Ilmiah Informatika Komputer, No. 3, Vol. 24, Hal. 209–219

Negoro, W. A., Amalia, F., Santoso, E., 2019, Pengembangan Aplikasi Resep Masakan dengan Rekomendasi berdasarkan Bahan-Bahan Makanan Berbasis Web, Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer No. 9, Vol. 3, Hal. 9212–9221

Khidfi, M. N., Isnawaty., Sari, J. Y., 2018, Rancang bangun aplikasi pendeteksian kesamaan pada dokumen teks menggunakan algoritma Enhaced Confix Stripping dan Algoritma Winnowing, SemanTIK Univ Haluoelo, No. 2, Vol. 4, no. 2, Hal. 1–10

Sukmana, A., Kusrini., Sunyoto, A., 2018, Perbandingan Pengunaan Stemming Pada Deteksi Kemiripan Dokumen Menggunakan Metode Rabin Karp Dan Jaccard Similarity, Seminar Nasional Teknologi Informasi dan Multimedia 2018, Yogyakarta, 2 Februari

Maskur., Putra, D. Q., Hayatin, N., 2019, Deteksi Kemiripan Dokumen Proposal Penelitian Dan Pengabdian Menggunakan Algoritma Biword Winnowing, Jurnal Informatika Polinema, No. 3, Vol. 6, Hal. 43–48

Faisal, M., Nugroho, F., El Sulthan, M. M., Amini, F., Hariyadi, M. A., Sedayu, A., 2020, Plagiarism detection using manber and winnowing algorithm, International Journal of Advanced Science and Technology, No. 6, Vol. 29 Special Issue, Hal. 2130–2136.

Jarwati., Prihandoko, A. C., Yulia R, W. E., 2017, Penerapan Algoritma Winnowing pada Sistem Rekomendasi Penetuan Dosen Pembimbing Skripsi (Studi Kasus: Prodi Sistem Informasi Universitas Jember Jember), Berkala SAINSTEK Jurnal, No. 1, Vol. 5, Hal. 11–20.

Wibowo, R. K., Hastuti, K., 2016, Penerapan Algoritma Winnowing Untuk Mendeteksi Kemiripan Teks pada Tugas Akhir Mahasiswa, Techno.com, No. 4, vol. 15, Hal. 303–311.

Ilham., Pasnur., 2017, Penerapan Algoritma Winnowing Untuk Mendeteksi Kemiripan Pada Karya Tulis Mahasiswa, Jurnal Teknologi Informasi dan Komunikasi, No. 2, Vol. 7, Hal. 131–136

Prasidhatama, A., Suryaningrum, K. M., 2018, Perbandingan Algoritma Nazief & Adriani Dengan Algoritma Idris Untuk Pencarian Kata Dasar, Jurnal Teknologi dan Manajemen Informatika, No. 1, Vol. 4, Hal. 1–4

Adriani, M., Asian, J., Nazief, B., Tahaghoghi, S. M. M., Williams, H. E., 2007, Stemming Indonesian: A confix-stripping approach, ACM Transactions on Asian Language Information Processing, No. 4, Vol. 6.

Sanjaya, S., Absyar, E. A., 2015, Pengelompokan Dokumen Menggunakan Winnowing Fingerprint dengan Metode K-Nearest Neighbour, Jurnal CoreIT, No. 2, Vol. 1, Hal. 50–56

Hasanah, U., Mutiara, D. A., 2019, Perbandingan metode cosine similarity dan Jaccard Similarity untuk penilaian otomatis jawaban pendek, Seminar Nasional SENSITIf 2019, Makassar, 16 - 17 Desembe




DOI: https://doi.org/10.24076/citec.2020v7i2.256

Refbacks

  • There are currently no refbacks.


Indexed by:

 

Dedicated to:

 

Creative Information Technology Journal (CITEC Journal) is licensed under a Creative Commons Attribution 4.0 International License