Analisa Perbandingan Jenis N-GRAM Dalam Penentuan Similarity Pada Deteksi Plagiat

Zudha Pratama, Ema Utami, M. Rudyanto Arief

Abstract


Dampak.akses informasi yang mudah membuat tindakan plagiasi makin marak. Tindakan tersebut dapat dicegah dengan menggunakan sistem deteksi plagiat. Sistem tersebut dapat dibangun dengan menggunakan konsep similarity dengan algoritma rabin-karp sebagai string matchingnya dan n-gram sebagai metode parsingnya. Penelitian terdahulu menggunakan kedua algoritma tersebut menunjukkan hasil sistem yang cukup baik untuk deteksi plagiat. Kemudian hasil penelitian dari luar negeri ada yang melakukan hal serupa mengenai deteksi plagiat serta menghasilkan penemuan baru misalnya cross-language similarity. Selain itu ada temuan faktafakta baru mengenai deteksi plagiat dengan berbagai cara pengujian serta penggabungan berbagai metode yang sudah ada untuk perbaikan hasil deteksi. Sedangkan tujuan kami pada penelitian ini adalah membandingkan metode parsing untuk mengetahui metode parsing yang mana yang dapat memberikan hasil paling cepat dan masih dalam nilai akurasi yang wajar. Kami sebagai kontrol ukuran akurasi kami menggunakan plagiarism checker x free. Kami menggunakan aplikasi tersebut untuk menentukan akurasi instrumen uji kami menggunakan selisih similarity aplikasi ini dengan instrumen uji kami. Hasilnya kami menemukan fakta jika ngram word memiliki akurasi yang paling optimal dibanding n-gram yang lain dan masih relatif paling cepat dibanding lainnya.

Kata Kunci — perbandingan, ngram, similarity text, deteksi plagiat

 

The impact of easy information access makes plagiarism more and more prevalent. Such action can be prevented by using a plagiarism detection system. The system can be constructed using the concept of similarity with the rabin-karp algorithm as its matching string and n-gram as its parsing method. Earlier studies using both algorithms show good system results for plagiarism detection. Then the results of research from abroad have done the same about the detection of plagiarism and produce new inventions such as cross-language similarity. In addition, there are new facts about plagiarism detection by various testing methods and incorporating existing methods for improving the detection. While our goal in this study is to compare the method of parsing to find out which parsing method that can provide the fastest results and still in a reasonable accuracy value. We measure our accuracy as accurate using plagiarism checker x free. We use the application to determine the accuracy of our test instruments using the similarity difference of this application with our test instruments. We found that n-gram word has the most optimal accuracy compared to other n-grams and is still relatively fastest compared to others.

Keywords — comparison, ngram, similarity text, plagiarism detection


Full Text:

PDF

References


Nugroho, E., 2011, Perancangan Sistem Deteksi Plagiarisme Dokumen Teks Dengan Menggunakan Algoritma Rabin-Karp, Skripsi, Program Studi Ilmu Komputer, Universitas Brawijaya, Malang.

Novian, D., Abdillah, T., Tuloli, M. S., Yassin, R. M. T., Aplikasi Pendeteksian Plagiat Pada Karya Ilmiah Menggunakan Algoritma Rabin-Karp, Laporan Penelitian Pengembangan Fakultas Dan Keilmuan Dana BOPTN Tahun Anggaran 2012, Pengembangan Fakultas Dan Keilmuan, Universitas Negeri Gorontalo, Gorontalo.

Salmuasih, 2013, Perancangan Sistem Deteksi Plagiat pada Dokumen Teks dengan Konsep Similarity Menggunakan Algoritma Rabin-Karp, Skripsi, Jurusan Teknik Informatika, STMIK Amikom Yogyakarta, Yogyakarta.

Minaei, B., Niknam, M., 2016, An N-Gram Based Method For Nearly Copy Detection In Plagiarism Systems, Proceedings of the 8th annual meeting of the Forum for Information Retrieval Evaluation, Kolkata, India, 7-10 Desember 2016.

Ehsan, N., Tompa, F, W., Shakery, A., 2016, Using a Dictionary and n-gram Alignment to Improve Fine-grained Cross-Language Plagiarism Detection,Proceedings of the 2016 ACM Symposium on Document Engineering, Vienna, Austria, 13-16 September 2016.

Nguyen, L. T., Toan, N. X., Dien, D., 2016, Vietnamese plagiarism detection method. Proceedings of the Seventh Symposium on Information and Communication Technology, Ho Chi Minh City, Viet Nam, 8-9 Desember 2016.

Kuta, M., Kitowski, J., 2014, Optimisation of Character n-gram Profiles Method for Intrinsic Plagiarism Detection, Proceedings of 13th ICAISC: Artificial Intelligence and Soft Computing, Zakopane, Poland, 1-5 Juni 2016.

Bensalem, I., Rosso, P., Chikhi, S., 2014, Intrinsic Plagiarism Detection using N-gram Classes,Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar, 25-29 Oktober 2014.

Palkovskii, Y., Belov, A., 2014, Developing High-Resolution Universal Multi-Type NGram Plagiarism Detector. CLEF 2014: Conference and Labs of the Evaluation Forum Information Access Evaluation meets Ultilinguality, Multimodality, and Interaction, Sheffield, United Kingdom, 15-18 September 2014.

Sugianto, S. A., Liliana., Rostianingsih, S., 2013. Pembuatan Aplikasi Predictive Text Menggunakan Metode N-Gram-Based. Jurnal Infra Universitas Kristen Petra, Vol. 11, No. 2, Hal. 119-124.

Guthrie, D., Allison, B., Liu, W., Guthrie, L., Wilks, Y., 2006, A Closer Look at Skip-gram Modelling, https://homepages.inf.ed.ac.uk/ballison/pdf/lrec_skipgrams.pdf, didownload Sabtu, 13 Nopember 2017.

Atmopawiro, A., 2006, Pengkajian dan Analisis Tiga Algoritma Efisien RabinKarp, KnuthMorris-Pratt dan Boyer-Moore dalam Pencarian Pola dalam Suatu Teks, Skripsi, Program Studi Teknik Informatika, Institut Teknologi Bandung, Bandung.




DOI: https://doi.org/10.24076/citec.2017v4i4.118

Refbacks

  • There are currently no refbacks.


Indexed by:

 

Dedicated to:

 

Creative Information Technology Journal (CITEC Journal) is licensed under a Creative Commons Attribution 4.0 International License