پیکره حاضر که با هدف ارزیابی سامانههای تقلبیاب تهیه شده است مشتمل بر بیش از ۱۵۰۰ سند فارسی از ویکیپدیا است که ۴۱۱ نمونه تقلب در آنها گنجانده شده است. در قسمتهای حاوی تقلب فرایندهایی چون جابجایی کلمات، حذف و اضافه نمودن کلمات و جایگزین نمودن کلمات با کلمات هممعنا اعمال شده است.
پژوهشکده فناوری اطلاعات و ارتباطات جهاد دانشگاهی
– استفاده از این مجموعه برای اهداف پژوهشی آزاد است.
Khoshnavataher, K., Zarrabi, V., Mohtaj, S., & Asghari, H. (2015). Developing Monolingual Persian Corpus for Extrinsic Plagiarism Detection Using Artificial Obfuscation. In the 13th evaluation lab on uncovering plagiarism, authorship, and social software misuse (PAN15) (دریافت)