پرسیکا پیکرهای است حاوی متون خبری برگرفته از خبرگزاری ایسنا. متون این پیکره در یازده طبقه موضوعی شامل ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی، بهداشت طبقهبندی شدهاند و پیشپردازشهایی به منظور قابل استفاده بودن در کاربردهای مختلف پردازش زبان طبیعی و دادهکاوی بر روی آنها انجام گرفته است.
–
– استفاده از این داده برای اهداف غیر تجاری آزاد است.
– Eghbalzadeh, H., Hosseini, B., Khadivi, S., & Khodabakhsh, A. (2012, November). Persica: A Persian corpus for multi-purpose text mining and Natural language processing. In Telecommunications (IST), 2012 Sixth International Symposium on (pp. 1207-1214). IEEE. (دریافت)
–
متنکاوی، طبقهبندی متون، پردازش زبان طبیعی، زبانشناسی رایانشی