پیکره پی.سی.ای.سی ۲۰۰۸ (PCAC-2008 Persian Coreferentially Annotated Corpus) مجموعهای است شامل ۳۱ متن برگرفته از پیکره بیجنخان که در آن نزدیکترین مرجع اسمی ۲۰۷۹ ضمیر مشخص شده است. دسترسی به اطلاعات مربوط به مرجع ضمیر در بسیاری از کاربردهای پردازش زبان طبیعی چون ترجمه ماشینی، پرسش و پاسخ خودکار و خلاصهسازی خودکار دارای اهمیت است.
نفیسه سادات موسوی، غلامرضا قاسم ثانی
استفاده از این داده برای اهداف پژوهشی آزاد است.
Nafiseh Sadat Moosavi and Gholamreza Ghassem-Sani (2009). A Ranking Approach to Persian Pronoun Resolution. Advances in Computational Linguistics. Research in Computing Science, 41, 169-180. (دریافت)
نفیسه سادات موسوی و غلامرضا قاسم ثانی (۱۳۸۷) بكارگیری دستهبندیكننده و رتبهبندیكننده آنتروپی بیشینه در فرایند تعیین مرجع ضمایر زبان فارسی. چهاردهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران، تهران. (دریافت)
– پیکره بیجنخان: http://dadegan.ir/catalog/bijankhan