دادگان «مجموعه افعال تصریفشده فارسی» مجموعهایست که به گردآوری مصادر مختلف فارسی در پیکرههای بیجنخان، همشهری، تبکورپ و چند منبع دیگر پرداخته است. این مصادر در صیغههای مختلف صرف شدهاند و ویژگیهای مختلف آنها از جمله بن ماضی، بن مضارع، زمان، شخص، شمار، نمود و … برای هر صیغه و همینطور صورت واجنویسیشده و معادل انگلیسی برخی از مصادر نیز تعیین شده است. از این دادگان میتوان در مطالعات ساختواژی و نحوی زبانشناختی یا پردازشهای مختلف رایانهای از جمله تشخیص افعال مرکب، تعیین حدود جمله، تحلیلهای صرفی و نحوی و … استفاده کرد. تعداد کل مصادر در این مجموعه نزدیک به ۱۳۰۰ مصدر میباشد. این مجموعه دادگان در سه قالب xml، sql و csv ارائه شده است.
نویسندگان مقاله
– استفاده از این داده برای اهداف پژوهشی آزاد است.
– Khalifehsoltani, S. N., Cholmaghani, A., Vahdani, A., & Moallemi, R. (2010, April). Building a large Persian Verb Collection: A generative approach. In Computer Engineering and Technology (ICCET), 2010 2nd International Conference on (Vol. 7, pp. V7-687). IEEE.
زبانشناسی رایانهای، پردازش زبان طبیعی
– فهرست برخط: http://takvaj.ir/main/infinitive.php