پیکره واژگان فارسی دارای برچسب قطبیت که در آزمایشگاه سیستمهای هوشمند اطلاعات دانشگاه تهران از دو مجموعه داده تشکیل شده است:
۱. مجموعه استخراج شده از صفتهای برچسب خورده فارسی:
این مجموعه از روی مجموعه صفتهای زبان فارسی استخراج شده از فارسنت ساخته شده است. هر ورودی در این مجموعه میتواند برچسب مثبت منفی و یا خنثی داشته باشد. برای این کار بیش از ۳۵۸۸ صفت استخراج و توسط چهار ارزیاب مستقل ارزیابی شده است. پس از تجمیع نظرات چهار ارزیاب سه مجموعه مثبت منفی و خنثی استخراج شده است که به ترتیب شامل ۹۶۸ ۹۶۲ ۱۵۷۲ کلمه می باشند. از بین صفتهای ارزیابی شده تنها صفتهایی در مجموعه باقی ماندهاند که یا توسط هر چهار ارزیاب برچسب یکسان گرفتهاند و یا سه ارزیاب در مورد صفت نظر یکسان داشتهاند و ارزیاب چهارم به این صفت برچسب مخالف ندادهاست.
۲. مجموعه صفت، فعل و اسم:
این مجموعه از روی مجموعه صفتها، فعلها و اسمهای موجود در فارسنت استخراج شدهاند. به هر کلمه از این مجموعه توسط یک روش مبتنی بر یادگیری ماشین نیمه ناظر یک مقدار عددی نسبت داده میشود. این عدد درواقع تعیین کننده میزان قطبیت هر کلمه است. به کلمات مثبت، عددی بزرگتر از صفر و به اعداد منفی، عددی کوچکتر از صفر نسبت داده میشود. در این مجموعه، کلمات خنثی به صراحت تعیین نمیشوند و میتوان کلمات خنثی را بر اساس یک حد آستانه بین کلمات مثبت و منفی تعیین کرد. این مجموعه شامل ۳۵۸۸ صفت ۴۰۷۳ فعل و ۷۳۲۵ اسم می باشد. قابل ذکر است که کلیه کلمات از روی نسخه ۱ فارسنت استخراج شدهاند.
آزمایشگاه سیستمهای هوشمند اطلاعات دانشگاه تهران
– برای استفاده از این مجموعه، با ارسال ایمیل به خانم دکتر آزاده شاکری (سرپرست آزمایشگاه سیستمهای هوشمند اطلاعات دانشگاه تهران – shakery@ut.ac.ir)، رمز مربوطه را دریافت نمایید.
Dehdarbehbahani, I., Shakery, A., & Faili, H. (2014). Semi-supervised word polarity identification in resource-lean languages. Neural Networks, 58, 50-59.