پیکرهٔ تشخیص خودکار جنسیت شامل دو بخش اصلی است که عبارتند از: ۱- بخش متون رسمی که با مشخص کردن جنسیت نویسندگان متون داستانی موجود در پیکرهٔ بیجنخان و داستانهای دیگر برگرفته از اینترنت به دست آمد. برای حذف تاثیر عامل جنسیت مترجم بر روی متن اصلی اثر، تمامی داستانها و رمانهای غیرفارسی از مجموعه حذف شد. در نهایت در هر دو دسته زن و مرد تعداد مساوی ۲۵۴ داستان در مجموعه قرار داده شد. 2 – بخش متون غیررسمی. برای تهیه این بخش، از رویکرد وب برای پیکره استفاده شد. مهمترین چالش، شناسایی سایتی فارسی بود که اولا محتوی متنی آن توسط خود کاربر نوشته شده باشد و ثانیا نام نویسنده هر متن نیز مشخص شده باشد. برای این منظور از نظرات کاربران در سایت «هلو کیش» استفاده شد. برای استخراج نظرات مرتبط با نظردهندگان زن و مرد، ابتدا لیستی از اسامی فارسی زن و مرد تفکیکشده تهیه گشت. سپس نام نویسنده نظر با این لیست اسامی تطبیق داده شد و نظرات برحسب این لیست تفکیکشده، در دو دسته زن و مرد قرار گرفت.
–
جهت دریافت داده با پست الکترونیکی نگارنده (mehdi.moradi.cl@gmail.com) مکاتبه فرمایید.
– مرادی مهدی، بحرانی محمد. تشخیص خودکار جنسیت نویسنده در متون فارسی. پردازش علائم و دادهها. ۱۳۹۴; ۱۲ (۴) :۸۳-۹۴