واژگان زایای زبان فارسی واژگانی است شامل حدود ۵۵هزار مدخل که هر مدخل دارای اطلاعات مربوط به صورت نوشتاری واژه در خط فارسی، ساخت واجی، مقولهٔ واژگانی، الگوی تکیه، و بسامد واژه میباشد. برای تهیهٔ واژگان زایا، یک پیکره متنی ۱۰میلیون کلمهای ملاک استخراج واژهها قرار گرفته است. این پیکره از حدود ۱۰۰هزار کلمه با بسامدهای متفاوت تشکیل شده است. بعد از حذف صورتهای تصریفی از فهرست فوق، حدود ۴۴هزار واژه به مفهوم علمی آن به دست آمد. در بررسی فهرست واژههای حاصل از پیکره متنی معلوم شد که برخی واژههای عامیانه و برخی واژههای کاملاً علمی در فهرست ۴۴هزار مدخلی غایب هستند. برای رفع این کاستی فهرست فوق با فرهنگ فارسی امروز (صدریافشار، ۱۳۸۱) مقایسه شد و حدود ۱۱هزار مدخل جدید به فهرست واژهها اضافه شد و واژگان ۵۵هزار مدخلی به دست آمد.
دبیرخانه شورای عالی اطلاعرسانی
–
– محرم اسلامی، مسعود شریفی آتشگاه، صدیقه علیزاده لمجیری، و طاهره زندی. (۱۳۸۳). واژگان زایای زبان فارسی. مجموعه مقالات اولین کارگاه پژوهشی زبان فارسی و رایانه. تهران. (دریافت)
پردازش زبان طبیعی، زبانشناسی رایانشی، زبانشناسی پیکرهای، پردازش گفتار