تشخیص واحدهای اسمی (یا تشخیص موجودیتهای نامدار) یکی از موضوعات پردازش زبان طبیعی است که نیاز به پیکره دارد. پیکرهٔ واحدهای اسمی آرمان که توسط شرکت آرمان رایان شریف تولید شده است شامل ۴۰۰ هزار کلمه (۴۹۱۷ جمله برگرفته از پیکرهٔ بیجنخان) است و سه ردهٔ شخص (مثال: سید علی قاضی)، مکان (مثال: پارک آب و آتش) و سازمان (مثال: مجلس شورای اسلامی) در آن برچسب خورده است (با فرمت IOB). لازم به ذکر است که این پیکره واحدهای اسمی فارسی در حال توسعه به ۴ میلیون کلمه است و نسخهٔ جدید دارای برچسبهای مربوط به ۶ رده (مکان، سازمان، شخص، محصول، امکانات و رویداد) خواهد بود.
شرکت آرمان رایان شریف
– جهت اطلاع از شرایط تهیه و استفادهٔ داده با شرکت آرمان رایان شریف تماس حاصل فرمایید.
محمد عبدوس، بهروز مینایی بیدگلی و حمیدرضا قدمنان (۱۳۹۴) تولید پیکره واحدهای اسمی فارسی. مجموعه مقالات نخستین همایش ملی زبانشناسی پیکرهای. تهران: نشر نویسه پارسی.
– نسخهٔ آزمایشی (دموی) محصولات پردازش متن شرکت آرمان رایان شریف (http://matnafzar.ir)