پیکره سِنتیپِرس شامل مجموعهای از جملات فارسی با برچسبهای حاوی بار معنایی است که در پردازش زبان طبیعی و به طور مشخص در زمینه تحلیل احساس یا عقیدهکاوی کاربرد دارد. با توجه به ویژگیهای این پیکره، میتوان آن را در نوع خود اولین پیکره تحلیل احساس برای زبان فارسی با چنین مشخصاتی به شمار آورد. گفتنی است که دامنه جملات موجود در پیکره مربوط به حوزه کالاهای دیجیتال است. همچنین این پیکره شامل جملاتی، هم به صورت رسمی و هم به صورت نوشتاری عامیانه یا غیررسمی است. پروژه توسعه این پیکره ادامه دارد و پیکره حاضر که تحت عنوان بخش اول کار ارائه شده است مشتمل بر حدود ۱۱۰۰ جملهٔ برچسبخورده است.
گروه پردازش زبان طبیعی دانشگاه گیلان
استفاده از این پیکره با ذکر منبع و تنها برای اهداف پژوهشی و غیرتجاری بلامانع است.
–
– از تمامی پژوهشگران محترم دعوت میشود تا پیشنهادات یا مشکلات مربوط به پیکره را با ما در میان بگذارند تا انشاءالله بتوانیم مجموعهای هرچه بهتر و کاربردیتر برای زبان فارسی پدید آوریم.
– گروه پردازش زبان طبیعی دانشگاه گیلان: http://nlp.guilan.ac.ir