پیکره متنی زبان فارسی، مجموعهای از متون نوشتاری و گفتاری زبان فارسی به صورت رسمی است که از منابع واقعی همچون روزنامهها، سایتها و مستنداتِ از قبل تایپ شده، جمعآوری شده، تصحیح گردیده و برچسب خورده است. حجم این دادگان حدوداً ۱۰۰ میلیون کلمه است و از منابع مختلف تهیه گردیده و دارای تنوعات بسیار زیادی است. ۱۰ میلیون کلمه از این پیکره با استفاده از ۸۸۲ برچسب نحوی-معنایی به صورت دستی توسط دانشجویان رشته زبانشناسی برچسبدهی شدهاند و هر پرونده بر حسب موضوع و منبع آن طبقهبندی شده است. این پیکره که توسط پژوهشکده پردازش هوشمند علائم تهیه شده است، برای استفاده در تعلیم مدل زبانی و سایر پروژههای مربوط به پردازش زبان طبیعی مناسب است.
پژوهشکده پردازش هوشمند علائم
جهت تهیه داده و اطلاع از شرایط استفاده آن با پژوهشکده پردازش هوشمند علائم تماس حاصل فرمایید.
– Mahmood Bijankhan, Javad Sheykhzadegan, Mohammad Bahrani, & Masood Ghayoomi. (2011). Lessons from Building a Persian Written Corpus: Peykare. Language Resources and Evaluation, 45(2), 143–164. (دریافت)
– http://scholar.google.com/scholar?q=related:3smp8U5ZL-0J:scholar.google.com/&hl=en&as_sdt=0,5
* اگر در پژوهش خود از این داده استفاده کردهاید و یا پژوهش دیگری را میشناسید که از این داده استفاده نموده باشد، لطفاً اطلاعات مربوط به پژوهش را برای ما ارسال فرمایید تا به این لیست اضافه شود.
مدلسازی زبانی، پردازش زبان طبیعی، زبانشناسی رایانشی، زبانشناسی پیکرهای