برای تهیه پیکره فارسی ۱۹۸۴ که در در چارچوب MULTEXT-East تولید شده است، رمان ۱۹۸۴ جرج اورول به عنوان متن اصلی انتخاب شده و نسخه فارسی این کتاب برای اضافه کردن زبان فارسی به این چارچوب حاشیهنویسی شده است. این پیکره که از ۱۱۰۰۰۰ توکن، ۱۱۲۶۶ پاراگراف، ۶۶۰۶ جمله، ۶۶۳۲ لما، و ۱۳۵۹۷ کلمه تشکیل شده است، با پیکرههای مشابه موجود چارچوب MULTEXT-East برای زبانهایی چون انگلیسی، بلغاری، چک، استونی، لهستانی، رومانیایی و اسلونی موازی است. از میان ۷۷۱ برچسب مختلف با معنی و ممکن برای زبان فارسی، ۴۴۸ برچسب مختلف در این پیکره رخ داده است.
بهرنگ قاسمیزاده
– مشاهده فرم شرایط استفاده
– بهرنگ قاسمیزاده، سعید رحیمی، مرتضی سالاریان، علی بهاری سلیم. (۱٣٨۵). گزارشی از ساخت نخستین پیکره چندزبانه برای زبان فارسی. ارائه شده در دوازدهمین کنفرانس بینالمللی سالانه انجمن کامپیوتر ایران، تهران. (دریافت)
– Qasemizadeh, B., Rahimi, S., & Bakhtiari, B. M. (2007). The First Parallel Multilingual Corpus of Persian: Toward a Persian BLARK. The second workshop on Computational Approaches to Arabic Script-based Languages, California, USA. (دریافت)
– Qasemizadeh, B., & Rahimi, S. (2006). Persian in MULTEXT-East framework. In Advances in natural language processing (pp. 541-551). Springer Berlin Heidelberg. (دریافت)
ترجمه ماشینی، پردازش زبان طبیعی
– جهت دریافت این داده پس از ملاحظه و قبول فرم شرایط استفاده، درخواست خود را به Tomaž Erjavec ارسال نمایید.
– داده مرتبط با این داده: Persian Multext-East framework lexicon