مجموعه همشهری پیکرهای است حاوی ۳۱۸ هزار سند مربوط به اخبار سالهای ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وبسایت همشهری و چندین مرحله پیشپردازش و برچسبگذاری حاصل آمده است. همه اسناد مجموعه همشهری دارای برچسب «Cat» هستند که نشان میدهد هر سند در چه ردهای است (اقتصادی، سیاسی و…). نسخۀ دو پیکره همشهری توسط گروه تحقیقاتی پایگاه داده دانشگاه تهران و با حمایت مرکز تحقیقات مخابرات ایران تهیه شده است.
مرکز تحقیقات مخابرات ایران
استفاده از مجموعه و ابزارهای جنبی برای کاربردهای تحقیقاتی و غیر تجاری با ذکر منبع بلامانع است.
– Abolfazl AleAhmad, Hadi Amiri, Ehsan Darrudi, Masoud Rahgozar, & Farhad Oroumchian. (2009). Hamshahri: A Standard Persian Text Collection. Knowledge-Based Systems, 22(5), 382–387. (دریافت)
– http://ece.ut.ac.ir/dbrg/hamshahri/fapublications.html
– http://scholar.google.com/scholar?q=related:ZHhxN8laPhMJ:scholar.google.com/&hl=en&as_sdt=0,5
* اگر در پژوهش خود از این داده استفاده کردهاید و یا پژوهش دیگری را میشناسید که از این داده استفاده نموده باشد، لطفاً اطلاعات مربوط به پژوهش را برای ما ارسال فرمایید تا به این لیست اضافه شود.
خوشهبندی متون، مدلسازی زبانی، پردازش زبان طبیعی، زبانشناسی رایانشی، زبانشناسی پیکرهای