مجموعههای متنی ابزارهای مهمی برای پیشبرد تحقیقات در تعدادی از شاخههای علوم کامپیوتر مانند بازیابی اطلاعات (Information Retrieval)، زبانشناسی پیکرهای (Corpus Linguistics) و زبانشناسی محاسباتی (Computational Linguistics) هستند. مجموعه آزمایش همشهری یکی از معتبرترین این منابع در زبان فارسی است. از این مجموعه در همایشهای معتبر بینالمللی Persian@CLEF2008 و Persian@CLEF2009 استفاده شده است. لازم به ذکر است که سایت قدیمی مجموعه همشهری از این آدرس قابل دسترسی است.
یک مجموعه آزمایش (Test Collection) دارای اجزاء زیر میباشد:
- یک مجموعه استاندارد: باید به اندازه کافی بزرگ باشد تا بتوان آن را نمایندهای از متون فارسی در نظر گرفت و نتایج آزمایشات روی مجموعه را تعمیم داد.
- مجموعهای از پرسوجوها
- داوری ارتباط اسناد مجموعه به پرسوجوها (Relevance Judgment)
در این پژوهش ما مجموعه آزمایش همشهری را ایجاد نمودهایم به نحوی که نیازمندیهای فوق را تا حد ممکن برآورده سازد.
مجموعه همشهری
مجموعه اسناد همشهری با خزش (Crawl) وب سایت همشهری و چندین مرحله پیشپردازش و برچسبگذاری حاصل آمده است. نسخه 1 این مجموعه نمونهای است که در همایشهای CLEF در سالهای 2008 و 2009 برای ارزیابی سامانههای ارزیابی سامانههای بازیابی اطلاعات تکمنظوره (Ad Hoc) مورد استفاده قرار گرفته است. نسخه 2، آخرین نسخه مجموعه است که نسبت به نسخه 1 بزرگتر و جامعتر میباشد.
برای نسخه 1 مجموعه همشهری دو سری پرسوجوی استاندارد در همایش بین المللی CLEF در سال های 2008 و 2009 ایجاد شدهاند. هر سری از پرسوجو ها شامل 50 موضوع به دو زبان انگلیسی و فارسی است که توسط 25 کاربر ساخته و ارزیابی شدهاند. برای اینکار از سامانه DIRECT تهیه شده در گروه تحقیقاتی Information Management Systems در دانشگاه پادوا (ایتالیا) استفاده شده است. از این سامانه برای ایجاد موضوع، ارزیابی موضوعها و دریافت نتایج شرکت کنندگان در CLEF استفاده میشود.
مشخصات مجموعه همشهری
جدول زیر مشخصات کمی نسخههای 1و 2 مجموعه همشهری را نشان میدهد.
معیار
|
نسخه ۱
|
نسخه ۲
|
|
حجم (یونیکد در قالب CLEF) | 700 مگابایت | 1400 مگابایت | |
تعداد اسناد | 160 هزار | 318 هزار | |
محدوده زمانی اسناد | از | 1375/2/4 | 1375/2/4 |
تا | 1381/11/22 | 1386/2/23 | |
طبقهبندی اسناد | دارد | دارد | |
پیوند به تصاویر | ندارد | دارد | |
پیوند به اصل صفحات در وب | ندارد | دارد | |
پرسوجو + داوری ارتباط | دارد | دارد |
مقایسه نسخههای 1 و 2 مجموعه همشهری
- متون در نسخه 2 از ساختار بهتری برخودار هستند.
- حجم و تعداد اسناد در نسخه 2 تقریبا 2 برابر شده است و محدوده زمانی اخبار نیز از 7 سال به 12سال افزایش پیدا کرده است.
- پیوند به صفحات اصلی در نسخه 2 (تحت برچسبهای ORIGINALFILE) نگهداری شدهاند. بدین صورت پژوهشگران در صورت نیاز میتوانند صفحه اولیه اینترنتی خبر را دانلود نموده و پردازشهای دلخواه خود را روی آن انجام دهند.
- در نسخه 2 تصاویر موجود در اخبار استخراج و حفظ شدهاند. تصاویر در بستهای مجزا با نام HAM2-IMG قابل دریافت هستند (شامل 148,639 تصویر در قالب JPEG با حجم کلی 1900 مگابایت).
ویژگیهای فوق، علاوه بر کاربردهای متداول بازیابی اطلاعات و طبقهبندی و کلاسبندی متون (Text Categorization & Classification)، نسخه ۲ مجموعه همشهری را برای تحقیقات و کاربردهای بازیابی تصاویر (Image Retrieval) نیز مناسب نموده است. با این وجود در حال حاضر تنها نسخه 1 مجموعه همشهری به تایید همایش بینالمللی CLEF رسیده است.
کاربردها
مجموعه همشهری میتواند در بسیاری از زمینههای تحقیقاتی مربوط به بازیابی اطلاعات مورد استفاده قرار بگیرد، از جمله:
- بررسی مؤلفههای مختلف موتورهای جستجو و الگوریتمهای مختلف بازیابی اطلاعات مانند الگوریتمهای شاخصگذاری و مدلهای بازیابی.
- تحلیل زبان فارسی: مجموعهای که در این تحقیق ایجاد شده است را میتوان برای تحلیل خصوصیات زبان فارسی نیز استفاده کرد.
- الگوریتمهای خوشهبندی و کلاسبندی اسناد فارسی: همه اسناد مجموعه همشهری دارای برچسب “Cat” هستند که نشان میدهد هر سند در چه ردهای است (اقتصادی، سیاسی و …).
- الگوریتمهای ریشهیابی و تحلیل زبان فارسی: این دسته از الگوریتمها از مهمترین الگوریتمها هستند که در کاربردهای دیگر مانند بازیابی اطلاعات، ترجمه زبانی و غلط یاب کاربرد فراوانی دارند. مجموعه همشهری از متن روزنامه همشهری تهیه شده است که متنی منظم و بدون غلط است و این مطلب این مجموعه را برای الگوریتمهای ریشهیابی و تحلیل زبان فارسی مناسب میکند. همچنین از این مجموعه برای ساخت ریشهیابهای آماری فارسی نیز میتوان استفاده کرد.
حقوق مؤلفین
تمامی حقوق مادی و معنوی اخبار مجموعه همشهری متعلق به روزنامه همشهری میباشد. حقوق مادی و معنوی مجموعه و دادهها و ابزارهای جنبی توسعه داده شده برای آن متعلق به مرکز تحقیقات مخابرات ایران میباشد. استفاده از مجموعه و ابزارهای جنبی برای کاربردهای تحقیقاتی و غیر تجاری با ذکر منبع بلامانع است. لطفاً در صورت استفاده از مجموعه آزمایش همشهری و یا ابزارهای مرتبط از [1] جهت ارجاع استفاده نمایید.
تقدیر و تشکر
این پروژه توسط مرکز تحقیقات مخابرات ایران و آزمایشگاه پایگاه داده دانشگاه تهران پشتیبانی شده است که بدین وسیله مجریان پروژه مراتب سپاسگزاری خود را اعلام مینمایند.
نسخه 1 رسمی مجموعه همشهری
توجه:
- نسخه 1 رسمی مجموعه همشهری توسط برگزارکنندگان CLEF نگهداری و توزیع میشود. این مجموعه در CLEF2008 و CLEF2009 استفاده شده است و 100 پرسوجو دارد. علاقمندان برای دریافت این نسخه باید از طریق این آدرس با مسئولان CLEF تماس حاصل نمایند. با این وجود نسخه 1 غیر رسمی مجموعه همشهری در زیر قابل دانلود است. لازم به ذکر است که اسناد مجموعه، پرسوجوها و داوری ارتباط پرسوجوهای نسخه غیر رسمی، قابل مقایسه با نتایج اعلام شده در همایشهای CLEF نمیباشند.
- نسخه 2 مجموعه همشهری در سال 1388 توسط سامانه UTIRE در گروه تحقیقاتی پایگاه داده دانشگاه تهران و بر اساس استاندارد TREC تهیه شده است. مجموعه پرسوجوها و ارزیابی آنها در زیر قابل دانلود است.
نسخه 1 غیررسمی مجموعه همشهری
توجه:
جهت اطلاع از آخرین تغییرات و به روزرسانیهای احتمالی خواهشمند است این فرم را تکمیل کرده و به آدرس a.aleahmad(at)ece.ut.ac.ir ایمیل فرمایید
عنوان
|
حجم
|
توضیح
|
دانلود
|
اسناد مجموعه
|
154 مگابایت |
کل اسناد مجموعه به صورت یک فایل برچسب خورده در قالب TREC در آمده است. در صورت نیاز میتوانید به سادگی با پردازش برچسبها فایلها را جدا نمایید. در این فایل متنی اسناد با برچسبهای DID (شماره سند)، Date (تاریخ)، Category (طبقهبندی) مشخص شدهاند و بلافاصله متن سند آمده است |
|
سند نمونه
|
2.5 کیلوبایت | یک نمونه از فایلهای اسناد مجموعه | |
رستهها | 4.2 کیلوبایت |
این فایل رستههای طبقهبندی اسناد مجموعه را نشان میدهد |
|
پرسوجوها | 10.7 کیلوبایت | 68 پرسوجو مخصوص مجموعه ساخته شده است | |
داوری ارتباط (Relevance Judgment) | 32.5 کیلوبایت |
68 پرسوجوی بالا طبق استاندارد TREC به صورت دستی مورد ارزیابی قرار گرفتهاند |
نسخه 2 مجموعه همشهری
توجه:
جهت استفاده از این مجموعه نیاز به کلمه عبور است که برای دریافت آن این فرم را تکمیل کرده و به آدرس a.aleahmad(at)ece.ut.ac.ir ایمیل فرمایید
عنوان
|
حجم
|
توضیح
|
دانلود
|
اسناد مجموعه همشهری 2 و DTD مربوطه
|
399 مگابایت |
حاوی اسناد مجموعه در قالب CLEF به صورت فشرده میباشد. اخبار هر روز در یک فایل XML قرار داده شده است که نام فایل متاثر از تاریخ اخبار میباشد. نام فایل با کلیدواژه HAM2 شروع شده و بعد از علامت “-” دو رقم اولی سال و دو رقم دوم ماه و دو رقم آخر روز میلادی را نشان میدهد. به عنوان مثال فایلی با عنوان “HAM2-000102.xml” اخبار دوم ژانویه سال ۲۰۰۸ را در خود جای داده است. تاریخهای معادل شمسی در خود فایلها ذکر شدهاند. برای راهنمایی در مورد برچسبهای (tag) مورد استفاده زیر را ببینید. برای توضیحات بیشتر ردیف ٣ این جدول را ببینید. |
|
بسته HAM2-IMG
|
1.93 گیگابایت |
این بسته حاوی تصاویر بکار رفته در مجموعه میباشد. در بسته HAM2 تنها مسیر تصاویر ذکر شده است. لذا در صورتیکه به تصاویر نیاز دارید بسته HAM2-IMG را نیز دریافت نمایید. |
|
فایل راهنما | 221 کیلوبایت | راهنمای مجموعه و توضیح برچسبهای مورد استفاده در آن. | |
یک نمونه از فایلهای مجموعه | 139 کیلوبایت |
در صورتیکه مایل هستید این فایل را روی رایانه خود ذخیره نمایید لازم است فایل DTD مربوطه را نیز از اینجا دانلود کرده و در مسیر فایل قرار دهید. |
|
رستههای مورد استفاده برای طبقهبندی اسناد مجموعه | 15.2 کیلوبایت | عناوین دستهبندیهای انجام شده روی اسناد | |
پرسوجوها
|
7.71 کیلوبایت |
50 پرسوجو مخصوص مجموعه با استفاده از سامانه UTIRE ساخته شده است. این فایل حاوی پرسوجوها به دو زبان فارسی و انگلیسی میباشد. |
|
داوری ارتباط (Relevance Judgment) | 485 کیلوبایت |
50 پرسوجوی بالا طبق استاندارد TREC مورد ارزیابی قرار گرفتهاند. |
|
لیست کلمات فارسی | 1.43 مگابایت |
فهرست تمام کلمات فارسی مورد استفاده در پیکره همشهری ۲ به همراه بسامد آنها به فرمت UFT8. این فایل با فرمت های دیگر نیز قابل دسترسی است: UTF16 یا Windows 1256 |
|
پیکره بدون برچسب همشهری دو |
295 مگابایت |
پیکره همشهری دو بصورت متنی خالص بدون برچسب. کدپیج فایل 1256 (عربی استاندارد) میباشد. درصورتیکه کدپیج دیگری مورد نیاز است از برنامه مبدل کدپیج که در همین صفحه قابل دریافت است برای تولید پیکره استفاده نمایید. |
|
برنامه مبدل کدپیج | 3.53 کیلوبایت |
برنامهای که پیکره همشهری ۲ را به متن خالص در یکی از کدپیجهای Unicode ،Windows-1256 و یا UTF-8 تبدیل مینماید. برای اجرای این برنامه باید Net Framework. نسخه 3.5 روی رایانه شما نصب شده باشد و پیکره همشهری ۲ را نیز دانلود و باز نموده باشید. |
با سلام
اونجا که نوشتید این فرم را ارسال کنید وقتی کلیک میکنیم به یک صفحه توی سایت دانشگاه تهران هدایت می شیم که نوشته صفحه مورد نظر یافت نشد
اگر امکانش هست راهنمایی فرمایید
ممنون از شما
لینک دانلود مربوط به سایت دادگان و سایت دانشگاه تهران هست ….