بازیابی اطلاعات وب (Web Information Retrieval) یک زمینه تحقیقاتی است که در آن از فنون حوزه بازیابی اطلاعات برای برطرفسازی یک نیاز اطلاعاتی در محیط وب استفاده میشود. در این نوع بازیابی علاوه بر متون میتوان از اطلاعات موجود در فراداده (Meta Data) و ساختار پیوندی اسناد نیز استفاده نمود. در جهت پیشبرد تحقیقات در این زمینه و مخصوصاً برای ارزیابی اصولی سامانههایی که در این حوزه کار میکنند نیاز به مجموعه آزمایشی (Test Collection) است که علاوه بر متن ساختار پیوندی مشابه وب داشته باشد. در همین راستا، مجموعه آزمايش dotIR با خزش (Crawl) وب در حوزه ir. در گروه تحقیقاتی پایگاه داده دانشگاه تهران تهیه شد. اجزاء این مجموعه شامل یک پیکرهٔ استاندارد یک میلیون سندی، مجموعهٔ ۵۰ پرس و جوی استاندارد، بیش از ۱۸ هزار داوری ارتباط پرس و جوها به اسناد پیکره و ۵۰ هزار بردار ویژگی استخراجشده از اسناد است.
مرکز تحقیقات مخابرات ایران
– استفاده از مجموعه و ابزارهای جنبی برای کاربردهای تحقیقاتی و غیرتجاری با ذکر منبع بلامانع است.
– احسان درودی، هما برادران هاشمی، ابوالفضل آل احمد، علی محمد زارع بیدکی، امیرحسین حبیبیان، فرزاد مهدیخانی، آزاده شاکری، مسعود رهگذر، مجموعه محک استاندارد برای تحقیقات بازیابی اطلاعات وب فارسی، گزارش فنی، گروه تحقیقاتی پایگاه داده ها دانشگاه تهران، شماره: DBRG-TR-138702.
– احسان درودی، امیر حسین حبیبیان، چگونگی ساخت مجموعه محک WebIR و مشخصات آن، گزارش فنی مرکز تحقیقات مخابرات ایران به شماره ITF.ITP.TCH.8732414.01، 30/4/88.
گروه تحقیقاتی پایگاه داده دانشکده برق و کامپیوتر دانشگاه تهران (http://ece.ut.ac.ir/dbrg/webir/fa)