موتورهای جستجوی معنایی، شاخصگذاری دادههای RDF و هرز صفحات در وب اسناد
ضرورت موتورهای جستجو یک واقعیت انکارناپذیر است زیرا موتورهای جستجو دروازههای ورود به وب هستند و برای قابل استفاده کردن اطلاعات انبوه روی وب ضروری هستند. از دیدگاه کاربر، یک موتور جستجوی ایدهآل برای وب، باید قادر باشد تا جواب مستقیم یک پرسش را بیابد. موتور جستجوی گوگل با ارائه یک واسط خیلی ساده و مدل تراکنش ساده بر اساس کلمه کلیدی، زمان پاسخ بسیار کوتاه و مرتبسازی ماهرانه نتایج، معیار سنجش روشهای جستجوی وب است و 6/64% از پرسشهای وب را روی میلیاردها سند وب سرویسدهی میکند. اما در نهایت نتایج گوگل یک لیست مرتب از صفحات توصیه شده وب است و کاربر انسانی با مشاهده صفحات وب و پیمایش آنها جواب مورد انتظار خود را بازیابی میکند. اما این نتایج برای عامل نرمافزاری قابل فهم نیست.
در اکثر پرسجوها تنها 10 صفحه بالاتر نتایج جستجو توسط کاربر مشاهده میشوند. از آنجاییکه ترافیک بالاتر صفحه به معنای سود تجاری بیشتری است، تولیدکنندگان محتوا مایلند صفحات آنها در بهترین رتبهها ظاهر شوند. در این میان بعضی با بازی کردن با ویژگیهای صفحات و بدون تلاش برای ایجاد صفحات با کیفیت بالا به دنبال فریب دادن الگوریتم رتبهبندی موتور جستجو و بالابردن مصنوعی رتبه صفحات بیکیفیتی هستند. این صفحات هرز داده وب نامیده میشوند. صفحات هرز داده در وب از تکنیکهای مختلفی برای رسیدن به رتبههای بالا در نتایج جستجوی موتورهای جستجو و گمراه کردن آنها استفاده میکنند. انسانها برای شناسایی صفحات هرز داده و با کیفیت پایین -که ممکن است ادعا کنند اصیل هستند، اما در واقع هویت جعلی دارند- مشکلی ندارند. اما استفاده از نیروی انسانی در وب امروز برای شناسایی هرز دادهها و هویتهای جعلی خیلی وقتگیر و پرهزینه و غیرمعقول است. موتورهای جستجو باید ویژگیهای دوگانه کیفیت نتایج و مرتبط بودن را با هم برای رتبهبندی و نمایش نتایج به کاربر لحاظ کنند تا کاربر بتواند از حجم زیاد اطلاعات روی وب استفاده کرده و در عین حال گمراه نگردد. در تکنیکهای بهینهسازی موتور جستجو و بازیابی رقابتی اطلاعات، هدف یافتن تابع نمرهدهی موتور جستجو و بالابردن مصنوعی رتبهی یک صفحه در نتایج بازیابی شده است، تا بتوان از منافع تجاری صفحاتی که در رتبههای بالا ظاهر میشوند استفاده کرد. با توجه به غیر ممکن بودن استفاده از نیروی انسانی برای کشف صفحات هرز داده و هویتهای جعلی، باید این فرآیند را خودکار کرد. تولیدکنندگان هرز داده و جعل کنندگان هویت، به تناوب تکنیکهای خود را تغییر میدهند تا موتورهای جستجو را گمراه کنند، بنابراین مقابلهی خودکار با آنها خیلی دشوار است.
با ظهور وب معنایی و همهگیر شدن آن، ضرورت درک اطلاعات وب توسط ماشین بر هیچ کس پوشیده نیست. انتظار انسان از چگونگی نتایج یک موتور جستجو با انتظار عامل نرمافزاری از چگونگی نتایج فرق میکند. آنچه مسلم است، وب کنونی (وب اَسناد) برای ماشین قابل فهم نبوده و صفحات وب فقط توسط انسانها قابل پردازش بودهاست.
پروژه عظیم دادههای پیوندی، حجم زیادی از دادههای RDF ،که توسط ماشین و انسان قابل فهم است، را روی وب در دسترس قرار داده است. برای استفاده از این حجم انبوه دادهها باید بتوان آنها را جستجو کرد. بنابراین، نسل دوم برنامههای وب معنایی(وب داده ها)، به نقاط دسترسی کارا به وب معنایی نیاز دارند که ماهیت معنایی این دانش را نیز لحاظ کند. به بیان دیگر از آنجا که موتورهای جستجو دروازه ورود به وب هستند و انسان و ماشین هم باید بتوانند روی این مدل داده جدید (RDF) جستجو انجام دهند، ضرورت یک موتور جستجوی معنایی برای انسان و یک موتور پرسش معنایی برای ماشین کاملاً احساس میشود.
با ظهور موفقیت آمیز “وب دادهها”، سوء استفادههای شخصی برای کسب سود و منفعت بیشتر در قالب هرز داده، در وب دادهها رو به افزایش است. از آنجا که الگوریتم رتبهبندی یک موتور جستجو، تا حد زیادی وظیفه مقابله با این نوع تهدیدها را بر عهده دارد، این تحقیق با بررسی الگوریتمهای رتبهبندی “وب اسناد” و تطبیق آن برای وب دادهها، بدنبال پیشگیری از ظهور هرز داده در نتایج موتورهای جستجوی معنایی است .
فهرست مطالب
فصل 1. فصل 1- مقدمه 1
1-1- تعریف مسئله 1
1-1-1- موتورجستجوی معنایی 2
1-1-2- مشکلات شناسایی هرز داده در موتور جستجو 3
فصل 2. فصل 2- کارهای مشابه 7
2-1- موتورهای جستجوی معنایی 7
2-1-1- Sindice 8
2-1-2- SWSE 11
2-1-3- Swoogle 14
2-1-4- واتسون 16
2-1-5- Lucene 17
2-2- شاخصگذاری دادههای RDF 18
2-2-1- ذخیره دادههای RDF به صورت گراف 18
2-2-2- روشهای چندین شاخصی 19
2-2-3- روش دستهبندی افقی 20
2-2-4- مدل شاخصگذاری HEXASTORE 22
2-3- هرز صفحات در وب اسناد 24
2-3-1- روشهای کشف هرز صفحات در وب اسناد 26
2-4- مدلهای پایه رتبهبندی 28
2-4-1- متریکهای اعتماد برای رتبهبندی 29
2-4-2- الگوریتم تحلیل لینک PageRank 31
2-4-3- الگوریتم تحلیل لینک HITS 31
2-5- خلاصه 32
فصل 3. منابع 34
فصل 4. ضمایم 37
موتور جستجوی LUCENE 37