موتورهای جستجوی معنایی، شاخص گذاری داده‌های RDF و هرز صفحات در وب اسناد

ضرورت موتورهای جستجو یک واقعیت انکارناپذیر است زیرا موتورهای جستجو دروازه‌های ورود به وب هستند و برای قابل استفاده کردن اطلاعات انبوه روی وب ضروری هستند. از دیدگاه کاربر، یک موتور جستجوی ایده‌آل برای وب، باید قادر باشد تا جواب مستقیم یک پرسش را بیابد. موتور جستجوی گوگل با ارائه یک واسط خیلی ساده و مدل تراکنش ساده بر اساس کلمه کلیدی، زمان پاسخ بسیار کوتاه و مرتبسازی ماهرانه نتایج، معیار سنجش روش‌های جستجوی وب است و 6/64% از پرسش‌های وب را روی میلیاردها سند وب سرویس‌دهی می‌کند. اما در نهایت نتایج گوگل یک لیست مرتب از صفحات توصیه شده وب است و کاربر انسانی با مشاهده صفحات وب و پیمایش آن‌ها جواب مورد انتظار خود را بازیابی می‌کند. اما این نتایج برای عامل نرم‌افزاری قابل فهم نیست.

در اکثر پرسجو‌ها تنها 10 صفحه بالاتر نتایج جستجو توسط کاربر مشاهده می‌شوند. از آنجاییکه ترافیک بالاتر صفحه به معنای سود تجاری بیشتری است، تولیدکنندگان محتوا مایلند صفحات آن‌ها در بهترین رتبه‌ها ظاهر شوند. در این میان بعضی با بازی کردن با ویژگی‌های صفحات و بدون تلاش برای ایجاد صفحات با کیفیت بالا به دنبال فریب دادن الگوریتم رتبه‌بندی موتور جستجو و بالابردن مصنوعی رتبه صفحات بی‌کیفیتی هستند. این صفحات هرز داده وب نامیده می‌شوند. صفحات هرز داده در وب از تکنیک‌های مختلفی برای رسیدن به رتبه‌های بالا در نتایج جستجوی موتورهای جستجو و گمراه کردن آن‌ها استفاده می‌کنند. انسان‌‌ها برای شناسایی صفحات هرز داده و با کیفیت پایین -که ممکن است ادعا کنند اصیل هستند، اما در واقع هویت جعلی دارند- مشکلی ندارند. اما استفاده از نیروی انسانی در وب امروز برای شناسایی هرز داده‌ها و هویت‌های جعلی خیلی وقت‌گیر و پرهزینه و غیرمعقول است. موتورهای جستجو باید ویژگی‌های دوگانه کیفیت نتایج و مرتبط بودن را با هم برای رتبه‌بندی و نمایش نتایج به کاربر لحاظ کنند تا کاربر بتواند از حجم زیاد اطلاعات روی وب استفاده کرده و در عین حال گمراه نگردد. در تکنیک‌های بهینه‌سازی موتور جستجو و بازیابی رقابتی اطلاعات، هدف یافتن تابع نمره‌دهی موتور جستجو و بالابردن مصنوعی رتبه‌ی یک صفحه در نتایج بازیابی شده است، تا بتوان از منافع تجاری صفحاتی که در رتبه‌های بالا ظاهر می‌شوند استفاده کرد. با توجه به غیر ممکن بودن استفاده از نیروی انسانی برای کشف صفحات هرز داده و هویت‌های جعلی، باید این فرآیند را خودکار کرد. تولیدکنندگان هرز داده و جعل ‌کنندگان هویت، به تناوب تکنیک‌های خود را تغییر می‌دهند تا موتورهای جستجو را گمراه کنند، بنابراین مقابله‌ی خودکار با آن‌‌ها خیلی دشوار است.

با ظهور وب معنایی و همه‌گیر شدن آن، ضرورت درک اطلاعات وب توسط ماشین بر هیچ کس پوشیده نیست. انتظار انسان از چگونگی نتایج یک موتور جستجو با انتظار عامل نرم‌افزاری از چگونگی نتایج فرق می‌کند. آنچه مسلم است، وب کنونی (وب اَسناد) برای ماشین قابل فهم نبوده و صفحات وب فقط توسط انسان‌ها قابل پردازش بوده‌است.
پروژه عظیم داده‌های پیوندی، حجم زیادی از داده‌های RDF ،که توسط ماشین و انسان قابل فهم است، را روی وب در دسترس قرار داده است. برای استفاده از این حجم انبوه داده‌ها باید بتوان آن‌ها را جستجو کرد. بنابراین، نسل دوم برنامه‌های وب معنایی(وب داده ها)، به نقاط دسترسی کارا به وب معنایی نیاز دارند که ماهیت معنایی این دانش را نیز لحاظ کند. به بیان دیگر از آنجا که موتورهای جستجو دروازه ورود به وب هستند و انسان و ماشین هم باید بتوانند روی این مدل داده جدید (RDF) جستجو انجام دهند، ضرورت یک موتور جستجوی معنایی برای انسان و یک موتور پرسش معنایی برای ماشین کاملاً احساس می‌شود.
با ظهور موفقیت آمیز “وب داده‌ها”، سوء استفاده‌های شخصی برای کسب سود و منفعت بیشتر در قالب هرز داده، در وب داده‌ها رو به افزایش است. از آنجا که الگوریتم رتبه‌بندی یک موتور جستجو، تا حد زیادی وظیفه مقابله با این نوع تهدیدها را بر عهده دارد، این تحقیق با بررسی الگوریتم‌های رتبه‌بندی “وب اسناد” و تطبیق آن برای وب داده‌ها، بدنبال پیشگیری از ظهور هرز داده در نتایج موتورهای جستجوی معنایی است .

یک فایل فشرده حاوی فایل:

نوع فایل: Microsft word Office

تعداد صفحات:43

حجم: 515 KB

فهرست مطالب
فصل 1. فصل 1- مقدمه 1
1-1- تعریف مسئله 1
1-1-1- موتورجستجوی معنایی 2
1-1-2- مشکلات شناسایی هرز داده در موتور جستجو 3
فصل 2. فصل 2- کارهای مشابه 7
2-1- موتورهای جستجوی معنایی 7
2-1-1- Sindice 8
2-1-2- SWSE 11
2-1-3- Swoogle 14
2-1-4- واتسون 16
2-1-5- Lucene 17
2-2- شاخصگذاری داده‌های RDF 18
2-2-1- ذخیره داده‌های RDF به صورت گراف 18
2-2-2- روشهای چندین شاخصی 19
2-2-3- روش دسته‌بندی افقی 20
2-2-4- مدل شاخصگذاری HEXASTORE 22
2-3- هرز صفحات در وب اسناد 24
2-3-1- روشهای کشف هرز صفحات در وب اسناد 26
2-4- مدل‌های پایه رتبه‌بندی 28
2-4-1- متریک‌های اعتماد برای رتبهبندی 29
2-4-2- الگوریتم تحلیل لینک PageRank 31
2-4-3- الگوریتم تحلیل لینک HITS 31
2-5- خلاصه 32
فصل 3. منابع 34
فصل 4. ضمایم 37
موتور جستجوی LUCENE 37

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com