چکيده: با افزايش چشمگير حجم اطلاعات و توسعه وب، نياز به روش ها و تکنيک هايي که بتوانند امکان دستيابي کارا به داده ها و استخراج اطلاعات از آنها را فراهم کنند، بيش از پيش احساس مي شود. وب کاوي يکي از زمينه هاي تحقيقاتي است که با به کارگيري تکنيک هاي داده کاوي به کشف و استخراج خودکار اطلاعات از اسناد و سرويس هاي وب مي پردازد. در واقع وب کاوي، فرآيند کشف اطلاعات و دانش ناشناخته و مفيد از داده هاي وب مي باشد. روش هاي وب کاوي بر اساس آن که چه نوع داده اي را مورد کاوش قرار مي دهند، به سه دسته کاوش محتوای وب، کاوش ساختار وب و کاوش استفاده از وب تقسيم می شوند. طي اين گزارش پس از معرفی وب کاوي و بررسی مراحل آن، ارتباط وب کاوي با ساير زمينه هاي تحقيقاتي بررسي شده و به چالش ها، مشکلات و کاربردهای اين زمينه تحقيقاتي اشاره مي شود. همچنين هر يک از انواع وب کاوي به تفصيل مورد بررسي قرار مي گيرند. براي اين منظور مدل ها، الگوريتم ها و کاربردهاي هر طبقه معرفي مي شوند.
مراحل وب کاوي
وب کاوي شامل چهار مرحله اصلي مي باشد:
1. پيدا کردن منبع: اين مرحله شامل بازيابي اسناد وب مورد نظر مي باشد.
2. انتخاب اطلاعات و پيش پردازش: در اين مرحله به صورت خودکار اطلاعات خاصي از اسناد بازيابي شده، انتخاب و پيش پردازش مي شوند.
3. تعميم : در اين مرحله به صورت خودکار الگوهاي عام در يک يا چندين سايت وب کشف مي شود.
4. تحليل: در اين مرحله الگوهاي به دست آمده در مرحله قبل اعتبار سنجي و تفسير مي شوند.
در مرحله اول داده ها از منابع موجود در وب مانند خبرنامه هاي الکترونيکي، گروه هاي خبري، اسناد HTML، پايگاه داده هاي متني و … بازيابي مي شوند. مرحله انتخاب و پيش پردازش شامل هر گونه فرآيند تبديل داده هاي بازيابي شده در مرحله قبل مي باشد. اين پيش پردازش مي تواند کاهش کلمات به ريشه آنها ، حذف کلمات زائد ، پيدا کردن عبارات موجود در متن و تبديل بازنمايي داده ها به قالب رابطه اي يا منطق مرتبه اول باشد. در مرحله سوم از تکنيک هاي داده کاوي و يادگيري ماشين براي تعميم استفاده مي شود. همچنين بايد توجه داشت که کاربران نقش مهمي در فرآيند استخراج اطلاعات و دانش از وب ايفا مي کنند. اين نکته به ويژه در مرحله چهارم از اهميت بسزايي برخوردار است.
به اين ترتيب وب کاوي، فرآيند کشف اطلاعات و دانش ناشناخته و مفيد از داده هاي وب مي باشد. اين فرآيند به طور ضمني شامل فرآيند کشف دانش در پايگاه داده ها (KDD ) نيز مي شود. در واقع وب کاوي گونه توسعه يافته KDD است که بر روي داده هاي وب عمل مي کند.
نوع فایل : فایل ورد Microsoft Word
تعداد صفحات : ۳۵ صفحه
قیمت فایل: 12500 تومان
فهرست مطالب
1- مقدمه
2- مراحل وب کاوي
3- وب کاوي و زمينه هاي تحقيقاتي مرتبط
3-1- وب کاوي و داده کاوي
3-2- وب کاوي و بازيابي اطلاعات
3-3- وب کاوي و استخراج اطلاعات
3-4- وب کاوي و يادگيري ماشين
4- انواع وب کاوي
5- چالش هاي وب کاوي
6- کاوش محتواي وب
6-1- انواع کاوش محتوا در وب
6-1-1- طبقه بندي
6-1-2- خوشه بندي
6-1-3- ساير انواع کاوش محتوا در وب
6-2- رويکردهاي کاوش محتوا در وب
6-3- الگوريتم هاي کاوش محتوا در وب
6-3-1- درخت تصميم
6-3-2- شبکه عصبي
6-3-3- ساير الگوريتم هاي کاوش
7- کاوش ساختار وب
7-1- مدل هاي بازنمايي ساختار وب
7-1-1- مدل هاي مبتني بر گراف
7-1-2- مدل هاي مارکو
7-2- الگوريتم هاي کاوش ساختار وب
7-2-1- HITS
7-2-2- Page Rank
7-2-3- الگوريتم جريان بيشينه
7-2-4- Average Clicks
7-3- کاربردهاي کاوش ساختار وب
7-3-1- تشخيص اجتماعات وب
7-3-2- پيمايش وب
8- کاوش استفاده از وب
8-1- انواع داده هاي استفاده از وب
8-1-1- داده هاي سرورهاي وب
8-1-2- داده هاي سرورهاي پراکسي
8-1-3- داده هاي کلاينت
8-2- پيش پردازش داده هاي استفاده از وب
8-2-1- پاکسازي داده
8-2-2- تشخيص و بازسازي نشست
8-2-3- بازيابي ساختار و محتوا
8-2-4- قالب بندي داده
8-3- روش هاي کاوش استفاده از وب
8-3-1- قوانين انجمني
8-3-2- الگوهاي ترتيبي
8-3-3- خوشه بندي
8-4- کاربردهاي کاوش استفاده از وب
8-4-1- خصوصي سازي محتواي وب
8-4-2- پيش بازيابي
8-4-3- بهبود طراحي سايت هاي وب
9- کاربردهاي وب کاوي
9-1- تجارت الکترونيکي
9-2- موتورهاي جستجو
9-3- حراجي در وب
نتيجه گيري
فهرست منابع