مروری روی مهمترین متدهای متن کاوی موجود وارزیابی آن ها
رشد فزاینده پایگاه داده ها در تقریبا هر ناحیه از فعالیت انسان باعث شده است که نیاز برای ابزارهای قدرتمند جدید برای تغییر دادن داده به دانش مفید افزایش یابد. برای برآوردن این نیاز محققان در ناحیه های مختلف مانند یادگیری ماشین ، شناسایی الگو، آنالیز داده آماری، بصری سازی داده ، شبکه های عصبی، اقتصاد سنجی، بازیابی اطلاعات، استخراج اطلاعات و….. روش ها و ایده هایی را کاوش کرده اند. ذات غيرساخت يافته ي اين متون، اعمال همان روشهايي را که ما در مورد پایگاه داده های غیرمتنی بکار مي بريم، غير ممکن مي سازد. بنابراین روش ها و الگوریتم های پردازش (پیش پردازش)خاصی برای استخراج الگوهای مفید موردنیاز است. متن کاوی اطلاعات متنی غیرساختیافته را استفاده می کند و آنرا برای کشف ساختار و معناهای ضمنی پنهان در متن بررسی می کند. در این مقاله ما به بررسی یکی از جدیدترین زمینه های مورد تحقیق در داده کاوی، متن کاوی می پردازیم. در این مقاله روش های موجود برای پیش پردازش کردن، رده بندی ، استخراج اطلاعات ، روش های یافتن روابط شرح داده می شوند در پایان هر بخش ارزیابی و مقایسه ای روی روش های بیان شده در آن بخش صورات می گیرد و در پایان تعدادی از کاربردهای متن کاوی بیان می گردند.
1. مقدمه
بخش قابل توجهي از اطلاعات قابل دسترس در پايگاه داده هاي متني (يا پایگاه داده های سند ) كه شامل مجموعه بزرگي از اسناد منابع مختلف (مثلا مقالات خبري، paperها، كتاب ها، ايميل ها و صفحات وب) ذخيره شده اند. پايگاه داده-هاي متني به علت افزايش مقدار اطلاعات موجود به فرم الكترونيكي سريع رشد مي كنند. امروزه بيشتر اطلاعات در صنعت، کسب و کار و سازمان هاي ديگر به صورت الكترونيكي و به فرم پایگاه داده متنی ذخيره شده اند.
داده هاي ذخيره شده در بيشتر پایگاه داده هاي متنی، داده های نيمه ساختاريافته هستند چون نه به طور كامل غيرساختيافته هستند و نه به طور كامل ساختيافته هستند. برا ي مثال يك سند شامل تعدادي فيلد ساختيافته مانند عنوان، نويسندگان، تاريخ انتشار، رده و ….. و از طرف ديگر شامل برخي كامپوننت هاي متني غيرساختاريافته مانند چكيده و محتويات است. تكنيك هاي بازيابي اطلاعات مانند (متدهاي ایندکس کردن متن ) براي هندل كردن سندهاي غير ساختاريافته ايجاد شده اند. تكنيك هاي بازيابي اطلاعات قديمي براي مقدار زيادي داده متني كه به طور فزاينده افزايش مي يابند، ناكارآمد هستند. بدون دانستن محتويات سندها، فرمول بندي كردن Queryهاي مناسب براي آناليز كردن و استخراج كردن اطلاعات مفيد از داده، مشكل است. كاربرها نياز به ابزارهايي براي مقايسه سندهاي مختلف، مرتب كردن سندها بر اساس موبوط بودن آن ها و يافتن الگوها دارند. بنابراین یکی از جدیدترین زمینه های مورد تحقیق در داده کاوی، متن کاوی برای این منظور گسترش یافت. متن کاوی یعنی جستجوی الگوها در متن غیرساختیافته. متن کاوی برای کشف اتوماتیک دانش مورد علاقه یا مفید از متن نیمه ساختیافته استفاده می شود. چندین تکنیک برای متن کاوی پیشنهاد شده است عبارتند از ساختار مفهومی ،کاوش association ruleها درخت تصمیم گیری، روش های استنتاج قوانین ، همچنین تکنیک های بازیابی اطلاعات برای کارهایی مانند تطبیق دادن سندها، مرتب کردن کردن، کلاسترینگ و…..
فایل ورد – 29 صفحه
سال 1388
فهرست مطالب
چکیده 3
1 مقدمه 3
1.1 کشف دانش و ارتباط آن متن کاوی 5
2.1 تعاریف متن کاوی 5
3.1 ناحیه های سرچ مرتبط 6
2 روش ها پیش پردازش کردن متون 7
1.2 مدل فضای برداری 9
2.2 پیش پردازش زبان شناختی 10
3 روش های متن کاوی … 10
1.3 فازهای اصلی فرآیند کتن کاوی… 11
2.3 رده بندی … 12
1.2.3 انتخاب ترم ایندکس 12
2.2.3 رده کننده Naïve Bayes 12
3.2.3 رده بندی کننده نزدیکترین همسایه 13
4.2.3 درخت تصمیم گیری 14
5.2.3 متدهای هسته و SVM 14
6.2.3 ارزیابی رده بندی کننده ها 15
3.3 استخراج اطلاعات 16
1.3.3 رده بندی برای استخراج اطلاعات 16
2.3.3 مدل مارکوف پنهان 17
3.3.3 فیلدهای رندم شرطی 17
4.3.3 مقایسه روش های استخراج اطلاعات 18
2.2 پیش پردازش زبان شناختی 18
4.3 روش ها ترکیبی 18
1.4.3 روش های dicsotex 18
1.1.4.3 مقدمه 19
2.1.4.3 یکپارچه کردن داده کاوی و استخراج اطلاعات 19
3.1.4.3 سیستم dicsotex 19
2.4.3روش textminer 21
1.2.4.3 مقدمه 21
2.2.4.3 استخراج اطلاعات 22
3.2.4.3 الگوریتم خوشه بندی 23
3.4.3 یافتن روابط 25
4.4.3 مقایسه روش های ترکیبی 26
4 کاربردهای متن کاوی 26
5 نتیجه گیری و کارهای آینده 27
6 مراجع 28