متن کاوی فناوری ایجاد شده جهت کنترل داده های متنی در حال رشد است که در جهت برچینی اطلاعات معنی دار از متون زبان طبیعی تلاش می کند. متن کاوی یعنی جستجوی الگوها در متن غیرساخت یافته و برای کشف خودکار دانش مورد علاقه یا مفید از متن نیمه ساخت یافته استفاده می-شود [Tan 2005]. متن کاوی تقریبا معادل با ... ادامه مطلب »
دسته بندی متون
دسته کننده Rocchio
دستهبندي متن شامل نسبت دادن اسناد به يکي از چند گروه از پيش تعيين شده است. براي نايل شدن به اين هدف اسناد ورودي توسط يک مجموعه از مشخصات[1] که معمولاً خصوصيات[2] ناميده ميشود توصيف ميشوند. برخلاف خوشهبندي[3] که شامل آموزش بدون نظارت است، در دستهبندي يک مجموعه آموزشي از دادهها با برچسبگذاري قبلي نياز است (يادگيري ماشين نظارتي). هدف ... ادامه مطلب »
دسته بندی متن با استفاده از تئوری بیز
توجه شود که در يک مسئله دستهبندي ابتدا بايد هر سند موجود در مجموعه آموزشي داده شده را در متغير مناسبي ذخيره کرد و نام دسته آن سند را که با مشخصه اي خاص مثلا نام سند بدست آورد و سپس تمام توکنهاي سند استخراج و در محل مناسبي ذخيره گردد .حال کلمات توقف را حذف ميشود. چون اين کلمات ... ادامه مطلب »
دسته کننده K نزديکترين مجاور یا KNN
دستهبندي متن شامل نسبت دادن اسناد به يکي از چند گروه از پيش تعيين شده است. براي نايل شدن به اين هدف اسناد ورودي توسط يک مجموعه از مشخصات[1] که معمولاً خصوصيات[2] ناميده ميشود توصيف ميشوند. برخلاف خوشهبندي[3] که شامل آموزش بدون نظارت است، در دستهبندي يک مجموعه آموزشي از دادهها با برچسبگذاري قبلي نياز است (يادگيري ماشين نظارتي). هدف ... ادامه مطلب »
دسته بندی متن با استفاده از درخت تصمیم
دستهبندي متن شامل نسبت دادن اسناد به يکي از چند گروه از پيش تعيين شده است. براي نايل شدن به اين هدف اسناد ورودي توسط يک مجموعه از مشخصات[1] که معمولاً خصوصيات[2] ناميده ميشود توصيف ميشوند. برخلاف خوشهبندي[3] که شامل آموزش بدون نظارت است، در دستهبندي يک مجموعه آموزشي از دادهها با برچسبگذاري قبلي نياز است (يادگيري ماشين نظارتي). هدف ... ادامه مطلب »