دستهبندي متن شامل نسبت دادن اسناد به يکي از چند گروه از پيش تعيين شده است. براي نايل شدن به اين هدف اسناد ورودي توسط يک مجموعه از مشخصات[1] که معمولاً خصوصيات[2] ناميده ميشود توصيف ميشوند. برخلاف خوشهبندي[3] که شامل آموزش بدون نظارت است، در دستهبندي يک مجموعه آموزشي از دادهها با برچسبگذاري قبلي نياز است (يادگيري ماشين نظارتي). هدف دستهبندي تحليل داده هاي ورودي و ايجاد يک مدل دقيق براي هر دسته با استفاده از اين خصوصيات است. اسناد جديد در داخل يکي از اين دستهها دستهبندي ميشوند.
در مسأله دستهبندي متن، مشخصات کلماتي هستند که درون اسناد متني قرار دارند. در بسياري از موارد قبل از يادگيري ماشين انتخاب خصوصيت[4] صورت ميگيرد تا فضاي خصوصيات[5] را کاهش دهد.
در دسته بندي هدف بدست آوردن يک تابع نگاشت بين اسناد و مجموعه کلاس ها يا گروه ها به وسيله يک سري سند که به آنها مجموعه آموزشي[6]ميگويند، ميباشد. که از اين تابع نگاشت براي تعيين خودکار گروه سند جديد استفاده ميشود. توجه شود که در هنگام توليد تابع نگاشت مجموعه اسناد برچسب خورده هستند يعني گروه هر يک از اسناد مشخص شده است و به وسيله اين اسناد براي هر گروه يک سري ويژگي وصفات منحصر به فرد استخراج ميکنيم.
مراحل مختلف دسته بندي بصورت زير است:
- پردازش مجموعه داده ها؛ در اين مرحله اسناد بررسي شده، قابليتها استخراج وکلمات غير ضروريحذف ميشوند. يک بردار[7] براي نمايش متن ايجاد و مقدار دهي ميشود. در اين مرحله داده ها ممکن است به دو قسمت تقسيم شوند.
- مجموعه آموزشي : اين قسمت از داده ها براي ايجاد يک مدل بکار ميرود.
- مجموعه آزمايشي[8]: اين قسمت براي تست مدل بکار ميرود.
- ساختن مدل؛ اين مرحله را آموزش واقعي ميگويند که از يک الگوريتم يادگيري[9] استفاده ميکند. اين مرحله خود ممکن است چندين تکرار وچندين زير مرحله داشته باشد.
- انتخاب خصوصيت
- اجراي يک الگوريتم يادگيري
- اعتبار سنجي مدل
- بکار بردن مدل براي مشخص کردن کلاس يک سند جديد.
[1]attributes [2]features [3]clustering [4]Feature selection [5]feature space [6]Train Set [7]Vector [8]Testing Set [9]Learning
فهرست مطالب
1-دسته بندي 3
1-1مقدمه 3
1-2دستهکننده هاي فاصله کمينه 5
2-2-1دستهکننده k نزديکترين مجاور(k-NN) 7
1-3پياده سازي نرم افزاري 9