دستهبندي متن شامل نسبت دادن اسناد به يکي از چند گروه از پيش تعيين شده است. براي نايل شدن به اين هدف اسناد ورودي توسط يک مجموعه از مشخصات[1] که معمولاً خصوصيات[2] ناميده ميشود توصيف ميشوند. برخلاف خوشهبندي[3] که شامل آموزش بدون نظارت است، در دستهبندي يک مجموعه آموزشي از دادهها با برچسبگذاري قبلي نياز است (يادگيري ماشين نظارتي). هدف دستهبندي تحليل داده هاي ورودي و ايجاد يک مدل دقيق براي هر دسته با استفاده از اين خصوصيات است. اسناد جديد در داخل يکي از اين دستهها دستهبندي ميشوند.
در مسأله دستهبندي متن، مشخصات کلماتي هستند که درون اسناد متني قرار دارند. در بسياري از موارد قبل از يادگيري ماشين انتخاب خصوصيت[4] صورت ميگيرد تا فضاي خصوصيات[5] را کاهش دهد.
در دسته بندي هدف بدست آوردن يک تابع نگاشت بين اسناد و مجموعه کلاس ها يا گروه ها به وسيله يک سري سند که به آنها مجموعه آموزشي[6]ميگويند، ميباشد. که از اين تابع نگاشت براي تعيين خودکار گروه سند جديد استفاده ميشود. توجه شود که در هنگام توليد تابع نگاشت مجموعه اسناد برچسب خورده هستند يعني گروه هر يک از اسناد مشخص شده است و به وسيله اين اسناد براي هر گروه يک سري ويژگي وصفات منحصر به فرد استخراج ميکنيم.
دستهکننده درخت تصميم گيري يکي از پر استفاده ترين روشهاي يادگيري با نظارت است که براي کاوش[1] دادهها مورد استفاده قرار ميگيرد. اين دستهکننده براي تفسير آسان است و ميتواند بصورت قوانين if-then-else بازنمايي گردد. در اين دستهکننده تابعي توسط مناطق ثابت تکه هاي تقريب زده ميشود و به هيچ دانش قبلي از توزيع دادهها نياز ندارد. اين دستهکننده بر روي دادههاي پارازيت دار به خوبي کار ميکند. يک دستهکننده درخت تصميم گيري در اکتشاف داده ها به روش زير کمک ميکند:
- کاهش حجم زيادي از دادهها توسط تبديل آن به يک نوع فشرده تر که خصوصيات ذاتي و اساسي را حفظ ميکند و يک خلاصه دقيق را فراهم ميکند.
- کشف ميکند که آيا دادهها شامل دسته هاي به خوبي جدا شده[2] از اشيا هستند، بطوري که دسته ها بتوانند در متن يک تئوري حقيقي[3] بطور با معني تفسير شوند.
- داده ها را به شکل يک درخت نگاشت ميکند بطوريکه مقادير پيش بيني بتوانند با عقب گرد از برگها به ريشه توليد شوند. که ممکن است پيش بيني نتايج براي يک داده يا پرس و جوي جديد استفاده شود.
الگوريتمهاي درخت تصميمگيري اصلي در دو گروه زير دستهبندي شده اند:
- دستهکنندهها از نوع يادگيري ماشين مانند ID3، C4.5وCART.
- دستهکنندهها براي پايگاه دادهاي بزرگ مانند SLIQ، SPRINT، SONARوRainForest.
[1]exploration [2]well-separated [3]substantive theory [1]attributes [2]features [3]clustering [4]Feature selection [5]feature space [6]Train Set
فهرست مطالب
1- دسته بندي 3
1-1 مقدمه 3
1-2 دستهکنندههاي درخت تصميم گيري 5
1-2-2استخراج قوانين دستهبندي از روي درختها 8