دستهبندي متن شامل نسبت دادن اسناد به يکي از چند گروه از پيش تعيين شده است. براي نايل شدن به اين هدف اسناد ورودي توسط يک مجموعه از مشخصات[1] که معمولاً خصوصيات[2] ناميده ميشود توصيف ميشوند. برخلاف خوشهبندي[3] که شامل آموزش بدون نظارت است، در دستهبندي يک مجموعه آموزشي از دادهها با برچسبگذاري قبلي نياز است (يادگيري ماشين نظارتي). هدف دستهبندي تحليل داده هاي ورودي و ايجاد يک مدل دقيق براي هر دسته با استفاده از اين خصوصيات است. اسناد جديد در داخل يکي از اين دستهها دستهبندي ميشوند.
[1]attributes [2]features [3]clustering
1-1 دسته کننده روچيو[1]
الگوريتم روچيو يک الگوريتم سنتي براي پيادهسازي بازخورد رابطهاي است. اين الگوريتم يک روش براي ارتباط اطلاعات بازخورد رابطهاي با مدل فضاي برداري را مدل ميکند.
تئوري اصلي. ميخواهيم يک بردار پرس و جو را که با نشان داده ميشود را طوري بيابيم که بيشترين شباهت را با اسناد مرتبط و کمترين شباهت را با اسناد نامربوط داشته باشد. اگر Cr مجموعه اسناد مرتبط و Cnr مجموعه اسناد نامرتبط، آنگاه ما ميخواهيم تا اين موضوع را بصورت زير بيابيم:
بطوري که شباهت با استفاده از فرمول زير محاسبه ميشود:
بردار پرس و جوي بهينه براي جداسازي اسناد مربوط و نامربوط بصورت زير خواهد بود:
در يک محتواي پرس و جوي IR واقعي، يک پرس و جوي کاربر و اطلاعات جزئي[2] از اسناد آشناي مربوط و نامربوط داريم. الگوريتم اصلاح بردار پرس و جوي را بصورت زير پيشنهاد ميکند:
که q0 بردار پرس و جوي اصلي، Dr و Dnr به ترتيب مجموعه اسناد مرتبط و نامرتبط شناخته شده و α، β و γ اوزان مرتبط با هر واژه است. اين پارامترها تعادل بين درستي تشخيص مجموعه اسناد در برابر پرس و جو را کنترل ميکنند. اگر تعداد زيادي سند تشخيص داده شده داشته باشيم، ميخواهيم که β و γ بالاتري داشته باشيم. با بردار q0 شروع ميکنيم، بردار جديد با برخي فاصلهها شما را به مرکز اسناد مرتبط حرکت ميدهد و با برخي فاصلهها شما را از مرکز اسناد نامرتبط دور ميکند. اين پرس و جوي جديد ميتواند براي بازيابي در مدل فضاي برداري استاندارد مورد استفاده قرار گيرد.
بازخورد رابطهاي هر دو مقدار فراخواني و دقت را بهبود ميبخشد، اما عملاً نشان داده شده است که براي افزايش فراخواني در موقعيتهايي که فراخواني مهمتر است مفيدتر است. مقادير منطقي براي α، β و γ ممکن است بصورت α=1، β=0.75 و γ=0.15 باشند اما در حقيقت بيشتر سيستمها فقط از بازخورد مثبت[3] استفاده ميکنند و مقدار پارامتر γ را صفر در نظر ميگيرند.
[1]Rocchio [2]partial knowledge [3]positive feedback
فهرست مطالب
1 دسته بندي 3
1-1 مقدمه 3
2-1 دسته کننده روچيو 5
1-3 پياده سازي نرم افزاري 9