دسته کننده Rocchio

دسته‌بندي متن شامل نسبت دادن اسناد به يکي از چند گروه از پيش تعيين شده است. براي نايل شدن به اين هدف اسناد ورودي توسط يک مجموعه از مشخصات[1] که معمولاً خصوصيات[2] ناميده مي‌شود توصيف مي‌شوند. برخلاف خوشه‌بندي[3] که شامل آموزش بدون نظارت است، در دسته‌بندي يک مجموعه آموزشي از داده‌ها با برچسب‌گذاري قبلي نياز است (يادگيري ماشين نظارتي). هدف دسته‌بندي تحليل داده هاي ورودي و ايجاد يک مدل دقيق براي هر دسته با استفاده از اين خصوصيات است. اسناد جديد در داخل يکي از اين دسته‌ها دسته‌بندي مي‌شوند.

یک فایل فشرده حاوی دو فایل:

۱. مطالب بسیار فنی در مورد دسته بندی متن با استفاده از درخت تصمیم

نوع فایل: Microsft word Office

تعداد صفحات: 11

حجم: 133 KB

به همراه کد کامل پیاده سازی الگوریتم به زبان جاوا

[1]attributes

[2]features

[3]clustering

1-1 دسته کننده روچيو[1]

الگوريتم روچيو يک الگوريتم سنتي براي پياده‌سازي بازخورد رابطه‌اي است. اين الگوريتم يک روش براي ارتباط اطلاعات بازخورد رابطه‌اي با مدل فضاي برداري را مدل مي‌کند.

تئوري اصلي. مي‌خواهيم يک بردار پرس و جو را که با نشان داده مي‌شود را طوري بيابيم که بيشترين شباهت را با اسناد مرتبط و کمترين شباهت را با اسناد نامربوط داشته باشد. اگر C_r مجموعه اسناد مرتبط و C_nr مجموعه اسناد نامرتبط، آنگاه ما مي‌خواهيم تا اين موضوع را بصورت زير بيابيم:

بطوري که شباهت با استفاده از فرمول زير محاسبه مي‌شود:

بردار پرس و جوي بهينه براي جداسازي اسناد مربوط و نامربوط بصورت زير خواهد بود:

در يک محتواي پرس و جوي IR واقعي، يک پرس و جوي کاربر و اطلاعات جزئي[2] از اسناد آشناي مربوط و نامربوط داريم. الگوريتم اصلاح بردار پرس و جوي را بصورت زير پيشنهاد مي‌کند:

که q₀ بردار پرس و جوي اصلي، D_r و D_nr به ترتيب مجموعه اسناد مرتبط و نامرتبط شناخته شده و α، β و γ اوزان مرتبط با هر واژه است. اين پارامترها تعادل بين درستي تشخيص مجموعه اسناد در برابر پرس و جو را کنترل مي‌کنند. اگر تعداد زيادي سند تشخيص داده شده داشته باشيم، مي‌خواهيم که β و γ بالاتري داشته باشيم. با بردار q₀ شروع مي‌کنيم، بردار جديد با برخي فاصله‌ها شما را به مرکز اسناد مرتبط حرکت مي‌دهد و با برخي فاصله‌ها شما را از مرکز اسناد نامرتبط دور مي‌کند. اين پرس و جوي جديد مي‌تواند براي بازيابي در مدل فضاي برداري استاندارد مورد استفاده قرار گيرد.

بازخورد رابطه‌اي هر دو مقدار فراخواني و دقت را بهبود مي‌بخشد، اما عملاً نشان داده شده است که براي افزايش فراخواني در موقعيت‌هايي که فراخواني مهمتر است مفيدتر است. مقادير منطقي براي α، β و γ ممکن است بصورت α=1، β=0.75 و γ=0.15 باشند اما در حقيقت بيشتر سيستمها فقط از بازخورد مثبت[3] استفاده مي‌کنند و مقدار پارامتر γ را صفر در نظر مي‌گيرند.

[1]Rocchio

[2]partial knowledge

[3]positive feedback

فهرست مطالب

1 دسته بندي 3
1-1 مقدمه 3
2-1 دسته کننده روچيو 5
1-3 پياده سازي نرم افزاري 9

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com