مسائل یادگیری چندبرچسبی در دنیای واقعی بسیار پرکاربرد هستند، به عنوان مثال در دستهبندی متن، هر سند ممکن است متعلق به چندین دستهی از قبل تعیین شده مثل سیاسی و سلامت باشد؛ در بیوانفورماتیک، هر ژن میتواند به چندین دستهی کاری مثل متابولیسم و سنتز پروتئین تعلق داشته باشد؛ در دستهبندی تصاویر، نیز هر تصویر ممکن است در چندین گروه مثل ساحل و شهری قرار داشته باشد. در تمام این موارد، به هر عضو از مجموعهی آموزش چندین برچسب نسبت داده میشود و وظیفه سیستم این است که به ازای هر نمونه یک مجموعه با اندازه نامشخص از برچسبها ارائه دهد.
مسائل قدیمی مثل دودستهای (two-class) یا چنددستهای (multi-class) نیز با محدود شدن تعداد دستههای نسبت داده شده به هر نمونه، میتوانند به عنوان یک نمونهی خاص از مسائل چندبرچسبی تبدیل شوند. از طرف دیگر، عمومیت مسائل چندبرچسبی باعث میشود تا که مرحلهی آموزش بسیار دشوارتر شود. یک راهحل بدیهی برای اینگونه مسائل، تبدیل آن به چندین مسالهی دستهبندی دودویی (دودستهای) مستقل است اما، این روش مقدار همبستگی بین برچسبهای یک نمونه را در نظر نگرفته و باعث میشود قدرت این روش به مقدار چشمگیری کاهش پیدا کند. خوشبختانه روشهای متعددی برای یادگیری چندبرچسبی در حوزههای دستهبندی متن، درختهای تصمیم چندبرچسبی و روشهای کرنل چندبرچسبی طراحی شده است.
در این گزارش، ابتدا یک الگوریتم شبکه عصبی چندبرچسبی به نام BP-MLL ارائه شده است که مخفف عبارت Backpropagation for Multi-Label Learning است و در واقع اولین الگوریتم شبکه عصبی چندبرچسبی محسوب میشود. سپس یک الگوریتم یادگیری تنبل چندبرچسبی به نام ML-KNN ارائه میشود که مخفف عبارت Multi-Label K-Nearest Neighbor بوده و از الگوریتم قدیمی K-Nearest Neighbor مشتق شده است. به طور جزئیتر، به ازای هر نمونهی مشاهده نشده (آزمایشی)، ابتدا K همسایهی نزدیک آن شناسایی میشوند و با در نظر گرفتن اطلاعات آماری بدست آمده از همسایهها، مثل تعداد همسایهها در هر برچسب و با کمک ابزار MAP یا (Maximum A Posteriori)، مجموعهی برچسبها ارائه میشوند. در ادامهی گزارش، تعدادی روش ارزیابی ارائه شده و در نهایت خروجی هر دو الگوریتم برای دو مسالهی دستهبندی متن و دستههای کاری ژنومیک بررسی شده است.
در اینجا یک نسخه چندبرچسبی از الگوریتم شبکه عصبی با Backpropagation و یک نسخه چندبرچسبی از الگوریتم یادگیری تنبل با استفاده از K همسایهی نزدیک درنظر گرفته شده است. در مقالههای اصلی، الگوریتم شبکه عصبی روی دادگان مربوط به دستهبندی کاربردی ژنومیک و دستهبندی صفحات متن؛ و الگوریتم یادگیری تنبل روی دادگان مربوط به دستهبندی کاربردی ژنومیک، دستهبندی صفحات وب و دستهبندی تصاویر اجرا شده است. با توجه به اشتراک این مقالات در استفاده از دادگانهای Yeast (برای دستهبندی کاربردی ژنومیک) و دادگان Reuters (برای دستهبندی صفحات متنی)، در این گزارش الگوریتم پیادهسازی شده نیز بر روی این دو مجموعه اجرا و تحلیل شده است.
فهرست مطالب
1. مقدمه
2. یادگیری چندبرچسبی
3. الگوریتم شبکه عصبی چندبرچسبی (مقاله اول)
4. الگوریتم یادگیری تنبل چندبرچسبی (مقاله دوم)
5. روشهای ارزیابی
6. کاربرد اول (بیوانفورماتیک)
7. کاربرد دوم ( دستهبندی متن)
8. نتیجهگیری
9. منابع
فایل WorD تعداد صفحات : 22 صفحه
دو مقاله base با عناوین:
ML-kNN a lazy learning approach to multi-label learning
Multi-label neural networks with applications to functional genomics and text categorization
بهمراه پیاده سازی کامل کار با متلب