شبکه عصبی مصنوعی چند لایه، درخت تصمیم و ماشین بردار پشتیبان از جمله الگوریتم های یادگیری ماشین با نظارت هستند. در این فصل به معرفی این سه الگوریتم پرداخته شده است.
2-1- رده بندی
رده بندی داده ها یک پروسه دو مرحله ای است. در مرحله اول، یک مدل ساخته می شود که توصیف کننده یک مجموعه از پیش تعیین شده از داده ها، کلاس ها یا مفاهیم است. این مدل بوسیله تحلیل دوتایی های پایگاه داده که توسط صفات توضیح داده شده اند ساخته می شود. فرض می شود که هر دوتایی به یک کلاس از پیش تعریف شده تعلق دارد، همانگونه که بوسیله یکی از صفات بنام صفت برچسب کلاس تعیین شده است. دوتایی های داده برای ساختن مدل از مجموعه داده آموزشی مورد تجزیه و تحلیل قرار می گیرند. دوتایی های منفرد که سازنده مجموعه آموزشی هستند به عنوان نمونه-های آموزشی شناخته شده و به طور تصادفی از جمعیت نمونه ها انتخاب می شوند. از آن جايي كه برچسب کلاس هر نمونه آموزشی فراهم می گردد، این مرحله به اسم یادگیری با ناظر نیز شناخته می-شود. مثال هایی از این کار شامل رده بندی یک کارت اعتباری به قلابی یا قانونی، رده بندی یک سلول سرطانی به خوش خیم یا بدخیم، و طبقه بندی اخبار براساس عناوین مربوطه شان (مالی، سرگرمی، ورزشی و غیره) می باشد. رده بندی کارآمد می تواند بینش مفیدی برای کمک به سازمان ها در جهت تصمیم گیری آگاهانه فراهم کند. این در تضاد با یادگیری بدون ناظر (خوشه بندی) است که در آن برچسب نمونه های آموزشی را از قبل نمی دانیم و تعداد یا مجموعه کلاس هایی که باید یاد گرفته شوند نیز از پیش معلوم نیست [HAN06]، [TAN06].
یک مدل رده بند برای مقاصد زیر مفید است [TAN06]:
• می تواند به عنوان یک ابزار توضیحی برای تمیز دادن بین اشیاء از کلاسهای متفاوت بکار رود. این جنبه توصیفی از یک مدل رده بندی است.
• همچنین ممکن است برای تعیین برچسب کلاس رکوردهای ناشناخته بکار رود. با یک مدل رده بند می توان به عنوان یک جعبه سیاه که به طور اتوماتیک یک برچسب کلاس را در هنگام ارائه شدن با صفات یک رکورد ناشناس تخصیص می دهد رفتار کرد. این جنبه پیشگویانه از یک مدل رده بند است.
رویکرد کلی برای حل یک مسئله رده بندی
تکنیک رده بندی یک رویکرد سیستماتیک برای اضافه کردن مدل های رده بندی از یک مجموعه داده ورودی است. مثال هایی از تکنیک های رده بندی شامل رده بندهای درخت تصمیم، رده بندهای مبتنی بر قانون، شبکه های عصبی، SVM ها، رده بندهای بیز ساده لوح و رده بندهای نزدیکترین همسایه هستند. هر تکنیک یک الگوریتم یادگیری برای جستجوی فضای فرضیه H را بکار گرفته و مدلی که بیشترین سازگاری را با داده های ورودی دارد انتخاب می کند. مدل f با رکورد (x , y) سازگار گفته میشود اگر و فقط اگر f( x) = y [TAN06].
یک مدل رده بندی خوب نباید فقط داده های ورودی را به خوبی تطبیق کند. همچنین باید برچسب کلاس رکوردهایی را که قبلا ندیده است را نیز به درستی پیش بینی کند. ساختن مدلهایی که قابلیت تعمیم بخشی خوبی دارند، مانند مدلهایی که به طور دقیق برچسب کلاسهای رکوردهایی که قبلا دیده نشده اند را پیش بینی کند، یک هدف کلیدی از الگوریتم های یادگیری است.