ما در دنیایی پر از داده و اطلاعات زندگی می کنیم و هر روزه مردم با انواع مختلفی از داده ها که از انواع اندازه گیری ها و مشاهدات به دست می آیند سر و کار دارند. این داده ها مشخصه های زندگی را توصیف می کنند، خواص مواد موجود در طبیعت را ترسیم می کنند، نتایج آزمایشگاهی و علمی را خلاصه می کنند و حرکت و تغییرات سیستم های ماشینی را ضبط می کنند. مهمتر از آن، داده ها زمینه ای برای تحلیل، استدلال، تصمیم گیری و در نهایت برای فهم انواع اشیا و مفاهیم را مهیا می سازند. یکی از مهمترین فعالیت های تحلیل داده های بی شمار، دسته بندی یا گروه بندی داده ها در یک مجموعه از دسته ها و خوشه ها می باشد. اشیاء داده ای که در گروه های یکسان دسته-بندی شده اند باید خواص مشابهی را بر مبنای بعضی معیارها نشان دهند. در واقع به عنوان یکی از ابتدایی ترین فعالیت های بشر دسته بندی نقشی مهم و اجتناب ناپذیری در تاریخ طولانی پیشرفت بشر بازی می کند. به منظور فراگیری یک موضوع تازه یا درک یک مفهوم جدید انسان ها همواره سعی می کنند تا مشخصه های توصیفی آن را شناسایی کرده و به علاوه این مشخصه ها را با اشیا یا مفاهیم شناخته شده بر مبنای شباهت یا عدم شباهت آنها مقایسه کنند، که این شباهت عموما به صورت نزدیکی به استانداردها و قوانین مشخص می باشد. به عنوان مثال تمام اشیا طبیعی اساسا به سه گروه دسته بندی می شوند: حیوانات، گیاهان و مواد معدنی. به علاوه با توجه به طبقه بندی زیستی، تمام موجودات با توجه به مشخصه های قلمرو، نژاد، دسته، نوع، خانواده، ژن و گونه از کل به جزء دسته بندی می شوند. بنابراین ما حیواناتی با نام های ببرها، شیرها، گرگ ها، سگ ها، اسب ها، گوسفندان، گربه ها، موش ها و… داریم. در واقع نام گذاری و دسته بندی بر اساس شباهت های اصلی آنها می باشد. همراه با در دست داشتن اطلاعات این قبیل دسته بندی می توانیم خواص یک شی خاص را بر مبنای دسته ای که به آن تعلق دارد استنباط کنیم. به عنوان مثال هرگاه یک شیر دریایی را مشاهده کنیم سریعا می فهمیم که این موجود یک شناگر خوب است بدون آنکه واقعا شنا کردن آن را دیده باشیم.
اساسا به سیستم های دسته بندی – با توجه به اینکه اشیا داده ای جدید به ترتیب به یکی از دسته های از پیش مشخص یا نامشخص اختصاص یابند- دسته بندی با نظارت یا بدون نظارت گوئیم.
در دسته بندی های با نظارت، نگاشتی از بردارهای داده های ورودی که با نمایش می دهیم (در آن d بعد فضای ورودی است) به یک مجموعه متناهی از دسته های گسسته برچسب خورده که با نمایش می دهیم. در این مجموعه C تعداد انواع دسته هاست که به صورت جملاتی از بعضی توابع ریاضی (w بیانگر بردار پارامترهای قابل کنترل است) مدلسازی می شوند. مقادیر این پارامترها توسط یک الگوریتم یادگیری استنتاجی، که هدف آن کمینه کـردن تابع ریسـک تجـربی بر روی یک مجموعه داده متنـاهی ورودی-خروجی نمـونه، , می باشد، تعیین می شوند که در آن N عدد اصلی متناهی مجموعه داده-های ارائه شده موجود است. هرگاه استنتاج گر به همگرایی رسیده یا کار خاتمه پیدا کند، یک دسته بندی استنتاجی به وجود آمده است.
در دسته بندی بدون نظارت، که خوشه بندی یا تحلیل اکتشافی داده نیز نامیده می شود، هیچ داده برچسب خورده ای در دسترس نیست. هدف خوشه بندی تفکیک یک مجموعه داده برچسب نخورده متناهی به یک مجموعه متناهی و گسسته طبیعی با توجه به ساختارهای داده ای پنهان است؛ که از تهیه مشخصات دقیق نمونه های نامشخصی که توسط همان توزیع احتمالی به وجود آمده اند سریع تر است. این امر می تواند عمل خوشه بندی را به محیط هایی خارج از چهارچوب محدوه کاری مسائل آموزشی نظارت شده ببرد. محیط هایی نظیر کمی سازی برداری، تخمین توابع، چگالی احتمال و ماکزیمم سازی بی نظمی.
قایل ورد – تعداد صفحات 38
فهرست مطالب
فصل 1 – تعاریف و مقدمات خوشه بندی
2-1 دسته بندی و خوشه بندی
2-2 تعریف خوشه ها
2-2-1 انتخاب یا استخراج مشخصه
2-2-2 انتخاب یا طراحی الگوریتم خوشه بندی
2-2-3 ارزیابی و تاثیر خوشه
2-2-4 تفسیر نتایج
2-3 کاربردهای خوشه بندی
2-4 الگوریتم های خوشه بندی
2-4-1 خوشه بندی سلسله مراتبی
2-4-1-1 خوشه بندی سلسله مراتبی تراکمی
2-4-1-2 خوشه بندی سلسله مراتبی تقسیمی
2-4-2 خوشه بندی تفکیکی
2-4-2-1 الگوریتم های خوشه بندی غیر فازی
2-4-2-2 الگوریتم های خوشه بندی فازی
2-4-2-3 الگوریتم های خوشه بندی احتمالی
2-4-2-4 الگوریتم های خوشه بندی امکان
2-4-2-5 الگوریتم های خوشه بندی یافتن مرز
2-4-3 خوشه بندی داده های ترتیبی
2-4-4 الگوریتم های خوشه بندی دیگر
2-5 الگوریتم های خوشه بندی فازی و غیر فازی
2-5-1 الگوریتم های خوشه بندی فازی
2-5-2 الگوریتم های خوشه بندی غیرفازی
2-5-3 مقایسه خوشه بندی فازی و غیرفازی
2-6 خوشه بندی بر مبنای شکل داده
2-7 معایب و مشکلات خوشه بندی به روش های عددی
2-7-1 افتادن در دام پاسخ های محلی
2-7-2 محدودیت در نقاط شروع اولیه و نیاز به پیش پردازش
منابع و مراجع
فهرست منابع و مراجع