مقاله و ترجمه : بررسی الگوریتم های خوشه بندی جریان های داده

ترجمه مقاله

بررسی الگوریتم های خوشه بندی جریان های داده

چکیده خوشه بندی جریان های داده در چند سال اخیر ، به دلیل حضور رو به رشد خود توجه زیادی به خود جلب کرده است. در خوشه بندی جریان های داده ، چالش های اضافی دیگری مانند زمان محدود ، حافظه محدود و خوشه بندی تک گذر وجود دارد. کشف خوشه ها با اشکال مختلف در برنامه های کاربردی جریان های داده بسیار مهم است. جریان های داده ، نامحدودند و در طول زمان در حال تکامل اند و ما هیچ دانشی درباره ی تعداد خوشه ها نداریم. در یک محیط جریان داده به دلیل عوامل مختلف گاهی اوقات نویز پدیدار می شود. روش مبتنی بر چگالی ، دسته قابل توجه ای از خوشه بندی جریان های داده است که می تواند خوشه هایی با اشکال مختلف را کشف کند و نویز را تشخیص دهد. بنابراین در حالت پیشرفته ، نیازی به دانستن تعداد خوشه ها ندارد. به دلیل ویژگی های جریان داده ، خوشه بندی سنتی مبتنی بر چگالی مناسب نیست. اخیرا تعداد زیادی الگوریتم خوشه بندی مبتنی بر چگالی برای جریان داده توسعه یافته اند. ایده اصلی در این الگوریتم ها استفاده از روش های مبتنی بر چگالی در فرایند های خوشه بندی و همزمان غلبه بر محدودیت هایی است که از ذات جریان داده ناشی می شود . هدف از این مقاله بررسی تعدادی از الگوریتم ها در ادبیات موضوع مبتنی بر چگالی برای جریان داده است. ما نه تنها الگوریتم های اصلی خوشه بندی در جریان داده را به طور خلاصه بیان می کنیم ، بلکه درباره ی تمایزها و محدودیت های آن ها بحث می کنیم و نیز چگونگی مقابله ی آن ها با چالش ها را شرح می دهیم. علاوه بر این ، معیارهای ارزیابی برای اعتبارسنجی کیفیت خوشه و اندازه گیری کارایی الگوریتم ها را بررسی می کنیم. امید است که این مطالعه به عنوان پله ای برای محققان خوشه بندی جریان های داده به ویژه الگوریتم های مبتنی بر چگالی باشد.

کلمات کلیدی جریان داده ، خوشه بندی مبتنی بر چگالی ، خوشه بندی سلولی ، خوشه بندی میکرو
1. مقدمه
روزانه ما 2.5 کوانتیلیون بایت داده ایجاد می کنیم ؛ نود درصد از داده های کنونی در جهان تنها در دو سال اخیر به وجود آمده اند. این داده ها ، بر ظرفیت ما برای ذخیره و پردازش غلبه یافتند. در سال 2007 برای اولین بار حجم اطلاعات از ظرفیت نگه داری قابل دسترس ما پیشی گرفت. برای مثال ، در سال 1998 گوگل 26 میلیون صفحه را نمایه کرد که در سال 2000 به یک بیلیون رسید. و در سال 2012 گوگل، بالای سی تریلیون صفحه را نمایه کرد. این گسترش چشمگیر حجم اطلاعات ، را می توان به برنامه های شبکه های اجتماعی مانند فیسبوک و توییتر نسبت داد. درواقع ما به طور پیوسته حجم عظیمی از داده در قالب جریان داده از برنامه های مختلف تولید می کنیم. اطلاعات ارزشمند را باید از این داده ها برای کمک به بهبود کیفیت زندگی استخراج کرد. کاوش جریان های داده به استخراج ساختار دانشی که در قالب جریان های اطلاعاتی به نمایش درآمده اند مربوط می شود . پژوهش درباره ی جریان- داده کاوی به دلیل اهمیت کاربرد و افزایش تولید جریان های داده ، تعداد قابل توجهی از محققین را به خود جلب کرده است. ] 6- 1 [ خوشه بندی کلاس مهمی در جریان- داده کاوی است. هدف از خوشه بندی، گروه بندی جریان های داده به گروه های معنادار است. خوشه بندی جریان های داده نسبت به خوشه بندی سنتی داده ها ، دارای چالش های اضافی مانند زمان و حافظه محدود و همچنین خوشه بندی تک گذر است. برای خوشه بندی جریان داده ، الگوریتمی مناسب است که نخست خوشه هایی از اشکال مختلف را کشف کند و دوم اینکه نویز را مدیریت کند و سوم اینکه بدون داشتن دانش قبلی از تعداد خوشه ها ، داده ها را دسته بندی کند. انواع مختلفی از الگوریتم ها برای جریان های داده وجود دارد.

مقاله

On Density-Based Data Streams Clustering Algorithms: A Survey 2014

Abstract

Clustering data streams has drawn lots of attention in the last few years due to their ever-growing presence. Data streams put additional challenges on clustering such as limited time and memory and one pass clustering. Furthermore, discovering clusters with arbitrary shapes is very important in data stream applications. Data streams are infinite and evolving over time, and we do not have any knowledge about the number of clusters. In a data stream environment due to various factors, some noise appears occasionally. Density-based method is a remarkable class in clustering data streams, which has the ability to discover arbitrary shape clusters and to detect noise. Furthermore, it does not need the number of clusters in advance. Due to data stream characteristics, the traditional density-based clustering is not applicable. Recently, a lot of density-based clustering algorithms are extended for data streams. The main idea in these algorithms is using densitybased methods in the clustering process and at the same time overcoming the constraints, which are put out by data stream’s nature. The purpose of this paper is to shed light on some algorithms in the literature on density-based clustering over data streams. We not only summarize the main density-based clustering algorithms on data streams, discuss their uniqueness and limitations, but also explain how they address the challenges in clustering data streams. Moreover, we investigate the
evaluation metrics used in validating cluster quality and measuring algorithms’ performance. It is hoped that this survey will serve as a steppingstone for researchers studying data streams clustering, particularly density-based algorithms.

Keywords

data stream, density-based clustering, grid-based clustering, micro-clustering

دانلود فایل انگلیسی مقاله

On Density-Based Data Streams Clustering Algorithms A Survey2014

clustering algorithms survey 2014

فایل PDF اصل مقاله 26 صفحه

On Density-Based Data Streams Clustering Algorithms: A Survey

Amineh Amini, Member, IEEE, Teh Ying Wah, and Hadi Saboohi, Member, ACM, IEEE

JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY 29(1): 116–141 Jan. 2014. DOI 10.1007/s11390-013-1416-3

فایل ورد Microsoft Word ترجمه مقاله حدود 37 صفحه / با مراجع 44 صفحه

بررسی الگوریتم های خوشه بندی جریان های داده

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com