پیشرفتهای شایانی که در دهههای پیشین در زمینه سختافزار و ذخیره و بازیابی اطلاعات صورت گرفته، بستری فراهم آوردهاست که بتوان حجم عظیمی از اطلاعات را با هزینهای بسیار کم ذخیره و نگهداری کرد. بر همین اساس سازمانها و شرکتها توانستهاند حجم بسیار زیادی از تراکنشهای مربوط به اطلاعات شخصی افراد و شرکتهای دیگر را در انباردادههای[1] خود ذخیرهسازی و نگهداری کنند تا بتوانند از این اطلاعات در جهت تصمیمگیری، برنامهریزی، ارائه خدمات بهتر و کسب سود بیشتر استفاده نمایند.
یکی از روشهای بسیار مهم در دادهکاوی، کاوش قوانین انجمني[1](ARM)[5]است.کاوش قوانین انجمنی یک فرآیند دو مرحلهای است. در مرحله نخست مجموعه-اقلامِ متکرر[2] کشف و استخراج می شوند و در مرحله دوم با استفاده از این مجموعه-اقلام، قوانین انجمنی تولید میشوند. تاکنون الگوريتمهاي بسياري براي يافتن مجموعه-اقلامِ متکرر توسط محققان ارائه شده است. الگوريتم Apriori[7,9] معروفترين الگوريتم در اين زمينه است. يـکي از مـدلهای اسـتفاده شـده در کاوش قوانین انجمنـی، مـدل کاوش سودمنـدي[3][9]است. کاوش سودمندي کمبودهاي مدل سنتي که سوددهي و تعداد کالاها را در تراکنشها در نظر نميگرفت را برطرف میسازد و قوانین مفیدتری را تولید میکند.
بسیاری از شرکتها برای دستیابی به سود بیشتر و همچنین ارائه خدمات بهتر به کاربران خود، بخشی از اطلاعات مربوط به کاربران را با شرکتهای همتای خود به اشتراک میگذارند. برخی مؤسسات دولتی نیز اطلاعات استخراج شده همانند آمارگیریها و اطلاعات مربوط به بهداشت و … را بهصورت عمومی منتشر میکنند تا متخصصین و محققین بتوانند این اطلاعات را تحلیل و ارزیابی نمایند و سازمانها و مؤسسات دیگرنیز بتوانند از این اطلاعات برای تصمیمسازی و برنامهریزی بهتر استفاده کنند. انتشار این نوع دادهها به صورت عمومی اگرچه اطلاعات خصوصی افراد و مؤسسات را به صورت مستقیم افشا نمیکند، اما این امکان را فراهم میسازد که حملهکننده با تحلیل دقیق این دادهها و ترکیب آنها با دادههای عمومی دیگر، بتواند به الگوها و استنتاجهایی دستیابی پیدا کند که حریم خصوصی[1] افراد و مؤسسات را به خطر اندازد.
افزایش نگرانیها در بین شهروندان و بسیاری از مؤسسات برای به خطر افتادن حریم خصوصـی آنها موجب گردید که دولتها ادامه استفاده از روشهای دادهکاوی را از لحاظ قانونی مورد بازبینی قرار دهند و در مواردی استفاده از روشهای دادهکاوی را ناقض قوانین حفظ حریم خصوصی دانسته و آنها را غیرقانونی معرفی کنند. افزایش نگرانیها از یک طرف و نیاز مبرم مؤسسات و دولتها برای استفاده از روشهای دادهکاوی از طرف دیگر موجب گردید که شاخه جدیدی از تحقیقات با نام حفظ حریــم خصوصی در دادهکاوی(PPDM) بهعنـوان شاخهای مهم و حیاتی برای ادامه امکان استفاده از روشهای دادهکاوی، مورد توجه محافل علمی قرار گیرد. این مبحث نخستین بار توسط Agrawal و Srikant در سال 2000 به محافل علمی معرفی شد[6] و تا کنون روشهای زیادی برای آن ابداع گردیده و مورد استفاده قرار گرفته است.
حفظ حريم خصوصی, کاوش سودمندي, کاوش قوانين انجمني, داده کاوي, برنامه ریزی عدد صحیح, الگوریتم های مکاشفه ای, الگوریتم های تکاملی
فهرست مطالب
فصل 1 -مقدمه 11
1-1-داده کاوی 12
1-1-1-کاوش قوانین انجمنی 13
1-2-حفظ حریم خصوصی درداده کاوی 13
1-2-1- شاخه های تحقیقاتی درPPDM 14
1-2-2- الگوریتم ها و روش های PPDM 16
1-3-مخفی سازی قوانین انجمنی 18
1-4-حفظ حریم خصوصی درکاوش سودمندی 19
1-5-نمای کلی پایان نامه 20
فصل 2- مخفی سازی قوانین انجمنی 21
2-1- پیش نیاز 22
2-1-1- مقدمات وتعاریف 23
2-1-2- تئوری مرزها 25
2-1-3- تعریف رسمی مسأله 26
2-1-3-1- اهداف متدولوژی های مخفی سازی قوانین انجمنی 26
2-1-3-2- بیان مسأله 28
2-1-3-3-گونه1: مخفی سازی قوانین انجمنی حساس 29
2-1-3-4- گونه 2: مخفی سازی مجموعه-اقلامِ حساس 29
2-2- دسته بندی متدولوژی های مخفی سازی قوانین انجمنی 30
2-3- الگوریتم های مکاشفه ای 31
2-3-1- الگوریتم های مبتنی بر درهم سازی 32
2-3-2- الگوریتم های مبتنی برمسدودسازی 34
2-4- الگوریتم های مبتنی براصلاح مرز 35
2-4-2- الگوریتم BBA 35
2-4-3- الگوریتمMax-Min 36
2-5- الگوریتم های دقیق 36
2-5-1- الگوریتمMenon 37
2-6- خلاصه 39
فصل 3- حفظ حریم خصوصی درکاوش سودمندی 40
3-1- کاوش سودمندی 41
3-2- حفظ حریم خصوصی درکاوش سودمندی(PPUM) 44
3-2-1-فرآیندپاک سازی 45
3-2-2- محاسبه کارایی 46
3-2-3- الگوریتم های PPUM 47
3-2-3-1-الگوریتم مخفی سازی قلم باسودمندی بالا،اول(HHUIF) 47
3-2-3-2- الگوریتم مخفی سازی قلمِ بابیش ترین تداخل بامجموعه-اقلامِ حساس، اول(MSICF) 49
3-3- خلاصه 50
مراجع 52
فایل ورد – 49 صفحه
مرور کارهای انجام شده
سمینار کارشناسی ارشد