هرزنامه سوءاستفاده از سیستمهای پیغامدهی الکترونیکی ( شامل اغلب رسانههای دادهپراکنی و سیستمهای تحویل دیجیتالی اطلاعات) برای فرستادن پیغامهای زیاد برای افراد نامشخص میباشد. درحالیکه مشهورترین نوع هرزنامه، هرزنامه های پست الکترونیکی میباشند، ولی این کلمه برای سایر سوءاستفادههای رسانهای نیز استفاده میگردد. سایر انواع هرزنامه عبارتند از هرزنامههای پیام الکترونیکی ، هرزنامه گروههای خبری Usenet، هرزنامههای موتور جستجوی وب، هرزنامهها در بلاگها، هرزنامههای ویکیها ، هرزنامههای تبلیغات تجاری آنلاین، هرزنامههای پیغام در تلفنهای موبایل، هرزنامه در فرومها، تبادلات بیهودهی نمابر ، هرزنامههای شبکههای اجتماعی و هرزنامه شبکههای اشتراک فایل. این متن بر روی هرزنامههای پست الکترونیکی یا اسپم تمرکز دارد.
امروزه پست الکترونیکی یا ایمیل یکی از سریعترین و اقتصادیترین راهها برای ارتباط میباشد. با اینحال، افزایش کاربران پست الکترونیکی باعث افزایش بیسابقهای در تعداد پستهای مزاحم (Spam) در چندین سال اخیر شده است. ایمیلهای تجاری ناخواسته (UCE ) که از آنها به عنوان هرزنامه نیز یاد میشود، یکی از مشکلات بزرگی است که امروزه کاربران اینترنت با آن دست و پنجه نرم میکنند. فرستادن هرزنامه – که همانا فرستادن UCE میباشد- شامل فرستادن ایمیلهایی است که تقریباً یکسان بوده و به هزاران و یا حتی میلیونها شخص بدون رضایت شخصی آنها –و حتی با رد چنین ایمیلهایی توسط آنها- فرستاده میشود [FED99,SPA06,WIK09]. UBE دستهی دیگری از ایمیلها می باشد که میتوان آنها را به عنوان هرزنامه طبقهبندی کرد. با توجه به گزارشهای اخیر Spamhaus [BUR06] و Symantec [SEM06]، از هرزنامه برای فرستادن و توزیع ویروسها، جاسوسافزارها و نیز سوقدادن کاربران به وبسایتهای Phishing استفاده میگردد. امروزه افزایش چشمگیری در هردو نوع هرزنامه یعنی UCE و UBE دیده میشود. برای مثال Symantec گزارش کرده است که میزان تلاشهای Phishing از نیمهی اول سال 2005 تا نیمهی دوم سال 2005 به میزان 44 درصد افزایش داشته است. همین طور بنابر گزارش اخیر در سال 2008، با یک تقریب محافظهکارانه،80 تا 85 درصد ایمیلها را هرزنامهها تشکیل میدهند [WIK09].
علاوه بر رشد کمی هرزنامهها، روشهای فرستادن هرزنامه نیز تغییرات زیادی یافته است. بطور مثال امروزه شاهد رشد فزایندهی ارسال هرزنامهها از طریق شبکههای Zombie هستیم. شبکههای Zombie شبکههایی از کامپیوترهای شخصی آلوده به ویروس یا کرم در سرتاسر دنیا هستند. بسیاری از کرمهای جدید یک درِپشتی بر روی کامپیوتر قربانی نصب میکنند و بدینوسیله فرستندهی هرزنامه اجازه یافته تا از کامپیوتر استفاده کرده و از آن برای اهداف خرابکارانهی خود استفاده کنند. این مساله خود باعث پیچیدهشدن کنترل گسترش هرزنامه میگردد بهطوریکه در برخی موارد، هرزنامه از خود فرستندهی هرزنامه شیوع پیدا نکرده است. در نوامبر سال 2008 یک سرویسدهندهی اینترنت (ISP) به نام McColo که به عملگرهای باتنت سرویس ارائه میداد، از کار افتاد و به میزان 50 تا 75 درصد میزان هرزنامهها کاهش یافت. در همان زمان مشخص شد که نویسندگان کرم، ویروس و نیز فرستندگان هرزنامه از یکدیگر تکنیکها را میآموزند و در بسیاری از اوقات شراکتهای متعددی را ایجاد میکنند [WIK09]. برای جلوگیری از غرقشدن کاربران توسط ایمیلهای هرزنامه، بسیاری از سازمانها و فراهمکنندگان سرویس اینترنت (ISP) از فیلترهایی برای جلوگیری از هرزنامه (عمدتاً در سطح سرویسدهنده) استفاده میکنند. شاید عمدهترین نوع فیلتر، فیلتر مبتنی بر یادگیری و از نوع کلاسهبندی Naïve Bayes میباشد [GRA02,SAH98] که در بسیاری از برنامههای سرویسگیرندهی ایمیل استفاده میگردد. در کل میتوان در یک دستهبندی کلی، فیلترها و تشخیصدهندههای هرزنامه را به پنج بخش دستهبندی کرد: فیلترهای مبتنی بر محتوای ایمیل (کلمات و تصاویر)، فیلترهای مبتنی بر فهرست، فیلترهای مبتنی بر عملیات آغازین، فیلترهای مبتنی بر تشخیص هویت فرستنده و فیلترهای مبتنی بر روشهای شبکههای اجتماعی. بسیاری از سیستمهای تشخیص هرزنامه مانند SpamAssasin از مخلوطی از این روشها استفاده میکنند.
فیلترهای مبتنی بر محتوای ایمیل که اکثر آنها از متن ایمیل استفاده میکنند، به عنوان فیلترهای مبتنی بر توکن نیز شناخته میشوند و بزرگترین و پرکاربردترین دسته از فیلترهای هرزنامه را تشکیل میدهند. در اکثر روشهای مبتنی بر محتوا از روشهای یادگیری ماشینی و دادهکاوی استفاده میگردد. بسیاری از فیلترهای مبتنی بر توکن، در بدنه و نیز عنوان ایمیل، وجود کلمات کلیدی و گروه کلماتی را که اکثراً در هرزنامهها بکار میروند، بررسی میکنند.
فیلترهای مبتنی بر لیست سرآیند یک ایمیل را بررسی میکنند تا تعلق آدرس ایمیل به یکی از دستههای لیست سفید، سیاه و یا خاکستری مشخص گردد. تمامی لیستها به صورت پویا ساخته شده و میتوانند رشد پیدا کنند. هر ایمیل ورودی که آدرس فرستندهی آن در لیست سیاه قرار دارد، فیلتر میگردد. آدرس ایمیلهایی که مشکوک بوده ولی بطور قطع نمیتوان آنها را جزو فرستندگان معتبر و یا غیرمعتبر دستهبندی کرد، در لیست خاکستری قرار میگیرند. به تدریج و با بررسیهای آتی، آدرس های خاکستری به دستهی سفید یا سیاه منتقل خواهند شد.
فیلترهای مبتنی بر عملیات آغازین، برای شناسایی هرزنامه به یک سری پردازش از سمت شخصی که میخواهد به شخص مالکِ فیلتر نامه بفرستد، نیازمند است. البته شایان ذکر است که این عملیات آغازین تنها در مورد اولین ایمیل فرستنده صورت میگیرد. پس از اینکه پردازشهای آغازین بطور موفقیت آمیزی پایان پذیرفت، آنگاه آدرس ایمیل فرستنده در لیست سفید طبقهبندی میگردد.
فیلترهای مبتنی بر تشخیص هویت فرستنده یک مجموعه از سرویسدهندههای معتبر ایمیل را ثبت کرده و بهصورت پویا آنها را بروزرسانی میکند. هر ایمیلی از سوی این سرویسدهندهها، بهعنوان ایمیل معتبر دستهبندی میگردد.
مرور کارهای انجام شده پایان نامه
فایل Word
تعداد صفحات: 78 صفحه
فهرست مطالب
1- مقدمه 1
1-1- طرح مساله 3
2- مرور ادبیات 6
2-1- پدیدهی هرزنامه (SPAM) 6
2-1-1- تعریف ومشخصات کلی هرزنامه 6
2-1-2- تلاشهای قانونگذاری برای ضد هرزنامهها 7
2-1-3- تغییر پروتکلهای انتقال نامههای الکترونیکی 8
2-1-4- تغییرات محلی در روندِ انتقال نامههای الکترونیکی 9
2-2- روشهای مبتنی بر یادگیری به منظور فیلترکردن هرزنامه 9
2-2-1- مواردی که در تشخیص ایمیل نیاز به بررسی دارند 11
2-2-2- استخراج ویژگی ها (Featare Extraction) برای فیلترکردن مبتنی بر تصویر 14
2-2-3- چگونگی آنالیز 15
2-2-4- روشهای استخراج کنندهی ویژگیها به صورت BOW 16
2-2-5- بررسی ویژگیهای سرآیند ایمیل به منظور تشخیص هرزنامه 18
2-2-5-1- مراحل گذار یک ایمیل 18
2-2-5-2- ویژگیهای سرآیند در ایمیلهای هرزنامه 19
2-3- فیلترهای مبتنی بر زبان 21
2-4- فیلترهای مبتنی بر ویژگی های غیر متنی 21
2-4-1- فیلترکردن هرزنامه با استفاده از شبکههای اجتماعی 22
2-4-1-1- کارهای گذشته در مورد تشخیص هرزنامه با استفاده از شبکهی اجتماعی 22
2-5- فیلتر کردن هرزنامهها از طریق همکاری بین کاربران 25
2-6- روش های ترکیبی (HYBRID) 26
2-7- مروری بر روشهای فیلترنمودن هرزنامهها 26
2-8- واکنش های متقابل از سوی فرستندگان هرزنامه 27
2-9- ارزیابی و مقایسهی روشها 28
2-10- آنتولوژی 34
2-10-1- انواع آنتولوژيها 34
2-11- یادگیری آنتولوژی 35
2-11-1- ابزارهای یادگیری آنتولوژی از متن 37
2-11-1-1- Text2Onto 37
2-11-1-2- OntoLT 39
2-11-1-3- OntoGen 39
2-11-1-4- مقایسهی ابزارهای ساخت آنتولوژی 42
2-12- روشهای اندازهگیری مشابهت بین مفاهیم 43
2-12-1- روشهای مبتنی بر انبوههی بزرگ اسناد 43
2-12-1-1- PMI 43
2-12-1-2- LSA 44
2-12-2- روشهای اندازهگیری مشابهت معنایی مبتنی بر ساختار سلسله مراتبی آنتولوژی 45
2-12-2-1- سلسله مراتب روشهای اندازهگیری میزان مشابهت مفاهیم 46
2-12-2-2- مشابهت مفاهیم در یک آنتولوژی 47
2-12-2-3- تشابه بین مفاهیم آنتولوژیهای متفاوت 50
– آنتولوژیها توسط زبانهای متفاوت توصیف شدهاند 51
2-12-3- استفاده از WordNet برای محاسبهی میزان مشابهت مفاهیم آنتولوژی 51
2-12-3-1- روشهای مبتنی بر شمارش یالها 54
2-12-3-2- روشهای آماری مبتنی بر اطلاعات 56
2-12-3-3- روشهای ترکیبی 57
2-12-3-4- بهکارگیری روشهای مشابهت معنایی مبتنی بر WordNet در فرآیند انطباق آنتولوژی 59
2-12-3-5- ارزیابی روشهای تشابه معنایی مبتنی بر WordNet 62
2-13- خلاصه 63
3- منابع 65