خلاصه سازی چکیده ای مبتنی بر مشابهت جملات
چكيده
خلاصه سازی خودکار متون همزمان با رشد روز افزون اسناد و طلاعات بیش از پیش مورد توجه علاقه مندان حوزه پردازش زبان طبیعی قرار گرفته است. از این میان خلاصه سازی چند سنده که در آن چندین سند به عنوان ورودی دریافت می گردد، مورد توجه زیادی قرار گرفته است. در بسیاری از روش های تنها گزیده ای از جملات اولیه بدون تغییر به عنوان خلاصه برگردانده می شود. که به خلاصه سازی گزینشی معروف است. در مقابل آن در زمینه خلاصه سازی چکیده ای که برگرفته ای از جملات اولیه را خواهیم داشت، کار چندانی انجام نگرفته است. در این پایان نامه به بیان روشی برای خلاصه سازی چکیده ای و چند سنده خواهیم پرداخت که بر مبنای نقش های معنایی، شباهت معنایی جملات، فشرده سازی، حذف و ادغام آنها عمل می نماید. نتایج ارزیابی نشان دهنده بهبود روش های پیشنهادی شباهت معنایی کلمات و فشرده سازی جملات نسبت به روش های مرتبط پیشین می باشند. همچنین ارزیابی سیستم پیشنهادی برروی داده های کنفرانس DUC و با استفاده از معیار ارزیابی ROUGE نشانگر بهبود نتایج نسبت به اکثریت مطلق سیستم های موجود در مجموعه داده مذکور می باشد.
كلمات كلیدی:
خلاصه سازی متن، خلاصه سازی چندسنده، خلاصه سازی چکیده ای، فشرده سازی جملات، شباهت معنایی، ادغام جملات
در این مستند به ارائه روشی جدید برای خلاصه سازی چند سنده و چکیده ای پرداختیم. روش مذکور شامل چندین فاز می باشد، ابتدا بهترین جملات با استفاده از یک روش خلاصه سازی گزینشی مناسب انتخاب می گردند، سپس به معرفی روشی جدید برای مشابهت جملات پرداختیم. که روش مذکور در مقایسه با روش های جدید مشابهت جملات پیشرفت زیادی کسب نمود. سپس بر مبنای این مشابهت و با تکیه بر نقش های معنایی جملات روشی غیرنظارتی برای فشرده سازی جملات ارائه نمودیم تا قسمت های غیر ضروری جملات حذف گردند. بر این مبنا 5 حالت مختلف فشرده سازی ارائه گردید که از آن میان حالت پنجم نتایجی بهتر هم در مقایسه با سایر حالات با معیار ROUGE و هم در مقایسه با سایر روش های فشرده سازی غیرنظارتی کسب نمود. پس از آن جملات را با استفاده از معیار مشابهت مذکور دسته بندی نموده و روشی نیز برای یکی نمودن جملات موجود در دسته ها ارائه نمودیم. روش خلاصه سازی مذکور نتایجی بسیار بهتر از میانگین سیستم های قوی موجود در DUC2007 و نزدیک به بیشینه آنها کسب نمود.
به عنوان کارهای آینده این تحقیق تمرکز بیشتر بر روی جملات پیچیده به منظور کسب نتایج بهتر در فاز آخر این روش می باشد. چرا که با اینکه جملات ساده و کوتاه نتایج خوب و قابل قبولی داشتند، اما در مورد جملات پیچیده شاهد تولید جملاتی گاها نامفهوم بودیم. از این رو استفاده از زوش های ساده سازی جمله می تواند گزینه مناسبی برای حل این مشکل باشد. علاوه بر این در مرحله فشرده سازی جملات، ما به مجموعه ای از عبارات دست یافتیم که معادل هم تلقی می-گردند. با ذخیره سازی این عبارات معادل و بهره گیری از آنها، می توان روش شباهت جملات خود را بهبود بیشتری ببخشیم.
به طور کلی خلاصه سازی چکیده ای چون کودکی نوپا در حال تلاش برای برداشتن اولین قدم-های خود است و تا رسیدن به سطحی مطلوب و قابل قبول راه درازی در پیش است.
فهرست مطالب
1 مقدمه 1
2 مرور ادبیات 2
2.1 تعاریف پایه در پردازش زبان طبیعی 2
2.1.1 ریشه یابی 2
2.1.2 برچسب زنی بخش های سخن 3
2.1.3 برچسب گذاری نقش معنایی 4
2.1.4 حذف ایست واژه ها 5
2.1.5 درخت تجزیه 6
2.2 خلاصه سازی متن 7
2.2.1 خلاصه سازی تک سنده 7
2.2.2 خلاصه سازی چند سنده 7
2.2.3 خلاصه سازی گزینشی 8
2.2.4 خلاصه سازی چکیده ای 9
2.2.4.1 فشرده سازی 10
2.2.4.2 آمیختن جملات 15
2.3 ارتباط معنایی کلمات 16
2.3.1 شبکه واژگان 16
2.3.2 روش های مبتنی بر طول مسیر 18
2.3.3 مقیاس بندی شبکه 19
2.3.4 روش های مبتنی بر اطلاعات 21
2.3.5 ارزیابی روش های محاسبه شباهت معنایی 24
2.4 شباهت جملات 26
2.4.1 معیارهای همپوشانی کلمات 27
2.5 مجموعه داده های استاندارد 29
2.5.1 داده های استاندارد DUC 29
2.6 روش های ارزیابی خلاصه سازی 31
2.6.1 معیار ROUGE 31
فصل سوم و چهارم موجود نیست…
5 نتيجهگيري و سوی کوشش های آتی 63
6 منابع و مراجع 65
فایل فشرده حاوی یک فایل: