خلاصه سازی خودکار متون همزمان با رشد روز افزون اسناد و اطلاعات بیش از پیش مورد توجه علاقه مندان حوزه پردازش زبان طبیعی قرار گرفته است. از این میان خلاصه سازی چند سنده که در آن چندین سند به عنوان ورودی دریافت می گردد، مورد توجه زیادی قرار گرفته است. در بسیاری از روش ها تنها گزیده ای از جملات اولیه بدون تغییر به عنوان خلاصه برگردانده می شود. که به خلاصه سازی گزینشی معروف است. در مقابل آن در زمینه خلاصه سازی چکیده ای که برگرفته ای از جملات اولیه را خواهیم داشت، کار چندانی انجام نگرفته است.
كلمات كلیدی:
خلاصه سازی متن، خلاصه سازی چندسنده، خلاصه سازی چکیده ای، فشرده سازی جملات، شباهت معنایی، ادغام جملات.
خلاصه سازی چکیده ای
آنچه مسلم است این است که در خلاصه سازی خودکار، هدف اصلی رسیدن به خلاصه ای است که تا حد ممکن و از ابعاد مختلف به خلاصه انسانی شبیه تر و نزدیک تر باشد. فرایندها و روند استنتاج های مغز انسان در طی انجام عمل خلاصه سازی همانند سایر فعالیت های آن بسیار پیچیده و بعضاً غیر قابل شناخت و پیش بینی می باشند و بی شک پی بردن و فهم دقیق حتی جزء کوچکی از آن مستلزم انجام تحقیقات و آزمایش های روانشناسانه زمانبر و پرهزینه بسیاری می باشد [KIN78].
برای اینکه سیستم خلاصه سازی داشته باشیم که شبیه به انسان عمل کند بایستی این سیستم بتواند برداشتی از متن ورودی را به نحوی ایجاد و ذخیره نماید؛ به عبارتی متن ورودی را تفسیر نماید [SPA99] و سپس متن خلاصه را تولید نماید. متاسفانه تا کنون نیل به سطح قابل قبولی از این تفسیر مهیا نشده است به شکلی که به نظر می رسد با شرایط کنونی برای داشتن سیستمی کاربردی استفاده از خلاصه سازی گزینشی انتخاب مناسب تری باشد [MAN01]. اکثریت مطلق تلاشها برای ایجاد سیستم های خلاصه سازی بر روی توسعه سیستم های خلاصه سازی گزینشی متمرکز گشته است [SPA07].
با این وجود در سالهای اخیر، تلاش هایی در زمینه خلاصه سازی مبنی بر تغییر جملات اولیه و یا تولید جملات جدید به منظور نزدیک شدن به خلاصه سازی چکیده ای انجام پذیرفته است. به عنوان مثال، برای ایجاد فهرست مطالب یا تیترها از روشهای کم عمقی مانند برچسب گذاری بخشهای گفتاری ، TFIDF و دوتایی ها استفاده شده است. مشکل روش های مذکور این است که آنچه که به عنوان تیتر برگردانده می شود بایستی یک عبارت یا چند کلمه کوتاه و گویا باشد اما آنچه که برگردانده می شود بیشتر شبیه به یک جمله است تا عبارت. Wan راهی پیشنهاد داده است که در آن چند کلمه اصلی و مهم از متن به عنوان ورودی داده می شود و خروجی، درخت وابستگی است که همه آن کلمات را به ترتیبی مناسب در بر می گیرد [WAN08][WAN09]. مشکل این روش آن است که جمله خروجی می تواند معنایی کاملا متفاوت با متن اولیه ای که کلمات اصلی را از آن استخراج کرده ایم داشته باشد.
.
فایل ورد مرور کارهای انجام شده
سمینار کارشناسی ارشد
فهرست عناوين صفحه
1 مرور ادبیات 2
1.1 تعاریف پایه در پردازش زبان طبیعی 2
1.1.1 ریشه یابی 2
1.1.2 برچسب زنی بخش گفتاری 3
1.1.3 برچسب گذاری نقش معنایی 4
1.1.4 حذف ایست واژه ها 5
1.1.5 درخت تجزیه 6
1.2 خلاصه سازی متن 7
1.2.1 خلاصه سازی تک سنده 7
1.2.2 خلاصه سازی چند سنده 7
1.2.3 خلاصه سازی گزینشی 8
1.2.4 خلاصه سازی چکیده ای 9
1.2.4.1 فشرده سازی 10
1.2.4.2 آمیختن جملات 15
1.3 ارتباط معنایی کلمات 16
1.3.1 شبکه واژگان 16
1.3.2 روش های مبتنی بر طول مسیر 18
1.3.3 مقیاس بندی شبکه 19
1.3.4 روش های مبتنی بر اطلاعات 21
1.3.5 ارزیابی روش های محاسبه شباهت معنایی 24
1.4 شباهت جملات 26
1.4.1 معیارهای همپوشانی کلمات 27
1.5 مجموعه داده های استاندارد 29
1.5.1 داده های استاندارد DUC 29
1.6 روش های ارزیابی خلاصه سازی 30
1.6.1 معیار ROUGE 31
2 منابع و مراجع 34