در این پایاننامه، یک روش مبتنی بر خوشهبندی برای خلاصهسازی چندسندی متون پیشنهاد شده است. یک سامانهی خلاصهسازی گزینشی چندسندی، خلاصهسازی است که چند سند را به عنوان ورودی میگیرد و خلاصهای تولید میکند که گزیدهای از جملههای سندهای اولیه است. اگر چه روش پیشنهادی محدود به حوزه نیست، اما ارزیابی آن روی یک مجموعه از خبرهای ورزشی فارسی صورت گرفته است.
یکی از بخشهای اصلی روش پیشنهادی، خوشهبندی جملهها است. در خوشهبندی جملهها دو راهکار برای دستهبندی هر چه بهتر جملهها بکار گرفته شده است، که عبارتند از:
• استفاده از خوشهبندی سلسلهمراتبی منفرد محدود برای خوشهبندی جملهها.
• تولید خودکار بردارهای همبستگی و بردارهای واژه-بافت و استفاده از آنها برای تعیین شباهت بین جملهها.
خوشهبندی سلسلهمراتبی محدود با در نظر گرفت یک کران بالا برای اندازهی خوشهها، از به وجود آمدن خوشههایی با اندازهی بیشتر جلوگیری میکند. استفاده از این روش خوشهبندی کمک شایانی به گزینش بهتر جملهها میکند. همچنین، برای تعیین شباهت جملهها که نقش مهمی در خوشهبندی دارد، دو روش پیشنهاد شده است. روش نخست، از همبستگی بین واژهها بهره میگیرد که بر مبنای رخداد همزمان واژهها در یک پنجرهی با اندازه ثابت بدست میآیند. در روش دوم، از شباهت بین بردارهای واژه-بافت واژهها استفاده میشود که بیانگر شباهت آنها است. بنابر مطالعه مراجع مرتبط در زبان فارسی، به نظر میرسد منابع نامبرده برای نخستین بار در سطح کاربردی برای زبان فارسی تولید شدهاند.
بیشتر راهکارهای در نظر گرفته شده که خاص زبان فارسی هستند، در بخشهای پیشپردازش و تولید منابع زبانی صورت گرفته است. در بخش پیشپردازش، برای رفع مشکل وجود واژههای به هم چسبیده، روشی برای شناسایی و جداسازی آنها پیشنهاد شد. همچنین برای بهبود سرعت محاسبه شباهت بین بردارهای واژه-بافت، بردارهای جدیدی به نام بردارهای همبافت پیشنهاد شد. در بردار همبافت یک واژه، تعدادی از واژههایی که بیشترین شباهت (بین بردارهای واژه-بافت) را نسبت به واژهی اصلی دارند، وجود دارد. هر واژه در این بردار دارای یک وزن است که بیانگر میزان شباهت آن با واژهی اصلی است.
روش ارزیابی استفاده شده در این پایاننامه، یک روش ارزیابی مستقیم است. این روش شامل دو بخش است. در بخش نخست، خلاصهی خودکار با تعدادی خلاصهی مرجع که توسط افراد خبره تهیه شده است مقایسه میشود و با اهمیت بودن جملههای موجود در خلاصه مورد ارزیابی قرار میگیرد. در بخش دوم، میزان اطلاعات تکراری در جملههای گزینش شده ارزیابی میشود.
نتایج حاصل از ارزیابی روش پیشنهادی نشان میدهند که استفاده از خوشهبندی سلسلهمراتبی محدود میتواند به همراه استفاده از همبستگی لغوی جهت تعیین شباهت جملهها، بهترین کیفیت را نسبت به روشهای مشابه حاصل کند. با بکارگیری روش پیشنهادی، کارایی از 0.65 به 0.86 (نسبت به روش MEAD) بهبود یافت که این بهبود بدون بروز افزونگی (میزان افزونگی در دو روش یکسان است) بیشتر حاصل شد.
پایان نامه کارشناسی ارشد
مهندسي کامپيوتر گرايش هوش مصنوعي
سال 1388
فایل ها:
متن پایان نامه در قالب pdf
اسلایدهای پایان نامه
پیاده سازی پروژه همراه با مجموعه کامل کدها
پیکره مورد استفاده برای ارزیابی
مقاله ها:
1- یك روش آماری مبتنی بر پیكره برای جداسازی واژه های به هم چسبیده
2- بازیابی خبرهای مرتبط پیشین برای تولید خلاص ههای پیشینه-خبر
3- استخراج بردارهای همبستگی واژه های فارسی در یك پیكره متنی بزرگ از اخبار
4- خلاصه سازی چند سندی متون فارسی با استفاده از یك روش مبتنی بر خوشه بندی
5- خلاصه سازی چندسندی اخبار فارسی برای تولید خلاصه های پیشینه-خبر