يک مرحله تعيين کننده در هر سيستم ، روش ارزيابي و اعتبارسنجي ادعاي بيان شده است . سيستم ها ي پردازش زبان طبيعي نيز از اين قاعده مستثني نيستند. بلکه با توجه به بي قاعدگي هاي زبان انساني ، اثبات منطقي اين پيکره ي بي قاعده ، يک ريسک است. يک رويه متداول براي برقراري ارتباط با اين حقيقت ، استفاده از اعتبارسنجي به کمک استقرا است. بنابراين آزمايش با يک بدنه داده ، به صورت زيرمجموعه اي از يک مجموعه کامل تقريبا نامحدود از سخنان درنظر گرفته مي شود .در نتيجه نمود رويه اي خاص ، مي تواند در قالب يک آزمايش، اعتبارسنجي شود.
امروزه اکثر سيستم هاي خودکار خلاصه سازي متن ، مبتني بر استخراج هستند . گرچه کارهايي براي پس_ويرايش قطعات استخراج شده (يعني جملات، به صورت کاهش و ترکيب عبارات) به منظور نزديکي هرچه بيشتر خلاصه استخراجي ، به چکيده انجام مي شود. اين مسئله موجب پيدايش شرايطي شد که ضرورت وجود معياري براي مقايسه خلاصه ها چه از نظر کلمات بکاررفته در آنها و چه از لحاظ خاص بودن و باياس، احساس شد. بعلاوه در خلاصه سازي خودکار متن ، ممکن است چندين خلاصه خوب براي يک متن منبع خاص وجود داشته باشد که به اين ترتيب عمل ارزيابي اين خلاصه ها در مقايسه با يک خلاصه مرجع ثابت و تغييرناپذير ، رضايت بخش نيست. همچنين با توجه به اينکه نرخهاي فشردگي مختلف براي انواع مختلفي از متون مناسب است ، روشهاي ارزيابي که امکان ارزيابي براي نرخهاي مختلف مي دهند را بايد مورد توجه قرار داد.
روشهاي ارزيابي خودکار که در اين گزارش ارائه شده اند عموما با مشابهت هاي محتوا بين خلاصه ها و سند اصلي سروکار دارند. امروزه هيچ روش ارزيابي واحدي که براي تمام اين جنبه هاي ارزيابي ارائه شده باشد، وجود ندارد. بلکه يک ترکيبي از روشها که در ادامه توضيح داده مي شود ، بايد براي پوشش هرچه بيشتر اين جنبه ها (قابليت مقايسه نتايج با سيستم هاي ديگر ، کوتاه کردن چرخه توسعه و حمايت از مقايسه به موقع در ميان روشهاي خلاصه سازي متفاوت) بکارگرفته شود.
واضح است که به منظور اطمينان از پاسخ دهي نتايج و انجام يک مقايسه قابل اطمينان در ميان سيستم هاي خلاصه سازي ، چند نوع محيط استاندارد شده براي ارزيابي شديدا مورد نياز مي باشد. نخستين تفکيک که در روشهاي ارزيابي سيستم ها ي خلاصه انجام مي شود ، روشهاي ارزيابي دروني و بروني است.
ارزيابي دروني (جعبه شيشه اي)
ارزيابي دروني سيستم خلاصه را بدون توجه به هدف نهايي آن مورد سنجش قرار مي دهد. در عوض ، توجه برروي فاز توليد در چرخه عمر يک خلاصه است. اکثر روشهاي ارزيابي خلاصه دروني هستند و اغلب با يک استاندارد طلايي مقايسه مي شوند. در NLP ، به يک مجوعه ايده آل از نمونه هاي مرجع ، اغلب پيکره زباني استاندارد طلايي اتلاق مي شود. معمولا يک استاندارد طبيعي به صورت يک مدل بسيارخوب درنظر گرفته مي شود و بعنوان حد بالايي از آنچه معقول است و مي خواهيم با ابزارهاي اتوماتيک به آن برسيم ، عمل مي کند. در مورد خلاصه سازي ، اين مجموعه خلاصه هاي استاندارد طلايي را مي تواند با يک سيستم مرجع خلاصه ساز يا مخبران انساني توليد کرد. ارزيابي دروني توجه اصلي اش بروي پيوستگي و اطلاع رساني خلاصه ها است و درنتيجه تنها کيفيت هاي خروجي را مورد سنجش قرار مي دهد. [1]
پيوستگي خلاصه :
متن خلاصه اي که از طريق روشهاي مبتني بر استخراج (عمليات کپي و درج روي عبارات ، جملات و يا پاراگرافها) توليد مي شوند، گاهي از بعضي بي ارتباطي هاي معنايي در دنباله ي جملات متوالي رنج مي برند . يک راه براي سنجش پيوستگي خلاصه ، رتبه بندي يا درجه بندي جملات برحسب ميزان پيوستگي شان و سپس درجه جملات خلاصه با امتيازات خلاصه هاي مرجع ، با امتيازات جملات منبع ، يا با امتيازات ساير سيستم هاي خلاصه ساز ، مقايسه شود.
اطلاع رساني خلاصه :
يک راه براي سنجش ميزان اطلاع رساني خلاصه توليد شده ، مقايسه آن با متن اصلي از نظر ميزان اطلاعات حفظ شده از منبع در خلاصه مي باشد. روش ديگر مقايسه خلاصه توليد شده با يک مرجع است که ميزان اطلاعات خلاصه مرجع را که در خلاصه توليد شده ، وجود دارد مورد سنجش قرار مي دهد . براي يک مجموعه اسناد ، پارامترهاي P&R و همچنين پارامترهاي سودمندي و مبتني بر محتوا را مي توان براي ارزيابي عملکرد بکار گرفت.
دقت و بازخواني جمله :
بازخواني تعداد جملات خلاصه مرجع که در خلاصه توليد شده حضور دارند را مشخص مي کند. به همين ترتيب مي توان دقت را به صورت تعداد جملات خلاصه توليد شده که در خلاصه مرجع وجود دارند ، تعريف کرد. بازخواني و دقت معيارهاي استاندارد در بازيابي اطلاعات هستند و اغلب از ترکيب آنها، تحت عنوان F_measure ياد مي شود. مشکلات اصلي که اين معيارها براي خلاصه سازي متن دارند آن است که قادر به تشخيص بين خلاصه هاي ممکن ولي يکسان از نظر کيفيت نيستند و همچنين خلاصه هايي که محتواي بسيار متفاوتي دارند ممکن است امتيازات مشابهي دريافت کنند.
رتبه دهي به جملات :
از آنجا که در رتبه دهي ، جملات خلاصه ، از روي شايستگي شان براي شمول در خلاصه ساخته مي شود ، يک رويه جزء نگرتري نسبت به بازخواني و دقت است و از معيارهاي همبستگي مي توان براي مقايسه بين خلاصه توليد شده با خلاصه مرجع کمک گرفت. بازخواني و دقت ، اساسا براي خلاصه ها ي مبتني بر استخراج اعمال مي شوند، حتي اگرامکان اعمال روشهاي استاندارد تنظيم جمله با چکيده ها وجود داشته باشد . گرچه اين مسئله براي انسان طبيعي نيست و ممکن است گمان شود که تقليد از يک الگوريتم کامپيوتري بهترين راه براي جمع آوري خلاصه هاي مرجع نيست.
روش سودمند :
روش سودمند به خلاصه هاي مرجع امکان دربرداشتن واحدهاي استخراج شده (جمله ، پاراگراف و …) با يک تابع عضويت فازي در خلاصه مرجع را مي دهد. در UM خلاصه مرجع شامل تمام جملات اسناد منبع، به همراه مقادير اطمينان ، از 0 تا 10 ، براي احتمال شمول در خلاصه مي باشد. درمورد رتبه جملات ، اين مقادير اطمينان توسط مخبران انسان اختصاص داده مي شود. بعلاوه روشهاي سودمند قابليت توسعه براي اعمال تاثير منفي واحدهاي استخراج شده برروي يکديگر را دارند . اين ويژگي خصوصا هنگاميکه ارزيابي خلاصه هاي چند سندي موردنظر باشد ، درجايي که يک جمله ، امتياز جمله مشابه با آن را جريمه مي کند (يعني سيستمي که دو يا چند جمله معادل را استخراج مي کند ، جريمه بيشتري نسبت به سيستمي که تنها يکي از اين جملات (حتي جمله با اطلاعات کمتر(درجه اطمينان پائين تر ) را استخراج مي کند ، دريافت مي کند) مفيد است. درمقابل معيارهاي بازخواني و دقت و درصد توافق ، که به صورت تعداد توافقات براي کل توافقات ممکن تعريف مي شود، روش سودمند امکان ارزيابي خلاصه ها را در نرخ هاي فشردگي متفاوت مي دهد .روش سودمند هم مانند بسياري از معيارهاي ارزيابي مشابه ، بيشتر براي خلاصه هاي مبتني بر استخراج مفيد است. آزمايشات جديدتر ارزيابي ، موجب توسعه معيار سود نسبي شده است.
مشابهت محتوا :
معيارهاي شباهت محتوا مي تواند براي ارزيابي محتواي معنايي ، هم در خلاصه هاي مبتني بر استخراج و هم چکيده ها اعمال شود. يکي از اين معيارها آزمون تست مجموعه لغات يک زبان است که در آن روشهاي بازيابي اطلاعات استاندارد ، براي مقايسه بردارهاي تکرار کلمه ، که پس از محاسبه ريشه ها در خلاصه موضوع بندي و استفاده مي شود. فرهنگ لغت کنترل شده و مجموعه هاي هم معني که با تحليل معاني پنهان يا شاخص تصادفي ايجاد مي شود ، را مي توان با ترکيب فرکانس عبارات هم معني ، براي کاهش عبارتها در بردارها بکار برد ، که موجب تغييرات بيشتري در بين خلاصه ها مي شود که اين مسئله در هنگام ارزيابي چکيده ها بسيار مفيد است.
يکي از معايب اين روشها آن است که تا حدي نسبت به نفي و تغيير در ترتيب کلماتي که برروي تفسير محتوا تاثير گذارند ، حساس است. يک رويکرد ممکن براي غلبه بر اين مسئله استفاده از فرکانس بروي دنباله هايي از کلمات (يعني _n موقعيتي) بجاي يک کلمه واحد است. همچنين با تحليل معنايي پنهان يا شاخص گذاري تصادفي ، بايد براين حقيقت واقف باشيم که اين روشها لزوما مجموعه هاي هم معني درستي توليد نمي کنند ، عموما اين مجموعه ها همچنين کلمات متضاد و شمول و کلمات ديگري که در زمينه هاي معنايي مشابه روي مي دهد ، (در سطح کلمه يا سند براي RI و در سطح سند براي LSA ) ، را نيز شامل مي شوند.
با توجه به روشن شدن اهمیت بسیار زیاد خلاصهسازها، موضوع مهمی که به عنوان یک مشکل در این زمینه، مطرح است؛ آنست که پس از تولید خلاصه چه طور کیفیت آنها را ارزیابی کنیم.
ارزيابي خلاصهها و سيستمهاي خودکار خلاصهسازي متن، فرايندهاي مشخص و واضحي نيستند. بطورکلي حداقل دو خصوصيت از خلاصه وجود دارد که در هنگام ارزيابي و همچنين در سيستمهاي خلاصهسازي، بايد مورد سنجش قرار گيرند[Hov97]: نرخ فشردهسازي (ميزان کوتاه بودن خلاصه نسبت به متن اصلي) و نرخ حفظ (ميزان اطلاعاتي که حفظ ميشوند).
يک مرحلهي تعيينکننده در هر سيستم، روش ارزيابي و اعتبارسنجي ادعاي بيان شده است. سيستمهاي پردازش زبان طبيعي نيز از اين قاعده، مستثني نيستند. بلکه با توجه به بيقاعدگيهاي زبان انساني، در ارزیابی ابزارهای مرتبط با زبان طبیعی با مشکلات بیشتری مواجه خواهیم بود و اثبات منطقي اين پيکرهي بيقاعده، يک ريسک است. يک رويهی متداول براي برقراري ارتباط با اين حقيقت، استفاده از اعتبارسنجي به کمک استقرا است. بنابراين آزمايش با يک بدنه داده، به صورت زيرمجموعهاي از يک مجموعه کامل تقريبا نامحدود از سخنان درنظر گرفته ميشود. در نتيجه نمود رويهاي خاص، ميتواند در قالب يک آزمايش، اعتبارسنجي شود.
امروزه اکثر سيستم هاي خودکار خلاصهسازي متن، مبتني بر استخراج هستند. گرچه کارهايي براي پس- ويرايش قطعات استخراج شده (يعني جملات، به صورت کاهش و ترکيب عبارات) به منظور نزديکي هرچه بيشتر خلاصه استخراجي، به چکيده انجام مي شود. اين مسئله موجب پيدايش شرايطي شد که ضرورت وجود معياري براي مقايسه خلاصهها چه از نظر کلمات بکار رفته در آنها و چه از لحاظ خاص بودن و باياس، احساس شد. بعلاوه در خلاصه سازي خودکار متن، ممکن است چندين خلاصه خوب براي يک متن منبع خاص وجود داشته باشد که به اين ترتيب عمل ارزيابي اين خلاصهها در مقايسه با يک خلاصه مرجع ثابت و تغيير ناپذير، رضايتبخش نيست. همچنين با توجه به اينکه نرخهاي فشردگي مختلف براي انواع مختلفي از متون مناسب است، روشهاي ارزيابي که امکان ارزيابي براي نرخهاي مختلف مي دهند را بايد مورد توجه قرار داد.
روشهاي ارزيابي خودکار عموما با مشابهتهاي محتوا بين خلاصهها و سند اصلي سروکار دارند. امروزه هيچ روش ارزيابي واحدي که براي تمام اين جنبه هاي ارزيابي ارائه شده باشد، وجود ندارد. بلکه يک ترکيبي از روشها که در ادامه توضيح داده ميشود، بايد براي پوشش هرچه بيشتر اين جنبهها (قابليت مقايسه نتايج با سيستمهاي ديگر، کوتاه کردن چرخه توسعه و حمايت از مقايسه به موقع در ميان روشهاي خلاصهسازي متفاوت) بکارگرفته شود.
واضح است که به منظور اطمينان از پاسخدهي نتايج و انجام يک مقايسهي قابل اطمينان در ميان سيستمهاي خلاصهسازي، چند نوع محيط استاندارد شده براي ارزيابي اين نتايج شديدا مورد نياز ميباشد. دو رهيافت عمده در ارزيابي سيستمهاي خلاصهسازي وجود دارد: قضاوت انساني و مقايسه با خلاصهي مرجع.
به منظور ارزيابي خلاصهاي که يک ماشين از يک متن توليد ميکند، ميتوان آن خلاصه را با خلاصههاي توليد شده توسط انسانها مقايسه کرد. از آنجايي که در خلاصههاي انساني ممکن است هر شخص با توجه به نظرات شخصي خود، بخشي از متن را مهمتر تشخيص دهد، پس ميان خلاصههاي انساني نيز ممکن است تفاوتهايي باشد. براي اعمال اين موضوع، هر خلاصهي ماشيني با چند خلاصه انساني متفاوت از همان متن مقايسه ميگردد و نتيجهي نهايي، ميتواند ميانگين نتايج حاصل از مقايسه خلاصه ماشيني با هر يک از خلاصههاي انساني و يا بيشينهي امتياز حاصل از مقايسه خلاصه ماشيني با هر يک از خلاصههاي انساني باشد.