ابزار ارزیابی Rouge( A Package for Automatic Evaluation of Summaries )
ابزار Rouge معروفترین ابزار برای ارزیابی در خلاصه سازی خودکار می باشد که البته از آن در دیگر کاربردهای پردازش زبان طبیعی و بازیابی اطلاعات هم استفاده شده است. Rouge مخفف جمله ی “Recall-Oriented Understudy for Gisting Evaluation” به معنای “ارزیابی مبتنی بر یادآوری برای خلاصه” می باشد. این ابزار شامل معیارهایی برای تعیین کیفیت خلاصه ها به صورت خودکار، از طریق مقایسه آنها با خلاصه های تولید شده توسط انسان (خلاصه های ایده آل) می باشد. این معیار ها تعداد واحدهایی که بین خلاصه های سیستمی و خلاصه های انسانی هم پوشانی دارند نظیر n تایی ها، رشته ی کلمات و جفت کلمات را محاسبه می نمایند. از جمله این معیار ها به ROUGE-N، ROUGE-L، ROUGE-W و ROUGE-S می توان اشاره کرد. در ادامه به این معیار ها اشاره می کنیم.
معیار ارزیابی ROUGE-N
معیار ROUGE-N ، روشی است که مبتنی بر فراخوانی n تایی ها بین یک خلاصه سیستمی و مجموعه ای از خلاصه های انسانی می باشد. ROUGE-N توسط فرمول زیر محاسبه می شود
در این معادله، n بر گرفته شده از طول n تایی بوده () و هم حداکثر تعداد n تایی هایی است که هم در خلاصه ی تولید شده توسط سیستم و هم در خلاصه مرجع ( تولیده شده توسط انسان) رخداد است.
پر واضح است که معیار ROUGE-N یک معیار مبتنی بر فراخوانی می باشد چراکه مخرج کسر معادله، مجموع کل تعداد n تایی های
است که در خلاصه های مرجع وجود دارد. معیار مشابه BLEU که در ترجمه ماشینی مورد استفاده قرار می گیرد یک روش مبتنی بر دقت می باشد. این معیار میزان انطباق یک ترجمه ماشینی را با تعدادی از ترجمه های انسانی، از طریق محاسبه ی میزان درصد n تایی هایی که بین دو ترجمه مشترک هستند ارزیابی می کند.
لازم به یادآوری است که در محاسبه ROUGE-N هرچه تعداد خلاصه های مرجع بیشتر شود ، تعداد n تایی ها هم در مخرج کسر معادله بیشتر خواهد شد که این امر معقول می باشد چراکه ممکن است چندین خلاصه خوب موجود باشد. هر زمان که تعدادی خلاصه مرجع به مجموعه خلاصه های ایده آل افزوده شود، در حقیقت فضای خلاصه های جایگزین و مطلوب افزوده خواهد شد.
در صورتی که از چندین مجموعه مرجع استفاده شود، ROUGE-N بین هر جفت خلاصه ی سیستمی و هر یک از اعضای مجموعه خلاصه های انسانی، محاسبه خواهد شد و سپس بیشترین امتیازی که بدست آمده باشد به عنوان امتیاز نهایی لحاظ خواهد شد. این موضوع به شکل زیر هم بیان می شود
در پیاده سازی ROUGE از عملیات Jackknifing استفاده می شود.بدین ترتیب که ابتدا M تا مجموعه ی M-1 عضوی تشکیل داده می شود و سپس به عنوان ورودی به ROUGE داده می شود. میانگین امتیازاتی که به هر کدام از این مجموعه ها داده می شود به عنوان امتیاز نهایی در نظر گرفته می شود. استفاده از عملیات Jackknifing باعث می شود که بتوانیم انسان هایی که در تولید خلاصه شرکت کرده اند را ارزیابی کنیم.
معیار ارزیابی ROUGE-L: Longest Common Subsequence
…
معیار ارزیابی ROUGE-W: Weighted Longest Common Subsequence
….
معیار ارزیابی ROUGE-S: Skip-Bigram Co-Occurrence Statistics
…
معیار ارزیابی ROUGE-SU: Extension of ROUGE-S
…
ارزیابی ROUGE
برای ارزیابی این ابزار، امتیازات داده شده توسط ROUGE و امتیازات داده شده توسط انسان را برای تعدادی خلاصه های سیستمی با هم مقایسه کرده اند. یک سیستم مناسب باید به خلاصه های خوب امتیاز بالا و به خلاصه های بد امتیاز پایین دهد. با استفاده از داده های DUC ، ضریب همبستگی لحظه ای پیرسون، ضریب هبستگی درجه ای اسپیرمن و ضریب همبستگی کندال بین میانگین امتیازات داده شده توسط ROUGE و امتیازات داده شده توسط انسان (امتیازی که به میزان پوشش دادن مطالب توسط خلاصه ها به آنها داده شده است) برای خلاصه های سیستمی محاسبه شده است. همچنین به منظور ارزیابی تاثیر ریشه یابی و حذف stopword ها، آزمایشی ترتیب داده شد.
آموزش کار با Rouge – ابزار ارزیابی خلاصه سازها
موارد موجود در فایل فشرده:
1. کد ابزار Rouge که بایستی در لینوکس اجرا شود.
2. ساختار شاخه ها جهت اجرای کد و گرفتن خروجی
3. دستورالعمل ها و کدهای لازم جهت کار با Rouge
4. سه مقاله انگلیسی مرجع معرفی Rouge
5. مستند فارسی توضیح معیارهای ارزیابی خلاصه سازی در ابزار Rouge
6. صفحات و پیوندهای اینترنتی مفید در مورد ابزار Rouge