ارزيابي بيروني (جعبه سياه) [2]
برخلاف ارزيابي دروني ، در ارزيابي بيروني توجه برروي کاربر نهايي معطوف مي شود .درنتيجه در اين روش ميزان مؤثر بودن و قابليت پذيرش خلاصه هاي توليد شده با بعضي روشها ، مثل ارزيابي رابطه اي يا قابليت فهم در خواندن ، سنجيده مي شود. همچنين اگر خلاصه به نوعي شامل مجموعه دستوراتي باشد يک روش ممکن براي ارزيابي آن ، بررسي قابليت رسيدن به نتيجه با پيروي از دستورات خواهد بود. ساير روشهاي ممکن براي سنجش ، جمع آوري اطلاعات در يک مجموعه بزرگ از اسناد است ، ميزان تلاش و زمان موردنياز براي پس_ويرايش خلاصه توليد شده توسط ماشين براي بعضي مقاصد خاص ، يا تاثير سيستم خلاصه ساز برروي سيستمي که جزئي از آن است ، براي مثال بازخورد مرتبط در يک موتور جستجو و يا يک سيستم پرسش_پاسخ ، مي باشد.
چندين سناريوي بازي مانند به عنوان روشهاي سطحي براي ارزيابي خلاصه ، پيشنهاد داده شده که ترتيب هاي مختلفي دارند. در ميان آنها بازي Shannon (تئوري اطلاعات) ، بازي سوال (کارايي عمل ) ، بازي دسته بندي و کلمات کليدي انجمني (بازيابي اطلاعات) مي توان نام برد. [1]
بازي Shannon
بازي Shannon که نوعي از معيارهاي سنجش Shannon در تئوري اطلاعات است ، تلاشي براي تعيين کيفيت محتوي اطلاعات بوسيله حدس لغت بعدي (حرف يا کلمه) مي باشد ، و به اين ترتيب متن اصلي را مجددا ايجاد مي کند. اين ايده از معيارهاي Shannon از تئوري اطلاعات اقتباس شده است ، که در آنجا از سه گروه مخبر خواسته مي شود قطعات مهم از مقاله منبع را (با مشاهده متن کامل ، يک خلاصه توليد شده و يا حتي هيچ متني) به صورت حرف به حرف يا کلمه به کلمه مجددا توليد کنند. سپس معيار حفظ اطلاعات با تعداد ضربه هاي کليدي که براي ايجاد مجدد قطعه اصلي طول مي کشد ، . سنجيده مي شود. Hovey و Marcu نشان دادند که اختلاف زيادي در اين سه سطح (در حدود فاکتور 10 در بين هر گروه) وجود دارد. مشکل روش Shannon اين است که به فردي که عمل حدس زدن را انجام مي دهد وابسته است و درنتيجه بطورضمني مشروط به دانش خواننده است. معيار اطلاعات با دانش بيشتر از زبان و حوزه و … کاهش مي يابد.
بازي سوال
هدف از بازي سوال ، آزمايش ميزان فهم خواننده از خلاصه و توانايي آن براي نقل وقايع کليدي مقاله منبع است . اين عمل ارزيابي در دو مرحله انجام مي شود . ابتدا آزمايشگر مقاله هاي اصلي را مي خواند و بخشهاي مرکزي آن را علامت گذاري مي کند. سپس از عبارات مهم بخشهاي مرکزي متن ، سوالاتي طرح مي کند. و در مرحله بعد ، ارزياب سوالات را سه مرتبه پاسخ مي دهد ؛ يکبار بدون مشاهده هيچ متني (baseline 1) ، پس از مشاهده يک خلاصه ساخته شده توسط سيستم ، و درانتها پس از مشاهده متن اصلي (baseline 2) . خلاصه ايي که به خوبي وقايع کليدي مقاله را نقل کرده باشد ، بايد قادر به پاسخگويي به بيشتر سوالات (با نزديکتر بودن به baseline2 نسبت به baseline1 ) باشد . اين طرح ارزيابي براي مثال در ارزيابي خلاصه متن Q&A و TIPSTER SUMMAC هنگاميکه نرخ اطلاع رساني صحيح را براي فشردگي 1.5 يافت ، مورد استفاده قرار گرفته است.
بازي دسته بندي
بازي دسته بندي با دسته بندي اسناد منبع (آزمايشگرها) و متون خلاصه (اطلاع دهنده ها ) ، سعي درمقايسه قابليت دسته بندي آنها به يکي از N دسته دارد. سپس مطابقت دسته بندي خلاصه ها به متون اصلي سنجيده مي شود. يک خلاصه کاربردي بايد در همان دسته ي سند منبع اش قرارگيرد . دو نسخه از اين آزمايش در SUMMAC اجرا شد. اگر هر دسته با يک يا چند کلمه کليدي تعريف شود ، بازي دسته بندي به سناريوي تداعي کلمات کليدي ، عموميت پيدا مي کند.
تداعي کلمات کليدي
تداعي کلمات کليدي ، يک رويه ساده اما تاحدودي سطحي تر است که به کلمات کليدي وابسته ، (دستي يا اتوماتيک) براي اسناد در حال خلاصه شدن اکتفا مي کند.
براي مثال خلاصه هاي توليد شده توسط سيستم هاي خلاصه سازي را به همراه پنج ليست از کلمات کليدي چاپ شده در مجلات، به قاضي هاي انسان ارائه مي دهند. سپس اين قاضي ها هرخلاصه را با ليست صحيحي از کلمات کليدي مرتبط مي کنند . از آنجا که کلمات کليدي تعيين شده توسط ناشر مرتبط با محتوي مقاله است ، اگر موفقيت آميز بود ، خلاصه پوشش دهنده جنبه هاي مرکزي متن موردنظر مي باشد. مزيت اصلي اين روش آن است که هيچ زحمتي از بابت حاشيه نويسي تحميل نمي کند.
ابزارهاي ارزيابي
به منظور استفاده از يک رويه سخت تر و قابل تکرار ، براي خودکارکردن نسبي عمل مقايسه خلاصه ها ، ساخت يک پيکره دقيق که شامل منابع و خلاصه هاي استخراج شده آنها باشد ، سودمند است.
هر استخراج ، چه توسط يک مخبر انساني تهيه شده باشد يا يک ماشين ، به عنوان يک خلاصه صحيح از متن اصلي درنظر گرفته مي شود؛ يعني براي حفظ معني در بالاترين درجه ممکن .از آنجا که واحدهاي جمله اي از متن اصلي و خلاصه هاي مختلف به صورت موجوديت شناخته شده اند پايه و بناي يک پيکره استخراج شده ، مي تواند کاملا به برنامه هاي کامپيوتري واگذار شود. تعدادي از ابزارها براي اين منظور گسترش يافته اند.
محيط ارزيابي خلاصه ها
محيط ارزيابي SEE ، محيطي است که در آن ارزيابها مي توانند کيفيت يک خلاصه را در مقايسه با يک خلاصه مرجع مورد سنجش قرار دهند. متوني که درگير ارزيابي هستند ، با شکسته شدن به ليستي از قطعات (عبارات ، جملات و..) مورد پيش پردازش قرار مي گيرند .براي مثال هنگامي که يک سيستم مستخرج با سايز قطعه جمله را ارزيابي مي کنيم ، ابتدا متون با شکسته شدن به جملات آماده سازي مي شوند.
در طول فاز ارزيابي ، هر دو خلاصه در دو صفحه مجزا نشان داده مي شوند و واسطه ايي براي ارزيابي درنظرگرفته شده تا برروي محتوا و کيفيت خلاصه ها قضاوت کنند. براي سنجش محتوي ، ارزياب از ميان خلاصه مورد ارزيابي ، قطعه به قطعه حرکت مي کند و برروي يک يا چند واحد مرتبط در خلاصه مدل کليک مي کند.
براي هر کليک، ارزياب مي تواند تعيين کند آيا واحدهاي علامت دار تمام ، بيشتر ، بعضي و يا کمي از محتوي مدل کليک شده را بيان مي کنند .براي سنجش کيفيت ارزياب وضعيت گرامري ، پيوستگي و همبستگي را در سطح مختلف ارزيابي مي کند؛ تمام ، اکثريت ، بعضي ، کمي ، هيچ . کيفيت هم براي هر قطعه از خلاصه همتا و هم براي کيفيت کلي خلاصه همتا (پيوستگي ، طول ، پوشش محتوي گرامري و سازمان متن همتا به صورت کلي) ارزيابي مي شود. البته نتايج مي تواند هر زمان ذخيره و بارگذاري مجدد شود. نسخه خاصي از SEE در مسابقات دوره هاي 2001-2004 براي ارزيابي دروني متون خلاصه اخبارمورد استفاده قرارگرفت.
MEADeval
MEADeval ابزاري براي ارزيابي خلاصه هاي استخراج شده با فرمت DUC و MEAD است که با مقايسه خلاصه با يک خلاصه مرجع (يا خلاصه ايده آل) اين سنجش را انجام مي دهد. MEADeval اساسا روي فايلهاي استخراجي عمل مي کند که جملاتي را که در خلاصه استخراجي هستند را توصيف مي کند.
ISI ROUGH بسته ي ارزيابي خودکار خلاصه
بسته ي ISI ROUGH لين که بعدها با نام ROUGH معروف شد، تلاشي براي خودکار کردن ارزيابي خلاصه ها است که هم رخدادي هاي کلمه _n موقعيتي در بين سه تايي هاي خلاصه را موردسنجش قرار مي دهد. اين سه تايي ها معمولا شامل يک يا چند خلاصه توليد شده توسط سيستم است به همراه يک يا چند خلاصه مرجع ساخت انسان که به عنوان استاندارد طلايي براي مقايسه عمل مي کند.
ROUGH مخفف Recall-Oriented Understudy for Gisting Evaluation است. ROUGH در مقايسه با BLEU که دقت مدار است ، فراخواني مدار است ؛ و جداگانه کلمات _nموقعيتي مختلفي را ارزيابي مي کند. همچنين ROUGH هيچ جريمه اي براي طول اعمال نمي کند که با توجه به ذات خلاصه سازي متن که در آن هدف فشرده سازي متن است ، همخواني دارد. در نسخه هاي اوليه ROUGH از دقت در F_measure استفاده مي شد که در رابطه آن دقت هم دخالت داشت .نسخه ROUGH 1/5/5 به صورت زير امتيازدهي انجام مي داد :
•ROUGE-1. . . n : هم پوشاني _nموقعيتي _n) نگاشتي) بين خلاصه سيستم و خلاصه ها ي مرجع.
•ROUGE-L : مانند ROUGE-W است با اين تفاوت که به منظور توسعه کلمات متوالي، از سيستم وزن دهي استفاده مي کند.
•ROUGE-Sn : از هم_وقوعي آماري دونگاشتي ، بدون محدوديت در طول فاصله، و با حداکثر فاصله n کلمه عبور مي کند .
•ROUGE-Sun : مانند ROUGE-Sn ، با اين تفاوت که تک نگاشت ها درنظر گرفته نمي شوند.
Rough همچنين امکان ريشه يابي (با الگوريتم Porter) و حذف کلمات توقف را پيش از محاسبه معيار مي دهد. اين امکانات متاسفانه تنها براي زبان انگليسي طراحي شده است.
Rouge معروفترین ابزار برای ارزیابی در خلاصه سازی خودکار
ابزار ارزیابی ( Rouge( A Package for Automatic Evaluation of Summaries
ابزار Rouge معروفترین ابزار برای ارزیابی در خلاصه سازی خودکار می باشد که البته از آن در دیگر کاربردهای پردازش زبان طبیعی و بازیابی اطلاعات هم استفاده شده است. Rouge مخفف جمله ی “Recall-Oriented Understudy for Gisting Evaluation” به معنای “ارزیابی مبتنی بر یادآوری برای خلاصه” می باشد. این ابزار شامل معیارهایی برای تعیین کیفیت خلاصه ها به صورت خودکار، از طریق مقایسه آنها با خلاصه های تولید شده توسط انسان (خلاصه های ایده آل) می باشد. این معیار ها تعداد واحدهایی که بین خلاصه های سیستمی و خلاصه های انسانی هم پوشانی دارند نظیر n تایی ها ، رشته ی کلمات و جفت کلمات را محاسبه می نمایند. از جمله این معیار ها به ROUGE-N، ROUGE-L، ROUGE-W و ROUGE-S می توان اشاره کرد. در ادامه به این معیار ها اشاره می کنیم.
معیار ارزیابی ROUGE-N
معیار ارزیابی ROUGE-L: Longest Common Subsequence
معیار ارزیابی ROUGE-W: Weighted Longest Common Subsequence
معیار ارزیابی ROUGE-S: Skip-Bigram Co-Occurrence Statistics
معیار ارزیابی ROUGE-SU: Extension of ROUGE-S
معیارهای ارزیابی متون خلاصه
این ابزار شامل معیارهایی برای تعیین کیفیت خلاصه ها به صورت خودکار، از طریق مقایسه آنها با خلاصه های تولید شده توسط انسان (خلاصه های ایده آل) می باشد. این معیار ها تعداد واحدهایی که بین خلاصه های سیستمی و خلاصه های انسانی هم پوشانی دارند نظیر n تایی ها ، رشته ی کلمات و جفت کلمات را محاسبه می نمایند. از جمله این معیار ها به تعداد واژگان مشترک، تعداد جفت کلمات مشترک با فاصله آزاد در متن ، تعداد n تایی های مشترک در متن، ، طول بزرگبرین زیر رشته مشترک و طول بزرگبرین زیر رشته مشترک وزندار میتوان اشاره کرد. در ادامه به این معیار ها اشاره خواهد شد.
معیار ارزیابی تعداد واژگان مشترک
به عنوان سادهترین معیار شباهت دو متن میتوان تعاد واژگان مشترک بین آنها را در نظر گرفت. در این معیار تعداد واژگان مشترک بین خلاصه ماشینی با هریک از خلاصههای انسانی محاسبه می شود و بر تعداد کل واژگان تقسیم می گردد. سپس میانگسن این پمج عدد به عنوان معیار ارزیابی بازگزدانده می شود.
معیار ارزیابی تعداد n تایی های مشترک
این معیار، روشی است که مبتنی بر فراخوانی n تایی ها بین یک خلاصه سیستمی و مجموعه ای از خلاصه های انسانی می باشد. در این معیار تعداد n تاییهای مشترک بین خلاصههای انسانی و خلاصه ماشینی بر کل تعدادnتاییهای موجود در خلاصه انسانی تقسیم می گردد، که در آن n بر گرفته شده از طول n تایی می باشد.
پر واضح است که این معیار، یک معیار مبتنی بر فراخوانی می باشد. معیار مشابه BLEU که در ترجمه ماشینی مورد استفاده قرار می گیرد یک روش مبتنی بر دقت می باشد. این معیار میزان انطباق یک ترجمه ماشینی را با تعدادی از ترجمه های انسانی، از طریق محاسبه ی میزان درصد n تایی هایی که بین دو ترجمه مشترک هستند ارزیابی می کند.
لازم به یادآوری است که در محاسبه این معیار هرچه تعداد خلاصه های مرجع بیشتر شود ، تعداد n تایی ها هم در معادله بیشتر خواهد شد که این امر معقول می باشد چراکه ممکن است چندین خلاصه خوب موجود باشد. هر زمان که تعدادی خلاصه مرجع به مجموعه خلاصه های ایده آل افزوده شود، در حقیقت فضای خلاصه های جایگزین و مطلوب افزوده خواهد شد.
معیار ارزیابی طولانیترین زیررشته مشترک
در این معیار ارزیابی از الگوریتم های محاسبه طولانی ترین زیر رشته مشترک بین دو رشته استفاده می شود.
یکی از مزایای این معیار این است که نیازی به محاسبات انطباق متوالی ندارد. مزیت دوم این روش این است که به صورت اتوماتیک طولانیترین زیر رشته ی nتایی را در نظر می گیرد و بنابراین نیازی به تعیین طول n تایی پیش فرض نمی باشد. همانطور که قبلا هم اشاره شد این معیار از F-Measure برای ارزیابی استفاده می کند و این در حالی است که در معیار تعداد n تایی های مشترک از معیار Recall استفاده می شود. Recall میزان انطباق کلمات جمله های خلاصه ی مرجع (ایده آل) در خلاصهی سیستمی را محاسبه می کند. Precision بر عکس Recall بوده و میزان انطباق کلمات خلاصه های سیستمی در خلاصه مرجع را محاسبه می کند. هر دو فاکتور دقت و فراخوانی، به ترتیب بین کلمات توجهی نمیکنند و این یک نقطه ضعف برای معیار تعداد n تایی های مشترک می باشد. این موضوع در طولانیترین زیر رشتهی مشترک در نظر گرفته می شود. به مثال زیر توجه نمایید
مثال : فرض کنید که سه جمله S1 و S2 وS3 به صورت زیر موجود باشند.
S1. police killed the gunman
S2. police kill the gunman
S3. the gunman kill police
فرض می کنیم S1 به عنوان مرجع بوده و S2 و S3 هم جملات خلاصه های سیستمی باشد. S2 و S3 امتیازات یکسانی را در تعداد 2 تایی های مشترک کسب میکنند چراکه هر 2 جمله شامل یک 2تایی مشترک “the gunman” با جمله مرجع می باشند و این در حالی است که معنای این دو جمله کاملا متفاوت از همدیگر می باشد. در ارزیابی با طولانیترین زیر رشته مشترک ، جمله S2 امتیاز 3/4=0.75 و جمله S3 امتیاز 2/4=0.5 را کسب می کنند. بنابراین در این مثال با ارزیابی طولانیترین زیر رشته مشترک ، جمله دوم امتیاز بیشتری نسبت به جمله سوم کسب خواهد کرد.
به هر حال LCS دارای یک مشکل هم می باشد و آن هم این است که فقط به بزرگترین زیر رشته توجه می کند و به سایر زیررشته ها توجهی ندارد.به عنوان مثال در جمله
S4. the gunman police killed
الگوریتم LCS ، یکی از زیر رشته های “the gunman” یا “police killed” و نه هر دو را در نظر گرفته و بر همین اساس امتیاز جمله 4 و جمله 3 در معیار طولانیترین زیر رشته مشترک یکسان می شود. در معیار تعدادnتاییهای مشترک جمله 4 به جمله 3 ترجیح داده می شود.
در قسمت قبل به محاسبه طولانیترین زیر رشته مشترک در سطح جمله اشاره شد. برای محاسبه آن در سطح خلاصه هم مانند قسمت قبل از LCS استفاده می شود. اگر خلاصه مرجع شامل u جمله و در مجموع m کلمه باشد و خلاصه سیستمی شامل v جمله و n کلمه باشد معیار ارزیابی طولانیترین زیر رشته مشترک به صورت زیر محاسبه خواهد شد.
معیار ارزیابی طولانیترین زیر رشته مشترک وزندار
LCS ویژگی های جذابی دارد که در قسمت قبل به آنها اشاره کردیم. متاسفانه LCS مشکل دیگری هم دارد و آن عدم در نظر گرفتن فاصله قرار گیری بین کلمات می باشد. به عنوان مثال جمله مرجع X و جملات خلاصه Y1 و Y2 را به صورت زیر در نظر بگیرید:
X: [A B C D E F G]
Y1: [A B C D H I K]
Y2: [A H B K C I D]
با معیار طولانیترین زیر رشته مشترک ، Y1 و Y2 هر دو به طور یکسان امتیاز می گیرند. در حالی که Y1 باید امتیاز بیشتری کسب نماید. طولانیترین زیر رشته مشترک وزندار با بخاطر سپردن طول کلمات متوالی این مشکل را حل می کند..
معیار ارزیابی تعداد جفت کلمات مشترک با فاصله آزاد در متن
به هر جفت کلمه (با حفظ ترتیب) در جمله، Skip-bigram گفته می شود. این معیار با اندازه گیری تعداد Skip-bigram های مشترک بین خلاصه های سیستم و خلاصه های مرجع محاسبه می شود. به عنوان مثال جملات زیر را در نظر بگیرید :
S1. police killed the gunman
S2. police kill the gunman
S3. the gunman kill police
S4. the gunman police killed
هر جمله ای C(4,2) = 6 تا Skip-bigram دارد.
S1 = ( “police killed”, “police the”, “police gunman”, “killed the”, “killed gunman”, “the gunman” )
با محاسبه تعداد انطباق ها در خلاصه های مرجع و سیستمی این معیار محاسبه می شود. از این معیار بیشتر در ارزیابی ترجمه ماشینی استفاده می شود.
مجموعه داده های استاندارد برای خلاصه سازی
یکی از چالش های مهم در امر خلاصه سازی متون، بحث ارزیابی روش های ارائه شده است. برای یک ارزیابی مناسب و دقیق، احتیاج به یک مجموعه داده ی مناسب و استاندارد می باشد. در مقالات مختلف از داد های مختلفی تا کنون استفاده شده است که از جمله آنها می توان به مجموعه داده های خبری BBC، CNN، TREC، CASTcorpus و DUCcorpus اشاره نمود. با توجه به بررسی های انجام شده، مجموعه داده های (DocumentUnderstandingConferences(DUC انتخاب شده اند. در ذیل مختصرا این مجموعه داده ها شرح داده شده است.
داده های استاندارد DUC
کنفرانس DUC از سال 2001 زیر نظر NIST شروع به انتشار داده های مورد نیاز برای خلاصه سازی متون کرده است و تا کنون 7 مجموعه از داده ها را تحت عنوان DUC2001 تا DUC2007 ارائه نموده است. هر کدام از این مجموعه ها با اهداف خاصی انتشار یافته اند. هدف اصلی این کنفرانس کمک در ارزیابی روش های خلاصه سازی خودکار متون و بررسی روش های ارزیاب خلاصه سازی می باشد. مجموعه داده های DUC2001 تا DUC2004 برای خلاصه سازی تک سندی و چند سندی تولید شده اند. مجموعه داده های DUC2005 تا DUC2007 هم فقط برای خلاصه سازی چند سندی تولید شده اند. با توجه به اینکه مجموعه داده DUC2007 آخرین مجموعه از این داده ها و کامل¬ترین آنها می باشد، در حال حاضر اکثر مقالات این مجموعه مورد ارجاع قرار می گیرد. داده های DUC2007 در مجموع شامل 45 موضوع بوده که هر کدام شامل 25 سند می باشد. 10 نفر از اعضای NIST وظیفه نوشتن خلاصه های دستی برای این مجموعه را بر عهده داشته اند به طوری که برای هر موضوع 4 نفر به صورت تصادفی انتخاب شده و خلاصه های چکیده ای تولید کرده اند.
گزارشهای جدید از ارزیابی خودکار خلاصهسازهای ماشینی فارسی
امروزه ابزارهايي نظير خلاصهسازهاي خودکار و مترجمهاي ماشيني، توجه زيادي را به خود جلب نمودهاند و فعاليتهاي زيادي براي طراحي چنين ابزارهايي در سرتاسر جهان انجام شده است. در زبان فارسي هم نظير ديگر زبانها تلاشهايی در اين زمينه صورت گرفته است. از اين رو ارزيابي چنين ابزارهايي از اهميت ويژهاي برخوردار است. در اين پایاننامه، ابزاري به منظور ارزيابي سيستمهاي خلاصهسازي خودکار ارائه شده است که البته قابليت استفاده در ديگر کاربردهاي پردازش زبان طبيعي و بازيابي اطلاعات را نيز دارد. اين ابزار شامل معيارهايي براي تعيين کيفيت خلاصهها به صورت خودکار، از طريق مقايسه آنها با خلاصههاي توليد شده توسط انسان (خلاصههاي ايدهآل) ميباشد. اين معيارها تعداد واحدهايي که بين خلاصههاي سيستمي و خلاصههاي انساني همپوشاني دارند نظير n تاييها، رشتهي کلمات و جفت کلمات را محاسبه مينمايند. بدیهی است برای انجام مقایسهی متون در سطح معنا در مورد خلاصههای چکیدهای، مقایسهی ظاهر لغات کافی نمیباشد و بهرهگیری از شبکهی واژگان، ضروری به نظر میرسد که با ایدهای مناسب برای زبان فارسی به کار گرفته شده و نتایج حاصل از ارزیابی را به طور قابل توجهی بهبود بخشیده است.
ارزیابی سیستم پیشنهادی، نیازمند تهیه پیکرهای عظیم و تست ابزار بر روی اسناد این پیکره میباشد. پیکرهای مناسب شامل 100 متن خبری و 1000 خلاصه در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد توسط ابزاری تحت عنوان خلاصهیار تولید شد که 500 عدد چکیدهای و 500 عدد استخراجی میباشد. ارزیابی عملکرد ابزار طی روالی مشخص و استاندارد بر روی پیکره فوق صورت گرفت که نتایج بدست آمده، بیانگر عملکرد قابل قبول ابزار بود.