یکی از چالش های مهم در امر خلاصه سازی متون، بحث ارزیابی روش های ارائه شده است. برای یک ارزیابی مناسب و دقیق، احتیاج به یک مجموعه داده ی مناسب و استاندارد می باشد. در مقالات مختلف از داد های مختلفی تا کنون استفاده شده است که از جمله آنها می توان به مجموعه داده های خبری BBC، CNN، TREC، CASTcorpus و DUCcorpus اشاره نمود. با توجه به بررسی های انجام شده، مجموعه داده های (DocumentUnderstandingConferences(DUC انتخاب شده اند. در ذیل مختصرا این مجموعه داده ها شرح داده شده است.
داده های استاندارد DUC
کنفرانس DUC از سال 2001 زیر نظر NIST شروع به انتشار داده های مورد نیاز برای خلاصه سازی متون کرده است و تا کنون 7 مجموعه از داده ها را تحت عنوان DUC2001 تا DUC2007 ارائه نموده است. هر کدام از این مجموعه ها با اهداف خاصی انتشار یافته اند. هدف اصلی این کنفرانس کمک در ارزیابی روش های خلاصه سازی خودکار متون و بررسی روش های ارزیاب خلاصه سازی می باشد. مجموعه داده های DUC2001 تا DUC2004 برای خلاصه سازی تک سندی و چند سندی تولید شده اند. مجموعه داده های DUC2005 تا DUC2007 هم فقط برای خلاصه سازی چند سندی تولید شده اند. با توجه به اینکه مجموعه داده DUC2007 آخرین مجموعه از این داده ها و کامل¬ترین آنها می باشد، در حال حاضر اکثر مقالات این مجموعه مورد ارجاع قرار می گیرد. داده های DUC2007 در مجموع شامل 45 موضوع بوده که هر کدام شامل 25 سند می باشد. 10 نفر از اعضای NIST وظیفه نوشتن خلاصه های دستی برای این مجموعه را بر عهده داشته اند به طوری که برای هر موضوع 4 نفر به صورت تصادفی انتخاب شده و خلاصه های چکیده ای تولید کرده اند.
دیتاست خلاصه سازی – DUC 2003 dataset Summarizatoin
فایل فشرده با حجم 11 مگا بایت
دیتاست خلاصه سازی – DUC 2007 dataset Summarizatoin
فایل فشرده با حجم 13 مگا بایت