خلاصهسازی خودکار متن به عنوان هستهی مرکزی طیف گستردهای از ابزارهای پردازشگر متن مانند خلاصهسازهای ماشینی، سیستمهای تصمیمیار، سیستمهای پاسخ گو، موتورهای جستجو و … از سالها پیش مطرح شده و همواره به عنوان یک موضوع مهم مورد بررسی و تحقیق قرار گرفته است. بنابر تعریف ارائه شده در استاندارد ISO215، خلاصه، “یک بازگویی مختصر از سند” می باشد. خلاصه ی تولید شده از یک متن اولا باید از خوانایی و پیوستگی بالایی برخوردار بوده و ثانیا فاقد اطلاعات تکراری باشد. در ادامه، نخست تاریخچه ی خلاصه سازی متن و اهمیت خلاصه سازی خودکار بیان گردیده و سپس برخی از دسته بندی های مختلفی که برای روش های خلاصه سازی خودکار متن وجود دارد، ذکرخواهد شد.
امروزه با رشد چشمگير حجم مستندات منتشر شده در وب و نياز اساسي به نگهداري، دستهبندي، بازيابي و پردازش ماشيني و سريع آنها توجه به پردازش زبان طبيعي و بهرهگيري از ابزارهايي نظير خلاصهسازهاي خودکار و مترجمهاي ماشيني، بيش از پيش خودنمايي ميکند. حجم عظیم مطالب از یک سو و محدود بودن زمان از سوی دیگر موجب شد تا محققان به دنبال راهکاری برای انتخاب درست و فشرده مطالب گردند. خلاصهسازی خودکار متن به عنوان هستهی مرکزی طیف گستردهای از ابزارهای پردازشگر متن از سالها پیش همواره به عنوان یک موضوع مهم مورد بررسی و تحقیق قرار گرفته است.
خلاصهسازي خودکار سند، يعني توليد يک نسخه مختصرتر از سند اصلي توسط يک برنامه رايانهاي به نحوي که ويژگيها و نکات اصلي سند اوليه حفظ شود[MAN99]. بنابر تعريف ارائه شده در استاندارد ISO215، خلاصه “يک بازگويي مختصر از سند” ميباشد. خلاصهسازی از دیدگاههای مختلف دارای تقسیمبندیهای متفاوتی میباشند. از یک دیدگاه به دو دسته خلاصه گزینشی و چکیدهای تقسیم میشوند. در خلاصههای گزینشی، متن خلاصه از کنار هم قرار گرفتن کلمات و جملات انتخابی متن مرجع بوجود میآید؛ درحالیکه در خلاصههای چکیدهای، لغات تغییر مییابند و جملات خلاصه میتوانند بازتولید گردند. دستهبندیهای دیگری هم برای روشهای خلاصهسازی وجود دارد که در قسمتهای بعدی به آنها پرداخته شده است.
خلاصهسازي خودکار توسط رایانه انجام ميشود و به همين دليل تفاوتهاي زيادي با خلاصهاي که توسط انسان توليد ميشود دارد. انسانها با توجه به هوش و شعور ذاتي خود قادر به درک و فهم مفاهيم موجود در متن و ارتباط بين آنها ميباشند و اين در حالي است که انجام اين عمليات توسط ماشين کار بسيار دشوار و پيچيدهاي ميباشد.
هدف نهایی سیستمهای خلاصهسازی تولید خلاصههایی با کیفیت نزدیک به خلاصههای انسانی میباشد. اما برای رسیدن به این مهم چالشهای زیادی پیش رو وجود دارد. مهمترین مشکل در گام نخست انتخاب مناسبترین جملات متن اصلی میباشد به نحوی که مطالب مهم و اصلی متن را پوشش داده، از پیوستگی و خوانایی بالایی برخوردار بوده، دارای ساختار گرامری مناسبی باشد و در عین حال فاقد افزونگی و جملات تکراری یا شبیه به هم باشد.