نمونه پروپوزال کارشناسی ارشد: معناگرایی در ارزيابي خودکار خلاصه سازهاي ماشيني انگليسي و فارسي با بهره گیری از شبکه واژگان

Title:Automatic SemanticEvaluation of English and Persian Text Summarizerwith using WordNet

تعريف مساله، پیشینه، اهداف و سوالات تحقيق
امروزه با رشد چشمگير حجم مستندات منتشر شده در وب و نياز اساسي به نگهداري، دسته بندي، بازيابي و پردازش ماشيني و سريع آنها توجه به پردازش زبان طبيعي و بهره گيري از ابزارهايي نظير خلاصه‌سازهاي خودکار و مترجم‌هاي ماشيني، بيش از پيش خودنمايي مي کند. حجم عظیم مطالب از یک سو و محدود بودن زمان از سوی دیگر موجب شد تا محققان بدنبال راهکاری برای انتخاب درست و فشرده مطالب گردند.
خلاصه سازي خودکار سند، يعني توليد يک نسخه مختصرتر از سند اصلي توسط يک برنامه کامپيوتري به نحوي که ويژگي ها و نکات اصلي سند اوليه حفظ شود[1]. بنابر تعريف ارائه شده در استاندارد ISO 215 سال 1986، خلاصه، “يک بازگويي مختصر از سند” مي-باشد.
امروزه ابزارهايي نظير خلاصه‌سازهاي خودکار و مترجم‌هاي ماشيني توجه زيادي را به خود جلب نموده‌اند و فعاليت‌هاي زيادي براي طراحي چنين ابزارهايي در سرتاسر جهان انجام شده است. از اين رو ارزيابي چنين ابزارهايي از اهميت ويژه‌اي برخوردار است.
دو رهيافت عمده در ارزيابي سيستم‌هاي خلاصه‌سازي وجود دارد: قضاوت انساني و مقايسه با خلاصه‌ي مرجع.
به منظور ارزيابي خلاصه‌اي که يک ماشين از يک متن توليد مي‌کند، مي‌توان آن خلاصه را با خلاصه هاي توليد شده توسط انسان ها مقايسه کرد. از آنجايي که در خلاصه هاي انساني ممکن است هر شخص با توجه به نظرات شخصي خود، بخشي از متن را مهم تر تشخيص دهد، پس ميان خلاصه‌هاي انساني نيز ممکن است تفاوت‌هايي باشد. براي اعمال اين موضوع، هر خلاصه ي ماشيني با چند خلاصه انساني متفاوت از همان متن مقايسه مي گردد و نتيجه ي نهايي، مي تواند ميانگين نتايج حاصل از مقايسه خلاصه ماشيني با هر يک از خلاصه‌هاي انساني و يا بيشينه ي امتياز حاصل از مقايسه خلاصه ماشيني با هر يک از خلاصه‌هاي انساني باشد.
در اولين گام از مقايسه ي دو خلاصه، بايد متون به شکلي استاندارد درآيند تا قابل قياس با يکديگر باشند. از آنجايي که متون مختلف ممکن است، بسيار به هم شبيه باشند اما به دليل تفاوت‌هاي ساده ظاهري از نظرماشين متفاوت به نظر برسند؛ به همين دليل در ابتدا اين تفاوت هاي ساده ي ظاهري بایستی برطرف گردد. براي رسيدن به اين هدف، قبل از مقايسه متون، پيش‌پردازش‌هايي روي آنها انجام مي‌شود. طبيعتا هر چه اين پيش‌پردازش‌ها قوي‌تر باشد، نتايج حاصل ازمقايسه متون، قابل اطمينان تر خواهد بود.
ابزارهای ارزیابی خلاصه سازها غالبا شامل معيارهايي براي تعيين کيفيت خلاصه ها به صورت خودکار، از طريق مقايسه آنها با خلاصه هاي توليد شده توسط انسان (خلاصه هاي ايده آل) مي باشد. اين معيار ها تعداد واحدهايي که بين خلاصه هاي سيستمي و خلاصه هاي انساني هم پوشاني دارند نظير n تايي ها ، رشته ي کلمات و جفت کلمات را محاسبه مي نمايند.
در طراحی ابزار ارزیابی خودکار خلاصه سازهای ماشینی، نیازمند بهره گیری از ابزارهای پایه ای برای پردازش متون هستیم که در مورد زبان فارسی بایستی این ابزار با دقت قابل قبولی طراحی و پیاده سازی گردیده و مورد استفاده قرار گیرند. زبان فارسی از لحاظ ساختاری دارای تفاوت‌های بسیاری با زبان انگلیسی می‌باشد. برخی از تفاوت‌های مشهود بین زبان فارسی و انگلیسی عبارتند از:
– تفاوت در ترتیب قرارگیری ارکان جمله. در اصطلاح، زبان‌هایی مثل انگلیسی را SVO و زبان‌هایی مثل فارسی را SOV می‌نامند که در واقع نشان دهنده ترتیب ارکان در جملات می‌باشد.
– زبان فارسی یک زبان اصطلاحاً بازتابی نامیده می‌شود. یعنی کلمات براساس زمان و شخص موجود در جمله می‌توانند حالت‌های مختلفی به خود بگیرند. مثلاً فعل “خواندن” می‌تواند به دو صورت “می‌خوانم” و “خوانده بود” در جمله ظاهر گردد. اما در زبان انگلیسی چنین تغییراتی رخ نمی دهد.
– در فارسی برخی ضمیرها وجود دارند که به اسم‌ها و افعال متصل می‌شوند (ضمیرهای متصل) که باعث بروز شکل‌های مختلف برای کلمات می‌شوند که این حالت هم در زبان انگلیسی وجود ندارد و تمامی‌ضمیرها منفصل می‌باشند.
– و … .
با توجه به موارد ذکر شده و از آنجايي که زبان فارسي جزو زبان هاي غيرساختيافته است با مشکلات بسيار بيشتري نسبت به زبان انگلیسی مواجه خواهيم شد. متون غيرساختيافته، متوني هستند که پيش فرض خاصي در مورد قالب آنها نداريم و آنها را به صورت مجموعه‌اي مرتب از جملات در نظر مي‌گيريم. بدین ترتیب، طراحی و پیاده سازی ابزارهای پایه ای مورد نیاز برای پردازش متون فارسی، خود بخش مهمی از کار را به خود اختصاص خواهد داد. هر چقدر ابزارهای پایه ی مورد نیاز برای پردازش متون، داراي دقت بيشتري باشند، نتايج حاصل از ابزارهاي نهايي، دقت بهتري خواهند داشت. متاسفانه ابزار پايه مورد نياز براي پردازش زبان فارسي يا هنوز موجود نمي باشند و يا دقت کافي براي استفاده را دارا نمي باشند که در راستای پیاده سازی ابزار ارزیابی خلاصه سازی نیازمند گردآوری، بهبود و پیاده سازی این ابزار خواهیم بود.
ایده های بسیاری نیز وجود دارد که تاکنون در ارزیابی خلاصه سازها بکار گرفته نشده اند که به نظر می آید بهره گیری از آنها می تواند در بهبود دقت و کارآیی ابزار، بسیار موثر واقع گردد.
ارزيابي خلاصه ها و سيستم هاي خودکار خلاصه سازي متن، فرايندهاي مشخص و واضحي نيستند. بطورکلي حداقل دو خصوصيت از خلاصه وجود دارد که در هنگام ارزيابي و همچنين در سيستم هاي خلاصه سازي، بايد مورد سنجش قرار گيرند[2]: نرخ فشرده سازي (ميزان کوتاه بودن خلاصه نسبت به متن اصلي) و نرخ حفظ (ميزان اطلاعاتي که حفظ مي شوند).
در ارزيابي يک سيستم خلاصه سازي بايد هر دوي اينها مشخص شوند. در بسياري از موارد از آنجایی که طول خلاصه ها برابر يک اندازه ی یکسان، تعريف شده است، نرخ فشرده سازی، ناديده گرفته مي شود. بنابراين نرخ حفظ، بيشترين توجه را به خود اختصاص مي دهد. نخستين تفکيک که در روش هاي ارزيابي سيستم هاي خلاصه ساز انجام مي شود، روش هاي ارزيابي دروني و بیروني است[3]. با توجه به اینکه روش های ارزیابی بیرونی غالبا خاص منظوره و تئوریک بوده و صرفا در حد نظریه مطرح گردیده اند، مورد نظر ما نبوده و ما توجه خود را بیشتر بر روی روش های ارزیابی درونی، معطوف خواهیم کرد.

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com