چکیده
هدف این مقاله، بررسی سیستمهای ترجمه ماشینی آماری است. در روشهای آماری هدف، حداقل سازی خطای تصمیم، با استفاده از تئوری تصمیم آماری یا قاعده بیز میباشد. در این پروژه، یک سیستم مبتنی بر عبارت آماری، راه اندازی شده و تغییرات پارامترهای سیستم، مورد بررسی و تحلیل قرار گرفته است. ارزیابی سیستم توسط معیار بلو ، نشان میدهد که کارایی سیستم، در مقایسه با سیستم پایه اولیه به مقدار 84/1 درصد افزایش پیدا کرده و از مقدار 97/16 درصد به مقدار 81/18 درصد در بهترین حالت ارتقاء یافته است .
کلمات کلیدی : ترجمه ماشینی آماری ، فارسی-انگلیسی ، موزز ، جیزا ، فارسی .
ترجمه ماشینی، یکی از قدیمی ترین شاخه های حوزه هوش مصنوعی است که ایده اولیه آن به قرن 17 بر می گردد [11]. در ابتدا، پیشرفت در این زمینه سریع بود و بنابراین انتظارات بسیاری از مترجم ماشینی به وجود آمد. انتظار این بود که ماشین بتواند ترجمهای با کیفیت بسیار عالی تولید کند[4]. اما انتشار گزارش ALPAC در سال 1966 که دسترسی به چنین کیفیتی را برای مترجمهای ماشینی، دور از ذهن بیان نمود [4]، منجر به ایجاد نوعی ناامیدی گردید. پس از آن گروه های تحقیقاتی بسیاری، کار خود را متوقف نمودند. بسیاری از سرمایه گذاری ها در این شاخه متوقف و دهه 70 به دهه رکود ترجمه ماشینی تبدیل شد[4]. در بخش 2 ، به بررسی این موضوع خواهیم پرداخت.
با آغاز دهه 80 و پیشرفت سیستم های محاسباتی و به بازار آمدن کامپیوترهای رومیزی، بار دیگر موفقیتهایی در زمینه ترجمه ماشینی حاصل شد.
نهایتاً، در انتهای دهه 80، پروژه تحقیقاتی شرکت IBM که ایده مدل های آماری ترجمه را پیاده سازی نمود، تحقیقات در زمینه ترجمه ماشینی را به پویایی قبل خود بازگرداند. در بخش 2.3 به این موضوع پرداخته شده است.
ویور ، رمزنگار آلمانی، برای اولین بار مطرح کرد که استفاده از گرامر زبان، تنها روش ممکن برای ترجمه یک متن نیست [12]. گسترش مدل مترجم ماشینی آماری در ترجمه زبان طبیعی، محصول تحقیقات شرکت IBM بود [2]. در بخش 2.2.2 به این موضوع می پردازیم.
ترجمه ماشینی یک مسئله دشوار با پیچیدگی های خاص خود است. اصطلاحات، معنایی متفاوت از ظاهر خود تولید می کنند و گاهی، کلمات بیش از یک معنا دارند. برای حل چنین مشکلاتی، میتوان کلمات را با توجه به بستر به کار رفته، ترجمه نمود. برای حل این مشکل، رویکرد ترجمه آماری مبتنی بر عبارات پیشنهاد شد. در این رویکرد عبارات به جای کلمات، اجزاء اصلی جمله در نظر گرفته می شوند [11] . بخش 2.3.5 مروری کلی بر این مسئله است.
2 مروری بر ترجمه ماشینی
ترجمه ماشینی، به معنای ترجمه خودکار جملات از یک زبان طبیعی به زبان دیگر است، به گونه ای که فرد بومی زبان مقصد، همان مفهومی را دریافت کند که گوینده مدنظر داشته است[9]. اگر چه قدمت ترجمه ماشینی به سال 1940 بر می گردد [7]، اما همچنان به عنوان یک شاخه زنده، رو به رشد و پویا به شمار می رود. گروه های بسیاری، در دانشگاه ها و موسسات تحقیقاتی در سراسر دنیا مشغول انجام تحقیقات در این زمینه می باشند.
دلیل اصلی پویایی این شاخه، اهمیت و کاربرد ترجمه برای افراد و سازمان ها است که ضرورت دستیابی به روشهای بهتر و سریعتر برای ترجمه را ایجاب می کند. با گسترش روابط و حرکت به سوی ارتباطات گسترده تر جوامع، لزوم دسترسی آسان به ترجمه متون و گفتار، از زبانی به زبان دیگر، ضروری می نماید. از طرفی دیگر، با توجه به هزینه بالا و محدودیت در امکان استفاده از مترجم انسانی، اهمیت مطالعه و تحقیق بر روی روشهایی برای ایجاد امکان ترجمه خودکار توسط ماشین، مشخص می شود.
گذشته از گروه های تحقیقاتی در سطح دانشگاهها، سازمانهای زیادی به مبحث ترجمه ماشینی ابراز علاقه نمودهاند. یکی از این سازمانها، وزارت دفاع آمریکا است که محور فعالیت خود را، بر روی زبان کشورهایی قرار داده که از نظر نظامی، سیاسی یا اقتصادی، تهدیدی برای ایالات متحده به حساب می آیند. [13].
به علاوه، کاربرد گسترده ترجمه در بحث ارتباطات، اهمیت ترجمه ماشینی و لزوم بهبود آن را دوچندان میکند. صفحات اینترنتی حاوی اطلاعات بسیار زیادی هستند که میتوانند برای هر فرد، در هر موضوعی، راهگشا باشند. یک مترجم ماشینی ساده، می تواند ایده کلی یک وب سایت را برای افراد مختلف در زبان های متفاوت، بیان کند.
در ترجمه ماشینی دو رویکرد اصلی وجود دارد:
• روش های مبتنی بر انتقال
• روش های مبتنی بر داده
A Study to find Influential Parameters On A FarsiEnglish Statistical Machine Translation System
Abstract— The aim of this paper is to analyze the Farsi-English statistical machine translation systems as a useful communication tool. Improvement of the nation’s communication increases the need of easier way of translating between different languages in front of expensive human translators. In this work, a statistical phrase-based system is run on Farsi – English pair languages and the effect of its parameters on the translation quality has been deeply studied. Using BLEU as a metric of translation accuracy, the system achieves an improvement of 1.84%, relative to the baseline accuracy, which is increment from 16.97% to 18.81% in the best case.
Keywords:
Statistical Machin Translation, SMT, Farsi – English, Farsi, Comunication tool, Moses.
I. INTRODUCTION
Machine translation is the process of automatic translation of sentences from one natural language to another, so that an individual native audience will get the same concept as the speaker has taken into account [8]. Considering the high cost and the limitation access to human translators in addition to today’s broad cast communications, will get the necessity of more researches on automatic translation methods to achieve easy access to translation of texts/speeches.
Machine translation is a difficult problem with a lot of complexities. Terms produce meaning, different from their appearance, and sometimes words have more than a single meaning. In addition to the scarce NLP resources problem for some languages like Farsi, some languages has rich morphology structure which makes it hard to be analyzed or learned by machine. Farsi is a rich morphology language too.
We have tried to test the statistical approach of machine translation on the Farsi language. The rest of this paper is organized as follows: Section II describes Statistical Machine Translation the new approach of MT. In section III the analysis of Farsi – English phrase-based statistical machine translation systems are presented. Deep analyses of SMT parameters in related to Farsi language is announced in section IV. Section V talks about the system speed. An overview of the system output is reported in section VI. A final conclusion is presented in section VII.
فایل PDF اصل مقاله به انگلیسی
فایل Microsoft Word ترجمه مقاله به فارسی