دانلود پروپوزال کارشناسی ارشد
عنوان : بهبود ترجمه ماشینی آماری انگلیسی– فارسی با استفاده از اطلاعات زبان شناسی
Title: Improving English – Persian statistical machine translation with linguistics information
مقدمه:
رشد تعاملات بینالمللی در زمینههای مختلف و وجود زبانهای متفاوت در گوشه و کنار دنیا مشکلات زیادی برای افراد به منظور برقراری ارتباط با یکدیگر بوجود آورده است. از آنجا که نمیتوان برای حل این مشکل آموزش زبانهای مختلف را برای همه اجباری نمود و همچنین دسترسی به مترجم انسانی نیز در همه جا ممکن نیست؛ از این رو استفاده از کامپیوتر برای ترجمه به شدت احساس میشود. به این نوع مترجم اصطلاحاً مترجم ماشینی گفته میشود. درواقع اولین تلاشها در این زمینه از سال 1940 آغاز گردید و تا به امروز پیشرفتهای بسیار خوبی نیز به دست آمده است. اصولاً برای ایجاد یک مترجم ماشینی از دو رویکرد مبتنی بر قانون و مبتنی بر پیکره استفاده میشود. در رویکرد اول براساس زبان مبدا و مقصد یکسری قوانین نوشته شده و براساس آن عمل ترجمه صورت میگیرد که یکی از محدودیتهای اصلی آن همین محدود بودن آن به زبان میباشد. در رویکرد دوم براساس نمونههای قبلی و ترجمههای انسانی انجام شده به ترجمه متون جدید پرداخته میشود. در این رویکرد دیگر نیاز به قوانین برای ترجمه نیست و فقط نیازمند یک پیکره موازی و دوزبانه هستیم. یکی از روشهای مهم در رویکرد دوم، روش ترجمه ماشینی آماری میباشد که به خاطر عملکرد بسیار مناسب، در سالیان اخیر توجه زیادی به آن شده است. برخلاف تحقیقات بسیار زیادی که در این زمینه بر روی زبانهای مختلف در دنیا صورت گرفته است هنوز کار زیادی در زمینهی زبان فارسی انجام نشده است.
ترجمه ماشینی آماری
به استفاده از کامپیوتر به منظور ترجمه یک متن از زبانی به زبان دیگر بصورت خودکار، ترجمه ماشینی گفته میشود. تفاوت بین زبانها و مخصوصاً ابهام ذاتی موجود در زبانها این ترجمه را بسیار مشکل میسازد. روشهای سنتی برای ترجمه ماشینی بر روی اطلاعات زبان شناختی بشر، بصورت قوانین تبدیل متن از زبانی به زبان دیگر تکیه داشت. با وجود وسعت زبان، این کار بسیار سخت و نیازمند دانش زبانشناسی زیادی میباشد. ترجمه ماشینی آماری یک رویکرد متفاوت میباشد که بطور خودکار از روی حجم زیادی از دادههای آموزشی، به دانش گفته شده دست مییابد. این دانش که عموما بصورت احتمالاتی از قابلیتهای زبانی گوناگون میباشد، به منظور راهنمایی در فرایند ترجمه مورد استفاده قرار میگیرد[1].
فرآیند ترجمه به شرح زیر است:
رمزگشایی معنایی متن مبدا
کدگذاری دوباره این معنا در زبان مقصد
ترجمه ماشینی آماری میتواند به عنوان یک رویه به منظور یافتن جملهای با بالاترین احتمال ترجمه در زبان مقصد تعریف شود[2]. به عبارت بهتر جمله در زبان مبدا داده میشود و به دنبال شبیه ترین ترجمه آن در زبان مقصد میگردیم.
رابطه 1 e’ = arg max e P(e|f)
اساساً P(e|f) مبتنی بر دو فاکتور زیر است:
ميزان احتمال اینکه یک جمله در زبان E وجود داشته باشد. این فاکتور بعنوان مدل زبانی (P(e)) شناخته میشود.
روشی که جملات موجود در زبان E به جملات موجود در زبان F تبدیل میشوند. این فاکتور نیز بعنوان مدل ترجمه (P(f|e)) شناخته میشود.
این دو فاکتور از اعمال قانون بیز بر روی معادله اولیه حاصل میگردند.
رابطه 2 e’ = arg max e (P(e)P(f│e))/f(f)
از آنجایی که مقدار f ثابت است میتوانیم آن را از بیشینهسازی حذف کنیم.
رابطه 3 e’ = arg max e P(e) P(f|e)
مراحل ترجمه در این روش عبارتست از:
کدگشایی (یافتن) معنی جمله مبدا
جستجوی این ترجمه در زبان مقصد
ترجمه ماشینی آماری دارای دو مزیت عمده نسبت به سایر روشها میباشد؛
استفاده بهتر از منابع
محدود نبودن سیستم به زبان خاص
در روشهای قاعدهمند نیازمند تعریف قواعد زبانشناسی و تولید مجموعه گستردهای از لغات و قوانین دستوری هستیم که این قوانین نیز فقط برای یک زبان خاص کاربرد دارد و نمیتواند به زبانهای دیگر تعمیم داده شود.
فایل Microsoft Word
تعداد صفحه 10