ربات ها به زودی جایگزین مترجمین انسانی می شوند…
دراين وبلاگ در این مبحث ، در ابتدا به طور خلاصه به تعریف پردازش زبانهای طبیعی، محدودیت ها، موانع موجود و همچنین کارکردهای مهم پردازش زبان های طبیعی پرداخته می شود. پس از آن مفهوم ترجمه و ترجمه ماشینی که یکی از مهم تریت کارکردهای پردازش زبان های طبیعی می باشد، بیان می گردد. اجزای مورد نیاز در معماری ماشین های ترجمه بیان گردیده و روشهای موجود در ترجمه ماشینی از ابتدا تا به اکنون تشریح و مزایا و معایب هر کدام ذکر می گردد. در پایان نیز با تاکید بر روش ترجمه ماشینی مبتنی بر روش های آمارگرا، ترجمه ماشینی در زبان فارسی مورد بررسی قرار می گیرد. اين مجموعه برای معرفی انواع پردازشهای موجود بر روی زبان های طبیعی و به خصوص ترجمه ماشینی متون، انواع روشهای موجود و روند پیشرفت و بهبود ماشین های ترجمه به پژوهشگراني كه هدفشان تحقيق در حوزه پردازش زبان و به خصوص ترجمه ماشینی است، كمك موثري باشد. در ضمن، به موانع موجود به خصوص در زمينه ترجمه ماشینی زبان فارسی اشاره گرديده و در خاتمه راه حل های پیشنهادی موجود براي بهبود ترجمه ماشيني و به ویژه برای زبان فارسي مورد بررسي قرار گرفته است.
واژه های کلیدی:
ترجمه ماشینی، روشهای آماری، پیکره، فارسی.
مقدمه
پردازش زبانهای طبیعی نقشی بسیار عمده و کلیدی به خصوص در ترجمه ماشینی، بازیابی اطلاعات تک و دوزبانه، خلاصه سازی اسناد، مدیریت محتوا در سیستم های آموزشگر، خطایاب نحوی و معنایی متون، درک و تولید متون فارسی، تشخیص صحبت، تبدیل متن به گفتار، تحلیل نحوی، استخراج اطلاعات از متون و بسیاری کاربردهای دیگر ایفا می کند.
ترجمه خود كار متون، جزو اولين كاربردهاي غير محاسبه اي كامپيوتر است. ايده ترجمه ماشيني اولين بار در بحثي بين وارن ويور و آندره بوث شكل گرفت. مدل آنان بر اساس جداولي طراحي شده بود كه در آنها براي رمز گشايي، از تواتر كلمات و حروف استفاده مي شد.[1]
با پيدايش تكنيك هايي چون جست و جوي دودوئي و روش تقليل مسأله در الگوريتم هاي برنامه سازي و ايده ويرايش ثانويه در ترجمه، اعتقاد به عملي بودن ترجمه ماشيني قوت گرفت. در پايان دهه 50 و اوايل 60، COMIT به عنوان اولين زبان همه منظوره پردازش نماد مطرح شد و برنامه هاي كمكي واژه پرداز به مرحله پياده سازي رسيد. از سوي ديگر در زمينه زبان شناسي، نسبت به ساخت جملات زبان، ديد الگوريتميكي تحت عنوان دستور زبان گشتاري مطرح گرديد.
نتيجه پروژه هاي دهه 60 كه بيشتر از آنها براي مقاصد سياسي استفاده مي شد، پيدايش دو شاخه اصلي در روش هاي ترجمه ماشيني بود. يكي از اين روش ها استفاده از فرم هاي اصلاح شده دستور زبان گشتاري و ديگري استفاده از اطلاعات آماري در مورد نقش كلمات در جمله و ترجمه آنها بود. در پايان دهه 70، اعتقاد عمومي بر آن بود كه ترجمه ماشيني بايد پيچيده تر از جابه جايي و جايگذاري كلمات زبان مبدا براي رسيدن به زبان مقصد باشد و ماشين بايد به نوعي يك فهم از معناي هر دو نوشتار پيدا كند. اين اعتقاد راه را براي استفاده از تكنيك هاي جديد هوش مصنوعي و به خصوص پردازش زبان طبيعي در ترجمه ماشيني هموار كرد و در اين مدت شاهد پيشرفتهای چشمگيری در قلمرو ترجمه ماشينی و دستاوردهای متنوع جانبی آن بوده ايم. اهميت اين پديده جديد و مقتضيات عصر ارتباطات و اطلاعات ايجاب كرده است كه ميزان سرمايه گذاری در اين عرصه در سالهای گذشته بسيار چشمگير باشد.
پردازش زبانهای طبیعی یکی از زیر شاخههای با اهمیت در حوزه گسترده هوش مصنوعی، دانش زبانشناسی و یکی از نیازهای اساسی عصر فناوری جهت استفاده بهینه از منابع اطلاعاتی است. امروزه با رشد حجم مستندات تولید شده و نیاز به نگهداری، دسته بندی، بازیابی و پردازش ماشینی و سریع آنها توجه به پردازش زبان طبیعی بیش از پیش خودنمایی می کند. تلاش عمده در این زمینه، ماشینی کردن فرایند درک و برداشت مفاهیم بیان گردیده با یک زبان طبیعی انسانی می باشد. به تعریف دقیقتر پردازش زبانهای طبیعی عبارت است از استفاده از رایانه برای پردازش زبان گفتاری و نوشتاری. با استفاده از آن میتوان به ترجمه زبانها پرداخت، از صفحات وب و بانکهای اطلاعاتی نوشتاری جهت پاسخ دادن به پرسشها استفاده کرد، یا با دستگاهها مثلاً برای مشورت گرفتن به گفتگو پرداخت.[2]
اینها تنها مثالهایی از کاربردهای متنوع پردازش زبانهای طبیعی هستند. گفتنی ست هنوز سیستم چندان کارآمدی که پاسخگوی تمامی نیازهای ما باشد، برای پردازش زبانهای طبیعی به وجود نیامدهاست.
موانع اساسی
– نیاز به درک معانی: رایانه برای آن که بتواند برداشت درستی از جملهای داشته باشد و اطلاعات نهفته در آن جمله را درک کند، گاهی لازم است که برداشتی از معنای کلمات موجود در جمله داشته باشد و تنها آشنایی با دستور زبان کافی نباشد. مثلاً جمله حسن سیب را نخورد برای این که کال بود. و جمله حسن سیب را نخورد برای این که سیر بود. ساختار دستوری کاملاً یکسانی دارند و تشخیص این که کلمات کال و سیر به حسن برمیگردند یا به سیب بدون داشتن اطلاعات قبلی درباره ماهیت حسن و سیب ممکن نیست.
– دقیق نبودن دستور زبانها: دستور هیچ زبانی آنقدر دقیق نیست که با استفاده از قواعد دستوری همیشه بتوان به نقش هر یک از اجزای جملههای آن زبان پی برد. برای مثال در جمله کوتاه باز روی زمین نشست. نمیتوان تشخیص داد که باز قید جمله به معنای دوباره است یا این که فاعل جمله به معنای نوعی پرنده شکاری است.
زبانشناسی محاسباتی
زبانشناسی رایانهای یا زبانشناسی محاسباتی (Computational linguistics) حوزهای میانرشتهای است که سعی دارد با بهرهگیری از روشهای آماری و مبتنی بر قاعده(rule-based)، از منظر محاسباتی به مدلسازی زبان طبیعی بپردازد. به خصوص از این روشها برای حل مسائلی استفاده میکنند که ناشی از طولانی بودن جملات و زیاد بودن تعداد حالات ممکن برای نقش کلمات هستند. این روشها معمولاً مبتنی بر نمونههای متنی و مدلهای مارکف هستند.
مقوله های زیر از جمله مباحثی هستند که در حیطه ی زبانشناسی محاسباتی قرار می گیرند:
– فرایافت concept و تجزیه زبان های برنامه نویسی : نوآم چامسکی توانست تشابه زبانهای طبیعی و زبانهای برنامه نویسی را به اثبات برساند. یعنی یک زبان رایانهای مانند زبانهای طبیعی دارای یک دستور زبان و یک فرهنگ میباشد. تفسیر یک متن از تجزیهٔ واژهها lexicon آغاز سپس با تجزیه نحو syntax و در آخر با تجزیه مفهوم semantic آن پایان می یابد.
– ترجمه ماشینی : این شاخه از زبانشناسی رایانهای، زمان درازی کم اهمیت جلوه میکرد. اما امروزه یکی از موارد مورد علاقه پژوهشگران این رشته میباشد. پس از مرحلهٔ تجزیه واژهها و نحو می باید تجزیهٔ مفهوم و سپس پرگماتیک را نیز افزود. در واقع این دو سعی در شناخت مفهوم خاص یک واژه در مکانی که ظاهر میشود را دارد.
– پرسش و پاسخ با زبانهای طبیعی : این ایده مدتی بهعنوان پاسخی قانع کننده به مسئله ارتباط انسان و ماشین تلقی میشد. این دید در واقع جنبه ی وسیعتری از دستور زایشی چامسکی است.
– صرف محاسباتی : به مطالعات مربوط به ساختارهای درونی کلمات صرف گفته میشود. [2] اغلب دستآوردها و نتائج تحقیقات در صرف محاسباتی در سایه تلاشهای علمی انسان به منظور ایجاد و ساخت سیستمهای پردازش زبانهای طبیعی انسانی فراهم آمده است.
از جمله مهم ترین کارکردهای مهم پردازش زبانهای طبیعی می توان موارد ذیل را نام برد:
خلاصهسازی خودکار، استخراج اطلاعات، بازیابی اطلاعات، ترجمه ماشینی، تشخیص نوری نویسهها، تشخیص گفتار، ویرایش و …
[2] Crystal D.، The Cambridge Encyclopedia of Language، 2nd edition، Cambridge University Press، 1996. ISBN 0-521-55967-7
ربات ها به زودی جایگزین مترجمین انسانی می شوند…
در این وبلاگ مطالب بسیار مفیدی درباره ترجمه ماشینی ارائه می گردد که امیدوارم مورد رضایت شما
علاقه مندان و بینندگان وبلاگ قرار بگیرد.
ترجمه ماشینی
ترجمه ماشینی _ پردازش زبانهای طبیعی
ترجمه ماشینی _ مفهوم ترجمه و ترجمه ماشینی
ترجمه ماشینی _ روشهای موجود و شیوه های ارزیابی آنها
ترجمه ماشینی _ کارهای فعلی در زبان فارسی
لینک های ذیل نیز برای دانلود فایل ها و مقاله های مرتبط با موضوع ترجمه ماشینی قرار داده شده است.
مقاله ای در مورد سیستم ترجمه ماشینی آماری مبتنی بر عبارت فارسی انگلیسی
مطالعه و بررسی ابزارهاي آماده براي تحلیل پیکره متنی زبان فارسی
بررسی ابعاد و تفاوت هاي پیکره هاي برچسب داده اي و پیکره هاي خام در زبان فارسی
امکان سنجی پروژه هاي زیرساختی کاربري خطو زبان فارسی در محیط رایانه اي
بررسی ابعاد و لایه هاي ابهام در واژگان مشابه زبان فارسی
دریافت اطلاعات HTML وبلاگ در موضوع ترجمه ماشینی در قالب فایل pdf