GATE یک نرم افزار پردازش متن است که توسط تیم طراحی دانشگاه Sheffield ساخته شده است. پردازشی که توسط این نرم افزار صورت می گیرد براساس اجزاء موجود در آن، به صورت ترتیبی، صورت می گیرد. لذا قابلیت این وجود دارد که بخش های مختلف توسط کاربران و برنامه نویسان توسعه یابد و بعنوان یک جزء جدا به آن اضافه شده و پس از اجرای پردازش توسط اجزاء قبلی بر روی متن اعمال شود. تفاوت هایی که می تواند مابین زبان های مختلف باشد باعث شده که این امکان در GATE فراهم شود که برخی از اجزاء ، مخصوصا برای هر زبان مشخص ، به صورت یک plugin جدا پیاده سازی شده و به آن اضافه شود. کاری که ما در این پروژه انجام می دهیم نوشتن یک plugin فارسی برای GATE می باشد. یکی از مهم ترین تفاوت هایی که بین زبان فارسی و سایر زبان ها مخصوصا عربی وجود دارد ، وجود اختلاف در نوع برخی کاراکتر ها مثل “الف” ، “ی” و “ک” بین این دو زبان می باشد که این اختلاف باعث ایجاد مشکل مخصوصا به هنگام جست و جوی کلمات می شود. لذا اضافه کردن یکسان ساز برای این plugin علاوه بر سایر اجزاء ضروی مثل قطعه بند و مبدل هم ضروری به نظر می رسد.
GATE یک ابزار بر پایه اجزاء می باشد.یک ابزار مناسب برای پژوهش های پردازش زبان های طبیعی و مهندسی متن. معماری چنین ابزار هایی نباید کاربران را محدود به استفاده با ترتیب خاصی از این اجزاء کند؛ امری که این نرم افزار به خوبی پشتیبانی می کند. GATE با استفاده از اجزاء سازگار Java Bean شرکت sun این امکان را فراهم می آورد.
اجزاء GATE از سه بخش تشکیل شده است :
1. منابع زبانی که موجودیت ها را نشان می دهد همچون lexicon،corpora و ontology ها .
2. منابع پردازشی که به صورت پایه ای بر اساس الگوریتم هستند.مانند parser،generatorها و ngram modeler ها.
3. منابع دیداری که اجزاء دیداری و ویرایشی را که در قسمت واسط گرافیکی کاربری به کار برده می شوند.
در این مقاله به نحوه ی کار با هر یک از این بخش ها اشاره خواهد شد. همین طور به این که چگونه با استفاده از زبان jape بتوانیم گرامر های مخصوص خودمان را بنویسیم و متن مورد نظر را مطابق با هدف خودمان نشان گذاری بکنیم.همین طور plugin نوشته شده برای زبان فارسی نیز معرفی می شود. کاری که ما در این پروژه انجام می دهیم نوشتن یک plugin فارسی برای GATE می باشد. یکی از مهم ترین تفاوت هایی که بین زبان فارسی و سایر زبان ها مخصوصا عربی وجود دارد ، وجود اختلاف در نوع برخی کاراکتر ها مثل “الف” ، “ی” و “ک” بین این دو زبان می باشد که این اختلاف باعث ایجاد مشکل مخصوصا به هنگام جست و جوی کلمات می شود. لذا اضافه کردن یکسان ساز برای این plugin علاوه بر سایر اجزاء ضروی مثل قطعه بند و مبدل هم ضروری به نظر می رسد.
فایل ورد – 55 صفحه
فهرست مطالب
1. مقدمه 11
2. کارهای مرتبط 12
3. CREOLE مدلی از اجزاء GATE: 12
3.1CREOLE و WEB: 12
3.2چهار چوب GATE: 12
3.3چرخه منابع CREOLE: 13
3.4پردازش منابع و ابزار ها : 13
3.5منابع زبانی و Data store ها : 13
3.6منابع CREOLE در داخل نرم افزار: 13
3.7Configuration منابع CREOLE: 14
3.8مجموعه های annotation: 25
4. JAPE: 28
4.1یک مثال ساده از JAPE برای طبقه بندی ورزش: 28
4.2مثال شماره 2: 29
4.3مثال شماره 3 : 30
4.4مثال شماره 4 : استفاده از ویژگی های POS برای استخراج موجودیت ها: 33
4.5مثال شماره 5: اولویت در قوانین JAPE 34
4.6استفاده از Macro ها برای موارد تکراری : 37
4.7استفاده از عملگر منفی ساز در JAPE: 38
4.8استفاده از جاوا در قوانین RSH گرامر جاوا: 39
4.9استفاده از یک فایل مشترک به عنوان نگهدارنده فایل های گرامر JAPE: 40
4.10یک مثال سخت تر برای استفاده از جاوا در قوانین RHS : 40
4.11استفاده از split برای کنترل استفاده قوانین برای یک جمله: 43
4.12Co Referencing: 44
4.13ساختن annotation موقتی و پاک کردن آن در آخر در صورت نیاز نداشتن به آن: 46
4.14ساختن موجودیت های جدید برای استفاده در گرامر JAPE: 46
5. FARSI PLUGIN: 47
5.1Gazetteer: 52
5.2Tokeniser: 53
6. جمع بندی و کارهای آینده 54
7. فهرست مراجع 55