نخستین شبكه ی واژگان زبان فارسی تحت عنوان فارسنت (وردنت عمومی زبان فارسی) با حمایت مرکز تحقیقات مخابرات ایران در پژوهشكدهی IT پژوهشگاه فضای مجازی و با همكاری متخصصان از هر دو حوزهی رایانه و زبان شناسی دانشگاه شهید بهشتی تهیه گردیده است. در واقع هدف ایجاد فارسنت، ايجاد يک شاخهی فارسي براي Word Net است که در تحقيقات و پژوهشهاي زبان فارسي قابل استفاده باشد و امکانات تبديل چند زبانه را نيز فراهم کند. فارسنت در تاریخ ۲۱ فروردین ۱۳۹۲در سایت مرجع دادگان زبان فارسی ثبت گردیده است و از طریق همین سایت قابل دستیابی میباشد. کلیهی اطلاعات و توضیحات مربوط به روال تولید فارسنت که زیر نظر دکتر مهرنوش شمس فرد، عضو هیأت علمی دانشگاه شهید بهشتی انجام گردیده در مقالهای آورده شده است.
این پایگاه دانش كه حاوی اطلاعات درمورد واژهها و ترکیبات زبان (مفاهیم)، اطلاعات نحوی آنها و روابط معنایی میان آنها است در دو نسخه از طریق آدرس http://nlp.sbu.ac.ir:8080/farsnet قابل دسترسی میباشد.
نسخۀ اول فارسنت شامل بیش از 17هزار مدخل واژگانی از مقولههای اسم، فعل و صفت است که در قالب 10 هزار مجموعه مترادف بیان گردیده است، همچنین روابط تحت پوشش آن، روابط درون مقولهای مطرح در وردنت انگلیسی (نسخه 2.1) میباشد و قابلیت اتصال به وردنتهای دیگر از طریق نگاشت به وردنت پرینستون نسخۀ 3.0 را نیز داراست.
نسخۀ دوم فارسنت نیز كه توسعهیافتۀ نسخه اول است برای كاربردهای پژوهشی به صورت رایگان در اختیار پژوهشگران قرار دارد و شامل بیش از 30هزار مدخل واژگانی از مقولههای اسم، فعل، صفت و قید میباشد. در این نسخه علاوه بر روابط درون مقولهای مطرح در وردنت انگلیسی (نسخۀ 2.1) پنج رابطۀ میان مقولهای نیز مفاهیم را به هم پیوند میدهد و علاوه بر ویژگیهای درنظر گرفته شده برای واژهها، ویژگیهای نحوی، ساختواژی و آوایی به واژهها و قاب و ساختار آرگومانی به افعال افزوده شده است. همچنین این وردنت همانند نسخهی قبل، قابلیت اتصال به وردنتهای دیگر از طریق نگاشت به وردنت پرینستون نسخۀ 3.0 را نیز داراست.
شبکه واژگان فارسنت دارای سه پایگاه داده میباشد:
- پایگاه داده مفهومها: هر مفهوم دارای «شناسه»، «جمله تعریف»، «جمله مثال» و مجموعه «شناسه کلمه» بیانکننده مفهوم میباشد
- پایگاه داده کلمات: هر کلمه دارای «شناسه»، «نوع کلمه» (اسم،فعل،صفت) و «نام کلمه» میباشد.
- پایگاه داده روابط بین مفهومها: روابط بین مفهومها از طریق «شماره شناسه» دو مفهوم و «نوع رابطه» بیان میشود.
در شبکه واژگان فارسنت هشت نوع رابطه بین مفهومها وجود دارد که عبارتند از:
– Holonym (member of)
– Holonym(part of)
– Holonym(portion of)
– Antonym
– Causes
– Hypernym
– Hyponym
– Sysnonym
در روال تولید فارسنت، سه مرحلهی اولیه وجود دارد که با استفاده از روش نیمه اتوماتیک و تهیهی ساختارهای جدید سعی شده است روابط هممعنا به صورت دقیق و بدون سوگیری به زبان انگلیسی فراهم، و همهی مفاهیم پایه به زبان فارسی استخراج گردد. چهار محور اصلی در خودکارسازی این پروژه دخیل بوده است. این مراحل شامل: نگاشت نیمه خودکار کلمات در وردنت انگلیسی، استخراج خودکار روابط از پیکره وب، دستهبندی نیمه خودکار سه فاز و ایجاد رابطه تضاد بین آنها و مرحلهی آخر، انجام آزمونهای ارزیابی میباشد.
از جمله کارهایی که انجام شده است، نگارش متن فارسی در ورد نت فارسی با اتصال به ورد نت انگلیسی بود؛ چون مواردی که در وردنت فارسی هست، در ورد نت انگلیسی هم است. مسأله مورد توجه این است که گفته می شود این Synsets (مجموعه مترادف ها) در زبان انگلیسی معادل Synset آن در زبان فارسی است.
این کار قاعدتا با کمک زبانشناسان متخصص انجام شده و با توجه به اینکه کاری زمان بر بود، نتیجهی حاصل از آن تهیهی ابزار واژهنگار بود. طرح نگاشت نیمه خودکار در دو فاز انجام شد؛ به این صورت که کلمات هممعنا به زبان انگلیسی وصل و در نهایت نزدیکترین Sysnset به لغت مورد نظر تعیین میشد که در این راستا تعدادی واژگان کاندیدا وجود داشت و به ترتیب احتمال نگارش مرتب شد.
مرحله بعد تبدیل Sysnsetهای فارسی به Sysnsetهای انگلیسی نگاشته شده است که با استفاده از سیستم ترجمه و کاربرد فرهنگ لغتها، این کار با نگاشت کلمات انجام میشد و برای تهیه قسمتی از سلسله مراتب اسامی نیز به صورت دستی ساخته شد تا بتوان از آن استفاده کرد. در واقع یک کلمه که احتمال نگاشت آن به شکلهای مختلف وجود دارد در یک سیستم قرار میگیرد که میتوان آن را توسط nسیستم دیگر نیز نگاشت.
یکی از مشکلات نگاشت، وجود یا عدم وجود یک مفهوم در هر دو ورد نت فارسی و زبان انگلیسی است، و مسألهی دیگر وجود سطوح جزئیسازی در فرایند دو وردنت است که نگاشتها در بعضی موارد یک به یک نیستند و در برخی موارد نیز نگاشت صورت گرفته است.
از زمینه های دیگر که به صورت نیمه خودکار انجام شد، استخراج و دستهبندی نیمه خودکار صفتها و استخراج رابطهی تضاد بین آنها بود که در این رابطهی تضاد، یک سری قوانین رابطه مورفولوژی تضاد ایجاد میشد و با این کار تضاد در سطح واژه شناسایی و با تایید زبانشناسان به سیستم افزوده شد.
یک بخش از شبکه واژگان فارسی، استخراج خودکار روابط مفهومی است که عمده منابع مورد استفاده در این کار، فرهنگهای دو زبانه یا دیکشنری (پیکره) است و با چهار رویکرد اساسی؛ مبتنی بر الگو، روش های ساختاری، روش آماری و روش مبتنی بر شباهت استخراج خودکار روابط انجام شد.
در تهیه ورد نت فارسی، تمام مراحل اشاره شده در فوق به صورت نیمه خودکار انجام گرفتند و ما بقی روشها به صورت دستی و به کمک زبانشناسان متخصص انجام شده است. در راستای این فعالیت ها یک ویرایشگر نیز برای ورد نت فارسی فراهم شد که در قالب وب ارائه میشود و افراد میتوانند با استفاده از نام کاربری و کلمه عبور مشخص، کلمه مورد نظر را در سیستم وارد کنند و از موارد یافت شده توسط وردنت استفاده کنند.
یک سیستم تحت آزمون و ارزیابی نیز تهیه شده است و صحت دادهها بر اساس کتابهای مرجع تطبیق داده شده و برخی نیز بر اساس شم زبانی متخصص تعیین شدند. از جمله قابلیتهای فارسنت، امکان جستجوی دو زبانه در آن است و در تکمیل ورد نت فارسی سطح پوشش واژگان در حال افزایش است.
در واقع فارس نت (وردنت عمومی زبان فارسی) پایگاه دانشی است كه حاوی اطلاعات درمورد واژهها و ترکیبات زبان (مفاهیم)، اطلاعات نحوی آنها و روابط معنایی میان آنها است و در دو نسخه قابل دسترسی میباشد. نسخۀ اول فارسنت شامل بیش از ۱۷هزار مدخل واژگانی از مقولههای اسم، فعل و صفت است. روابط تحت پوشش در این نسخه روابط درونمقولهای مطرح در وردنت انگلیسی (نسخه ۲٫۱) میباشد و قابلیت اتصال به وردنتهای دیگر از طریق نگاشت به وردنت پرینستون نسخۀ ۳٫۰ را نیز داراست. نسخه دوم فارس نت شامل بیش از ۳۰ هزار مدخل واژگانی از مقولههای اسم، فعل، صفت و قید است. علاوه بر روابط درون-مقولهای مطرح در وردنت انگلیسی (نسخه ۲٫۱)، پنج رابطه میان-مقولهای نیز مفاهیم را بهم پیوند میدهد و علاوه بر ویژگیهای در نظر گرفته شده برای واژهها، ویژگیهای نحوی، ساختواژی و آوایی به واژهها و قاب و ساختار آرگومانی به افعال افزوده شده است. این وردنت نیز قابلیت اتصال به وردنتهای دیگر را از طریق نگاشت به وردنت پرینستون نسخه ۳٫۰ داراست. مجموعه فارس نت در پژوهشكدۀ فناوری اطلاعات پژوهشگاه فضای مجازی و با همكاری دانشگاه شهید بهشتی تهیه شده است.
– استفاده از فارسنت ۱ جهت اهداف پژوهشی برای عموم کاربران آزاد است. فارسنت ۲ تنها در اختیار اعضای هیئت علمی دانشگاهها قرار میگیرد.
– Mehrnoush Shamsfard, Akbar Hesabi, Hakimeh Fadaei, Niloofar Mansoory, Ali Famian, Somayeh Bagherbeigi, Elham Fekri, et al. (2010). Semi Automatic Development of Farsnet; the Persian Wordnet. Proceedings of 5th Global WordNet Conference (GWA2010). Mumbai, India. (دریافت)
پردازش زبان طبیعی، زبانشناسی رایانشی