نخستین شبكه ی واژگان زبان فارسی تحت عنوان فارسنت (وردنت عمومی زبان فارسی) با حمایت مرکز تحقیقات مخابرات ایران در پژوهشكدهی IT پژوهشگاه فضای مجازی و با همكاری متخصصان از هر دو حوزهی رایانه و زبان شناسی دانشگاه شهید بهشتی تهیه گردیده است. در واقع هدف ایجاد فارسنت، ايجاد يک شاخهی فارسي براي Word Net است که در تحقيقات و پژوهشهاي زبان فارسي قابل استفاده باشد و امکانات تبديل چند زبانه را نيز فراهم کند
سخۀ اول فارسنت شامل بیش از 17هزار مدخل واژگانی از مقولههای اسم، فعل و صفت است که در قالب 10 هزار مجموعه مترادف بیان گردیده است، همچنین روابط تحت پوشش آن، روابط درون مقولهای مطرح در وردنت انگلیسی (نسخه 2.1) میباشد و قابلیت اتصال به وردنتهای دیگر از طریق نگاشت به وردنت پرینستون نسخۀ 3.0 را نیز داراست.
نسخۀ دوم فارسنت نیز كه توسعهیافتۀ نسخه اول است برای كاربردهای پژوهشی به صورت رایگان در اختیار پژوهشگران قرار دارد و شامل بیش از 30هزار مدخل واژگانی از مقولههای اسم، فعل، صفت و قید میباشد. در این نسخه علاوه بر روابط درون مقولهای مطرح در وردنت انگلیسی (نسخۀ 2.1) پنج رابطۀ میان مقولهای نیز مفاهیم را به هم پیوند میدهد و علاوه بر ویژگیهای درنظر گرفته شده برای واژهها، ویژگیهای نحوی، ساختواژی و آوایی به واژهها و قاب و ساختار آرگومانی به افعال افزوده شده است. همچنین این وردنت همانند نسخهی قبل، قابلیت اتصال به وردنتهای دیگر از طریق نگاشت به وردنت پرینستون نسخۀ 3.0 را نیز داراست.
شبکه واژگان فارسنت دارای سه پایگاه داده میباشد:
- پایگاه داده مفهومها: هر مفهوم دارای «شناسه»، «جمله تعریف»، «جمله مثال» و مجموعه «شناسه کلمه» بیانکننده مفهوم میباشد
- پایگاه داده کلمات: هر کلمه دارای «شناسه»، «نوع کلمه» (اسم،فعل،صفت) و «نام کلمه» میباشد.
- پایگاه داده روابط بین مفهومها: روابط بین مفهومها از طریق «شماره شناسه» دو مفهوم و «نوع رابطه» بیان میشود.
فایل فشرده شامل تمامی موارد زیر می باشد:
1. هستان شناسی و شبکه واژگان
فایل Word
3 صفحه
شبکه واژگان در واقع شبكه اي متشکل از هزاران مفهومي است كه بوسيله روابط معنايي به هم مرتبطند. هر مفهوم، نشان-دهنده ي مجموعه اي انتزاعي از عناصري مي باشد كه بر اساس مختصه هاي مشتركشان، يك گروه را تشكيل مي دهند. در شبکه واژگان، ابتدا لغات در يکي از دسته هاي اسم، فعل، صفت، و قيد قرار گرفته و سپس لغات هر يک از اين دسته ها در گروه هاي هم خانواده ي خود قرار مي گيرند. هر يک از اين گروه هاي هم خانواده از يک يا چند لغت تشکيل مي شود، که يک مفهوم مشخص را عنوان مي کنند و لغات تشکيل دهنده اين گروه مي توانند به جاي يکديگر در يک متن استفاده شوند و توسط يکسري روابط معنايي با ساير گروه ها مرتبط مي شوند. روابط معنايي بين گروه هاي هم خانواده بر حسب نوع گروه (اسم، فعل، صفت و قيد) متفاوت است.
2. شبکه واژگان
فایل Word
2 صفحه
در واقع شبکه واژگان دارای سه پایگاه داده میباشد: یکی برای اسامی، یکی برای افعال و یکی نیز مشترکاً برای صفات و قیود. شبکه واژگان شامل مجموعهی مترادفهای کلمات میباشد که از آن به عنوان “Synsets” یاد میشود. هر Synset یک مفهوم و یا یک معنی از گروهی از کلمات، را شامل میشود. Synsetها روابط معنایی متفاوتی چون مترادف ، متضاد ، ابرمفهوم ، زیرمفهوم (IS-A )، جزئیت (Part of)، شمول (Has-A) را دربر میگیرند.
3. شبکه واژگان فارسی
فایل Word
6 صفحه
به عنوان مهمترین کاربردهای شبکه واژگان می توان به موارد زیر اشاره نمود.
1) تشخیص نقش لغات در متون.
2) دسته بندی متون بصورت خودکار
3) خلاصه سازی متون به صورت خودکار
4) استفاده در پردازش های وب معنایی
در این قسمت به تشریح دو مورد از مهمترین کاربردهای شبکه واژگان آورده شده است
4. مشابهت معنایی مبتنی بر شبکه واژگان
فایل Word
15 صفحه
مشابهت معناییِ مبتنی بر WordNet بصورت گسترده در پردازش زبان طبیعی (NLP)و بازیابی اطلاعات (IR) مورد بررسی قرار گرفته است.
روشهای بسیاری برای محاسبهی مشابهت معنایی بین دو کلمه و براساس WordNet ارائه شده است. معیارهای تشابه بر روی اسمها و فعلها بوده و نیز اکثراً بر روابط IS-A در WordNet اعمال شدهاند. علت این امر آن است که نزدیک 80 درصد از رابطهها و لینکهای بین مفاهیم را روابط ابرمفهوم/ زیر مفهوم تشکیل میدهند. با اینحال به هنگام بررسی یک رابطه معنایی در سطح مفاهیم، چندین نوع رابطهی بالقوه را میتوان متصور شد: مترادف، رابطهی ابرمفهمومی/ زیرمفهومی (IS-A)، جزییت/شمول (Part of)، علت و معلولی،Material-Product، Event-Role و… . در این میان سه رابطهی اول سهم بزرگتری از روابط بین مفاهیم را تشکیل میدهند. در ضمن روابط ویژگیهای سلسلهمراتبی برای صفات و قیود موجود نمیباشد. روشهای تشابه معنایی به چهار دستهی اصلی طبقهبندی میشوند.
روشهای مبتنی بر شمارش یالها
روشهای آماری مبتنی بر اطلاعات
روشهای مبتنی بر ویژگیها
روشهای ترکیبی
5. ساخت و بهره گیری از شبکه ی واژگان
فایل Word
1 صفحه
همانطور که بیان گردید WordNet، شبکه واژگان زبان انگلیسی است. با بهره گیری از یک فرهنگ لغت مناسب (در تهیه شبکه واژگان فارسی از ترجمه آنلاین گوگل استفاده شده است)، بنا بر طراحی روندی است که شبکه واژگان انگلیسی را به شبکه واژگان فارسی، نگاشت نماید(این کار در قالب مقاله ای مجزا تحت عنوان “ساخت شبکه واژگان زبان فارسی” به این کنفرانس ارائه گردیده است). هر گره در شبکه واژگان، متناظر با یک مفهوم یا Synset در دنیای واقعی است که چندین لغت را در خود جای می دهد که بیانگرمفهوم مورد نظر هستند.
6. شبکه واژگان فارسی – فارس نت
فایل Word
7 صفحه
نخستین شبكه ی واژگان زبان فارسی تحت عنوان فارس نت (وردنت عمومی زبان فارسی) با حمایت مرکز تحقیقات مخابرات ایران در پژوهشكده ی IT پژوهشگاه فضای مجازی و با همكاری متخصصان از هر دو حوزه ی رایانه و زبان شناسی دانشگاه شهید بهشتی تهیه گردیده است. در واقع هدف ایجاد فارس نت، ايجاد يک شاخه ی فارسي براي Word Net است که در تحقيقات و پژوهش هاي زبان فارسي قابل استفاده باشد و امکانات تبديل چند زبانه را نيز فراهم کند. فارس نت در تاریخ ۲۱ فروردین ۱۳۹۲در سایت مرجع دادگان زبان فارسی ثبت گردیده است و از طریق همین سایت قابل دستیابی می باشد. کلیه ی اطلاعات و توضیحات مربوط به روال تولید فارس نت که زیر نظر دکتر مهرنوش شمس فرد، عضو هیأت علمی دانشگاه شهید بهشتی انجام گردیده در مقاله ای آورده شده است.
7. دسته بندی روش های محاسبه میزان تشابه معنایی لغات و جملات با بهره گیری از شبکه واژگان
فایل Word، مقاله
7 صفحه
امروزه با رشد چشمگیر اسناد منتشر شده در وب و نیاز اساسی به نگهداری، دسته بندی، بازیابی و پردازش آنها، توجه به پردازش زبان طبیعی توسط رایانه، بیش از پیش احساس می شود. در بسیاری از مواقع در کاربردهای مختلف پردازش زبان طبیعی، نیازمند محاسبه ی تشابه معنایی بین جملات و متناظراً کلمات هستیم. این مبحث در کاربردهای متعددی نظیر رفع ابهام واژه ها، خلاصه سازی متن، تصحیح خودکار لغات، ارزیابی خلاصه سازها و مترجم های ماشینی و موارد مشابه به شکل قابل توجهی مورد نیاز خواهد بود. اندازه گیری میزان تشابه ظاهری کلمات، نتایج چندان مطلوبی را در بر نخواهد داشت. روش هایی که برای اندازه-گیری ارتباط معنایی کلمات از یک منبع لغوی استفاده می نمایند، آن منبع لغوی را به عنوان یک شبکه یا گراف می بینند و ارتباط معنایی را بر اساس خصوصیات مسیرها در این گراف محاسبه می نمایند. در بین منابع موجود، شبکه واژگان به شدت مورد توجه قرار گرفته و روش های متعددی برای محاسبه ی ارتباط بین کلمات بر اساس شبکه واژگان پیشنهاد گردیده است. در زبان فارسی نیز با توجه به تولید و توسعه ی دو شبکه ی واژگان فارس نت و فردوس نت، می توان محاسبه ی شباهت معنایی لغات را به جای محاسبه ی شباهت املایی و ظاهری لغات در کاربردهای فوق جهت بهبود نتایج مد نظر قرار داد.
8. تحلیل نیازمندی های تولید هستان شناسی های عمومی و تخصصی بر ای زبان فارسی
فایل PDF
69 صفحه
9. Semi Automatic Development of FarsNet; The Persian WordNet
فایل PDF
8 صفحه، مقاله
This paper describes the development process of FarsNet; a lexical ontology for the Persian language. FarsNet is designed to contain a Persian WordNet with about 10000 synsets in
its first phase and grow to cover verbs’ argument structures and their selectional restrictions in its second phase. In this paper we discuss the semi-automatic approach to create the first phase: the Persian WordNet.
10. Ontologies for Software Engineering and Software Technology
فایل PDF
343 صفحه
Coral Calero · Francisco Ruiz · Mario Piattini (Eds.)
Two important challenges facing current communities of researchers and practitioners in the field of software engineering and technology (SET) are knowledge integration and computer-based automatic support. The first challenge implies wasting a lot of time and effort and this is due to one of the difficulties in human relationships, namely the lack of explicit knowledge shared among members of a group/project, with other groups and with other stakeholders. The second challenge arises because many projects include the design/construction of advanced tools for supporting different software engineering activities. These tools should provide as much functionality as possible with the smallest cost of development.
Both challenges can be better and more easily approached by using ontologies. In this book, we will mainly deal with two of the multiple applications of ontologies in software engineering and technology that have been identified in the literature: (1) sharing knowledge of the problem domain and using a common terminology among all the interested people
(not just researchers); and (2) filtering the knowledge when defining models and metamodels.
The utility of the first application is obvious. However, it is important and convenient to pay it opportune attention. Communication is one of the main activities (regarding duration and impact) in software projects. It is proven that participants in projects have a different knowledge of the problem domain and/or use different languages. The ambiguity of the natural language implies mistakes and nonproductive efforts. Ontologies can mitigate these problems and, farther, some authors have intended to use ontologies as back-bone of software tools and environments.