شبکه واژگان فارسی، فارس نت و فردوس نت

نخستین شبكه ی واژگان زبان فارسی تحت عنوان فارسنت (وردنت عمومی زبان فارسی) با حمایت مرکز تحقیقات مخابرات ایران در پژوهشكدهی IT پژوهشگاه فضای مجازی و با همكاری متخصصان از هر دو حوزهی رایانه و زبان شناسی دانشگاه شهید بهشتی تهیه گردیده است. در واقع هدف ایجاد فارسنت، ايجاد يک شاخهی فارسي براي Word Net است که در تحقيقات و پژوهشهاي زبان فارسي قابل استفاده باشد و امکانات تبديل چند زبانه را نيز فراهم کند

سخۀ اول فارسنت شامل بیش از 17هزار مدخل واژگانی از مقوله‌های اسم، فعل و صفت است که در قالب 10 هزار مجموعه مترادف بیان گردیده است، همچنین روابط تحت پوشش آن، روابط درون مقوله‌ای مطرح در وردنت انگلیسی (نسخه 2.1) می‌باشد و قابلیت اتصال به وردنت‌های دیگر از طریق نگاشت به وردنت پرینستون نسخۀ 3.0 را نیز داراست.

نسخۀ دوم فارسنت نیز كه توسعه‌یافتۀ نسخه اول است برای كاربردهای پژوهشی به صورت رایگان در اختیار پژوهشگران قرار دارد و شامل بیش از 30هزار مدخل واژگانی از مقوله‌های اسم، فعل، صفت و قید می‌باشد. در این نسخه علاوه بر روابط درون مقوله‌ای مطرح در وردنت انگلیسی (نسخۀ 2.1) پنج رابطۀ میان مقوله‌ای نیز مفاهیم را به هم پیوند می‌دهد و علاوه بر ویژگی‌های درنظر گرفته شده برای واژه‌ها، ویژگی‌های نحوی، ساخت‌واژی و آوایی به واژه‌ها و قاب و ساختار آرگومانی به افعال افزوده شده است. همچنین این وردنت همانند نسخهی قبل، قابلیت اتصال به وردنت‌های دیگر از طریق نگاشت به وردنت پرینستون نسخۀ 3.0 را نیز داراست.

شبکه واژگان فارسنت دارای سه پایگاه داده میباشد:

پایگاه داده مفهومها: هر مفهوم دارای «شناسه»، «جمله تعریف»، «جمله مثال» و مجموعه «شناسه کلمه» بیانکننده مفهوم میباشد
پایگاه داده کلمات: هر کلمه دارای «شناسه»، «نوع کلمه» (اسم،فعل،صفت) و «نام کلمه» میباشد.
پایگاه داده روابط بین مفهومها: روابط بین مفهومها از طریق «شماره شناسه» دو مفهوم و «نوع رابطه» بیان میشود.

فایل فشرده شامل تمامی موارد زیر می باشد:

1. هستان شناسی و شبکه واژگان
فایل Word
3 صفحه
شبکه واژگان در واقع شبكه اي متشکل از هزاران مفهومي است كه بوسيله روابط معنايي به هم مرتبطند. هر مفهوم، نشان-دهنده ي مجموعه اي انتزاعي از عناصري مي باشد كه بر اساس مختصه هاي مشتركشان، يك گروه را تشكيل مي دهند. در شبکه واژگان، ابتدا لغات در يکي از دسته هاي اسم، فعل، صفت، و قيد قرار گرفته و سپس لغات هر يک از اين دسته ها در گروه هاي هم خانواده ي خود قرار مي گيرند. هر يک از اين گروه هاي هم خانواده از يک يا چند لغت تشکيل مي شود، که يک مفهوم مشخص را عنوان مي کنند و لغات تشکيل دهنده اين گروه مي توانند به جاي يکديگر در يک متن استفاده شوند و توسط يکسري روابط معنايي با ساير گروه ها مرتبط مي شوند. روابط معنايي بين گروه هاي هم خانواده بر حسب نوع گروه (اسم، فعل، صفت و قيد) متفاوت است.

2. شبکه واژگان
فایل Word
2 صفحه
در واقع شبکه واژگان دارای سه پایگاه داده می‌باشد: یکی برای اسامی، یکی برای افعال و یکی نیز مشترکاً برای صفات و قیود. شبکه واژگان شامل مجموعه‌ی مترادف‌های کلمات می‌باشد که از آن به عنوان “Synsets” یاد می‌شود. هر Synset یک مفهوم و یا یک معنی از گروهی از کلمات، را شامل می‌شود. Synsetها روابط معنایی متفاوتی چون مترادف ، متضاد ‌، ابرمفهوم ، زیرمفهوم (IS-A )، جزئیت (Part of)، شمول (Has-A) را دربر می‌گیرند.

3. شبکه واژگان فارسی
فایل Word
6 صفحه
به عنوان مهمترین کاربردهای شبکه واژگان می توان به موارد زیر اشاره نمود.
1) تشخیص نقش لغات در متون.
2) دسته بندی متون بصورت خودکار
3) خلاصه سازی متون به صورت خودکار
4) استفاده در پردازش های وب معنایی
در این قسمت به تشریح دو مورد از مهمترین کاربردهای شبکه واژگان آورده شده است

4. مشابهت معنایی مبتنی بر شبکه واژگان
فایل Word
15 صفحه
مشابهت معناییِ مبتنی بر WordNet بصورت گسترده در پردازش زبان طبیعی (NLP)و بازیابی اطلاعات (IR) مورد بررسی قرار گرفته است.
روش‌های بسیاری برای محاسبه‌ی مشابهت معنایی بین دو کلمه و براساس WordNet ارائه شده است. معیارهای تشابه بر روی اسم‌ها‌ و فعل‌ها بوده و نیز اکثراً بر روابط IS-A در WordNet اعمال شده‌اند. علت این امر آن است که نزدیک 80 درصد از رابطه‌ها و لینک‌های بین مفاهیم را روابط ابرمفهوم/ زیر مفهوم تشکیل می‌دهند. با این‌حال به هنگام بررسی یک رابطه معنایی در سطح مفاهیم، چندین نوع رابطه‌ی بالقوه را می‌توان متصور شد: مترادف، رابطه‌ی ابرمفهمومی/ زیرمفهومی (IS-A)، جزییت/شمول (Part of)، علت و معلولی،Material-Product، Event-Role و… . در این میان سه رابطه‌ی اول سهم بزرگتری از روابط بین مفاهیم را تشکیل می‌دهند. در ضمن روابط ویژگی‌های سلسله‌مراتبی برای صفات و قیود موجود نمی‌باشد. روش‌های تشابه معنایی به چهار دسته‌ی اصلی طبقه‌بندی می‌شوند.
روشهای مبتنی بر شمارش یالها
روشهای آماری مبتنی بر اطلاعات
روشهای مبتنی بر ویژگی‌ها
روشهای ترکیبی

5. ساخت و بهره گیری از شبکه ی واژگان
فایل Word
1 صفحه
همانطور که بیان گردید WordNet، شبکه واژگان زبان انگلیسی است. با بهره گیری از یک فرهنگ لغت مناسب (در تهیه شبکه واژگان فارسی از ترجمه آنلاین گوگل استفاده شده است)، بنا بر طراحی روندی است که شبکه واژگان انگلیسی را به شبکه واژگان فارسی، نگاشت نماید(این کار در قالب مقاله ای مجزا تحت عنوان “ساخت شبکه واژگان زبان فارسی” به این کنفرانس ارائه گردیده است). هر گره در شبکه واژگان، متناظر با یک مفهوم یا Synset در دنیای واقعی است که چندین لغت را در خود جای می دهد که بیانگرمفهوم مورد نظر هستند.

6. شبکه واژگان فارسی – فارس نت
فایل Word
7 صفحه
نخستین شبكه ی واژگان زبان فارسی تحت عنوان فارس نت (وردنت عمومی زبان فارسی) با حمایت مرکز تحقیقات مخابرات ایران در پژوهشكده ی IT پژوهشگاه فضای مجازی و با همكاری متخصصان از هر دو حوزه ی رایانه و زبان شناسی دانشگاه شهید بهشتی تهیه گردیده است. در واقع هدف ایجاد فارس نت، ايجاد يک شاخه ی فارسي براي Word Net است که در تحقيقات و پژوهش هاي زبان فارسي قابل استفاده باشد و امکانات تبديل چند زبانه را نيز فراهم کند. فارس نت در تاریخ ۲۱ فروردین ۱۳۹۲در سایت مرجع دادگان زبان فارسی ثبت گردیده است و از طریق همین سایت قابل دستیابی می باشد. کلیه ی اطلاعات و توضیحات مربوط به روال تولید فارس نت که زیر نظر دکتر مهرنوش شمس فرد، عضو هیأت علمی دانشگاه شهید بهشتی انجام گردیده در مقاله ای آورده شده است.

7. دسته بندی روش های محاسبه میزان تشابه معنایی لغات و جملات با بهره گیری از شبکه واژگان
فایل Word، مقاله
7 صفحه
امروزه با رشد چشمگیر اسناد منتشر شده در وب و نیاز اساسی به نگهداری، دسته بندی، بازیابی و پردازش آنها، توجه به پردازش زبان طبیعی توسط رایانه، بیش از پیش احساس می شود. در بسیاری از مواقع در کاربردهای مختلف پردازش زبان طبیعی، نیازمند محاسبه ی تشابه معنایی بین جملات و متناظراً کلمات هستیم. این مبحث در کاربردهای متعددی نظیر رفع ابهام واژه ها، خلاصه سازی متن، تصحیح خودکار لغات، ارزیابی خلاصه سازها و مترجم های ماشینی و موارد مشابه به شکل قابل توجهی مورد نیاز خواهد بود. اندازه گیری میزان تشابه ظاهری کلمات، نتایج چندان مطلوبی را در بر نخواهد داشت. روش هایی که برای اندازه-گیری ارتباط معنایی کلمات از یک منبع لغوی استفاده می نمایند، آن منبع لغوی را به عنوان یک شبکه یا گراف می بینند و ارتباط معنایی را بر اساس خصوصیات مسیرها در این گراف محاسبه می نمایند. در بین منابع موجود، شبکه واژگان به شدت مورد توجه قرار گرفته و روش های متعددی برای محاسبه ی ارتباط بین کلمات بر اساس شبکه واژگان پیشنهاد گردیده است. در زبان فارسی نیز با توجه به تولید و توسعه ی دو شبکه ی واژگان فارس نت و فردوس نت، می توان محاسبه ی شباهت معنایی لغات را به جای محاسبه ی شباهت املایی و ظاهری لغات در کاربردهای فوق جهت بهبود نتایج مد نظر قرار داد.

8. تحلیل نیازمندی های تولید هستان شناسی های عمومی و تخصصی بر ای زبان فارسی
فایل PDF
69 صفحه

9. Semi Automatic Development of FarsNet; The Persian WordNet
فایل PDF
8 صفحه، مقاله
This paper describes the development process of FarsNet; a lexical ontology for the Persian language. FarsNet is designed to contain a Persian WordNet with about 10000 synsets in
its first phase and grow to cover verbs’ argument structures and their selectional restrictions in its second phase. In this paper we discuss the semi-automatic approach to create the first phase: the Persian WordNet.
10. Ontologies for Software Engineering and Software Technology
فایل PDF
343 صفحه
Coral Calero · Francisco Ruiz · Mario Piattini (Eds.)
Two important challenges facing current communities of researchers and practitioners in the field of software engineering and technology (SET) are knowledge integration and computer-based automatic support. The first challenge implies wasting a lot of time and effort and this is due to one of the difficulties in human relationships, namely the lack of explicit knowledge shared among members of a group/project, with other groups and with other stakeholders. The second challenge arises because many projects include the design/construction of advanced tools for supporting different software engineering activities. These tools should provide as much functionality as possible with the smallest cost of development.

Both challenges can be better and more easily approached by using ontologies. In this book, we will mainly deal with two of the multiple applications of ontologies in software engineering and technology that have been identified in the literature: (1) sharing knowledge of the problem domain and using a common terminology among all the interested people
(not just researchers); and (2) filtering the knowledge when defining models and metamodels.
The utility of the first application is obvious. However, it is important and convenient to pay it opportune attention. Communication is one of the main activities (regarding duration and impact) in software projects. It is proven that participants in projects have a different knowledge of the problem domain and/or use different languages. The ambiguity of the natural language implies mistakes and nonproductive efforts. Ontologies can mitigate these problems and, farther, some authors have intended to use ontologies as back-bone of software tools and environments.

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com