چگونگی محاسبه میزان تشابه معنایی مقالات برای متون زبان انگلیسی
در نخستین گام از طراحی و پیادهسازی ابزار مورد نظر برای محاسبه میزان تشابه متون، بایستی بسیاری از ابزارهای پایهای پردازش زبان انگلیسی از ابتدا و با رویکردی اصولی منطبق بر قواعد گرامری و نگارشی زبان انگلیسی طراحی و پیادهسازی گردد. از جملهی این ابزارها میتوان ابزار نرمالساز یا یکسانساز، ابزار تشخیص دهنده جملات، ابزار تشخیص دهنده لغات، ابزار ریشهیاب، ابزار برچسبزن اجزای واژگانی کلام و غیره را نام برد.
- نرمالساز (Normalizer): در ابتدا بايستي همهي نويسههاي (کاراکترهاي) متن با جايگزيني با معادل استاندارد آن يکسانسازي گردند.
- جداکننده کلمات (Tokenizer): با کمک این پردازشگر میتوان کلمات متن را استخراج نمود.
- حذف کننده کلمات ایست (Stopword Remover): با استفاده از این ابزار میتوان کلمات ایست را حذف نمود.
- جدا کننده جملات (Sentence Splitter): با کمک این پردازشگر میتوان جملات را از متن استخراج کرد.
- ریشهیاب (Stemmer) : وظیفه ریشهیابی کلمات را بر عهده دارد.
- برچسب زننده اجزای واژگانی کلام (POS): از این پردازشگر برای برچسبزنی اجزای واژگانی کلام استفاده میشود.
در روند هرگونه پردازش روي متنهاي زبان طبيعي انجام يک سري پيشپردازش امري اجتناب ناپذیر است. علاوه بر آن، دقت اين پيشپردازشها تاثير بسزايي در فازهاي بعدي نتايج اعمال الگوريتمها دارد. هرچقدر که دقت پيشپردازش بيشتر باشد الگوريتمها به نتايج واقعي خود نزديکتر خواهند شد.
متنهایی که قرار است از نظر شباهت با هم سنجیده شوند متون برگزیده از مقالات هستند که در 3 قسمت (عنوان، چکیده، و کلید واژهها) تقسیمبندی شدهاند و هریک از این قسمتها باید در تمام مقالات با هم سنجیده شوند. بنابراین سه فایل به عنوان ورودی به نرمافزار داده میشود. یک فایل حاوی عناوین مقالات، یک فایل حاوی کلمات کلیدی مقالات و یک فایل هم حاوی چکیده مقالات. در روند ارزیابی، هر کدام از مقالات در سه قسمت عناوین، کلمات کلیدی و چکیده دو به دو با یکدیگر مقایسه گردیده و میانگین وزنداری از آنها به عنوان نتیجه نهایی ابزار برگردانده میشود.
فایل اول:
فایل Word – 11 صفحه
—————————————————————————
ابزارهای لازم برای پردازش متن در زبان فارسی
تشخيص دهنده ي جمله: اين ابزار بايد با توجه به کاراکترهاي جداکننده ي جمله در زبان فارسي، توانايي تشخيص جملات را در متن ورودي داشته باشد.
Tokenizer: ابزاري براي شکستن يک متن بر اساس واحدهاي با معني مانند کلمه، پاراگراف، نمادهاي معنادار مانند space و tab و … . ل
Named entity recognition: ابزاري براي تشخيص اسامي و نوع آنها اعم از اسامي افراد، اماکن، مقادير عددي و … .
Word-net: مجموعه اي از لغات و ارتباط ميان آنها به لحاظ معنايي.
Stemmer: ابزاري براي ريشه يابي لغات و تشخيص نوع کلمه ساخته شده از آن ريشه (اسم مکان، اسم زمان، حالت فاعلي، مفعولي و …).
Similarity recognition: ابزاري براي تشخيص ميزان شباهت ميان دو عبارت بر اساس پارامترهاي مختلف مانند نوع اسامي مشابه به کار رفته، استفاده از word-net و… .
Chunker: ابزاري براي تشخيص گروه هاي اسمي، فعلي و ….
Semantic role labeler: ابزاري براي تشخيص نقش گرامري کلمه در جمله.
Annotator: ابزاري براي ايجاد يک نمونه از يک آنتولوژي در يک سند داده شده.
Coreference resolution: ابزاري براي تعيين مرجع اسمي يک اسم يا يک ضمير در جملات.
Pos tagger: ابزاري براي مشخص کردن نوع کلمات از قبيل اسم، صفت، قيد، فعل و … .
فایل دوم:
فایل Word_ 2 صفحه توضیح مختصری در مورد ابزارهای پردازش متن و معرفی ابزارهای موجود و آماده در زبان انگلیسی
—————————————————————————
مرور ادبیات پردازش متن
در این فصل به مرور مفاهیم مرتبط با پایان نامه، پیش نیازهای لازم برای درک مفاهیم مطرح شده و کارهای انجام شده در ارتباط با موضوع پایان نامه می پردازیم. ابتدا تعاریف پایه در پردازش زبان طبیعی ذکر گردیده است. پس از آن، از آنجا که مشابهت معنایی بین اجزای مختلف متن، جایگاه ویژه ای در کاربردهای مختلف پردازش متن دارا می باشد، به معرفی تلاش های انجام شده در زمینه ی محاسبه ی شباهت معنایی کلمات و جملات می پردازیم.
1- مرور ادبیات 2
1-1- تعاریف پایه زبانشناسی 2
1-1-1- زبان فارسی 2
1-1-2- ایست واژهها (Stop words) 4
1-1-3- ریشهیابی 4
1-1-4- برچسبزنی بخشهای سخن (POS) 4
1-1-5- پارسر 6
1-1-6- درخت تجزیه 6
1-1-7- برچسبزنی نقش معنایی کلمات (SRL) 7
1-1-8- شبکه واژگان 8
فایل سوم:
فایل Word – 10 صفحه