ابزارهای لازم برای پردازش متن در زبان فارسی
تشخيص دهنده ي جمله: اين ابزار بايد با توجه به کاراکترهاي جداکننده ي جمله در زبان فارسي، توانايي تشخيص جملات را در متن ورودي داشته باشد.
Tokenizer: ابزاري براي شکستن يک متن بر اساس واحدهاي با معني مانند کلمه، پاراگراف، نمادهاي معنادار مانند space و tab و … . ل
Named entity recognition: ابزاري براي تشخيص اسامي و نوع آنها اعم از اسامي افراد، اماکن، مقادير عددي و … .
Word-net: مجموعه اي از لغات و ارتباط ميان آنها به لحاظ معنايي.
Stemmer: ابزاري براي ريشه يابي لغات و تشخيص نوع کلمه ساخته شده از آن ريشه (اسم مکان، اسم زمان، حالت فاعلي، مفعولي و …).
Similarity recognition: ابزاري براي تشخيص ميزان شباهت ميان دو عبارت بر اساس پارامترهاي مختلف مانند نوع اسامي مشابه به کار رفته، استفاده از word-net و… .
Chunker: ابزاري براي تشخيص گروه هاي اسمي، فعلي و ….
Semantic role labeler: ابزاري براي تشخيص نقش گرامري کلمه در جمله.
Annotator: ابزاري براي ايجاد يک نمونه از يک آنتولوژي در يک سند داده شده.
Coreference resolution: ابزاري براي تعيين مرجع اسمي يک اسم يا يک ضمير در جملات.
Pos tagger: ابزاري براي مشخص کردن نوع کلمات از قبيل اسم، صفت، قيد، فعل و … .
فایل دوم:
فایل Word_ دو صفحه توضیح مختصری در مورد ابزارهای پردازش متن و معرفی ابزارهای موجود و آماده در زبان انگلیسی
—————————————————————————
مرور ادبیات پردازش متن
در این فصل به مرور مفاهیم مرتبط با پایان نامه، پیش نیازهای لازم برای درک مفاهیم مطرح شده و کارهای انجام شده در ارتباط با موضوع پایان نامه می پردازیم. ابتدا تعاریف پایه در پردازش زبان طبیعی ذکر گردیده است. پس از آن، از آنجا که مشابهت معنایی بین اجزای مختلف متن، جایگاه ویژه ای در کاربردهای مختلف پردازش متن دارا می باشد، به معرفی تلاش های انجام شده در زمینه ی محاسبه ی شباهت معنایی کلمات و جملات می پردازیم.
1- مرور ادبیات 2
1-1- تعاریف پایه زبانشناسی 2
1-1-1- زبان فارسی 2
1-1-2- ایست واژهها (Stop words) 4
1-1-3- ریشهیابی 4
1-1-4- برچسبزنی بخشهای سخن (POS) 4
1-1-5- پارسر 6
1-1-6- درخت تجزیه 6
1-1-7- برچسبزنی نقش معنایی کلمات (SRL) 7
1-1-8- شبکه واژگان 8
فایل سوم:
فایل Word – ده صفحه
———————————————————————
دانلود فایل های بالا در یک فایل فشرده:
============================================
اگر به دنبال ابزار یا کدهای پیش پردازش متن هستید، حتما دو مطلب زیر را ملاحظه نمایید.
کد حذف ایست واژه ها (Stop Words Remover) در زبان فارسی
کد استفاده از کتابخانه های ابزارهای پردازش متن فارسی (نرمال سازی، تشخیص جملات، تشخیص کلمات، حذف ایست واژه ها و ریشه یابی) حذف کننده کلمات ایست (Stopword Remover) در این ابزار، کلمات کم اهمیت تر و یا ایست واژه ها در صورت تایید کاربر از متون مورد پردازش، حذف میگردند. ایست واژه ها لغاتی پرکاربرد و اغلب کم اهمیتی هستند که … ادامه مطلب »
کد استفاده از کتابخانه های ابزارهای پردازش متن فارسی
کد استفاده از کتابخانه های ابزارهای پردازش متن فارسی در این کد که به زبان سی شارپ نوشته شده است چگونگی استفاده از کتابخانه های ابزارهای پردازش متن فارسی زیر آورده شده است: – نرمالسازی متون فارسی – Normalizer – تشخیص جملات – Sentence Spliter – تشخیص کلمات – Tokenizer – ریشه یابی کلمات – Stemmer – برچسب زنی نحوی کلمات … ادامه مطلب »