ابزارهای لازم برای پردازش متن در زبان فارسی
Tokenizer: ابزاري براي شکستن يک متن بر اساس واحدهاي با معني مانند کلمه، پاراگراف، نمادهاي معنادار مانند space و tab و … . لازمه ي ايجاد اين ابزار جمع آوري واحد هايي است که در زبان فارسي به عنوان واحد هاي مستقل معنايي شناخته مي شوند. سپس بر اساس انتخاب هر کدام از اين واحدها متن بر اساس آن شکسته خواهد شد. از نمونه هاي انگليسي آن مي توان به Flex، JLex، JFLex، ANTLR، Ragel و Quex اشاره کرد.
Stemmer: ابزاري براي ريشه يابي لغات و تشخيص نوع کلمه ساخته شده از آن ريشه (اسم مکان، اسم زمان، حالت فاعلي، مفعولي و …). معمولاً ريشه يابي لغات بر اساس قواعد ساخت واژه اي و سپس حذف پسوندها مي باشد. تاکنون روش مؤثري براي حذف پيشوندها ارائه نشده است. در تلاشي که در آزمايشگاه فناوري وب انجام شده است، سعي شده تا بر اساس آناليزهاي آماري و داده کاوي پسوندها حذف گردند، که اين روش هم مي تواند راهي براي تشخيص ريشه باشد.
معروفترين الگوريتم ريشه يابي در انگليسي porter مي باشد.
——————————————————————–
ريشهيابی در زبان فارسی
هدف از انجام پروژه ریشه یابی در زبان فارسی، جداسازی کلمات از متن و بازگرداندن کلمات به ريشه اصلی تشکيل دهنده آنهاست. تفاوت اصلی اين پروژه با ساير پژوهشهای انجام شده در زمينه ريشهيابی، قابليت بازگرداندن کلمات به ريشه بدون از بين رفتن معنای آنها در جمله میباشد. بدين منظور به نقش کلمات در جمله توجه ويژهای شده است. در اين طرح از مجموعه افعال گرداوری شده توسط گروه دادگان و لغات پرکاربرد پيکره همشهری استفاده شده است.
در این نمونه کد، که به زبان سی شارپ نوشته شده است، کتابخانه های لازم برای استفاده از کد ریشه یاب زبان فارسی که در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد تولید شده است، به کد اضافه شده و چگونگی استفاده از این کتابخانه ها در کد مشخص است و در قالب ابزاری جهت دادن ورودی و مشاهده خروجی آماده شده است.
در کد موجود در فایل ضمیمه سه کتابخانه (فایل dll) اضافه شده اند که امکان شناسایی افعال و ریشه یابی کلمات را فراهم می آورند…