حذف کننده کلمات ایست (Stopword Remover)
در اين فاز کلمات کم اهميت تر و يا ايست واژه ها در صورت تاييد کاربراز متون مورد پردازش، حذف ميگردند. ايست واژه ها لغاتي پرکاربرد و اغلب کم اهميتي هستند که هنگام کار با متن به وفور با آنها برخورد ميشود مثل “اگر“، “و“، “که” و غیره. در نگاه اوليه کلمات ربط و تعريف، ايست واژه به نظر مي آيند؛ در عين حال بسياري از افعال، افعال کمکي، اسم ها، قيدها و صفات نيز ايست واژه شناخته شده اند. اين کلمات علي رغم اينکه بسيار استفاده مي شوند، اما از لحاظ معنايي داراي اهميت کمي بوده و بهمين دليل عموما در فعاليتهاي مربوط به حوزه پردازش زبان طبيعي که با حجم انبوهي از دادهها روبهرو هستيم، در فاز پيش پردازش حذف ميشوند. براي حذف اين کلمات عموما ليستي از اين کلمات از پيش تهيه ميشود و سپس در صورت رخداد اين کلمات در متن، از سند حذف ميشوند. در اغلب کاربردهاي متن، حذف اين کلمات نتايج پردازش را بهبود ميدهد. علاوه بر اين از آنجا که بيشتر کاربردهاي پردازش متن با حجم عظيمي از دادهها رو به رو هستند، حذف اين کلمات سبب کاهش بار محاسبات و افزايش سرعت خواهد شد. براي زبان فارسی بايستي ليست اين واژهها با دقت فراواني تهيه گردد. ليست کلمات تهیه شده شامل بیش از 500 کلمه ميباشد. در جدول زیر تعدادي از اين لغات ذکر گرديده است.
نمونهای از ایست واژههای زبان فارسی و انگلیسی
اکنون | است | زیرا | برای | اینک | اگر |
البته | شد | چون | بالاخره | اینطور | بعدا |
اما | کرد | باید | اینقدر | بدون | حدودا |
از | باشد | حالا | بله | با | خصوصا |
که | هست | حتی | زود | حتما | انگار |