در دستور زبان، بخش های سخن، طبقه بندی هایی زبانی از کلمات هستند که رفتار نحوی یک قسمت از جمله را بیان می دارند. به طور عموم، تمامی زبان ها دو بخش سخن فعل و اسم را دارند. بقیه بخش های سخن در زبان-های مختلف، متفاوت می باشند. از جمله مهم ترین بخش های سخن در زبان فارسی اسم، ضمیر، صفت، قید و حرف اضافه را می توان نام برد.
در زبان شناسی پیکره ای ، برچسب زن اجزای کلام (POS tagging یا POST)، که همچنین برچسب زن دستوری یا ابهام زدایی لغت-دسته ، نامیده می شود، فرآیند نشانه گذاری لغت در یک متن است، که این نشانه، بیانگر وجه آن جزء از کلام می باشد.
تشخیص این امر، مبتنی بر تعریف و نوع کاربرد در متن، انجام می شود. برای مثال رابطه ای که یک لغت با دیگر لغات در یک عبارت، جمله و یا پاراگراف دارد مشخص می شود. شکل ساده شده ی این موضوع، همان مشخص کردن نوع لغت از لحاظ اسم، فعل، صفت و قید می باشد که در مدارس به آن پرداخته می شود.
به موازات پیشرفت و تحولات نظری در زبانشناسی جدید، روشهای تحلیل متون و دستورات زبان بوسیلهی رایانه نیز تحول یافته است. منظور از گرامر هر زبان، در دست داشتن یک سری دستورات زبانی قابل فهم برای رایانه است که به کمک آنها بتوان اجزای نحوی یک جمله را به طور صحیح، تفکیک نمود. تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیل دهنده مانند گروههای اسمی، فعلی، قیدی و غیره توسط ابزاری به نام تجزیه گر یا پارسر صورت میگیرد که نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد.
تجزیهگرها با بهره گیری از دستورات گرامری زبان به تفکیک جملات متون به اجزای تشکیل دهنده ی آن، مشخص کردن نقش هر عبارت و لغت در متن و همچنین تشکیل درخت تجزیه برای جملات متن می پردازند.
تجزیهگر نقش پایه ای و مهمی را در بهبود ابزارهای پردازش متن ایفا می کند. به عنوان مثال جهت تقویت الگوریتم های وابسته به برچسب زن معنایی لغات (SRL) علاوه بر نقش های کلمات، وابستگی های کلمات به لحاظ نقشی در جمله نیز باید مشخص گردد.
یک فایل فشرده حاوی دو فایل:
1. برچسب زنی بخش های سخن POSTagger
نوع فایل: Microsft word Office
تعداد صفحات: ۱۶
حجم: ۲۶۴ KB
2. ابزارهای میانی مورد نیاز جهت پردازش نظیر ابزار برچسب زنی اجزای واژگانی کلام
نوع فایل: Microsft word Office
تعداد صفحات: ۲۶
حجم: ۲۷۹ KB
رمز فایل فشرده شده: 09359529058