مرجع دادگان زبان فارسی (dadegan.ir) با هدف ارائه متمرکز پیکرهها و سایر دادههای زبانی موجود برای زبان فارسی راهاندازی شده است. دادههای عرضه شده در این مرجع تخصصی میتوانند برای اهداف پردازش رایانهای زبان و مطالعات زبانشناختی مورد استفاده قرار بگیرند. امروزه روشهای آماری و مبتنی بر یادگیری ماشینی کاربرد فراوانی در پردازش زبان طبیعی و ایجاد سامانههایی چون سامانههای ... ادامه مطلب »
بایگانی برچسب : پیکره
پیکره متنی بی جن خان
دکتر محمود بی جن خان پيكره بيجنخان، در آزمايشگاه زبانشناسي دانشگاه تهران نگهداري ميشود. اين پيكره، از برخي اخبار روزنامهها و متون معمولي جمعآوري شده است. يكي از ويژگيهاي اين پيكره اين است كه هر سند در اين مجموعه داراي يك عنوان ميباشد. به عنوان مثال، اسناد تحت عناوين( سياسي، فرهنگي، اقتصادي)دستهبندي شدهاند.در اين پيكره 4300 عنوان مختلف وجود دارد. ... ادامه مطلب »
مجموعه همشهری
مجموعههای متنی ابزارهای مهمی برای پیشبرد تحقیقات در تعدادی از شاخههای علوم کامپیوتر مانند بازیابی اطلاعات (Information Retrieval)، زبانشناسی پیکرهای (Corpus Linguistics) و زبانشناسی محاسباتی (Computational Linguistics) هستند. مجموعه آزمایش همشهری یکی از معتبرترین این منابع در زبان فارسی است. از این مجموعه در همایشهای معتبر بینالمللی Persian@CLEF2008 و Persian@CLEF2009 استفاده شده است. لازم به ذکر است که سایت قدیمی ... ادامه مطلب »
خلاصهسازی گزینشی چندسندی متون فارسی
در این پایاننامه، یک روش مبتنی بر خوشهبندی برای خلاصهسازی چندسندی متون پیشنهاد شده است. یک سامانهی خلاصهسازی گزینشی چندسندی، خلاصهسازی است که چند سند را به عنوان ورودی میگیرد و خلاصهای تولید میکند که گزیدهای از جملههای سندهای اولیه است. اگر چه روش پیشنهادی محدود به حوزه نیست، اما ارزیابی آن روی یک مجموعه از خبرهای ورزشی فارسی صورت ... ادامه مطلب »
دیتاست خلاصه سازی – DUC 2003 & DUC 2007 dataset Summarizatoin
یکی از چالش های مهم در امر خلاصه سازی متون، بحث ارزیابی روش های ارائه شده است. برای یک ارزیابی مناسب و دقیق، احتیاج به یک مجموعه داده ی مناسب و استاندارد می باشد. در مقالات مختلف از داد های مختلفی تا کنون استفاده شده است که از جمله آنها می توان به مجموعه داده های خبری BBC، CNN، TREC، ... ادامه مطلب »