مرجع دادگان زبان فارسی (dadegan.ir) با هدف ارائه متمرکز پیکرهها و سایر دادههای زبانی موجود برای زبان فارسی راهاندازی شده است. دادههای عرضه شده در این مرجع تخصصی میتوانند برای اهداف پردازش رایانهای زبان و مطالعات زبانشناختی مورد استفاده قرار بگیرند.
امروزه روشهای آماری و مبتنی بر یادگیری ماشینی کاربرد فراوانی در پردازش زبان طبیعی و ایجاد سامانههایی چون سامانههای ترجمه ماشینی، پرسش و پاسخ خودکار، تبدیل رایانهای متن به گفتار و بالعکس، بازیابی اطلاعات و … پیدا کردهاند. یکی از ملزومات استفاده از روشهای آماری در پردازش زبان طبیعی، دسترسی به دادههای زبانی شامل پیکرههای متنی، پیکرههای درختی، واژگانها، بانکهای صوتی و … است و عدم دسترسی مناسب به چنین دادههایی مشکلات فراوانی را پیش پای پژوهشگران قرار میدهد.
از سوی دیگر بسیاری از زبانشناسان در پژوهشهای خود از پیکرههای زبانی بهره میگیرند و به بررسی ویژگیها و کشف قواعد زبان از طریق اطلاعات موجود در دادههای زبانی میپردازند.
»مرجع دادگان زبان فارسی» به منظور دسترسی هرچه سریعتر محققان حوزه پردازش رایانهای زبان و زبانشناسی به دادههای زبانی موجود برای زبان فارسی راهاندازی شده است و در نظر دارد با همراهی همه علاقهمندان، به مرجعی کارآمد در این زمینه تبدیل شود.
دادههای ثبت شده در مرجع دادگان در «فهرست دادهها» نمایش داده میشود. صفحه مربوط به هر داده شامل اطلاعات زیر است:
- معرفی (اطلاعات مختصر در خصوص هر داده به منظور آشنایی اولیه کاربران در بخش “معرفی” نمایش داده میشود.)
- اطلاعات ارجاع (مناسب است – و معمولاً از کاربران خواسته میشود – که هنگام استفاده از داده در پژوهش به این شکل به داده ارجاع داده شود.)
- سایر مستندات علمی مربوط به داده ( اگر علاوه بر موارد معرفی شده در بخش اطلاعات ارجاع، مستندات دیگری در خصوص داده وجود داشته باشد در این بخش معرفی میشود.)
- پژوهشهای مرتبط (محققین با مراجعه به این پژوهشها میتوانند با کاربردهای مختلف یک داده، مشکلات استفاده از داده و راهحلهای موجود، محصولات به دست آمده از داده، و همچنین تغییر و یا توسعه دادهای مشخص آشنا شوند.)
- اطلاعات تکمیلی (توضیحات تکمیلی در خصوص داده در این قسمت ثبت شده و یا پیوند وبگاه دیگری که حاوی اطلاعات تکمیلی باشد در این بخش ارائه میشود.)
- پیوند دریافت داده (کاربران میتوانند با مراجعه به این پیوند داده را دانلود نموده و یا به هر شکل دیگری که عرضه شده باشد دریافت نمایند. به منظور رعایت حقوق معنوی صاحبان آثار، هیچ یک از دادههای معرفی شده به صورت مستقیم در مرجع دادگان زبان فارسی عرضه نخواهد شد، مگر آنکه مالک معنوی اثر خود چنین درخواستی از مرجع دادگان داشته باشد.)
- نمونه داده (به منظور فراهم نمودن امکان آشنایی با ساختار داده پیش از دریافت آن، در صورت امکان بخشی از داده به عنوان نمونه ارائه میشود.)
- اگر داده زبانی تولید کردهاید و میخواهید آن را در مرجع دادگان زبان فارسی معرفی کنید،
- اگر دادهای را میشناسید که هنوز در مرجع دادگان زبان فارسی معرفی نشده است،
- اگر هرگونه پیشنهاد و یا سؤالی در خصوص مرجع دادگان زبان فارسی دارید،
با ما تماس بگیرید.
چند نمونه از پیکره ها:
پیکره حاضر که با هدف ارزیابی سامانههای تقلبیاب تهیه شده است مشتمل بر بیش از ۱۵۰۰ سند فارسی از ویکیپدیا است که ۴۱۱ نمونه تقلب در آنها گنجانده شده است. در قسمتهای حاوی تقلب فرایندهایی چون جابجایی کلمات، حذف و اضافه نمودن کلمات و جایگزین نمودن کلمات با کلمات هممعنا اعمال شده است.
پیکره سِنتیپِرس شامل مجموعهای از جملات فارسی با برچسبهای حاوی بار معنایی است که در پردازش زبان طبیعی و به طور مشخص در زمینه تحلیل احساس یا عقیدهکاوی کاربرد دارد. با توجه به ویژگیهای این پیکره، میتوان آن را در نوع خود اولین پیکره تحلیل احساس برای زبان فارسی با چنین مشخصاتی به شمار آورد. گفتنی است که دامنه جملات موجود در پیکره مربوط به حوزه کالاهای دیجیتال است. همچنین این پیکره شامل جملاتی، هم به صورت رسمی و هم به صورت نوشتاری عامیانه یا غیررسمی است. پروژه توسعه این پیکره ادامه دارد و پیکره حاضر که تحت عنوان بخش اول کار ارائه شده است مشتمل بر حدود ۱۱۰۰ جملهٔ برچسبخورده است.
پیکره پی.سی.ای.سی ۲۰۰۸ (PCAC-2008 Persian Coreferentially Annotated Corpus) مجموعهای است شامل ۳۱ متن برگرفته از پیکره بیجنخان که در آن نزدیکترین مرجع اسمی ۲۰۷۹ ضمیر مشخص شده است. دسترسی به اطلاعات مربوط به مرجع ضمیر در بسیاری از کاربردهای پردازش زبان طبیعی چون ترجمه ماشینی، پرسش و پاسخ خودکار و خلاصهسازی خودکار دارای اهمیت است.
پیکره لوتوس مجموعهای از ۵۰ متن نسبتاً بلند برگفته از پیکره بیجنخان است که عبارات اسمی هممرجع در آن مشخص شده است. برای مثال در جملهٔ «[پروفسور عسکرزاده] [بنیانگذار منطق فازی] است و از [او] آثار بسیاری در این زمینه منتشر شده است.» مواردی که با کروشه مشخص شدهاند به یک موجودیت واحد اشاره دارند. دسترسی به چنین اطلاعاتی در بسیاری از کاربردهای پردازش زبان و از جمله استخراج اطلاعات دارای اهمیت است.
وردنت فارسی حوزه فاوا مجموعهای است شامل بیش از ۳۰.۰۰۰ مدخل واژگانی در حوزه تخصصی فاوا از مقولههای اسم، فعل، صفت و قید. در این وردنت علاوه بر روابط درون-مقولهای، روابط میان-مقولهای نیز مفاهیم را بهم پیوند میدهد و علاوه بر ویژگیهای در نظر گرفته شده برای واژهها، ویژگیهای نحوی، ساختواژی و آوایی به واژهها و قاب و ساختار آرگومانی به افعال افزوده شده است. این وردنت قابلیت اتصال به وردنتهای دیگر را از طریق نگاشت به وردنت پرینستون نسخه ۳٫۰ داراست. وردنت فارسی حوزه فاوا با همكاری پژوهشگاه ارتباطات و فناوری اطلاعات و دانشگاه بوعلیسینای همدان تهیه شده است.
پیکره «پاسخ» اولین پیکره متنی برای ارزیابی خلاصهسازی تکسندی و خلاصهسازی چندسندی است که توسط آزمایشگاه فناوری وب دانشگاه فردوسی مشهد و با همکاری سازمان فناوری اطلاعات ایران تولید گردیده. این پیکره مشتمل بر دو مجموعه تکسندی و چندسندی است. در تولید این مجموعه سعی شده است تمامی استانداردهای لازم برای تولید یک پیکره خلاصهسازی رعایت گردد.
دادگان تلفنی اعداد متصل زبان فارسی شامل دادههای ضبطشده تلفنی از اعداد فارسی به صورت متصل است و مشتمل بر ۱۱۰ گوینده میباشد كه هر یك تقریبا ۷۰ رشته عددی را بیان كردهاند. هر رشته عددی جداگانه بر چسبدهی شده است. آزمایشهای متنوعی كه به وسیله شنوندگان مختلف بر روی این دادگان صورت گرفته، كیفیت دادگان از نظر قابل فهم بودن برای استفادهكنندگان انسانی و همچنین صحت برچسبگذاری دادگان را تضمین كرده است. از این دادگان در سیستمهای بازشناسی گفتار پیوسته استفاده میشود. با به كارگیری این دادگان، دقت بازشناسی اعداد متصل تلفنی بیش از ۹۷٪ بوده است.
دادگان «مجموعه افعال تصریفشده فارسی» مجموعهایست که به گردآوری مصادر مختلف فارسی در پیکرههای بیجنخان، همشهری، تبکورپ و چند منبع دیگر پرداخته است. این مصادر در صیغههای مختلف صرف شدهاند و ویژگیهای مختلف آنها از جمله بن ماضی، بن مضارع، زمان، شخص، شمار، نمود و … برای هر صیغه و همینطور صورت واجنویسیشده و معادل انگلیسی برخی از مصادر نیز تعیین شده است. از این دادگان میتوان در مطالعات ساختواژی و نحوی زبانشناختی یا پردازشهای مختلف رایانهای از جمله تشخیص افعال مرکب، تعیین حدود جمله، تحلیلهای صرفی و نحوی و … استفاده کرد. تعداد کل مصادر در این مجموعه نزدیک به ۱۳۰۰ مصدر میباشد. این مجموعه دادگان در سه قالب xml، sql و csv ارائه شده است.
برای تهیه پیکره فارسی ۱۹۸۴ که در در چارچوب MULTEXT-East تولید شده است، رمان ۱۹۸۴ جرج اورول به عنوان متن اصلی انتخاب شده و نسخه فارسی این کتاب برای اضافه کردن زبان فارسی به این چارچوب حاشیهنویسی شده است. این پیکره که از ۱۱۰۰۰۰ توکن، ۱۱۲۶۶ پاراگراف، ۶۶۰۶ جمله، ۶۶۳۲ لما، و ۱۳۵۹۷ کلمه تشکیل شده است، با پیکرههای مشابه موجود چارچوب MULTEXT-East برای زبانهایی چون انگلیسی، بلغاری، چک، استونی، لهستانی، رومانیایی و اسلونی موازی است. از میان ۷۷۱ برچسب مختلف با معنی و ممکن برای زبان فارسی، ۴۴۸ برچسب مختلف در این پیکره رخ داده است.