کد داده: D3920117a | ثبت در مرجع: ۲۰ فروردین ۱۳۹۲ | تعداد بازدید: ۲۰۶۹ مجموعه همشهری پیکرهای است حاوی ۳۱۸ هزار سند مربوط به اخبار سالهای ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وبسایت همشهری و چندین مرحله پیشپردازش و برچسبگذاری حاصل آمده است. همه اسناد مجموعه همشهری دارای برچسب «Cat» هستند که نشان میدهد هر سند در چه ردهای ... ادامه مطلب »
بایگانی برچسب : persian
پیکره – فرهنگ ظرفیت نحوی افعال فارسی (نسخه ۳.۰)
کد داده: D3911212a | ثبت در مرجع: ۲۴ اسفند ۱۳۹۱ | تعداد بازدید: ۳۶۴۸ فرهنگ ظرفیت نحوی افعال فارسی مجموعهای است حاوی اطلاعات مربوط به ظرفیت نحوی بیش از ۴۵۰۰ فعل در زبان فارسی. در این فرهنگ، متممهای اجباری و اختیاری انواع فعلهای ساده، مرکب، پیشوندی و عبارات فعلی مشخص شده است. فراوانی فعلهای مرکب در زبان فارسی، نیاز به ... ادامه مطلب »
پیکره – فرهنگ املایی خط فارسی
کد داده: D3911203c | ثبت در مرجع: ۰۴ اسفند ۱۳۹۱ | تعداد بازدید: ۱۹۷۴ داده حاضر نسخه رقومی فرهنگ املايى خطّ فارسى براساس دستور خطّ فارسی مصوّب فرهنگستان زبان و ادب فارسی است. ازآنجاكه بهخاطر سپردن تمام قواعدى كه در دستور خطّ فارسى مصوّب فرهنگستان زبان و ادب فارسى آمده براى همگان امكانپذير نيست، و ازسوىديگر، عموم نويسندگان، اعم از ... ادامه مطلب »
پیکره – دادگان صوتی هجاهای فارسی
کد داده: D3911203a | ثبت در مرجع: ۰۵ اسفند ۱۳۹۱ | تعداد بازدید: ۱۸۹۰ دادگان گفتاری حاضر شامل حدود ۵۸۰۰ فایل صوتی هجاهای زبان فارسی است که توسط پژوهشکده پردازش هوشمند علائم برای یک برنامه بازسازی گفتار فارسی از نوع بازسازی گفتار به شیوه همگذاری طراحی شده است. بخش اعظم هجاها از صورت واجنویسیشده دادگان بزرگ زبان فارسی گفتاری «فارسدات بزرگ» ... ادامه مطلب »
پیکره – فرهنگ جامع واژگان مترادف و متضاد زبان فارسی
کد داده: D3911124a | ثبت در مرجع: ۲۷ بهمن ۱۳۹۱ | تعداد بازدید: ۳۶۴۱۰ این داده نسخه رقومی فرهنگ جامع واژگان مترادف و متضاد زبان فارسی (تألیف فرجالله خداپرستی) است که متشکل از ۱۵۰۰۰ مدخل، ۲۷۴۰۰ حوزه معنایی و ۱۳۵۰۰۰ واژه میباشد. نحوه تنظیم لغات الفبایی بوده و در برابر هر واژه ابتدا مترادفات آن و سپس واژگان متضاد آمده ... ادامه مطلب »
پیکره – مجموعه داده عروض (نسخۀ ۲.۰۰)
کد داده: D3911108c | ثبت در مرجع: ۰۹ بهمن ۱۳۹۱ | تعداد بازدید: ۶۵۶۲ دادگان عروض مجموعهای است شامل حدود ۱۳۰۰ بیت از اشعار مولانا و حافظ به همراه کد وزن آنها که میتواند جهت تشخیص خودکار وزن عروضی اشعار فارسی مورد استفاده قرار گیرد. مالکیت معنوی: دبیرخانه شورای عالی اطلاعرسانی شرایط استفاده: – اطلاعات ارجاع: – محمدمهدی مجیری، و ... ادامه مطلب »
پیکره – بانک اطلاعات حروف گسسته دستنویس فارسی
کد داده: D3911108a | ثبت در مرجع: ۰۹ بهمن ۱۳۹۱ | تعداد بازدید: ۱۵۰۹ به دلیل روند رو به گسترش تولید و استفاده از سیستمهای مبتنی بر نویسهخوانی نوری (OCR)، اهمیت وجود بانکهای اطلاعات تصاویر نوشتار فارسی بیش از پیش احساس میشود. این بانکهای اطلاعاتی هم به منظور توسعه و آموزش الگوریتمهای آموزشپذیر و هم به منظور ارزیابی سیستمهای ساخته ... ادامه مطلب »
پیکره – فرهنگ طیفی زبان فارسی
کد داده: D3911105c | ثبت در مرجع: ۰۷ بهمن ۱۳۹۱ | تعداد بازدید: ۲۰۵۶ این داده نسخه رقومی کتاب «فرهنگ طیفی» با طبقهبندی بر اساس ارتباط معنایی ۴۵ هزار لغت و ۹۲ هزار معنی و تداعی آن لغات است. کتاب فرهنگ طیفی نخستین تزاروس طبقهبندی لغات و اصطلاحات رایج زبان فارسی است که به صورت طبقهبندی شده، ذیل ۹۹۱ مقوله ... ادامه مطلب »
پیکره – واژگان زایای زبان فارسی
کد داده: D3911105a | ثبت در مرجع: ۰۷ بهمن ۱۳۹۱ | تعداد بازدید: ۲۵۰۵ واژگان زایای زبان فارسی واژگانی است شامل حدود ۵۵هزار مدخل که هر مدخل دارای اطلاعات مربوط به صورت نوشتاری واژه در خط فارسی، ساخت واجی، مقولهٔ واژگانی، الگوی تکیه، و بسامد واژه میباشد. برای تهیهٔ واژگان زایا، یک پیکره متنی ۱۰میلیون کلمهای ملاک استخراج واژهها قرار ... ادامه مطلب »
پیکره – پیکره وابستگی نحوی زبان فارسی (نسخه ۱.۱.۱)
کد داده: D3911103a | ثبت در مرجع: ۲۷ اسفند ۱۳۹۳ | تعداد بازدید: ۴۰۶۲ پیکره وابستگی نحوی زبان فارسی مجموعهای است شامل حدود ۳۰ هزار جمله برچسبخورده با اطلاعات نحوی و ساختواژی. این پیکره میتواند به عنوان زیرساختی اساسی در پردازش رایانهای زبان فارسی به کار رود. مهمترین دلائل استفاده از دستور وابستگی در این پیکره نحوی عبارتند از: نتایج ... ادامه مطلب »
معرفی سایت دادگان
مرجع دادگان زبان فارسی (dadegan.ir) با هدف ارائه متمرکز پیکرهها و سایر دادههای زبانی موجود برای زبان فارسی راهاندازی شده است. دادههای عرضه شده در این مرجع تخصصی میتوانند برای اهداف پردازش رایانهای زبان و مطالعات زبانشناختی مورد استفاده قرار بگیرند. امروزه روشهای آماری و مبتنی بر یادگیری ماشینی کاربرد فراوانی در پردازش زبان طبیعی و ایجاد سامانههایی چون سامانههای ... ادامه مطلب »
مقاله + ترجمه : سیستم ترجمه ماشینی آماری مبتنی بر عبارت فارسی انگلیسی
چکیده هدف این مقاله، بررسی سیستمهای ترجمه ماشینی آماری است. در روشهای آماری هدف، حداقل سازی خطای تصمیم، با استفاده از تئوری تصمیم آماری یا قاعده بیز میباشد. در این پروژه، یک سیستم مبتنی بر عبارت آماری، راه اندازی شده و تغییرات پارامترهای سیستم، مورد بررسی و تحلیل قرار گرفته است. ارزیابی سیستم توسط معیار بلو ، نشان میدهد که ... ادامه مطلب »
نمونه پروپوزال کارشناسی ارشد: معناگرایی در ارزيابي خودکار خلاصه سازهاي ماشيني انگليسي و فارسي با بهره گیری از شبکه واژگان
نمونه پروپوزال کارشناسی ارشد: معناگرایی در ارزيابي خودکار خلاصه سازهاي ماشيني انگليسي و فارسي با بهره گیری از شبکه واژگان Title:Automatic SemanticEvaluation of English and Persian Text Summarizerwith using WordNet تعريف مساله، پیشینه، اهداف و سوالات تحقيق امروزه با رشد چشمگير حجم مستندات منتشر شده در وب و نياز اساسي به نگهداري، دسته بندي، بازيابي و پردازش ماشيني و سريع ... ادامه مطلب »
ایست واژه ها (Stop words) در زبان فارسی و انگلیسی
ایست واژه ها (Stop words) ایست واژه ها لغاتی هستند که علی رغم تکرار فروان در متن، از لحاظ معنایی دارای اهمیت کمی هستند مثل “اگر”، “و”، “ولی”،”که” و غیره. در نگاه اولیه کلمات ربط و تعریف، ایست واژه به نظر می آیند؛ در عین حال بسیاری از افعال، افعال کمکی، اسم ها، قیدها و صفات نیز ایست واژه شناخته ... ادامه مطلب »