خانه -> بایگانی برچسب : پیکره

بایگانی برچسب : پیکره

پیکره تشخیص خودکار جنسیت

25 آوریل 2017 110 نظرات

دانلود, رایگان, دیتاست, پیکره, پردازش, زبان, طبیعی, فارسی, dataset, corpus, persian, Language, processing

کد داده: D3950319 | ثبت در مرجع: ۱۹ خرداد ۱۳۹۵ | تعداد بازدید: ۱۷۱۲ پیکرهٔ تشخیص خودکار جنسیت شامل دو بخش اصلی است که عبارتند از: ۱- بخش متون رسمی که با مشخص کردن جنسیت نویسندگان متون داستانی موجود در پیکرهٔ بی‌جن‌خان و داستان‌های دیگر برگرفته از اینترنت به دست آمد. برای حذف تاثیر عامل جنسیت مترجم بر روی متن ... ادامه مطلب »

پیکره گروه‌های نحوی استاندارد برای تجزیه سطحی جملات فارسی [منتشر نشده]

18 آوریل 2017 267 نظرات

کد داده: D3941124a | ثبت در مرجع: ۲۴ بهمن ۱۳۹۴ | تعداد بازدید: ۲۰۳۶ پیکرهٔ حاضر شامل تعداد ۸۴۰۰ جملهٔ برگرفته از پیکرهٔ متنی زبان فارسی است که در قالب استاندارد تجزیه نحوی سطحی یا همان فرمت IOB برچسب‌گذاری شده است. گروه‌های برچسب‌خورده در این پیکره به ترتیب فراوانی عبارتند از گروه اسمی، گروه حرف اضافه، گروه فعلی، گروه حرف ... ادامه مطلب »

پیکره زبان‌آموز فارسی پی.ال.سی [منتشر نشده]

15 آوریل 2017 210 نظرات

کد داده: D3941121a | ثبت در مرجع: ۲۲ بهمن ۱۳۹۴ | تعداد بازدید: ۱۸۴۳ پیکرهٔ زبان‌آموز فارسی با عنوان PLC (برای Persian Learner Corpus) مجموعه‌ای است شامل تعداد ۱۵۰ متن نگارشی که به صورت نمونه و تصادفی از میان بایگانی انشاهای فارسی‌آموزانی که از کشورهای مختلف با سابقهٔ زبان اول مختلف (ترکی، هندی، انگلیسی، عربی، چینی و …) بود‌ه‌اند انتخاب ... ادامه مطلب »

پیکره موازی فارسی انگلیسی متون مذهبی [منتشر نشده]

14 آوریل 2017 22 نظرات

کد داده: D3941119a | ثبت در مرجع: ۱۹ بهمن ۱۳۹۴ | تعداد بازدید: ۱۱۱۱۰ پیکرهٔ حاضر مجموعه‌ای است از متون مذهبی شامل قرآن، انجیل، رساله‌های عملیه، سایر کتب مذهبی، وبگاه‌های مذهبی و … به دو زبان فارسی و انگلیسی که در سطح جمله موازی‌سازی شده‌اند. حجم پیکره حدود ۲۰ میلیون واژه برای هر زبان است. مالکیت معنوی: علی بیکیان، مهران ... ادامه مطلب »

پیکره واحدهای اسمی آرمان

09 آوریل 2017 دیدگاه‌ها برای پیکره واحدهای اسمی آرمان بسته هستند

کد داده: D3940917a | ثبت در مرجع: ۱۸ آذر ۱۳۹۴ | تعداد بازدید: ۱۶۶۵ تشخیص واحدهای اسمی (یا تشخیص موجودیت‌های نامدار) یکی از موضوعات پردازش زبان طبیعی است که نیاز به پیکره دارد. پیکرهٔ واحدهای اسمی آرمان که توسط شرکت آرمان رایان شریف تولید شده است شامل ۴۰۰ هزار کلمه (۴۹۱۷ جمله برگرفته از پیکرهٔ بی‌جن‌خان) است و سه ردهٔ ... ادامه مطلب »

فااسپل: ﺩﺍﺩﻩ ﺍﺭﺯﯾﺎﺑﯽ خطایاب‌های املایی

31 دسامبر 2015 دیدگاه‌ها برای فااسپل: ﺩﺍﺩﻩ ﺍﺭﺯﯾﺎﺑﯽ خطایاب‌های املایی بسته هستند

کد داده: D3940825a | ثبت در مرجع: ۲۵ آبان ۱۳۹۴ | تعداد بازدید: ۲۸۰ «فااسپل» متشکل از دو ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺑﺮﺍی ﺍﺭﺯﯾﺎﺑﯽ ﺭوﺵ‌های خطایابی املایی است. گروه اول شامل خطاهای معمول است که از دانش‌آموزان مدارس و همچنین خطاهای املایی در هنگام تایپ فارسی جمع‌آوری شده‌اند. این گروه شامل ۵۵۰۰ خطا و کلمهٔ تصحیح‌شده است. گروه دوم شامل ۸۰۰ جفت ... ادامه مطلب »

پیکره فارسی ارزیابی سامانه‌های تقلب‌یاب

16 دسامبر 2015 دیدگاه‌ها برای پیکره فارسی ارزیابی سامانه‌های تقلب‌یاب بسته هستند

کد داده: D3940531a | ثبت در مرجع: ۳۱ مرداد ۱۳۹۴ | تعداد بازدید: ۲۹۵ پیکره حاضر که با هدف ارزیابی سامانه‌های تقلب‌یاب تهیه شده است مشتمل بر بیش از ۱۵۰۰ سند فارسی از ویکیپدیا است که ۴۱۱ نمونه تقلب در آن‌ها گنجانده شده است. در قسمت‌های حاوی تقلب فرایندهایی چون جابجایی کلمات، حذف و اضافه نمودن کلمات و جایگزین نمودن ... ادامه مطلب »

پیکره فارسی تحلیل احساس سِنتی‌پِرس

15 دسامبر 2015 دیدگاه‌ها برای پیکره فارسی تحلیل احساس سِنتی‌پِرس بسته هستند

کد داده: D3940423a | ثبت در مرجع: ۲۴ تیر ۱۳۹۴ | تعداد بازدید: ۶۰۲ پیکره سِنتی‌پِرس شامل مجموعه‌ای از جملات فارسی با برچسب‌های حاوی بار معنایی است که در پردازش زبان طبیعی و به طور مشخص در زمینه تحلیل احساس یا عقیده‌کاوی کاربرد دارد. با توجه به ویژگی‌های این پیکره، می‌توان آن را در نوع خود اولین پیکره تحلیل احساس ... ادامه مطلب »

پیکره – پی.سی.ای.سی ۲۰۰۸ (پیکره مرجع ضمیر)

14 دسامبر 2015 دیدگاه‌ها برای پیکره – پی.سی.ای.سی ۲۰۰۸ (پیکره مرجع ضمیر) بسته هستند

کد داده: D3940406a | ثبت در مرجع: ۰۶ تیر ۱۳۹۴ | تعداد بازدید: ۶۲۹ پیکره پی.سی.ای.سی ۲۰۰۸ (PCAC-2008 Persian Coreferentially Annotated Corpus) مجموعه‌ای است شامل ۳۱ متن برگرفته از پیکره بی‌جن‌خان که در آن نزدیک‌ترین مرجع اسمی ۲۰۷۹ ضمیر مشخص شده است. دسترسی به اطلاعات مربوط به مرجع ضمیر در بسیاری از کاربردهای پردازش زبان طبیعی چون ترجمه ماشینی، پرسش ... ادامه مطلب »

پیکره – لوتوس (پیکره کلمات هم‌مرجع) [منتشر نشده]

13 دسامبر 2015 دیدگاه‌ها برای پیکره – لوتوس (پیکره کلمات هم‌مرجع) [منتشر نشده] بسته هستند

کد داده: D3940330b | ثبت در مرجع: ۰۱ تیر ۱۳۹۴ | تعداد بازدید: ۶۰۰ پیکره لوتوس مجموعه‌ای از ۵۰ متن نسبتاً بلند برگفته از پیکره بی‌جن‌خان است که عبارات اسمی هم‌مرجع در آن مشخص شده است. برای مثال در جملهٔ «[پروفسور عسکرزاده] [بنیان‌گذار منطق فازی] است و از [او] آثار بسیاری در این زمینه منتشر شده است.» مواردی که با ... ادامه مطلب »

پیکره – وردنت فارسی حوزه فاوا [منتشر نشده]

12 دسامبر 2015 دیدگاه‌ها برای پیکره – وردنت فارسی حوزه فاوا [منتشر نشده] بسته هستند

کد داده: D3940317a | ثبت در مرجع: ۱۷ خرداد ۱۳۹۴ | تعداد بازدید: ۷۵۹ وردنت فارسی حوزه فاوا مجموعه‌ای است شامل بیش از ۳۰.۰۰۰ مدخل واژگانی در حوزه تخصصی فاوا از مقوله‌های اسم، فعل، صفت و قید. در این وردنت علاوه بر روابط درون-مقوله‌ای، روابط میان-مقوله‌ای نیز مفاهیم را بهم پیوند می‌دهد و علاوه بر ویژگی‌های در نظر گرفته شده ... ادامه مطلب »

پیکره – پاسخ (پیکره استاندارد سامانه‌های خلاصه‌ساز)

10 دسامبر 2015 12 نظرات

کد داده: D3930615a | ثبت در مرجع: ۱۵ شهریور ۱۳۹۳ | تعداد بازدید: ۲۱۵۹ پیکره «پاسخ» اولین پیکره متنی برای ارزیابی خلاصه‌سازی تک‌سندی و خلاصه‌سازی چندسندی است که توسط آزمایشگاه فناوری وب دانشگاه فردوسی مشهد و با همکاری سازمان فناوری اطلاعات ایران تولید گردیده. این پیکره مشتمل بر دو مجموعه تک‌سندی و چندسندی است. در تولید این مجموعه سعی شده ... ادامه مطلب »

پیکره – پایگاه‌ داده گفتار‌ احساسی‌ زبان‌ فارسی (Persian ESD)

09 دسامبر 2015 دیدگاه‌ها برای پیکره – پایگاه‌ داده گفتار‌ احساسی‌ زبان‌ فارسی (Persian ESD) بسته هستند

کد داده: D3930518a | ثبت در مرجع: ۱۸ مرداد ۱۳۹۳ | تعداد بازدید: ۵۱۲۷ دسترسی به ابزار پژوهش رواسازی شده برای ارزیابی نوای گفتار (پروسودی) از ملزومات مطالعه گفتار‌ احساسی‌ (عاطفی) است. “پایگاه‌ داده گفتار‌ احساسی‌ زبان‌ فارسی Persian ESD”، اولین مجموعه جامع و معتبر گفتار احساسی‌ برای زبان فارسی است که در دانشگاه Freie Universitaet Berlin ساخته و سپس ... ادامه مطلب »

پیکره – دادگان تلفنی اعداد متصل

08 دسامبر 2015 دیدگاه‌ها برای پیکره – دادگان تلفنی اعداد متصل بسته هستند

کد داده: D3930414a | ثبت در مرجع: ۱۵ تیر ۱۳۹۳ | تعداد بازدید: ۲۱۸۸ دادگان تلفنی اعداد متصل زبان فارسی شامل داده‌های ضبط‌شده تلفنی از اعداد فارسی به صورت متصل است و مشتمل بر ۱۱۰ گوینده می‌باشد كه هر یك تقریبا ۷۰ رشته عددی را بیان كرده‌اند. هر رشته عددی جداگانه بر چسب‌دهی شده است. آزمایش‌های متنوعی كه به وسیله ... ادامه مطلب »

پیکره مجموعه افعال تصریف‌شده فارسی

07 دسامبر 2015 دیدگاه‌ها برای پیکره مجموعه افعال تصریف‌شده فارسی بسته هستند

کد داده: D3930317a | ثبت در مرجع: ۱۸ خرداد ۱۳۹۳ | تعداد بازدید: ۲۵۴۳ دادگان «مجموعه افعال تصریف‌شده فارسی» مجموعه‌ایست که به گردآوری مصادر مختلف فارسی در پیکره‌های بی‌جن‌خان، همشهری، تب‌کورپ و چند منبع دیگر پرداخته است. این مصادر در صیغه‌های مختلف صرف ‌شده‌اند و ویژگی‌های مختلف آن‌ها از جمله بن ماضی، بن مضارع، زمان، شخص، شمار، نمود و … ... ادامه مطلب »

پیکره فارسی ۱۹۸۴

06 دسامبر 2015 دیدگاه‌ها برای پیکره فارسی ۱۹۸۴ بسته هستند

کد داده: D3930213a | ثبت در مرجع: ۱۴ اردیبهشت ۱۳۹۳ | تعداد بازدید: ۲۶۴۰ برای تهیه پیکره فارسی ۱۹۸۴ که در در چارچوب MULTEXT-East تولید شده است، رمان ۱۹۸۴ جرج اورول به عنوان متن اصلی انتخاب شده و نسخه فارسی این کتاب برای اضافه کردن زبان فارسی به این چارچوب حاشیه‌نویسی شده است. این پیکره که از ۱۱۰۰۰۰ توکن، ۱۱۲۶۶ ... ادامه مطلب »

برگه 1 از 412 3 4 »