کد داده: D3940917a | ثبت در مرجع: ۱۸ آذر ۱۳۹۴ | تعداد بازدید: ۱۶۶۵ تشخیص واحدهای اسمی (یا تشخیص موجودیتهای نامدار) یکی از موضوعات پردازش زبان طبیعی است که نیاز به پیکره دارد. پیکرهٔ واحدهای اسمی آرمان که توسط شرکت آرمان رایان شریف تولید شده است شامل ۴۰۰ هزار کلمه (۴۹۱۷ جمله برگرفته از پیکرهٔ بیجنخان) است و سه ردهٔ ... ادامه مطلب »
بایگانی برچسب : زبان
آزمایشگاههای داخلی حوزه بازیابی اطلاعات
در این بخش آزمایشگاه هایی که در داخل کشور در حوزه آزمون و ارزیابی خدمات وب به ویژه در حوزه بازیابی اطلاعات و جویشگر به ارائه خدمت می پردازند، معرفی می شوند. آزمایشگاه های حوزه پردازش و بازیابی اطلاعات و خدمات وب ردیف عنوان آزمایشگاه مکان نوع خدمات حوزه کاری فعالیتها آدرس سایت ۱ آزمایشگاه تخصصی فناوری وب دانشگاه فردوسی ... ادامه مطلب »
آزمایشگاههای داخلی حوزه پردازش زبان طبیعی
ردیف عنوان آزمایشگاه مکان نوع خدمات حوزه کاری فعالیت آدرس سایت ۱ آزمایشگاه فناوری زبان انسانی و یادگیری ماشین دانشگاه امیرکبیر تحقیقاتی تخصصی توسعه ابزار توسعه دیتا ست ارزیابی پژوهشی مترجم ماشینی فارسی به انگلیسی و برعکس پیش_پردازشگر متون زبان فارسی ابزار شناسایی موجودیت های اسمی در متون فارسی ابزار ریشهیاب زبان فارسی ابزار برچسب زن مقوله نحوی ابزار نویسهگردانی ... ادامه مطلب »
فیلم آموزشی برنامه نویسی وب معنایی با استفاده از Jena
آنتولوژی در حقیقت آنتولوژی یکی از پایه های اصلی وب معنایی هست. همونطور که وب سنتی بر مبنای صفحات html بنا شده. وب معنایی نیز بر مبنای فایلهای متنی به نام انتولوژی است(فایلهایی با پسوند OWL).در این فایل متنی یک سری روابط خاص وجود داره. هر شی باید داخل یک کلاس جای بگیره.کلاس ها و زیر کلاسها به روش خاصی ... ادامه مطلب »
فیلم آموزشی ایجاد و ویرایش آنتولوژی با نرم افزار پروتج
آنتولوژی در حقیقت آنتولوژی یکی از پایه های اصلی وب معنایی هست. همونطور که وب سنتی بر مبنای صفحات html بنا شده. وب معنایی نیز بر مبنای فایلهای متنی به نام انتولوژی است(فایلهایی با پسوند OWL).در این فایل متنی یک سری روابط خاص وجود داره. هر شی باید داخل یک کلاس جای بگیره.کلاس ها و زیر کلاسها به روش خاصی ... ادامه مطلب »
پیکره فارسی ارزیابی سامانههای تقلبیاب
کد داده: D3940531a | ثبت در مرجع: ۳۱ مرداد ۱۳۹۴ | تعداد بازدید: ۲۹۵ پیکره حاضر که با هدف ارزیابی سامانههای تقلبیاب تهیه شده است مشتمل بر بیش از ۱۵۰۰ سند فارسی از ویکیپدیا است که ۴۱۱ نمونه تقلب در آنها گنجانده شده است. در قسمتهای حاوی تقلب فرایندهایی چون جابجایی کلمات، حذف و اضافه نمودن کلمات و جایگزین نمودن ... ادامه مطلب »
پیکره فارسی تحلیل احساس سِنتیپِرس
کد داده: D3940423a | ثبت در مرجع: ۲۴ تیر ۱۳۹۴ | تعداد بازدید: ۶۰۲ پیکره سِنتیپِرس شامل مجموعهای از جملات فارسی با برچسبهای حاوی بار معنایی است که در پردازش زبان طبیعی و به طور مشخص در زمینه تحلیل احساس یا عقیدهکاوی کاربرد دارد. با توجه به ویژگیهای این پیکره، میتوان آن را در نوع خود اولین پیکره تحلیل احساس ... ادامه مطلب »
پیکره – پی.سی.ای.سی ۲۰۰۸ (پیکره مرجع ضمیر)
کد داده: D3940406a | ثبت در مرجع: ۰۶ تیر ۱۳۹۴ | تعداد بازدید: ۶۲۹ پیکره پی.سی.ای.سی ۲۰۰۸ (PCAC-2008 Persian Coreferentially Annotated Corpus) مجموعهای است شامل ۳۱ متن برگرفته از پیکره بیجنخان که در آن نزدیکترین مرجع اسمی ۲۰۷۹ ضمیر مشخص شده است. دسترسی به اطلاعات مربوط به مرجع ضمیر در بسیاری از کاربردهای پردازش زبان طبیعی چون ترجمه ماشینی، پرسش ... ادامه مطلب »
پیکره – لوتوس (پیکره کلمات هممرجع) [منتشر نشده]
کد داده: D3940330b | ثبت در مرجع: ۰۱ تیر ۱۳۹۴ | تعداد بازدید: ۶۰۰ پیکره لوتوس مجموعهای از ۵۰ متن نسبتاً بلند برگفته از پیکره بیجنخان است که عبارات اسمی هممرجع در آن مشخص شده است. برای مثال در جملهٔ «[پروفسور عسکرزاده] [بنیانگذار منطق فازی] است و از [او] آثار بسیاری در این زمینه منتشر شده است.» مواردی که با ... ادامه مطلب »
پیکره – وردنت فارسی حوزه فاوا [منتشر نشده]
کد داده: D3940317a | ثبت در مرجع: ۱۷ خرداد ۱۳۹۴ | تعداد بازدید: ۷۵۹ وردنت فارسی حوزه فاوا مجموعهای است شامل بیش از ۳۰.۰۰۰ مدخل واژگانی در حوزه تخصصی فاوا از مقولههای اسم، فعل، صفت و قید. در این وردنت علاوه بر روابط درون-مقولهای، روابط میان-مقولهای نیز مفاهیم را بهم پیوند میدهد و علاوه بر ویژگیهای در نظر گرفته شده ... ادامه مطلب »
پیکره – پاسخ (پیکره استاندارد سامانههای خلاصهساز)
کد داده: D3930615a | ثبت در مرجع: ۱۵ شهریور ۱۳۹۳ | تعداد بازدید: ۲۱۵۹ پیکره «پاسخ» اولین پیکره متنی برای ارزیابی خلاصهسازی تکسندی و خلاصهسازی چندسندی است که توسط آزمایشگاه فناوری وب دانشگاه فردوسی مشهد و با همکاری سازمان فناوری اطلاعات ایران تولید گردیده. این پیکره مشتمل بر دو مجموعه تکسندی و چندسندی است. در تولید این مجموعه سعی شده ... ادامه مطلب »
پیکره – پایگاه داده گفتار احساسی زبان فارسی (Persian ESD)
کد داده: D3930518a | ثبت در مرجع: ۱۸ مرداد ۱۳۹۳ | تعداد بازدید: ۵۱۲۷ دسترسی به ابزار پژوهش رواسازی شده برای ارزیابی نوای گفتار (پروسودی) از ملزومات مطالعه گفتار احساسی (عاطفی) است. “پایگاه داده گفتار احساسی زبان فارسی Persian ESD”، اولین مجموعه جامع و معتبر گفتار احساسی برای زبان فارسی است که در دانشگاه Freie Universitaet Berlin ساخته و سپس ... ادامه مطلب »
پیکره – دادگان تلفنی اعداد متصل
کد داده: D3930414a | ثبت در مرجع: ۱۵ تیر ۱۳۹۳ | تعداد بازدید: ۲۱۸۸ دادگان تلفنی اعداد متصل زبان فارسی شامل دادههای ضبطشده تلفنی از اعداد فارسی به صورت متصل است و مشتمل بر ۱۱۰ گوینده میباشد كه هر یك تقریبا ۷۰ رشته عددی را بیان كردهاند. هر رشته عددی جداگانه بر چسبدهی شده است. آزمایشهای متنوعی كه به وسیله ... ادامه مطلب »
پیکره مجموعه افعال تصریفشده فارسی
کد داده: D3930317a | ثبت در مرجع: ۱۸ خرداد ۱۳۹۳ | تعداد بازدید: ۲۵۴۳ دادگان «مجموعه افعال تصریفشده فارسی» مجموعهایست که به گردآوری مصادر مختلف فارسی در پیکرههای بیجنخان، همشهری، تبکورپ و چند منبع دیگر پرداخته است. این مصادر در صیغههای مختلف صرف شدهاند و ویژگیهای مختلف آنها از جمله بن ماضی، بن مضارع، زمان، شخص، شمار، نمود و … ... ادامه مطلب »
پیکره فارسی ۱۹۸۴
کد داده: D3930213a | ثبت در مرجع: ۱۴ اردیبهشت ۱۳۹۳ | تعداد بازدید: ۲۶۴۰ برای تهیه پیکره فارسی ۱۹۸۴ که در در چارچوب MULTEXT-East تولید شده است، رمان ۱۹۸۴ جرج اورول به عنوان متن اصلی انتخاب شده و نسخه فارسی این کتاب برای اضافه کردن زبان فارسی به این چارچوب حاشیهنویسی شده است. این پیکره که از ۱۱۰۰۰۰ توکن، ۱۱۲۶۶ ... ادامه مطلب »
دادگان گفتار لهجهدار سهند [منتشر نشده]
کد داده: D3930116a | ثبت در مرجع: ۱۶ فروردین ۱۳۹۳ | تعداد بازدید: ۲۰۹۸ دادگان گفتار لهجهدار سهند مجموعهای است شامل گفتار ضبطشده با ۵ لهجه مختلف که جهت پژوهش در حوزه پردازش گفتار و به ویژه در تشخیص لهجه در گفتار به کار میرود. برای تهیه این مجموعه که در دانشگاه صنعتی سهند تولید شده است، گفتار ۴۰ نفر ... ادامه مطلب »