عنوان دیتاست : مجموعه داده توییت های فارسی برای تشخیص شایعه دانشگاه خواجه نصیر PRTD_KNTU ( Persian Rumor Tweets Dataset _ KNTU) گروه : شبکه اجتماعی توضیحات : این مجموعه شامل 3598049 توییت فارسی جمع اوری شده از شبکه اجتماعی توییتر است که در آن 4345 توییت شایعه به وسیله ی کاربر انسانی مشخص شده است. تعداد کاربران ارسال کننده ی توییت ها 111981 ... ادامه مطلب »
پیکره
مجموعه صفات دارای برچسب قطبیت (لِکسی پرس)
کد داده: D3951016 | ثبت در مرجع: ۱۷ دی ۱۳۹۵ | تعداد بازدید: ۵۶۳ لغتنامه احساس لِکسی پرس (LexiPers)، شامل زیر مجموعهای از واژگان نسخه دوم فارسنت است که با روشی خودکار و با سه برچسب مثبت، منفی و خنثی برچسبگذاری شدهاند. فاز اول این پروژه در حال حاضر به اتمام رسیده و طی فازهای بعدی، کیفیت برچسبهای فعلی بهبود ... ادامه مطلب »
پیکره تشخیص خودکار جنسیت
کد داده: D3950319 | ثبت در مرجع: ۱۹ خرداد ۱۳۹۵ | تعداد بازدید: ۱۷۱۲ پیکرهٔ تشخیص خودکار جنسیت شامل دو بخش اصلی است که عبارتند از: ۱- بخش متون رسمی که با مشخص کردن جنسیت نویسندگان متون داستانی موجود در پیکرهٔ بیجنخان و داستانهای دیگر برگرفته از اینترنت به دست آمد. برای حذف تاثیر عامل جنسیت مترجم بر روی متن ... ادامه مطلب »
پیکره واژگان فارسی دارای برچسب قطبیت
کد داده: D3950208 | ثبت در مرجع: ۰۸ اردیبهشت ۱۳۹۵ | تعداد بازدید: ۲۳۵۵ پیکره واژگان فارسی دارای برچسب قطبیت که در آزمایشگاه سیستمهای هوشمند اطلاعات دانشگاه تهران از دو مجموعه داده تشکیل شده است: ۱. مجموعه استخراج شده از صفتهای برچسب خورده فارسی: این مجموعه از روی مجموعه صفتهای زبان فارسی استخراج شده از فارسنت ساخته شده است. هر ... ادامه مطلب »
پیکره چندزبانه رایانامه
کد داده: D3950204 | ثبت در مرجع: ۰۴ اردیبهشت ۱۳۹۵ | تعداد بازدید: ۱۵۵۹ پیکره چندزبانه رایانامهها برای تشخیص ریسمانهای گفتگوی چندزبانه در آزمایشگاه سیستمهای هوشمند اطلاعات دانشگاه تهران تهیه شده است. نام این پیکره «Multilingual-BC3» است که در حقیقت یک پیکرهٔ ساختگی چندزبانه است که حاصل ترجمه بخشی از پیکره تکزبانه BC3، توسط عامل انسانی است. پیکره اولیه BC3 ... ادامه مطلب »
پیکره گروههای نحوی استاندارد برای تجزیه سطحی جملات فارسی [منتشر نشده]
کد داده: D3941124a | ثبت در مرجع: ۲۴ بهمن ۱۳۹۴ | تعداد بازدید: ۲۰۳۶ پیکرهٔ حاضر شامل تعداد ۸۴۰۰ جملهٔ برگرفته از پیکرهٔ متنی زبان فارسی است که در قالب استاندارد تجزیه نحوی سطحی یا همان فرمت IOB برچسبگذاری شده است. گروههای برچسبخورده در این پیکره به ترتیب فراوانی عبارتند از گروه اسمی، گروه حرف اضافه، گروه فعلی، گروه حرف ... ادامه مطلب »
پیکره زبانآموز فارسی پی.ال.سی [منتشر نشده]
کد داده: D3941121a | ثبت در مرجع: ۲۲ بهمن ۱۳۹۴ | تعداد بازدید: ۱۸۴۳ پیکرهٔ زبانآموز فارسی با عنوان PLC (برای Persian Learner Corpus) مجموعهای است شامل تعداد ۱۵۰ متن نگارشی که به صورت نمونه و تصادفی از میان بایگانی انشاهای فارسیآموزانی که از کشورهای مختلف با سابقهٔ زبان اول مختلف (ترکی، هندی، انگلیسی، عربی، چینی و …) بودهاند انتخاب ... ادامه مطلب »
پیکره موازی فارسی انگلیسی متون مذهبی [منتشر نشده]
کد داده: D3941119a | ثبت در مرجع: ۱۹ بهمن ۱۳۹۴ | تعداد بازدید: ۱۱۱۱۰ پیکرهٔ حاضر مجموعهای است از متون مذهبی شامل قرآن، انجیل، رسالههای عملیه، سایر کتب مذهبی، وبگاههای مذهبی و … به دو زبان فارسی و انگلیسی که در سطح جمله موازیسازی شدهاند. حجم پیکره حدود ۲۰ میلیون واژه برای هر زبان است. مالکیت معنوی: علی بیکیان، مهران ... ادامه مطلب »
پیکره فارسی روز [منتشر نشده]
کد داده: D3941117a | ثبت در مرجع: ۱۷ بهمن ۱۳۹۴ | تعداد بازدید: ۱۷۹۸ پیکرهٔ فارسی روز پیکرهای خام، یکزبانه و پیوسته، شامل ۱۲۷ متن فارسی است که تمام آنها بین سالهای ۱۳۸۰ تا ۱۳۹۲ نوشته شدهاند و اغلب از میان داستانهای کوتاه و رمانها انتخاب شدهاند. این پیکره برای تألیف اثری با عنوان «فرهنگ فارسی روز» گردآوری شده و ... ادامه مطلب »
واژگان زایای زبان کردی سورانی [منتشر نشده]
کد داده: D3941111a | ثبت در مرجع: ۱۱ بهمن ۱۳۹۴ | تعداد بازدید: ۱۷۶۱ واژگان زایای زبان کردی سورانی به صورت نیمهخودکار استخراج شده است و شامل حدود ۳۵ هزار مدخل با ۲۸ برچسب مقولهٔ واژگانی است. واژگان به مجموعهٔ واژههای درون ذهن گویشوران اطلاق میگردد که یکی از منابع مهم در تولید و ساخت فناوریهای پردازش زبان طبیعی مانند ... ادامه مطلب »
مجموعه محک وب داتآیآر
کد داده: D3941015a | ثبت در مرجع: ۱۶ دی ۱۳۹۴ | تعداد بازدید: ۲۰۸۵ بازیابی اطلاعات وب (Web Information Retrieval) یک زمینه تحقیقاتی است که در آن از فنون حوزه بازیابی اطلاعات برای برطرفسازی یک نیاز اطلاعاتی در محیط وب استفاده میشود. در این نوع بازیابی علاوه بر متون میتوان از اطلاعات موجود در فراداده (Meta Data) و ساختار پیوندی ... ادامه مطلب »
مجموعه داده استاندارد وبلاگهای ایران
کد داده: D3941014a | ثبت در مرجع: ۱۵ دی ۱۳۹۴ | تعداد بازدید: ۲۱۷۵ مجموعه داده استاندارد وبلاگهای ایران (irBlogs) جهت ایجاد بستری مناسب برای تحقیق و ارائهٔ الگوریتم در زمینهٔ شبکههای اجتماعی ایرانی تولید شده است. این مجموعه شامل متون برگرفته از بیش از ۶۰۰ هزار وبلاگ (نزدیک به ۵ میلیون پست) است و گراف روابط افراد نیز برای ... ادامه مطلب »
آموزش کار با Rouge – ابزار ارزیابی خلاصه سازها
ابزار ارزیابی Rouge( A Package for Automatic Evaluation of Summaries ) ابزار Rouge معروفترین ابزار برای ارزیابی در خلاصه سازی خودکار می باشد که البته از آن در دیگر کاربردهای پردازش زبان طبیعی و بازیابی اطلاعات هم استفاده شده است. Rouge مخفف جمله ی “Recall-Oriented Understudy for Gisting Evaluation” به معنای “ارزیابی مبتنی بر یادآوری برای خلاصه” می باشد. این ابزار شامل ... ادامه مطلب »
پیکره فارسی نظرکاوی – احساس کاوی
نظر کاوی در سالهای اخیر با گسترش اینترنت، بازارهای الکترونیکی، بسترهای اجتماعی مجازی و تعاملات کاربران با وب به عنوان یکی از چالش های مهم یادگیری ماشین و هوش مصنوعی مورد توجه قرار گرفته است. تبدیل نظر و بار معنایی جملات به ماشین با توجه به کیفی بودن موضوع و احساسی بودن، همواره در علوم رباتیک مورد نظر بوده است. ... ادامه مطلب »
پیکره فارسی خلاصه سازی
پیکره متنی برای ارزیابی خلاصهسازی تکسندی و خلاصهسازی چندسندی مشتمل بر دو مجموعه تکسندی و چندسندی است با رعایت تمامی استانداردهای لازم برای تولید یک پیکره خلاصهسازی برای تهیه پیکره با تلفن زیر تماس بگیرید: 09359529058 universitydatainfo{@}yahoo.com تلگرام: @Tnt3ir خلاصه سازی خودکار متون همزمان با رشد روز افزون اسناد و اطلاعات بیش از پیش مورد توجه علاقه مندان حوزه ... ادامه مطلب »
فااسپل: ﺩﺍﺩﻩ ﺍﺭﺯﯾﺎﺑﯽ خطایابهای املایی
کد داده: D3940825a | ثبت در مرجع: ۲۵ آبان ۱۳۹۴ | تعداد بازدید: ۲۸۰ «فااسپل» متشکل از دو ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺑﺮﺍی ﺍﺭﺯﯾﺎﺑﯽ ﺭوﺵهای خطایابی املایی است. گروه اول شامل خطاهای معمول است که از دانشآموزان مدارس و همچنین خطاهای املایی در هنگام تایپ فارسی جمعآوری شدهاند. این گروه شامل ۵۵۰۰ خطا و کلمهٔ تصحیحشده است. گروه دوم شامل ۸۰۰ جفت ... ادامه مطلب »