کد داده: D3920121a | ثبت در مرجع: ۲۳ فروردین ۱۳۹۲ | تعداد بازدید: ۲۵۳۰ پیکره متنی زبان فارسی، مجموعهای از متون نوشتاری و گفتاری زبان فارسی به صورت رسمی است که از منابع واقعی همچون روزنامهها، سایتها و مستنداتِ از قبل تایپ شده، جمعآوری شده، تصحیح گردیده و برچسب خورده است. حجم این دادگان حدوداً ۱۰۰ میلیون کلمه است و ... ادامه مطلب »
نتیجه جستجو برای : متنی
پیکره متنی بی جن خان
دکتر محمود بی جن خان پيكره بيجنخان، در آزمايشگاه زبانشناسي دانشگاه تهران نگهداري ميشود. اين پيكره، از برخي اخبار روزنامهها و متون معمولي جمعآوري شده است. يكي از ويژگيهاي اين پيكره اين است كه هر سند در اين مجموعه داراي يك عنوان ميباشد. به عنوان مثال، اسناد تحت عناوين( سياسي، فرهنگي، اقتصادي)دستهبندي شدهاند.در اين پيكره 4300 عنوان مختلف وجود دارد. ... ادامه مطلب »
پروپوزال کارشناسی ارشد: خلاصه سازی خودکار مبتنی بر مفاهیم اسناد چند سندی متنی
عنوان : خلاصه سازی خودکار مبتنی بر مفاهیم اسناد چند سندی متنی Title: Concept based Automatic Text Summarization 1- تعريف مساله، پیشینه، اهداف و سوالات تحقيق: 1-1- مقدمه : با گسترش روزافزون حجم اطلاعات موجود در وب و افزايش چشم گير مقالات و کتب منتشر شده در زمينه هاي مختلف علمي ، دسترسي درست به مطالب و مطالعه اطلاعات مورد ... ادامه مطلب »
پروپوزال کارشناسی ارشد: خلاصه سازی خودکار مبتنی بر مفاهیم اسناد چند سندی متنی
پروپوزال کارشناسی ارشد: خلاصه سازی خودکار مبتنی بر مفاهیم اسناد چند سندی متنی ادامه مطلب »
خوشه بندی اسناد متنی مبتنی بر مفاهیم همسایگی و شباهت معنایی
متن کاوی فناوری ایجاد شده جهت کنترل داده های متنی در حال رشد است که در جهت برچینی اطلاعات معنی دار از متون زبان طبیعی تلاش می کند. متن کاوی یعنی جستجوی الگوها در متن غیرساخت یافته و برای کشف خودکار دانش مورد علاقه یا مفید از متن نیمه ساخت یافته استفاده می-شود [Tan 2005]. متن کاوی تقریبا معادل با ... ادامه مطلب »
خوشه بندی اسناد متنی مبتنی بر مفاهیم همسایگی و شباهت معنایی
خوشه بندی اسناد متنی مبتنی بر مفاهیم همسایگی و شباهت معنایی ادامه مطلب »
بهترین کتابها در زمینه پردازش زبان طبیعی
1- مفاهیم پایه پردازش زبان طبیعی کتاب Foundations of Statistical Natural Language Processing این کتاب در سال 1999 توسط انتشارات MIT منتشر شده و یکی از منابع اصلی پردازش زبان طبیعی در دانشگاهها است. این کتاب شامل 680 صفحه در قالب 4 بخش و 16 فصل هست. بخش اول، مربوط به بیان مقدمات، مفاهیم و پیشنیازهای پردازش زبان طبیعی است. ... ادامه مطلب »
مقاله و ترجمه: مفاهیم داده های بزرگ، روش ها و تجزیه و تحلیل – سال 2015
فراتر از اغراق: مفاهیم داده های بزرگ، روش ها و تجزیه و تحلیل چکیده ویژگی اندازه، اولین و تنها بعدی است که در هر زمان، در اشاره به داده های بزرگ مورد توجه قرار می گیرد. این مقاله سعی در ارائه تعریف گسترده ای از داده های بزرگ است که دیگر ویژگی های منحصر بفرد و تعریف شده خود ... ادامه مطلب »
مقاله و ترجمه: مفاهیم داده های بزرگ، روش ها و تجزیه و تحلیل
مفاهیم داده های بزرگ، روش ها و تجزیه و تحلیل ادامه مطلب »
پیکره تشخیص خودکار جنسیت
کد داده: D3950319 | ثبت در مرجع: ۱۹ خرداد ۱۳۹۵ | تعداد بازدید: ۱۷۱۲ پیکرهٔ تشخیص خودکار جنسیت شامل دو بخش اصلی است که عبارتند از: ۱- بخش متون رسمی که با مشخص کردن جنسیت نویسندگان متون داستانی موجود در پیکرهٔ بیجنخان و داستانهای دیگر برگرفته از اینترنت به دست آمد. برای حذف تاثیر عامل جنسیت مترجم بر روی متن ... ادامه مطلب »
پیکره واژگان فارسی دارای برچسب قطبیت
کد داده: D3950208 | ثبت در مرجع: ۰۸ اردیبهشت ۱۳۹۵ | تعداد بازدید: ۲۳۵۵ پیکره واژگان فارسی دارای برچسب قطبیت که در آزمایشگاه سیستمهای هوشمند اطلاعات دانشگاه تهران از دو مجموعه داده تشکیل شده است: ۱. مجموعه استخراج شده از صفتهای برچسب خورده فارسی: این مجموعه از روی مجموعه صفتهای زبان فارسی استخراج شده از فارسنت ساخته شده است. هر ... ادامه مطلب »
پیکره چندزبانه رایانامه
کد داده: D3950204 | ثبت در مرجع: ۰۴ اردیبهشت ۱۳۹۵ | تعداد بازدید: ۱۵۵۹ پیکره چندزبانه رایانامهها برای تشخیص ریسمانهای گفتگوی چندزبانه در آزمایشگاه سیستمهای هوشمند اطلاعات دانشگاه تهران تهیه شده است. نام این پیکره «Multilingual-BC3» است که در حقیقت یک پیکرهٔ ساختگی چندزبانه است که حاصل ترجمه بخشی از پیکره تکزبانه BC3، توسط عامل انسانی است. پیکره اولیه BC3 ... ادامه مطلب »
پیکره گروههای نحوی استاندارد برای تجزیه سطحی جملات فارسی [منتشر نشده]
کد داده: D3941124a | ثبت در مرجع: ۲۴ بهمن ۱۳۹۴ | تعداد بازدید: ۲۰۳۶ پیکرهٔ حاضر شامل تعداد ۸۴۰۰ جملهٔ برگرفته از پیکرهٔ متنی زبان فارسی است که در قالب استاندارد تجزیه نحوی سطحی یا همان فرمت IOB برچسبگذاری شده است. گروههای برچسبخورده در این پیکره به ترتیب فراوانی عبارتند از گروه اسمی، گروه حرف اضافه، گروه فعلی، گروه حرف ... ادامه مطلب »
کد سی شارپ تولید کپچا
تا کنون احتمالاً با تصویری از حروف و اعداد که عمداً کج و ناواضح رسم شدهاند در وبگاههای مختلف برخورد کردهاید و از شما خواسته شده تا آنرا به شکل صحیح خوانده و بادقت در یک جعبهٔ متن وارد کنید. اگر چنین است شما با یک کپچا سر و کار داشتهاید. کد تصویری یا کپچا برای جلوگیری از ورود روبوت ... ادامه مطلب »
کد سی شارپ تولید کپچا
کد سی شارپ تولید کپچا ادامه مطلب »
آزمایشگاههای داخلی حوزه بازیابی اطلاعات
در این بخش آزمایشگاه هایی که در داخل کشور در حوزه آزمون و ارزیابی خدمات وب به ویژه در حوزه بازیابی اطلاعات و جویشگر به ارائه خدمت می پردازند، معرفی می شوند. آزمایشگاه های حوزه پردازش و بازیابی اطلاعات و خدمات وب ردیف عنوان آزمایشگاه مکان نوع خدمات حوزه کاری فعالیتها آدرس سایت ۱ آزمایشگاه تخصصی فناوری وب دانشگاه فردوسی ... ادامه مطلب »