کد داده: D3920117a | ثبت در مرجع: ۲۰ فروردین ۱۳۹۲ | تعداد بازدید: ۲۰۶۹ مجموعه همشهری پیکرهای است حاوی ۳۱۸ هزار سند مربوط به اخبار سالهای ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وبسایت همشهری و چندین مرحله پیشپردازش و برچسبگذاری حاصل آمده است. همه اسناد مجموعه همشهری دارای برچسب «Cat» هستند که نشان میدهد هر سند در چه ردهای ... ادامه مطلب »
پردازش متن
پیکره – فرهنگ ظرفیت نحوی افعال فارسی (نسخه ۳.۰)
کد داده: D3911212a | ثبت در مرجع: ۲۴ اسفند ۱۳۹۱ | تعداد بازدید: ۳۶۴۸ فرهنگ ظرفیت نحوی افعال فارسی مجموعهای است حاوی اطلاعات مربوط به ظرفیت نحوی بیش از ۴۵۰۰ فعل در زبان فارسی. در این فرهنگ، متممهای اجباری و اختیاری انواع فعلهای ساده، مرکب، پیشوندی و عبارات فعلی مشخص شده است. فراوانی فعلهای مرکب در زبان فارسی، نیاز به ... ادامه مطلب »
پیکره – فرهنگ املایی خط فارسی
کد داده: D3911203c | ثبت در مرجع: ۰۴ اسفند ۱۳۹۱ | تعداد بازدید: ۱۹۷۴ داده حاضر نسخه رقومی فرهنگ املايى خطّ فارسى براساس دستور خطّ فارسی مصوّب فرهنگستان زبان و ادب فارسی است. ازآنجاكه بهخاطر سپردن تمام قواعدى كه در دستور خطّ فارسى مصوّب فرهنگستان زبان و ادب فارسى آمده براى همگان امكانپذير نيست، و ازسوىديگر، عموم نويسندگان، اعم از ... ادامه مطلب »
پیکره – دادگان صوتی هجاهای فارسی
کد داده: D3911203a | ثبت در مرجع: ۰۵ اسفند ۱۳۹۱ | تعداد بازدید: ۱۸۹۰ دادگان گفتاری حاضر شامل حدود ۵۸۰۰ فایل صوتی هجاهای زبان فارسی است که توسط پژوهشکده پردازش هوشمند علائم برای یک برنامه بازسازی گفتار فارسی از نوع بازسازی گفتار به شیوه همگذاری طراحی شده است. بخش اعظم هجاها از صورت واجنویسیشده دادگان بزرگ زبان فارسی گفتاری «فارسدات بزرگ» ... ادامه مطلب »
پیکره – فرهنگ جامع واژگان مترادف و متضاد زبان فارسی
کد داده: D3911124a | ثبت در مرجع: ۲۷ بهمن ۱۳۹۱ | تعداد بازدید: ۳۶۴۱۰ این داده نسخه رقومی فرهنگ جامع واژگان مترادف و متضاد زبان فارسی (تألیف فرجالله خداپرستی) است که متشکل از ۱۵۰۰۰ مدخل، ۲۷۴۰۰ حوزه معنایی و ۱۳۵۰۰۰ واژه میباشد. نحوه تنظیم لغات الفبایی بوده و در برابر هر واژه ابتدا مترادفات آن و سپس واژگان متضاد آمده ... ادامه مطلب »
پیکره – مجموعه داده عروض (نسخۀ ۲.۰۰)
کد داده: D3911108c | ثبت در مرجع: ۰۹ بهمن ۱۳۹۱ | تعداد بازدید: ۶۵۶۲ دادگان عروض مجموعهای است شامل حدود ۱۳۰۰ بیت از اشعار مولانا و حافظ به همراه کد وزن آنها که میتواند جهت تشخیص خودکار وزن عروضی اشعار فارسی مورد استفاده قرار گیرد. مالکیت معنوی: دبیرخانه شورای عالی اطلاعرسانی شرایط استفاده: – اطلاعات ارجاع: – محمدمهدی مجیری، و ... ادامه مطلب »
پیکره – بانک اطلاعات حروف گسسته دستنویس فارسی
کد داده: D3911108a | ثبت در مرجع: ۰۹ بهمن ۱۳۹۱ | تعداد بازدید: ۱۵۰۹ به دلیل روند رو به گسترش تولید و استفاده از سیستمهای مبتنی بر نویسهخوانی نوری (OCR)، اهمیت وجود بانکهای اطلاعات تصاویر نوشتار فارسی بیش از پیش احساس میشود. این بانکهای اطلاعاتی هم به منظور توسعه و آموزش الگوریتمهای آموزشپذیر و هم به منظور ارزیابی سیستمهای ساخته ... ادامه مطلب »
پیکره – فرهنگ طیفی زبان فارسی
کد داده: D3911105c | ثبت در مرجع: ۰۷ بهمن ۱۳۹۱ | تعداد بازدید: ۲۰۵۶ این داده نسخه رقومی کتاب «فرهنگ طیفی» با طبقهبندی بر اساس ارتباط معنایی ۴۵ هزار لغت و ۹۲ هزار معنی و تداعی آن لغات است. کتاب فرهنگ طیفی نخستین تزاروس طبقهبندی لغات و اصطلاحات رایج زبان فارسی است که به صورت طبقهبندی شده، ذیل ۹۹۱ مقوله ... ادامه مطلب »
اصول پیش بینی بوسیله متن کاوی
اصول پیش بینی بوسیله متن کاوی جهت دریافت این کتاب ، نام کتاب را به شماره 09359529058 پیامک نمایید. قابل ارسال به سراسر کشور از طریق پست… هزینه پست نیز بر عهد مشتری می باشد. در صورت سفارش تعداد بالای کتاب هزینه ارسال از طریق پست، رایگان می باشد. در صورت داشتن سوال و ابهامی در مورد کتاب ها با ما ... ادامه مطلب »
تشخیص هرزنامه – اسپم – Spam
هرزنامه سوءاستفاده از سیستمهای پیغامدهی الکترونیکی ( شامل اغلب رسانههای دادهپراکنی و سیستمهای تحویل دیجیتالی اطلاعات) برای فرستادن پیغامهای زیاد برای افراد نامشخص میباشد. درحالیکه مشهورترین نوع هرزنامه، هرزنامه های پست الکترونیکی میباشند، ولی این کلمه برای سایر سوءاستفادههای رسانهای نیز استفاده میگردد. سایر انواع هرزنامه عبارتند از هرزنامههای پیام الکترونیکی ، هرزنامه گروههای خبری Usenet، هرزنامههای موتور جستجوی ... ادامه مطلب »
Opinion mining and sentiment analysis
Opinion mining and sentiment analysis Bo Pang and Lillian Lee Foundations and Trends in Information Retrieval 2(1-2), pp. 1–135, 2008. Also available as a book or e-book. http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html The monograph itself: published version authors-formatted version: slight differences from the final print version: copy-editing and typesetting changes (print version has one known introduced typo); has fewer pages than the published version ... ادامه مطلب »
مقاله + ترجمه : سیستم ترجمه ماشینی آماری مبتنی بر عبارت فارسی انگلیسی
چکیده هدف این مقاله، بررسی سیستمهای ترجمه ماشینی آماری است. در روشهای آماری هدف، حداقل سازی خطای تصمیم، با استفاده از تئوری تصمیم آماری یا قاعده بیز میباشد. در این پروژه، یک سیستم مبتنی بر عبارت آماری، راه اندازی شده و تغییرات پارامترهای سیستم، مورد بررسی و تحلیل قرار گرفته است. ارزیابی سیستم توسط معیار بلو ، نشان میدهد که ... ادامه مطلب »
پیکره متنی بی جن خان
دکتر محمود بی جن خان پيكره بيجنخان، در آزمايشگاه زبانشناسي دانشگاه تهران نگهداري ميشود. اين پيكره، از برخي اخبار روزنامهها و متون معمولي جمعآوري شده است. يكي از ويژگيهاي اين پيكره اين است كه هر سند در اين مجموعه داراي يك عنوان ميباشد. به عنوان مثال، اسناد تحت عناوين( سياسي، فرهنگي، اقتصادي)دستهبندي شدهاند.در اين پيكره 4300 عنوان مختلف وجود دارد. ... ادامه مطلب »
مجموعه همشهری
مجموعههای متنی ابزارهای مهمی برای پیشبرد تحقیقات در تعدادی از شاخههای علوم کامپیوتر مانند بازیابی اطلاعات (Information Retrieval)، زبانشناسی پیکرهای (Corpus Linguistics) و زبانشناسی محاسباتی (Computational Linguistics) هستند. مجموعه آزمایش همشهری یکی از معتبرترین این منابع در زبان فارسی است. از این مجموعه در همایشهای معتبر بینالمللی Persian@CLEF2008 و Persian@CLEF2009 استفاده شده است. لازم به ذکر است که سایت قدیمی ... ادامه مطلب »
پروپوزال کارشناسی ارشد: خلاصه سازی خودکار مبتنی بر مفاهیم اسناد چند سندی متنی
عنوان : خلاصه سازی خودکار مبتنی بر مفاهیم اسناد چند سندی متنی Title: Concept based Automatic Text Summarization 1- تعريف مساله، پیشینه، اهداف و سوالات تحقيق: 1-1- مقدمه : با گسترش روزافزون حجم اطلاعات موجود در وب و افزايش چشم گير مقالات و کتب منتشر شده در زمينه هاي مختلف علمي ، دسترسي درست به مطالب و مطالعه اطلاعات مورد ... ادامه مطلب »
پروپوزال کارشناسی ارشد: بهبود ترجمه ماشینی آماری انگلیسی– فارسی با استفاده از اطلاعات زبان شناسی
دانلود پروپوزال کارشناسی ارشد عنوان : بهبود ترجمه ماشینی آماری انگلیسی– فارسی با استفاده از اطلاعات زبان شناسی Title: Improving English – Persian statistical machine translation with linguistics information مقدمه: رشد تعاملات بینالمللی در زمینههای مختلف و وجود زبانهای متفاوت در گوشه و کنار دنیا مشکلات زیادی برای افراد به منظور برقراری ارتباط با یکدیگر بوجود آورده است. از آنجا ... ادامه مطلب »