کد داده: D3920230a | ثبت در مرجع: ۳۱ اردیبهشت ۱۳۹۲ | تعداد بازدید: ۱۷۶۱ پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران (UTPECC) از دو مجموعه اخبار متفاوت از دو مبدأ مجزا یعنی اخبار فارسی خبرگزاری همشهری و اخبار انگلیسی خبرگزاری بیبیسی ساخته شده است. همچنین برای همترازی اسناد این دو زبان، علاوه بر تاریخ انتشار اخبار، شباهت محتوای اسناد نیز در نظر گرفته ... ادامه مطلب »
نتیجه جستجو برای : corpus
پیکره موازی انگلیسی-فارسی میزان
کد داده: D3920221a | ثبت در مرجع: ۲۲ اردیبهشت ۱۳۹۲ | تعداد بازدید: ۳۱۲۱ پیکره میزان مجموعهای است حاوی بیش از ۱ میلیون جمله از متون انگلیسی (اغلب در حوزه ادبیات کلاسیک) و ترجمه این جملات به فارسی که توسط دبیرخانه شورای عالی اطلاعرسانی تهیه شده است. از این پیکره میتوان در کاربردهای مختلف پردازش زبان طبیعی و به ویژه در ... ادامه مطلب »
پیکره موازی انگلیسی-فارسی تهران
کد داده: D3920214a | ثبت در مرجع: ۱۴ اردیبهشت ۱۳۹۲ | تعداد بازدید: ۱۶۵۸ پیکره موازی انگلیسی فارسی تهران (TEP) مجموعهای است حاوی بیش از ششصدهزار جمله همترازشده انگلیسی و فارسی که از زیرنویس ۱۶۰۰ فیلم استخراج شدهاند. این پیکره در آزمایشگاه پردازش زبان طبیعی دانشگاه تهران تهیه شده است و در ماشینهای ترجمه و دیگر سیستمهای پردازش زبان طبیعی ... ادامه مطلب »
پیکره – پیکره متنی زبان فارسی
کد داده: D3920121a | ثبت در مرجع: ۲۳ فروردین ۱۳۹۲ | تعداد بازدید: ۲۵۳۰ پیکره متنی زبان فارسی، مجموعهای از متون نوشتاری و گفتاری زبان فارسی به صورت رسمی است که از منابع واقعی همچون روزنامهها، سایتها و مستنداتِ از قبل تایپ شده، جمعآوری شده، تصحیح گردیده و برچسب خورده است. حجم این دادگان حدوداً ۱۰۰ میلیون کلمه است و ... ادامه مطلب »
پیکره – مجموعه همشهری (نسخه ۲)
کد داده: D3920117a | ثبت در مرجع: ۲۰ فروردین ۱۳۹۲ | تعداد بازدید: ۲۰۶۹ مجموعه همشهری پیکرهای است حاوی ۳۱۸ هزار سند مربوط به اخبار سالهای ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وبسایت همشهری و چندین مرحله پیشپردازش و برچسبگذاری حاصل آمده است. همه اسناد مجموعه همشهری دارای برچسب «Cat» هستند که نشان میدهد هر سند در چه ردهای ... ادامه مطلب »
پیکره – بانک اطلاعات حروف گسسته دستنویس فارسی
کد داده: D3911108a | ثبت در مرجع: ۰۹ بهمن ۱۳۹۱ | تعداد بازدید: ۱۵۰۹ به دلیل روند رو به گسترش تولید و استفاده از سیستمهای مبتنی بر نویسهخوانی نوری (OCR)، اهمیت وجود بانکهای اطلاعات تصاویر نوشتار فارسی بیش از پیش احساس میشود. این بانکهای اطلاعاتی هم به منظور توسعه و آموزش الگوریتمهای آموزشپذیر و هم به منظور ارزیابی سیستمهای ساخته ... ادامه مطلب »
معرفی سایت دادگان
مرجع دادگان زبان فارسی (dadegan.ir) با هدف ارائه متمرکز پیکرهها و سایر دادههای زبانی موجود برای زبان فارسی راهاندازی شده است. دادههای عرضه شده در این مرجع تخصصی میتوانند برای اهداف پردازش رایانهای زبان و مطالعات زبانشناختی مورد استفاده قرار بگیرند. امروزه روشهای آماری و مبتنی بر یادگیری ماشینی کاربرد فراوانی در پردازش زبان طبیعی و ایجاد سامانههایی چون سامانههای ... ادامه مطلب »
کلمات کلیدی
برگه ها تدریس خصوصی تماس با ما جامع ترین مرجع دانلود تحقیق، مقاله، سمینار و پایان نامه جامع ترین مرجع دانلود تحقیق، مقاله، سمینار و پایان نامه حمایت مالی سایت دانلود مقاله، تحقیق، سمینار و پایان نامه ISI IEEE Scopos درباره ما راهنمای ,خرید ,اینترنتی ,مقاله ,تحقیق ,سمینار ,پروپوزال ,پایان نامه ,ترجمه ,تکلیف ,درسی ,نمونه ,سوال راهنمای همکاری در سایت ... ادامه مطلب »
پیکره متنی بی جن خان
دکتر محمود بی جن خان پيكره بيجنخان، در آزمايشگاه زبانشناسي دانشگاه تهران نگهداري ميشود. اين پيكره، از برخي اخبار روزنامهها و متون معمولي جمعآوري شده است. يكي از ويژگيهاي اين پيكره اين است كه هر سند در اين مجموعه داراي يك عنوان ميباشد. به عنوان مثال، اسناد تحت عناوين( سياسي، فرهنگي، اقتصادي)دستهبندي شدهاند.در اين پيكره 4300 عنوان مختلف وجود دارد. ... ادامه مطلب »
مجموعه همشهری
مجموعههای متنی ابزارهای مهمی برای پیشبرد تحقیقات در تعدادی از شاخههای علوم کامپیوتر مانند بازیابی اطلاعات (Information Retrieval)، زبانشناسی پیکرهای (Corpus Linguistics) و زبانشناسی محاسباتی (Computational Linguistics) هستند. مجموعه آزمایش همشهری یکی از معتبرترین این منابع در زبان فارسی است. از این مجموعه در همایشهای معتبر بینالمللی Persian@CLEF2008 و Persian@CLEF2009 استفاده شده است. لازم به ذکر است که سایت قدیمی ... ادامه مطلب »
مقالات پردازش زبان طبیعی فارسی 12
43 Linguistic reasoning for Personnel Selection Problem 51 Machine Learning in Machine Translation – Toward a hybrid architecture for machine translation 71 Rapid Off-line Signature Verification Based on Signature Envelope and Adaptive Density Partitioning 93 Persian Handwritten Character Recognition Using Unsupervised Feature Learning 105 A Statistical POS Tagger and Parser for Persian 147 Evaluating fidelity of Persian-English sentence-aligned Parallel Corpus ... ادامه مطلب »
مقالات فارسی پردازش زبان طبیعی NLP – سری دوم
در این قسمت تعدادی مقاله فارسی در مورد پردازش زبان طبیعی زبان فارسی با موضوعات زیر ارائه می گردد: تمام فایل ها به صورت پی دی اف و در قالب مقاله کنفرانسی می باشد. مقالات دارای بخشهای متداول در تمامی مقالات کنفرانسی شامل چکیده، مقدمه، کارهای انجام شده، روش پیشنهادی ، ارزیابی و نتیجه گیری می باشد. (با ذکر تمامی منابع ... ادامه مطلب »
مقالات فارسی پردازش زبان طبیعی NLP
در این قسمت 58 مقاله فارسی در مورد پردازش زبان طبیعی زبان فارسی با موضوعات زیر ارائه می گردد: 1 طراحی و پیاده سازی یک سامانه ترجمه فارسی به انگلیسی 2 بازشناسی حروف برخط فارسی با استفاده از مدل مخفی مارکوف 3 آنالیز احساسی متون فارسی 4 بررسی ویژگی های وابسته به فرکانس پایه لهجه های مختلف زبان فارسی 5 ... ادامه مطلب »
مقالات فارسی پردازش زبان طبیعی NLP
مقالات فارسی پردازش زبان طبیعی NLP متن کاوی زبان فارسی ادامه مطلب »
دیتاست خلاصه سازی – DUC 2003 & DUC 2007 dataset Summarizatoin
یکی از چالش های مهم در امر خلاصه سازی متون، بحث ارزیابی روش های ارائه شده است. برای یک ارزیابی مناسب و دقیق، احتیاج به یک مجموعه داده ی مناسب و استاندارد می باشد. در مقالات مختلف از داد های مختلفی تا کنون استفاده شده است که از جمله آنها می توان به مجموعه داده های خبری BBC، CNN، TREC، ... ادامه مطلب »
دیتاست خلاصه سازی – DUC 2007 dataset Summarizatoin
دانلود دیتاست خلاصه سازی - DUC 2007 dataset Summarizatoin ادامه مطلب »