GATE یک نرم افزار پردازش متن است که توسط تیم طراحی دانشگاه Sheffield ساخته شده است. پردازشی که توسط این نرم افزار صورت می گیرد براساس اجزاء موجود در آن، به صورت ترتیبی، صورت می گیرد. لذا قابلیت این وجود دارد که بخش های مختلف توسط کاربران و برنامه نویسان توسعه یابد و بعنوان یک جزء جدا به آن اضافه ... ادامه مطلب »
نتیجه جستجو برای : پردازش زبان طبیعی
نوشتن PLUGIN فارسی برای نرم افزار پردازش متن GATE
نوشتن PLUGIN فارسی برای نرم افزار پردازش متن GATE ادامه مطلب »
مستند توضیحات ابزارهای لازم برای پردازش متن در زبان فارسی
ابزارهای لازم برای پردازش متن در زبان فارسی تشخيص دهنده ي جمله: اين ابزار بايد با توجه به کاراکترهاي جداکننده ي جمله در زبان فارسي، توانايي تشخيص جملات را در متن ورودي داشته باشد. Tokenizer: ابزاري براي شکستن يک متن بر اساس واحدهاي با معني مانند کلمه، پاراگراف، نمادهاي معنادار مانند space و tab و … . ل ... ادامه مطلب »
چگونگی محاسبه میزان تشابه معنایی مقالات برای متون زبان انگلیسی
چگونگی محاسبه میزان تشابه معنایی مقالات برای متون زبان انگلیسی در نخستین گام از طراحی و پیادهسازی ابزار مورد نظر برای محاسبه میزان تشابه متون، بایستی بسیاری از ابزارهای پایهای پردازش زبان انگلیسی از ابتدا و با رویکردی اصولی منطبق بر قواعد گرامری و نگارشی زبان انگلیسی طراحی و پیادهسازی گردد. از جملهی این ابزارها میتوان ابزار نرمالساز یا یکسانساز، ... ادامه مطلب »
چگونگی محاسبه میزان تشابه معنایی مقالات برای متون زبان انگلیسی
چگونگی محاسبه میزان تشابه معنایی مقالات برای متون زبان انگلیسی ادامه مطلب »
مقالات پردازش متن زبان فارسی 1
49 بررسی فرآیند همگونی در گویش همدانی 57 تدوین نواقص دستورالعمل املایی مصوب فرهنگستان به منظور ایجاد خطایاب املایی صرفی و نحوی زبان فارسی 58 طراحی و پیاده سازی بازشناسی نوری حروف 86 رویکردی بر پردازش زبان طبیعی و ابزار آن 98 معرفی روشی جدید در سیستم های پردازش زبان فارسی با استفاده از اصول دستوری ادامه مطلب »
ابزارهای لازم برای پردازش متن در زبان فارسی
ابزارهای لازم برای پردازش متن در زبان فارسی تشخيص دهنده ي جمله: اين ابزار بايد با توجه به کاراکترهاي جداکننده ي جمله در زبان فارسي، توانايي تشخيص جملات را در متن ورودي داشته باشد. براي ايجاد اين ابزار بايد ابتدا تمامي کاراکترها، نماد ها و احياناً قواعد دستوري که باعث شکسته شدن جملات مي شوند، شناسايي گردند. با توجه به ... ادامه مطلب »
ابزارهای لازم برای پردازش متن در زبان فارسی
دانلود ابزارهای لازم برای پردازش متن در زبان فارسی - پیش پردازش ادامه مطلب »
سومین همایش زبانشناسی رایانشی
سومین همایش زبانشناسی رایانشی در روزهای 28 و 29 آبان ماه 1393 در دانشگاه صنعتی شریف برگزار میگردد. مقالاتی که در این همایش ارائه خواهد شد حاصل دستاوردهای علمی پژوهشگرانی است که در زمینههای نظری و کاربردی حوزههایی چون زبانشناسی، علوم شناختی، هوش مصنوعی، ترجمه ماشینی، فناوری اطلاعات و ارتباطات، طراحی موتورهای جستجوگر، استخراج اطلاعات از پیکرههای زبانی، پردازش متن و گفتار، ... ادامه مطلب »
پردازش متن
ابزارهای لازم برای پردازش متن در زبان فارسی تشخيص دهنده ي جمله: اين ابزار بايد با توجه به کاراکترهاي جداکننده ي جمله در زبان فارسي، توانايي تشخيص جملات را در متن ورودي داشته باشد. براي ايجاد اين ابزار بايد ابتدا تمامي کاراکترها، نماد ها و احياناً قواعد دستوري که باعث شکسته شدن جملات مي شوند، شناسايي گردند. با توجه به ... ادامه مطلب »
ثبت پیکره قرآنی فرقان در مرجع دادگان زبان فارسی
پیکره متنی و زیرساختی که تحت عنوان «پیکره فرقان» برای قرآن کریم تولید گردیده است، حاصل بهرهگیری از سامانهای هوشمند است که در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد، طراحی و پیادهسازی شده است. این پیکره با بیش از 587 مگابایت داده، حاوی کلیه اطلاعات قرآنی، آماری، متن و ترجمه فارسی و انگلیسی آیات و برچسبگذاری صرفی و نحوی متن ... ادامه مطلب »
مجموعه صفات دارای برچسب قطبیت (لِکسی پرس)
کد داده: D3951016 | ثبت در مرجع: ۱۷ دی ۱۳۹۵ | تعداد بازدید: ۵۶۳ لغتنامه احساس لِکسی پرس (LexiPers)، شامل زیر مجموعهای از واژگان نسخه دوم فارسنت است که با روشی خودکار و با سه برچسب مثبت، منفی و خنثی برچسبگذاری شدهاند. فاز اول این پروژه در حال حاضر به اتمام رسیده و طی فازهای بعدی، کیفیت برچسبهای فعلی بهبود ... ادامه مطلب »
پیکره گروههای نحوی استاندارد برای تجزیه سطحی جملات فارسی [منتشر نشده]
کد داده: D3941124a | ثبت در مرجع: ۲۴ بهمن ۱۳۹۴ | تعداد بازدید: ۲۰۳۶ پیکرهٔ حاضر شامل تعداد ۸۴۰۰ جملهٔ برگرفته از پیکرهٔ متنی زبان فارسی است که در قالب استاندارد تجزیه نحوی سطحی یا همان فرمت IOB برچسبگذاری شده است. گروههای برچسبخورده در این پیکره به ترتیب فراوانی عبارتند از گروه اسمی، گروه حرف اضافه، گروه فعلی، گروه حرف ... ادامه مطلب »
مجموعه داده استاندارد وبلاگهای ایران
کد داده: D3941014a | ثبت در مرجع: ۱۵ دی ۱۳۹۴ | تعداد بازدید: ۲۱۷۵ مجموعه داده استاندارد وبلاگهای ایران (irBlogs) جهت ایجاد بستری مناسب برای تحقیق و ارائهٔ الگوریتم در زمینهٔ شبکههای اجتماعی ایرانی تولید شده است. این مجموعه شامل متون برگرفته از بیش از ۶۰۰ هزار وبلاگ (نزدیک به ۵ میلیون پست) است و گراف روابط افراد نیز برای ... ادامه مطلب »
پیکره واحدهای اسمی آرمان
کد داده: D3940917a | ثبت در مرجع: ۱۸ آذر ۱۳۹۴ | تعداد بازدید: ۱۶۶۵ تشخیص واحدهای اسمی (یا تشخیص موجودیتهای نامدار) یکی از موضوعات پردازش زبان طبیعی است که نیاز به پیکره دارد. پیکرهٔ واحدهای اسمی آرمان که توسط شرکت آرمان رایان شریف تولید شده است شامل ۴۰۰ هزار کلمه (۴۹۱۷ جمله برگرفته از پیکرهٔ بیجنخان) است و سه ردهٔ ... ادامه مطلب »
آزمایشگاههای داخلی حوزه بازیابی اطلاعات
در این بخش آزمایشگاه هایی که در داخل کشور در حوزه آزمون و ارزیابی خدمات وب به ویژه در حوزه بازیابی اطلاعات و جویشگر به ارائه خدمت می پردازند، معرفی می شوند. آزمایشگاه های حوزه پردازش و بازیابی اطلاعات و خدمات وب ردیف عنوان آزمایشگاه مکان نوع خدمات حوزه کاری فعالیتها آدرس سایت ۱ آزمایشگاه تخصصی فناوری وب دانشگاه فردوسی ... ادامه مطلب »