کد سی شارپ محاسبه نرخ فشرده سازی خلاصه سازی فرمول محاسبه نرخ فشرده سازی خلاصه سازی: ادامه مطلب »
ابزارهای پردازش متن
الگوریتم و کد آماده TF-IDF
الگوریتم و کد آماده سی شارپ TF-IDF لازم به ذکر است در کد مورد نظر نرمال سازی اولیه متن و همچنین ریشه یابی به صورت مبتنی بر قاعده برای کلمات انجام می گردد. فراوانی وزنی تیاف-آیدیاف (به انگلیسی: tf–idf weight) مخفف فراوانی – عکس فراوانی سند است. در این شیوه به لغات یک وزن بر اساس فراوانی آن در ... ادامه مطلب »
کد سی شارپ مترادف های کلمات فارسی
کد سی شارپ مترادف های کلمات فارسی با استفاده از فرهنگ لغت بکار رفته در این کد، کلمات مترادف و هم معنی با هر کلمه قابل استخراج می باشد. لذا می توان از این برنامه بمنظور معناگرایی در انواع الگوریتم های پردازش متن استفاده نمود… دو بخش در این برنامه طراحی شده است. حالت اول: کلمات مترادف مستقیم برای هر ... ادامه مطلب »
معرفی سه کتاب برای پردازش زبان طبیعی
پردازش زبان طبیعی یکی از موضوعات بسیار جذاب برای محققین حوزه هوش مصنوعی است و در دهه اخیر مقالات و پژوهش های بسیاری در این حوزه انجام شده است . علاقه مندان می توانند برای آشنایی بیشتر و فهم مطالب مربوط به پردازش زبان طبیعی کتاب بسیار مفید و سودمند زیر را مطالعه کنند. Author(s): Joseph Mariani Series: Periodical: Publisher: ... ادامه مطلب »
کتاب بسیار مفید برای متن کاوی با استفاده از NLTK و پایتون
این کتاب برای اولین بار در سال 2010 و ویرایش دومش در سال 2014 چاپ شده است. تقریبا تمام مفاهیم متن کاوی به خصوص در مرحله پیش پردازش در این کتاب به خوبی توضیح داده شده است و کدهای آماده بسیاری در پایتون برای آنها ارائه شده است. Python 3 Text Processing with NLTK 3 Cookbook Title: Python 3 Text Processing ... ادامه مطلب »
پردازش متن – متن کاوی – NLP
پکیج متن کاوی – شامل 4 عدد فایل فایل اول: متن كاوي چیست؟ فایل Word – زیان فارسی – شامل 9 صفحه چکيده : تقاضا براي اطلاعات فرابري شده ا ز منابع متني به طور فزاينده اي در حال افزايش است. ذات غيرساخت يافته ي اين متون، اعمال همان روشهايي را که ما در مورد ديتابيسها بکار مي بريم، غير ممکن مي ... ادامه مطلب »
کد حذف ایست واژه ها (Stop Words Remover) در زبان فارسی
کد استفاده از کتابخانه های ابزارهای پردازش متن فارسی (نرمال سازی، تشخیص جملات، تشخیص کلمات، حذف ایست واژه ها و ریشه یابی) حذف کننده کلمات ایست (Stopword Remover) در این ابزار، کلمات کم اهمیت تر و یا ایست واژه ها در صورت تایید کاربر از متون مورد پردازش، حذف میگردند. ایست واژه ها لغاتی پرکاربرد و اغلب کم اهمیتی هستند که ... ادامه مطلب »
کد استفاده از کتابخانه های ابزارهای پردازش متن فارسی
کد استفاده از کتابخانه های ابزارهای پردازش متن فارسی در این کد که به زبان سی شارپ نوشته شده است چگونگی استفاده از کتابخانه های ابزارهای پردازش متن فارسی زیر آورده شده است: – نرمالسازی متون فارسی – Normalizer – تشخیص جملات – Sentence Spliter – تشخیص کلمات – Tokenizer – ریشه یابی کلمات – Stemmer – برچسب زنی نحوی کلمات ... ادامه مطلب »
پیکره فارسی ارزیابی سامانههای تقلبیاب
کد داده: D3940531a | ثبت در مرجع: ۳۱ مرداد ۱۳۹۴ | تعداد بازدید: ۲۹۵ پیکره حاضر که با هدف ارزیابی سامانههای تقلبیاب تهیه شده است مشتمل بر بیش از ۱۵۰۰ سند فارسی از ویکیپدیا است که ۴۱۱ نمونه تقلب در آنها گنجانده شده است. در قسمتهای حاوی تقلب فرایندهایی چون جابجایی کلمات، حذف و اضافه نمودن کلمات و جایگزین نمودن ... ادامه مطلب »
پیکره – پرسیکا (پیکره متون خبری)
کد داده: D3921115a | ثبت در مرجع: ۱۶ بهمن ۱۳۹۲ | تعداد بازدید: ۳۳۱۷ پرسیکا پیکرهای است حاوی متون خبری برگرفته از خبرگزاری ایسنا. متون این پیکره در یازده طبقه موضوعی شامل ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی، بهداشت طبقهبندی شدهاند و پیشپردازشهایی به منظور قابل استفاده بودن در کاربردهای مختلف پردازش زبان طبیعی و ... ادامه مطلب »
نوشتن PLUGIN فارسی برای نرم افزار پردازش متن GATE
GATE یک نرم افزار پردازش متن است که توسط تیم طراحی دانشگاه Sheffield ساخته شده است. پردازشی که توسط این نرم افزار صورت می گیرد براساس اجزاء موجود در آن، به صورت ترتیبی، صورت می گیرد. لذا قابلیت این وجود دارد که بخش های مختلف توسط کاربران و برنامه نویسان توسعه یابد و بعنوان یک جزء جدا به آن اضافه ... ادامه مطلب »
مستند توضیحات ابزارهای لازم برای پردازش متن در زبان فارسی
ابزارهای لازم برای پردازش متن در زبان فارسی تشخيص دهنده ي جمله: اين ابزار بايد با توجه به کاراکترهاي جداکننده ي جمله در زبان فارسي، توانايي تشخيص جملات را در متن ورودي داشته باشد. Tokenizer: ابزاري براي شکستن يک متن بر اساس واحدهاي با معني مانند کلمه، پاراگراف، نمادهاي معنادار مانند space و tab و … . ل ... ادامه مطلب »