امروزه اطلاعات مستقر بر روي وب به سرعت در حال افزايش است و حجم بسيار زيادي از اين اطلاعات در قالب XML ظاهر شده است. يكي از مزاياي اصلي استفاده از XML ، نمايش دادههاي غير ساخت يافته است كه قابليتهاي بسياري را در اختيار كاربران ميگذارد. ويژگي غير ساختيافته بودن اطلاعات و انعطافپذيري XML باعث همهگير شدن استفاده از ... ادامه مطلب »
بازیابی اطلاعات
الگوریتم و کد آماده TF-IDF
الگوریتم و کد آماده سی شارپ TF-IDF لازم به ذکر است در کد مورد نظر نرمال سازی اولیه متن و همچنین ریشه یابی به صورت مبتنی بر قاعده برای کلمات انجام می گردد. فراوانی وزنی تیاف-آیدیاف (به انگلیسی: tf–idf weight) مخفف فراوانی – عکس فراوانی سند است. در این شیوه به لغات یک وزن بر اساس فراوانی آن در ... ادامه مطلب »
معرفی سه کتاب برای پردازش زبان طبیعی
پردازش زبان طبیعی یکی از موضوعات بسیار جذاب برای محققین حوزه هوش مصنوعی است و در دهه اخیر مقالات و پژوهش های بسیاری در این حوزه انجام شده است . علاقه مندان می توانند برای آشنایی بیشتر و فهم مطالب مربوط به پردازش زبان طبیعی کتاب بسیار مفید و سودمند زیر را مطالعه کنند. Author(s): Joseph Mariani Series: Periodical: Publisher: ... ادامه مطلب »
پردازش متن – متن کاوی – NLP
پکیج متن کاوی – شامل 4 عدد فایل فایل اول: متن كاوي چیست؟ فایل Word – زیان فارسی – شامل 9 صفحه چکيده : تقاضا براي اطلاعات فرابري شده ا ز منابع متني به طور فزاينده اي در حال افزايش است. ذات غيرساخت يافته ي اين متون، اعمال همان روشهايي را که ما در مورد ديتابيسها بکار مي بريم، غير ممکن مي ... ادامه مطلب »
کد حذف ایست واژه ها (Stop Words Remover) در زبان فارسی
کد استفاده از کتابخانه های ابزارهای پردازش متن فارسی (نرمال سازی، تشخیص جملات، تشخیص کلمات، حذف ایست واژه ها و ریشه یابی) حذف کننده کلمات ایست (Stopword Remover) در این ابزار، کلمات کم اهمیت تر و یا ایست واژه ها در صورت تایید کاربر از متون مورد پردازش، حذف میگردند. ایست واژه ها لغاتی پرکاربرد و اغلب کم اهمیتی هستند که ... ادامه مطلب »
مقاله و ترجمه : بررسی الگوریتم های خوشه بندی جریان های داده
ترجمه مقاله بررسی الگوریتم های خوشه بندی جریان های داده چکیده خوشه بندی جریان های داده در چند سال اخیر ، به دلیل حضور رو به رشد خود توجه زیادی به خود جلب کرده است. در خوشه بندی جریان های داده ، چالش های اضافی دیگری مانند زمان محدود ، حافظه محدود و خوشه بندی تک گذر وجود دارد. کشف ... ادامه مطلب »
پیکره – پرسیکا (پیکره متون خبری)
کد داده: D3921115a | ثبت در مرجع: ۱۶ بهمن ۱۳۹۲ | تعداد بازدید: ۳۳۱۷ پرسیکا پیکرهای است حاوی متون خبری برگرفته از خبرگزاری ایسنا. متون این پیکره در یازده طبقه موضوعی شامل ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی، بهداشت طبقهبندی شدهاند و پیشپردازشهایی به منظور قابل استفاده بودن در کاربردهای مختلف پردازش زبان طبیعی و ... ادامه مطلب »
پیکره بیجنخان
کد داده: D3920916a | ثبت در مرجع: ۱۶ آذر ۱۳۹۲ | تعداد بازدید: ۲۳۷۴ پیکره بیجنخانی مجموعهای است از متون فارسی شامل بیش از ۲میلیون و ۶۰۰هزار کلمه که با ۵۵۰ نوع برچسب POS برچسبگذاری شدهاند. این پیکره که در پژوهشکده پردازش هوشمند علائم تهیه شده است همچنین شامل بیش از ۴۳۰۰ تگ موضوعی چون سیاسی، تاریخی و … برای ... ادامه مطلب »
پیکره – واژگان نحوی و معنایی افعال مرکب فارسی (نسخه ۱.۰)
کد داده: D3920512a | ثبت در مرجع: ۱۲ مرداد ۱۳۹۲ | تعداد بازدید: ۲۴۴۳ واژگان نحوی و معنایی افعال مرکب فارسی (PersPred) مجموعهای است چندزبانه شامل اطلاعات نحوی و معنایی افعال مرکب زبان فارسی، ترجمه انگلیسی و فرانسوی افعال و حداقل یک جمله مثال برای هر فعل. اطلاعات نحوی بر اساس دیدگاه گروس و اطلاعات معنایی بر اساس دیدگاه لوین ... ادامه مطلب »
پیکره درختی وابستگی فارسی اوپسالا
کد داده: D3920404a | ثبت در مرجع: ۱۰ تیر ۱۳۹۲ | تعداد بازدید: ۱۹۸۲ پیکره درختی وابستگی فارسی اوپسالا (UPDT) مجموعهای است از جملات فارسی که در آن روابط نحوی کلمات بر مبنای دستور وابستگی مشخص شده است. این پیکره که در دانشگاه اوپسالای سوئد تهیه شده است، حاوی ۶.۰۰۰ جمله برگفته از پیکره فارسی اوپسالا (UPC – نسخهای تغییریافته ... ادامه مطلب »
پیکره – مجموعه همشهری (نسخه ۲)
کد داده: D3920117a | ثبت در مرجع: ۲۰ فروردین ۱۳۹۲ | تعداد بازدید: ۲۰۶۹ مجموعه همشهری پیکرهای است حاوی ۳۱۸ هزار سند مربوط به اخبار سالهای ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وبسایت همشهری و چندین مرحله پیشپردازش و برچسبگذاری حاصل آمده است. همه اسناد مجموعه همشهری دارای برچسب «Cat» هستند که نشان میدهد هر سند در چه ردهای ... ادامه مطلب »
بازيابي اطلاعات
معناي عبارت بازيابي اطلاعات ميتواند بسيار وسيع باشد. فقط لازم است يک کارت اعتباري از کيف پول خود خارج کنيد و از آن استفاده کنيد. با اين کار شما نوعي بازيابي اطلاعات انجام دادهايد. در هر حال بعنوان يک شاخه مطالعاتي آکادميک، بازيابي اطلاعات ميتواند بصورت زير تعريف شود: “بازيابي اطلاعات عبارتست از کشف اجزاي (معمولاً اسناد) يک طبيعت بدون ... ادامه مطلب »
ابزارهاي MATLAB براي بازيابي اطلاعات
سيستم بازيابي اطلاعات[1] در مجموعه سند[2]هايي که به فرمتهاي گوناگون در پايگاه داده وجود دارد (حال اين پايگاه داده ممکن است پايگاه دادة رابطه اي مستقل[3] يا پايگاه دادة شبکهاي ابر متن[4] مثل اينترنت باشد)، به دنبال اطلاعات مطلوب کاربر ميگردد. جستجوي اطلاعات به دو صورت امکان پذير است: نگاه کردن کلي[5] : در مواردي است که خواستة کاربر دقيق ... ادامه مطلب »