امروزه اطلاعات مستقر بر روي وب به سرعت در حال افزايش است و حجم بسيار زيادي از اين اطلاعات در قالب XML ظاهر شده است. يكي از مزاياي اصلي استفاده از XML ، نمايش دادههاي غير ساخت يافته است كه قابليتهاي بسياري را در اختيار كاربران ميگذارد. ويژگي غير ساختيافته بودن اطلاعات و انعطافپذيري XML باعث همهگير شدن استفاده از ... ادامه مطلب »
پردازش متن
داده های عظیم (BIG-DATA)
Big Data چیست؟ داده های بزرگ یا عظیم داده ترجمه اصطلاح Big Data می باشد که معمولا به مجموعه از داده ها اطلاق می شود که اندازه آنها فراتر از حدی است که با نرم افزارهای معمول بتوان آنها را در یک زمان معقول اخذ، دقیق سازی، مدیریت و پردازش کرد. مفهوم «اندازه» در داده های بزرگ بطور مستمر در ... ادامه مطلب »
پیاده سازی سه مقاله خوشه بندی – یادگیری ماشین
عملیات داده کاوی مفید نیاز به داده های خوب و مناسب دارد. داده های مناسب جهت عملیات داده کاوی می تواند حاصل پیش پردازش درست و صحیح داده ها باشد. در واقع برای کشف دانش به کمک داده کاوی باید مقدماتی صورت گیرد که مجموعه این مقدمات را آماده سازی داده ها می گویند. از اصلی ترین عملیات آماده سازی ... ادامه مطلب »
الگوریتم و کد آماده TF-IDF
الگوریتم و کد آماده سی شارپ TF-IDF لازم به ذکر است در کد مورد نظر نرمال سازی اولیه متن و همچنین ریشه یابی به صورت مبتنی بر قاعده برای کلمات انجام می گردد. فراوانی وزنی تیاف-آیدیاف (به انگلیسی: tf–idf weight) مخفف فراوانی – عکس فراوانی سند است. در این شیوه به لغات یک وزن بر اساس فراوانی آن در ... ادامه مطلب »
کد سی شارپ مترادف های کلمات فارسی
کد سی شارپ مترادف های کلمات فارسی با استفاده از فرهنگ لغت بکار رفته در این کد، کلمات مترادف و هم معنی با هر کلمه قابل استخراج می باشد. لذا می توان از این برنامه بمنظور معناگرایی در انواع الگوریتم های پردازش متن استفاده نمود… دو بخش در این برنامه طراحی شده است. حالت اول: کلمات مترادف مستقیم برای هر ... ادامه مطلب »
آزمایشگاههای داخلی حوزه بازیابی اطلاعات
در این بخش آزمایشگاه هایی که در داخل کشور در حوزه آزمون و ارزیابی خدمات وب به ویژه در حوزه بازیابی اطلاعات و جویشگر به ارائه خدمت می پردازند، معرفی می شوند. آزمایشگاه های حوزه پردازش و بازیابی اطلاعات و خدمات وب ردیف عنوان آزمایشگاه مکان نوع خدمات حوزه کاری فعالیتها آدرس سایت ۱ آزمایشگاه تخصصی فناوری وب دانشگاه فردوسی ... ادامه مطلب »
آزمایشگاههای داخلی حوزه پردازش زبان طبیعی
ردیف عنوان آزمایشگاه مکان نوع خدمات حوزه کاری فعالیت آدرس سایت ۱ آزمایشگاه فناوری زبان انسانی و یادگیری ماشین دانشگاه امیرکبیر تحقیقاتی تخصصی توسعه ابزار توسعه دیتا ست ارزیابی پژوهشی مترجم ماشینی فارسی به انگلیسی و برعکس پیش_پردازشگر متون زبان فارسی ابزار شناسایی موجودیت های اسمی در متون فارسی ابزار ریشهیاب زبان فارسی ابزار برچسب زن مقوله نحوی ابزار نویسهگردانی ... ادامه مطلب »
اولین دوره مسابقات پردازش متون فارسی (پارسی پرداز95)
اولین دوره مسابقات پردازش متون فارسی (پارسی پرداز95) [با محوریت خلاصه سازی متون خبری] آزمایشگاه فناوری وب دانشگاه فردوسی مشهد اولین دوره مسابقات سیستمهای خلاصهسازی اسناد فارسی را همزمان با کنفرانس ICCKE2016 برگزار میکند. مسابقات در دوبخش خلاصه سازی تک سندی و خلاصه سازی چندسندی برگزار خواهد شد و به تیمهای برتر جوایز ارزندهای اهدا میشود. همچنین نفرات برگزیده، امکان ثبت ... ادامه مطلب »
فیلم آموزشی متن کاوی و وب کاوی
فیلم آموزشی متن کاوی و وب کاوی کسب و کارهای نوپا برای کسب اطلاعات خود چه می کنند ؟ چگونه می توان از انبوه متون آنلاین اطلاعات مفید را استخراج کرد ؟ چگونه می توان اتفاقات مرتبط با کسب و کاری نوپا را رصد کرد و سرعت در تصمیم سازی را افزایش داد ؟ چالش های پیش رو در متن ... ادامه مطلب »
داده کاوی(مفاهیم، کاربردها، تکنیک ها و فرایندها )
اسلاید فارسی داده کاوی (مفاهیم، کاربردها، تکنیک ها و فرایندها ) 80 صفحه – به زبان فارسی بسیار علمی و تخصصی به کاربرد داده کاوی در رشته ها و موضوعات مختلف پرداخته است. ——————————————————– نیاز به داده کاوی تاریخچه داده کاوی تعاریف داده کاوی حوزه های مرتبط با داده کاوی هدف داده کاوی چالش های داده کاوی کاربرد داده کاوی در ... ادامه مطلب »
معرفی سه کتاب برای پردازش زبان طبیعی
پردازش زبان طبیعی یکی از موضوعات بسیار جذاب برای محققین حوزه هوش مصنوعی است و در دهه اخیر مقالات و پژوهش های بسیاری در این حوزه انجام شده است . علاقه مندان می توانند برای آشنایی بیشتر و فهم مطالب مربوط به پردازش زبان طبیعی کتاب بسیار مفید و سودمند زیر را مطالعه کنند. Author(s): Joseph Mariani Series: Periodical: Publisher: ... ادامه مطلب »
کتاب بسیار مفید درباره استخراج داده از وب
جمع آوری داده از وب علوم متن کاوی اهمیت ویژه ای دارد. به همین دلیل فیلدی با نام وب اسکرپینگ در علوم متن کاوی وجود دارد. کتاب زیر به موضوع وب اسکرپینگ توسط پایتون پرداخته است . این کتاب جدید در سال 2015 و در 250 صفحه چاپ شده است. Title: Web Scraping with Python: Collecting Data from the Modern ... ادامه مطلب »
کتاب بسیار مفید برای متن کاوی با استفاده از NLTK و پایتون
این کتاب برای اولین بار در سال 2010 و ویرایش دومش در سال 2014 چاپ شده است. تقریبا تمام مفاهیم متن کاوی به خصوص در مرحله پیش پردازش در این کتاب به خوبی توضیح داده شده است و کدهای آماده بسیاری در پایتون برای آنها ارائه شده است. Python 3 Text Processing with NLTK 3 Cookbook Title: Python 3 Text Processing ... ادامه مطلب »
کتاب جدید و بسیار مفید درباره تحلیل شبکه های اجتماعی
ویرایش جدید کتاب تحلیل شبکه های اجتماعی جدیدا منتشر شده است. این کتاب درباره راههای تحلیل شبکه های اجتماعی توییتر فیسب بوک لینکدین گوگل پلاس و یا حتی میل بوکس اظهار نظر می کند. این کتاب از 421 صفحه و 9 فصل تشکیل شده است. در این کتاب کدهای آماده بسیاری در پایتون و دیگر زبان های برنامه نویسی وجود ... ادامه مطلب »
پردازش متن – متن کاوی – NLP
پکیج متن کاوی – شامل 4 عدد فایل فایل اول: متن كاوي چیست؟ فایل Word – زیان فارسی – شامل 9 صفحه چکيده : تقاضا براي اطلاعات فرابري شده ا ز منابع متني به طور فزاينده اي در حال افزايش است. ذات غيرساخت يافته ي اين متون، اعمال همان روشهايي را که ما در مورد ديتابيسها بکار مي بريم، غير ممکن مي ... ادامه مطلب »
وب کاوی
فایل اول: وب کاوی چکيده: با افزايش چشمگير حجم اطلاعات و توسعه وب، نياز به روش ها و تکنيک هايي که بتوانند امکان دستيابي کارا به داده ها و استخراج اطلاعات از آنها را فراهم کنند، بيش از پيش احساس مي شود. وب کاوي يکي از زمينه هاي تحقيقاتي است که با به کارگيري تکنيک هاي داده کاوي به کشف ... ادامه مطلب »