1- مفاهیم پایه پردازش زبان طبیعی
کتاب Foundations of Statistical Natural Language Processing
این کتاب در سال 1999 توسط انتشارات MIT منتشر شده و یکی از منابع اصلی پردازش زبان طبیعی در دانشگاهها است. این کتاب شامل 680 صفحه در قالب 4 بخش و 16 فصل هست. بخش اول، مربوط به بیان مقدمات، مفاهیم و پیشنیازهای پردازش زبان طبیعی است. بخش دوم، درباره مفاهیم پردازش زبان طبیعی در سطح واژه از قبیل مدل n-gram، ابهامزدایی معنایی کلمات و اهمیت نقشهای نحوی کلمات است. بخش سوم، به بیان مفاهیم گرامر از قبیل مدل مارکوف، برچسبزنی نقش ادات سخن، گرامر مستقل از متن و تجزیهگر آماری میپردازد. بخش چهارم درباره تکنیکها و کاربردهای پردازش زبان طبیعی شامل مترجمهای ماشینی، خوشهبندی متون، بازیابی اطلاعات و دستهبندی (باناظر) متون است.
مطالعه این کتاب به افراد علاقمند به آشنایی کلی با متن کاوی توصیه نمیشود.
کتاب Speech and Language Processing
ویرایش دوم این کتاب در سال 2008 توسط انتشارات Prentice Hall منتشر شد و جزء منابع خوب دانشگاهی و دارای حدود 1000صفحه در قالب 5 بخش و 25 فصل است. در بخش اول بعد از مقدمه درباره مفاهیم پردازش زبان طبیعی در سطح واژه از قبیل عبارات باقاعده، تزاروس، n-grams، نقشهای نحوی کلمات و مدل مخفی مارکوف صحبت شده است. بخش دوم، درباره سطح آوایی از لایههای پردازش زبان طبیعی است. در بخش سوم به سطح نحوی پردازش زبان طبیعی شامل گرامر زبان، تجزیهگرهای مبتنی بر گرامر مستقل از متن، تجزیهگر آماری و پیچیدگیهای زبانی پرداخته شده است. بخش چهارم درباره سطح معنایی و کاربردگرایی است. در بخش آخر نیز درباره کاربردهایی برای پردازش زبان طبیعی از قبیل استخراج اطلاعات، سیستم پرسش و پاسخ، خلاصهسازی خودکار، چتباتها و مترجمهای ماشینی مطالبی بیان شده است.
کتاب Handbook of natural language processing
ویرایش دوم این کتاب در سال 2010 توسط انتشارات Chapman and Hall منتشر شده است. این کتاب نگاهی کاربردی به پردازش زبان طبیعی داشته و شامل 666 صفحه در قالب 3 بخش و 26 فصل است. بخش اول درباره رویکردهای کلاسیک پردازش زبان طبیعی برای پیشپردازش متن، تحلیل لغوی، تجزیهگر نحوی، تحلیل معنایی و تولید زبان طبیعی است. سپس بخش دوم به رویکردهای تجربی و آماری از قبیل تهیه پیکره، برچسبزنی treebank، مفاهیم تکنیکهای آماری، برچسبزنی نقش ادات سخن، تجزیهگر آماری، تکنیکهای محاسبه شباهت کلمات و متون، ابهامزدایی معنایی کلمات و مترجمهای (آماری) ماشینی پرداخته است. بخش سوم به کاربردهای پردازش زبان طبیعی اختصاص دارد. در این بخش درباره کاربردهای نظیر بازیابی اطلاعات، سیستم پرسش و پاسخ، تولید خودکار گزارش، کاربرد پردازش زبان طبیعی در مجسمسازی داده و همچنین حوزه آموزش و سلامت و در نهایت نحوه ساخت هستانشناسی، متن کاوی در دادههای زیستی و تحلیل احساسات مطالبی بیان شده است.
برای آشنایی با مفاهیم و کاربردهای پردازش زبان طبیعی، مطلالعه این کتاب بسیار مفید است.
همچنین برای آشنایی بهتر با روند تحقیقات در زمینه پردازش زبان طبیعی، مطالعه این مقاله را به شما توصیه میکنیم.
2- آموزش کاربردی متن کاوی
کتاب Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications
این کتاب در سال 2012 توسط انتشارات Academic Press منتشر شده است. این کتاب در 1053 صفحه و 17 فصل به بیان مفاهیم مرتبط به کاربردهای مختلف متن کاوی و Case Studyهای عملی در حوزههای مختلف میپردازد.
برای آشنایی با مفاهیم و کاربردهای متن کاوی، مطلالعه این کتاب بسیار مفید است. بخصوص در سه فصل ابتدایی کتاب (تا صفحه 51) توضیحات و دید خوبی درباره مفاهیم و جایگاه متن کاوی ترسیم شده است.
کتاب Mining Text Data
این کتاب در سال 2012 توسط انتشارات Springer منتشر شده است. این کتاب شامل 522 صفحه و 14 فصل است. از آنجایی که نویسندگان مختلفی فصلهای این کتاب را تالیف کردند، این کتاب از پیوستگی خوبی برخوردار نیست. فصل اول به بیان مقدمات و مفاهیم متن کاوی پرداخته شده و از آن به بعد در واقع در هر فصل کتاب یک survey درباره یکی از زمینهها یا کاربردهای متن کاوی بیان شده است.
کتاب Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data
این کتاب در سال 2016 توسط انتشارات Apress منتشر شده است. این کتاب شامل 385 صفحه در قالب 7 فصل است. فصل اول درباره مفاهیم و لایههای پردازش زبان طبیعی است. فصل دوم مروری بر برنامهنویسی زبان پایتون داشته است. فصل سوم به مفاهیم پیشپردازش و ابزارهای پایه پردازش متن پرداخته شده است. فصل چهارم درباره مفاهیم و شبه کد پایتون مرتبط با دستهبندی متون است. فصل پنجم درباره تکنیکها و ابزارهای استخراج کلیدواژه و خلاصهسازی متن است. فصل ششم درباره رویکردهای محاسبه شباهت و خوشهبندی متون است. در نهایت در فصل هفتم، به بیان مفاهیم شبکه واژگان، تحلیل معنایی متن و مفاهیم و روشهای تحلیل احساسات پرداخته شده است.
مطالعه این کتاب برای یادگیری کاربردی متن کاوی بهمراه استفاده از نمونه کدهای آماده پایتون توصیه میشود.
کتاب Applied Text Analysis with Python_ Enabling Language-Aware Data Products with Machine Learning
این کتاب در سال 2018 توسط انتشارات O’Reilly Media منتشر شده است. این کتاب برای استفاده عملیاتی و کاربردی متن کاوی مناسب بوده و شامل 310 صفحه در قالب 12 فصل است. ویژگی خاص این کتاب، بیان رویکردهای جدید متن کاوی از قبیل تحلیلهای گرافی بر روی متون، مجسمسازی (بصریسازی) متن، روشهای مقیاسپذیر متن کاوی (پردازش بصورت چندهستهای و با Spark) و مفاهیم یادگیری عمیق است. این کتاب نیز شامل نمونه کدهای پایتون برای استفاده راحتتر مخاطبان از مطالب بیان شده میباشد.
کتاب Natural Language Processing in Action: Understanding, analyzing, and generating text with Python
این کتاب در سال 2019 توسط انتشارات Manning Publications در قالب 3 بخش و 13 فصل و 512 صفحه منتشر شده است. بخش اول درباره مفاهیم و اصول پردازش زبان طبیعی و متن کاوی از قبیل ابزارهای پیشپردازش متن، مدلسازی زبان و تحلیل معنایی و آماری متن است. بخش دوم به بیان مفاهیم یادگیری عمیق و شبکههای عصبی و کاربرد آنها در پردازش متن و همچنین مدلهای تعبیه کلمات (بازنمایی برداری کلمه و متن) میپردازد. در بخش سوم این کتاب، درباره چالشها و مسائل دنیای واقعی حوزه پردازش زبان طبیعی از قبیل شناسایی و استخراج موجودیتها و ارتباطات آنها در متن، رویکردهای مختلف مورد استفاده در چتباتها و مبحث مقیاسپذیری مطالب مفیدی بیان شده است. این کتاب نیز شامل نمونه کدهای پایتون برای استفاده راحتتر مخاطبان از مطالب بیان شده میباشد.
مطالعه این کتاب به افراد ناآشنا با مفاهیم کلی پردازش زبان طبیعی و متن کاوی توصیه نمیشود.
همچنین برای آشنایی بهتر با متن کاوی، مطالعه این فایل آموزشی را به شما توصیه میکنیم.
3- بازیابی اطلاعات
کتاب Introduction to Information Retrieval
این کتاب در سال 2008 توسط انتشارات Cambridge University Press منتشر شده است. این کتاب یکی از بهترین مراجع برای درس بازیابی اطلاعات متنی است. این کتاب مرجع درس بازیابی اطلاعات دانشگاه استنفورد است و برای دسترسی به نسخه HTML و مشاهده سرفصل آن میتوانید به این لینک مراجعه فرمایید. این کتاب شامل 482 صفحه و 21 فصل هست.
مطالعه این کتاب، برای آشنایی با مفاهیم و رویکردهای بازیابی اطلاعات متنی توصیه میشود.
کتاب Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining
این کتاب در سال 2016 توسط انتشارات ACM Books در قالب 4 بخش، 20 فصل و 510 صفحه منتشر شده است. در بخش اول مروری بر مفاهیم و اصول بازیابی اطلاعات شده است. در بخش دوم مسائل و رویکردهای مختلف بازیابی اطلاعات بیان شده است. بخش سوم به تکنیکهای تحلیل دادههای متنی از قبیل خوشهبندی، دستهبندی، خلاصهسازی، تحلیل موضوعات، نظرکاوی و تحلیل احساسات پرداخته است. بخش آخر درباره سیستمهای تحلیل و مدیریت دادههای متنی است.
4- زبانشناسی پیکرهای
کتاب Corpus Linguistics: Method, Theory and Practice
این کتاب در سال 2011 توسط انتشارات Cambridge University Press در قالب 9 فصل و 294 صفحه منتشر شده است. این کتاب به بیان مفاهیم، اصول و رویکردهای زبانشناسی پیکرهای و روشهای تولید پیکره میپردازد. مطالعه این کتاب برای محققین زبانشناسی رایانشی توصیه میشود.
کتاب Corpus Linguistics and Linguistically Annotated Corpora
این کتاب در سال 2015 توسط انتشارات Bloomsbury Academic در قالب 4 بخش، 13 فصل و 312 صفحه منتشر شده است. بخش اول این کتاب درباره مفاهیم زبانشناسی پیکرهای و رویکردهای آن است. در بخش دوم به توضیح درباره حاشیهنویسی در سطح واژه، تحلیل لغوی، تحلیل نحوی، تحلیل معنایی و تحلیل مبتنی بر گفتمان (درک مطلب) پرداخته شده است. در بخشهای بعدی درباره روشهای زبانشناسی برای حاشیهنویسی و تولید پیکرههای مختلف توضیح داده شده است. مطالعه این کتاب برای محققین زبانشناسی رایانشی توصیه میشود.
برگرفته از سایت “سامانه متن کاوی فارسییار – text-mining.ir”