اولین گام در پردازش هر نوع داده ای شناسایی ماهیت آن است. به همین دلیل در مقدمه زبان طبیعی به مرور نظریه های فلسفه زبان خواهیم پرداخت. این نظریه ها به ما کمک می نمایند تا دریافت مناسبی از مشکلات روش های حل مسئله پیدا نماییم. اما برداشتی که از زبان طبیعی داریم با آنچه در پردازش آن رخ می دهد متفاوت است. به عبارت دیگر مبتنی بر فلسفه زبان، بین مدل های پردازش زبان تا خود زبان و ماهیت آن فاصله زیادی وجود دارد که باید این فاصله را به خوبی شناسایی نماییم. پس از شناسایی این نیازها می توان گفت که پردازش های زبان بر دونوع برخط و برون خط می باشند. هر یک از این دو دارای کارکردهای خاص خود هستند که به بررسی و بیان این کارکردها و ویژگی خواهیم پرداخت. برای دستیابی به روش های پردازش برخط زبان طبیعی و حتی پردازش های برون خط برروی حجم وسیعی از داده ها، احتیاج به ساختارهای داده کارایی داریم. کاربردها و نگاه های جدید به حوزه پردازش زبان را می توان انگیزه اصلی برای حرکت در این مسیر دشوار و پر پیچ و خم دانست. با شناخت دقیق در این حوزه می توان با شناخت دقیق از آینده این حوزه نسبت به انتخاب درست کاربردها و مسائل دیگر اقدام نمود و مسیر مناسبی برای توسعه های آینده انتخاب نمود.
سرفصل ها
Outline in classic categorization
Outline in practical categorization
Natural Language Processing (NLP)
Text Summarization
NLP Tools
پردازش متن در اصل روش ها و عمل جستجو ، جابجایی (تعویض) و تجزیه متن و نوشته هایی با منطق و ساختاری معمولا پیچیده می باشد .در این مبحث ما قصد داریم متن هایی را به عنوان ورودی دریافت کرده و اعمال مختلفی بر روی آن آنجام دهیم . این مبحث یکی از مهمترین بحث های برنامه نویسی می باشد و در زمینه های بسیاری کاربرد دارد . در ساده ترین حد از تجزیه و دریافت پاراامتر های ورودی خط فرمان گرفته تا تکنولوژی هایی طراحی کامپایلر ها ، XML و … کارایی فراوانی دارد . هدف اساسی و اصلی این بخش آشنایی و کار با الگوی منظم و با قاعده یا Regular Expression می باشد . یک الگوی منظم یک بیان فشرده و با قاعده برای توصیف و مشخص کردن الگو و طرح های پیچیده در یک متن می باشد . برنامه نویس با استفاده از یک الگو منظم می تواند الگو های یکسان و منطبق بر آن در متن را جستجو کرده و سپس اعمالی چون ویرایش ، حذف ، تعویض و … را پیاده سازی نماید . شما حتما قبلا نیز از الگو های منظم در برنامه نویسی یا ابزار های مختلف استفاده کرده اید . برای مثال در دستورات سیستمی چون ls , dir , grep و … از انواع بسیار ساده الگوهای منظم استفاده می گردد . زمانی که شما بجای چندین کاراکتر از نشان ستاره (*) و بجای یک کاراکتر از علامت سوال (؟) استفاده می کنید در حقیقت یک الگوی منظم و باقاعده را به دستور ارسال می نمایید . پایتون یکی از قوی ترین زبانهای موجود در زمینه پردازی متن می باشد . امکانات و سهولت استفاده از آن باعث سهولت برنامه نویسی شده و امکان ایجاد برنامه هایی بسیار قدرتمند و سریع را فراهم می آورد . ناگفته نماند که مبحث پردازش متن و کار با الگو های منظم Regular Expression می تواند بسیار پیچیده و گیج کننده باشد . ولی با تمرین و مطالعه و استفاده از آن قابل فهم تر بنظر خواهد رسید .
رشد تعاملات بينالمللي در زمينههاي مختلف و وجود زبانهاي متفاوت در گوشه و کنار دنيا مشکلات زيادي براي افراد به منظور برقراري ارتباط با يکديگر بوجود آورده است. از آنجا که نميتوان براي حل اين مشکل آموزش زبانهاي مختلف را براي همه اجباري نمود و همچنين دسترسي به مترجم انساني نيز در همه جا ممکن نيست؛ از اين رو استفاده از کامپيوتر براي ترجمه به شدت احساس ميشود. به اين نوع مترجم اصطلاحاً مترجم ماشيني گفته ميشود. درواقع اولين تلاشها در اين زمينه از سال 1940 آغاز گرديد و تا به امروز پيشرفتهاي بسيار خوبي نيز به دست آمده است. اصولاً براي ايجاد يک مترجم ماشيني از دو رويکرد مبتني بر قانون و مبتني بر پيکره استفاده ميشود. در رويکرد اول براساس زبان مبدا و مقصد يکسري قوانين نوشته شده و براساس آن عمل ترجمه صورت ميگيرد که يکي از محدوديتهاي اصلي آن همين محدود بودن آن به زبان ميباشد. در رويکرد دوم براساس نمونههاي قبلي و ترجمههاي انساني انجام شده به ترجمه متون جديد ميپردازيم. در اين رويکرد ديگر نياز به قوانين براي ترجمه نيست و فقط نيازمند يک پيکره موازي و دوزبانه هستيم.
با گسترش روزافزون حجم اطلاعات موجود در وب و افزايش چشم گير مقالات منتشر شده در زمينه هاي مختلف علمي ، دسترسي درست و مطالعه اطلاعات مورد نياز، همواره يکي از مشکلات محققان و پژوهشگران قرن 21 مي باشد. اينکه چه طور از يک طرف با اين حجم انبوه از داده ها و از طرفي ديگر با زمان محدودي که در اختيار داريم ، بتوانيم مطالب مورد نياز خود را مطالعه کنيم و يا اينکه چه طور مي توان در روز چندين کتاب را مطالعه نمود و يا اينکه آيا مي توان سيستمي طراحي نمود که بتواند با داده هاي موجود به تمامي سوالات ما پاسخ دهد، اينها سوالاتي است که پاسخ آنها را مي توان در يک سيستم خلاصه ساز متن جستجو کرد.
Intoduction to information retrieval