کارگاه پردازش زبان طبیعی

اولین گام در پردازش هر نوع داده ای شناسایی ماهیت آن است. به همین دلیل در مقدمه زبان طبیعی به مرور نظریه های فلسفه زبان خواهیم پرداخت. این نظریه ها به ما کمک می نمایند تا دریافت مناسبی از مشکلات روش های حل مسئله پیدا نماییم. اما برداشتی که از زبان طبیعی داریم با آنچه در پردازش آن رخ می دهد متفاوت است. به عبارت دیگر مبتنی بر فلسفه زبان، بین مدل های پردازش زبان تا خود زبان و ماهیت آن فاصله زیادی وجود دارد که باید این فاصله را به خوبی شناسایی نماییم. پس از شناسایی این نیازها می توان گفت که پردازش های زبان بر دونوع برخط و برون خط می باشند. هر یک از این دو دارای کارکردهای خاص خود هستند که به بررسی و بیان این کارکردها و ویژگی خواهیم پرداخت. برای دستیابی به روش های پردازش برخط زبان طبیعی و حتی پردازش های برون خط برروی حجم وسیعی از داده ها، احتیاج به ساختارهای داده کارایی داریم. کاربردها و نگاه های جدید به حوزه پردازش زبان را می توان انگیزه اصلی برای حرکت در این مسیر دشوار و پر پیچ و خم دانست. با شناخت دقیق در این حوزه می توان با شناخت دقیق از آینده این حوزه نسبت به انتخاب درست کاربردها و مسائل دیگر اقدام نمود و مسیر مناسبی برای توسعه های آینده انتخاب نمود.
سرفصل ها
Outline in classic categorization
Outline in practical categorization
Natural Language Processing (NLP)
Text Summarization
NLP Tools

فایل صوتی کارگاه

پردازش متن در اصل روش ها و عمل جستجو ، جابجایی (تعویض) و تجزیه متن و نوشته هایی با منطق و ساختاری معمولا پیچیده می باشد .در این مبحث ما قصد داریم متن هایی را به عنوان ورودی دریافت کرده و اعمال مختلفی بر روی آن آنجام دهیم . این مبحث یکی از مهمترین بحث های برنامه نویسی می باشد و در زمینه های بسیاری کاربرد دارد . در ساده ترین حد از تجزیه و دریافت پاراامتر های ورودی خط فرمان گرفته تا تکنولوژی هایی طراحی کامپایلر ها ، XML و … کارایی فراوانی دارد . هدف اساسی و اصلی این بخش آشنایی و کار با الگوی منظم و با قاعده یا Regular Expression می باشد . یک الگوی منظم یک بیان فشرده و با قاعده برای توصیف و مشخص کردن الگو و طرح های پیچیده در یک متن می باشد . برنامه نویس با استفاده از یک الگو منظم می تواند الگو های یکسان و منطبق بر آن در متن را جستجو کرده و سپس اعمالی چون ویرایش ، حذف ، تعویض و … را پیاده سازی نماید . شما حتما قبلا نیز از الگو های منظم در برنامه نویسی یا ابزار های مختلف استفاده کرده اید . برای مثال در دستورات سیستمی چون ls , dir , grep و … از انواع بسیار ساده الگوهای منظم استفاده می گردد . زمانی که شما بجای چندین کاراکتر از نشان ستاره (*) و بجای یک کاراکتر از علامت سوال (؟) استفاده می کنید در حقیقت یک الگوی منظم و باقاعده را به دستور ارسال می نمایید . پایتون یکی از قوی ترین زبانهای موجود در زمینه پردازی متن می باشد . امکانات و سهولت استفاده از آن باعث سهولت برنامه نویسی شده و امکان ایجاد برنامه هایی بسیار قدرتمند و سریع را فراهم می آورد . ناگفته نماند که مبحث پردازش متن و کار با الگو های منظم Regular Expression می تواند بسیار پیچیده و گیج کننده باشد . ولی با تمرین و مطالعه و استفاده از آن قابل فهم تر بنظر خواهد رسید .

رشد تعاملات بين‌المللي در زمينه‌هاي مختلف و وجود زبان‌هاي متفاوت در گوشه و کنار دنيا مشکلات زيادي براي افراد به منظور برقراري ارتباط با يکديگر بوجود آورده است. از آنجا که نمي‌توان براي حل اين مشکل آموزش زبان‌هاي مختلف را براي همه اجباري نمود و همچنين دسترسي به مترجم انساني نيز در همه جا ممکن نيست؛ از اين رو استفاده از کامپيوتر براي ترجمه به شدت احساس مي‌شود. به اين نوع مترجم اصطلاحاً مترجم ماشيني گفته مي‌شود. درواقع اولين تلاش‌ها در اين زمينه از سال 1940 آغاز گرديد و تا به امروز پيشرفت‌هاي بسيار خوبي نيز به دست آمده است. اصولاً براي ايجاد يک مترجم ماشيني از دو رويکرد مبتني بر قانون و مبتني بر پيکره استفاده مي‌شود. در رويکرد اول براساس زبان مبدا و مقصد يکسري قوانين نوشته شده و براساس آن عمل ترجمه صورت مي‌گيرد که يکي از محدوديت‌هاي اصلي آن همين محدود بودن آن به زبان مي‌باشد. در رويکرد دوم براساس نمونه‌هاي قبلي و ترجمه‌هاي انساني انجام شده به ترجمه متون جديد مي‌پردازيم. در اين رويکرد ديگر نياز به قوانين براي ترجمه نيست و فقط نيازمند يک پيکره موازي و دوزبانه هستيم.

با گسترش روزافزون حجم اطلاعات موجود در وب و افزايش چشم گير مقالات منتشر شده در زمينه هاي مختلف علمي ، دسترسي درست و مطالعه اطلاعات مورد نياز، همواره يکي از مشکلات محققان و پژوهشگران قرن 21 مي باشد. اينکه چه طور از يک طرف با اين حجم انبوه از داده ها و از طرفي ديگر با زمان محدودي که در اختيار داريم ، بتوانيم مطالب مورد نياز خود را مطالعه کنيم و يا اينکه چه طور مي توان در روز چندين کتاب را مطالعه نمود و يا اينکه آيا مي توان سيستمي طراحي نمود که بتواند با داده هاي موجود به تمامي سوالات ما پاسخ دهد، اينها سوالاتي است که پاسخ آنها را مي توان در يک سيستم خلاصه ساز متن جستجو کرد.

Intoduction to information retrieval

ترجمه ماشینی

ابزارهای پردازش زبان طبیعی

Text Summarization

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com