ابزارهای لازم برای پردازش متن در زبان فارسی تشخيص دهنده ي جمله: اين ابزار بايد با توجه به کاراکترهاي جداکننده ي جمله در زبان فارسي، توانايي تشخيص جملات را در متن ورودي داشته باشد. Tokenizer: ابزاري براي شکستن يک متن بر اساس واحدهاي با معني مانند کلمه، پاراگراف، نمادهاي معنادار مانند space و tab و … . ل ... ادامه مطلب »
پردازش متن
چگونگی محاسبه میزان تشابه معنایی مقالات برای متون زبان انگلیسی
چگونگی محاسبه میزان تشابه معنایی مقالات برای متون زبان انگلیسی در نخستین گام از طراحی و پیادهسازی ابزار مورد نظر برای محاسبه میزان تشابه متون، بایستی بسیاری از ابزارهای پایهای پردازش زبان انگلیسی از ابتدا و با رویکردی اصولی منطبق بر قواعد گرامری و نگارشی زبان انگلیسی طراحی و پیادهسازی گردد. از جملهی این ابزارها میتوان ابزار نرمالساز یا یکسانساز، ... ادامه مطلب »
دسته بندی روش های محاسبه میزان تشابه معنایی لغات و جملات با بهره گیری از شبکه واژگان
چکیده امروزه با رشد چشمگیر اسناد منتشر شده در وب و نیاز اساسی به نگهداری، دسته بندی، بازیابی و پردازش آنها، توجه به پردازش زبان طبیعی توسط رایانه، بیش از پیش احساس می شود. در بسیاری از مواقع در کاربردهای مختلف پردازش زبان طبیعی، نیازمند محاسبه ی تشابه معنایی بین جملات و متناظراً کلمات هستیم. این مبحث در کاربردهای متعددی ... ادامه مطلب »
خلاصهسازی گزینشی چندسندی متون فارسی
در این پایاننامه، یک روش مبتنی بر خوشهبندی برای خلاصهسازی چندسندی متون پیشنهاد شده است. یک سامانهی خلاصهسازی گزینشی چندسندی، خلاصهسازی است که چند سند را به عنوان ورودی میگیرد و خلاصهای تولید میکند که گزیدهای از جملههای سندهای اولیه است. اگر چه روش پیشنهادی محدود به حوزه نیست، اما ارزیابی آن روی یک مجموعه از خبرهای ورزشی فارسی صورت ... ادامه مطلب »
ترجمه ماشینی مبتنی بر آنتولوژی
ترجمه ماشینی مبتنی بر آنتولوژی – Ontology based translation machine در ابتدا به طور خلاصه به تعریف پردازش زبانهای طبیعی، محدودیت ها، موانع موجود و همچنین کارکردهای مهم پردازش زبان های طبیعی پرداخته می شود. پس از آن مفهوم ترجمه و ترجمه ماشینی که یکی از مهم ترینکارکردهای پردازش زبان های طبیعی می باشد، بیان می گردد. اجزای مورد نیاز ... ادامه مطلب »
ایست واژه ها (Stop words) در زبان فارسی و انگلیسی
ایست واژه ها (Stop words) ایست واژه ها لغاتی هستند که علی رغم تکرار فروان در متن، از لحاظ معنایی دارای اهمیت کمی هستند مثل “اگر”، “و”، “ولی”،”که” و غیره. در نگاه اولیه کلمات ربط و تعریف، ایست واژه به نظر می آیند؛ در عین حال بسیاری از افعال، افعال کمکی، اسم ها، قیدها و صفات نیز ایست واژه شناخته ... ادامه مطلب »
مقالات فارسی پردازش زبان طبیعی NLP – سری دوم
در این قسمت تعدادی مقاله فارسی در مورد پردازش زبان طبیعی زبان فارسی با موضوعات زیر ارائه می گردد: تمام فایل ها به صورت پی دی اف و در قالب مقاله کنفرانسی می باشد. مقالات دارای بخشهای متداول در تمامی مقالات کنفرانسی شامل چکیده، مقدمه، کارهای انجام شده، روش پیشنهادی ، ارزیابی و نتیجه گیری می باشد. (با ذکر تمامی منابع ... ادامه مطلب »
مقالات فارسی پردازش زبان طبیعی NLP
در این قسمت 58 مقاله فارسی در مورد پردازش زبان طبیعی زبان فارسی با موضوعات زیر ارائه می گردد: 1 طراحی و پیاده سازی یک سامانه ترجمه فارسی به انگلیسی 2 بازشناسی حروف برخط فارسی با استفاده از مدل مخفی مارکوف 3 آنالیز احساسی متون فارسی 4 بررسی ویژگی های وابسته به فرکانس پایه لهجه های مختلف زبان فارسی 5 ... ادامه مطلب »
ابزارهای لازم برای پردازش متن در زبان فارسی
ابزارهای لازم برای پردازش متن در زبان فارسی تشخيص دهنده ي جمله: اين ابزار بايد با توجه به کاراکترهاي جداکننده ي جمله در زبان فارسي، توانايي تشخيص جملات را در متن ورودي داشته باشد. براي ايجاد اين ابزار بايد ابتدا تمامي کاراکترها، نماد ها و احياناً قواعد دستوري که باعث شکسته شدن جملات مي شوند، شناسايي گردند. با توجه به ... ادامه مطلب »
خلاصه سازی چکیده ای مبتنی بر مشابهت جملات
خلاصه سازی چکیده ای مبتنی بر مشابهت جملات چكيده خلاصه سازی خودکار متون همزمان با رشد روز افزون اسناد و طلاعات بیش از پیش مورد توجه علاقه مندان حوزه پردازش زبان طبیعی قرار گرفته است. از این میان خلاصه سازی چند سنده که در آن چندین سند به عنوان ورودی دریافت می گردد، مورد توجه زیادی قرار گرفته است. در ... ادامه مطلب »
خلاصه سازی خودکار چندسندی مبتنی بر استخراج مفاهیم
خلاصه سازی خودکار چندسندی مبتنی بر استخراج مفاهیم چكیده: با گسترش روز افزون حجم داده ها و اطلاعات، خلاصه سازی خودکار متون نیز با استقبال چشم گیر محققین روبرو شده است. در سال های اخیر خلاصه سازی چندسندی با اقبال بیشتری مواجه بوده است. یک سیستم خلاصه سازی چندسندی استخراجی، خلاصه سازی است که چندین سند را به عنوان ورودی ... ادامه مطلب »
ارزيابي ابزارهاي خودکار خلاصه سازي متون
امروزه ابزارهايي نظير خلاصه سازهاي خودکار و مترجم هاي ماشيني توجه زيادي را به خود جلب نموده اند و فعاليت هاي زيادي براي طراحي چنين ابزارهايي در سرتاسر جهان انجام شده است. از اين رو ارزيابي چنين ابزارهايي از اهميت ويژه اي برخوردار است. هدف اين مستند، بررسي روند تکاملي ابزارهاي ارزيابي خودکار خلاصه سازهاي ماشيني مي باشد که از ... ادامه مطلب »
خلاصه سازي خودکار سند مبتني بر کاربر
با گسترش روزافزون حجم اطلاعات موجود در وب و افزايش چشم گير مقالات منتشر شده در زمينه هاي مختلف علمي ، دسترسي درست و مطالعه اطلاعات مورد نياز، همواره يکي از مشکلات محققان و پژوهشگران قرن 21 مي باشد. اينکه چه طور از يک طرف با اين حجم انبوه از داده ها و از طرفي ديگر با زمان محدودي که ... ادامه مطلب »
دیتاست خلاصه سازی – DUC 2003 & DUC 2007 dataset Summarizatoin
یکی از چالش های مهم در امر خلاصه سازی متون، بحث ارزیابی روش های ارائه شده است. برای یک ارزیابی مناسب و دقیق، احتیاج به یک مجموعه داده ی مناسب و استاندارد می باشد. در مقالات مختلف از داد های مختلفی تا کنون استفاده شده است که از جمله آنها می توان به مجموعه داده های خبری BBC، CNN، TREC، ... ادامه مطلب »
دسته کننده Rocchio
دستهبندي متن شامل نسبت دادن اسناد به يکي از چند گروه از پيش تعيين شده است. براي نايل شدن به اين هدف اسناد ورودي توسط يک مجموعه از مشخصات[1] که معمولاً خصوصيات[2] ناميده ميشود توصيف ميشوند. برخلاف خوشهبندي[3] که شامل آموزش بدون نظارت است، در دستهبندي يک مجموعه آموزشي از دادهها با برچسبگذاري قبلي نياز است (يادگيري ماشين نظارتي). هدف ... ادامه مطلب »
دسته بندی متن با استفاده از تئوری بیز
توجه شود که در يک مسئله دستهبندي ابتدا بايد هر سند موجود در مجموعه آموزشي داده شده را در متغير مناسبي ذخيره کرد و نام دسته آن سند را که با مشخصه اي خاص مثلا نام سند بدست آورد و سپس تمام توکنهاي سند استخراج و در محل مناسبي ذخيره گردد .حال کلمات توقف را حذف ميشود. چون اين کلمات ... ادامه مطلب »