کد داده: D3941119a | ثبت در مرجع: ۱۹ بهمن ۱۳۹۴ | تعداد بازدید: ۱۱۱۱۰ پیکرهٔ حاضر مجموعهای است از متون مذهبی شامل قرآن، انجیل، رسالههای عملیه، سایر کتب مذهبی، وبگاههای مذهبی و … به دو زبان فارسی و انگلیسی که در سطح جمله موازیسازی شدهاند. حجم پیکره حدود ۲۰ میلیون واژه برای هر زبان است. مالکیت معنوی: علی بیکیان، مهران ... ادامه مطلب »
بایگانی نویسنده: مدیریت سایت
پیکره فارسی روز [منتشر نشده]
کد داده: D3941117a | ثبت در مرجع: ۱۷ بهمن ۱۳۹۴ | تعداد بازدید: ۱۷۹۸ پیکرهٔ فارسی روز پیکرهای خام، یکزبانه و پیوسته، شامل ۱۲۷ متن فارسی است که تمام آنها بین سالهای ۱۳۸۰ تا ۱۳۹۲ نوشته شدهاند و اغلب از میان داستانهای کوتاه و رمانها انتخاب شدهاند. این پیکره برای تألیف اثری با عنوان «فرهنگ فارسی روز» گردآوری شده و ... ادامه مطلب »
واژگان زایای زبان کردی سورانی [منتشر نشده]
کد داده: D3941111a | ثبت در مرجع: ۱۱ بهمن ۱۳۹۴ | تعداد بازدید: ۱۷۶۱ واژگان زایای زبان کردی سورانی به صورت نیمهخودکار استخراج شده است و شامل حدود ۳۵ هزار مدخل با ۲۸ برچسب مقولهٔ واژگانی است. واژگان به مجموعهٔ واژههای درون ذهن گویشوران اطلاق میگردد که یکی از منابع مهم در تولید و ساخت فناوریهای پردازش زبان طبیعی مانند ... ادامه مطلب »
مجموعه محک وب داتآیآر
کد داده: D3941015a | ثبت در مرجع: ۱۶ دی ۱۳۹۴ | تعداد بازدید: ۲۰۸۵ بازیابی اطلاعات وب (Web Information Retrieval) یک زمینه تحقیقاتی است که در آن از فنون حوزه بازیابی اطلاعات برای برطرفسازی یک نیاز اطلاعاتی در محیط وب استفاده میشود. در این نوع بازیابی علاوه بر متون میتوان از اطلاعات موجود در فراداده (Meta Data) و ساختار پیوندی ... ادامه مطلب »
مجموعه داده استاندارد وبلاگهای ایران
کد داده: D3941014a | ثبت در مرجع: ۱۵ دی ۱۳۹۴ | تعداد بازدید: ۲۱۷۵ مجموعه داده استاندارد وبلاگهای ایران (irBlogs) جهت ایجاد بستری مناسب برای تحقیق و ارائهٔ الگوریتم در زمینهٔ شبکههای اجتماعی ایرانی تولید شده است. این مجموعه شامل متون برگرفته از بیش از ۶۰۰ هزار وبلاگ (نزدیک به ۵ میلیون پست) است و گراف روابط افراد نیز برای ... ادامه مطلب »
پیکره واحدهای اسمی آرمان
کد داده: D3940917a | ثبت در مرجع: ۱۸ آذر ۱۳۹۴ | تعداد بازدید: ۱۶۶۵ تشخیص واحدهای اسمی (یا تشخیص موجودیتهای نامدار) یکی از موضوعات پردازش زبان طبیعی است که نیاز به پیکره دارد. پیکرهٔ واحدهای اسمی آرمان که توسط شرکت آرمان رایان شریف تولید شده است شامل ۴۰۰ هزار کلمه (۴۹۱۷ جمله برگرفته از پیکرهٔ بیجنخان) است و سه ردهٔ ... ادامه مطلب »
کلاس خصوصی – آموزش برنامه نویسی پردازش متن NLP
مشاوره پایان نامه کارشناسی ارشد با سلام خدمت کلیه دوستان عزیز با توجه به درخواست کمک و راهنمایی جمع زیادی از دوستان پیرامون برنامه نویسی و آموزش پردازش متن و اصرار بسیاری از دوستان مبنی بر امکان دریافت مشاوره تلفنی ، ایمیلی یا حضوری پیرامون مفاهیم این حوزه ها، چالش ها ، ایده ها و پیاده سازی مکانیزم ها و چارچوب های این ... ادامه مطلب »
ما فعالان فضای مجازی بیکار نیستیم !
💠ما فعالان فضای مجازی بیکار نیستیم ! گاهی از ما پرسیده می شود که: چرا اینقدر برای فضای مجازی وقت میگذارید، مگر بیکارید؟ ▫ما در فضای مجازی به دنبال تفریح و سرگرمی نیستیم. ▫به دنبال پر کردن اوقات فراغت هم نیستیم . ▫به دنبال اسم و رسم نیستیم. ▫به دنبال التماس دعا از مسؤلین نیستیم. ▫به دنبال ریا و خود ... ادامه مطلب »
کد سی شارپ محاسبه نرخ فشرده سازی خلاصه سازی
کد سی شارپ محاسبه نرخ فشرده سازی خلاصه سازی فرمول محاسبه نرخ فشرده سازی خلاصه سازی: ادامه مطلب »
کد سی شارپ تولید کپچا
تا کنون احتمالاً با تصویری از حروف و اعداد که عمداً کج و ناواضح رسم شدهاند در وبگاههای مختلف برخورد کردهاید و از شما خواسته شده تا آنرا به شکل صحیح خوانده و بادقت در یک جعبهٔ متن وارد کنید. اگر چنین است شما با یک کپچا سر و کار داشتهاید. کد تصویری یا کپچا برای جلوگیری از ورود روبوت ... ادامه مطلب »
مقاله و ترجمه: الگوریتم های ژنتیکی ترکیبی برای انتخاب ویژگی
چکیده در این مقاله یک ترکیب الگوریتم ژنتیک جدید برای انتخاب ویژگی پیشنهاد شده است. در این نوشتار اقدامات جستجوی محلی ابداع شده و Gaهای ترکیبیبرای یکپارچه شدن تحقیق گنجانده شده اند. اقدامات مذکور از نظر قدرت یکپارچه سازی پارامتری شده و کارایی و الزامات مربوط به زمان بندی تحلیل و مقایسه شده اند. تکنیک ترکیب بندی دو تاثیر مطلوب ... ادامه مطلب »
داده کاوی با weka
بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining ) یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه های مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته و زمینه ... ادامه مطلب »
الگوریتم و کد آماده TF-IDF
الگوریتم و کد آماده سی شارپ TF-IDF لازم به ذکر است در کد مورد نظر نرمال سازی اولیه متن و همچنین ریشه یابی به صورت مبتنی بر قاعده برای کلمات انجام می گردد. فراوانی وزنی تیاف-آیدیاف (به انگلیسی: tf–idf weight) مخفف فراوانی – عکس فراوانی سند است. در این شیوه به لغات یک وزن بر اساس فراوانی آن در ... ادامه مطلب »
کد سی شارپ مترادف های کلمات فارسی
کد سی شارپ مترادف های کلمات فارسی با استفاده از فرهنگ لغت بکار رفته در این کد، کلمات مترادف و هم معنی با هر کلمه قابل استخراج می باشد. لذا می توان از این برنامه بمنظور معناگرایی در انواع الگوریتم های پردازش متن استفاده نمود… دو بخش در این برنامه طراحی شده است. حالت اول: کلمات مترادف مستقیم برای هر ... ادامه مطلب »
فیلم آموزشی بررسی امنیتی سایت با استفاده از ابزار امنیتی فوق العاده قدرتمند ACunetix به زبان فارسی
فیلم آموزشی کار با ابزار Acunetix توضیح: در این فیلم کار با ابزار Acunetix به طور کامل توضیح داده میشود که طی آن میتوان به خزش در سایت مورد نظر پرداخته و کلیه آسیبپذیریها را مشاهده نمایید. گزارشها به صورت کاملا گرافیکی بوده و به سادگی میتوانید از آن استفاده نمایید. امیدوارم از مشاهده این فیلم لذت ببرید. سبک: ... ادامه مطلب »
فیلم آموزشی SQlInjection به زبان فارسی با استفاده از ابزار Sqlmap صفر تا صد، به زبان فارسی
فیلم آموزشی SQlInjection به زبان فارسی SQl Injection چیست ؟ تزریق SQL یک روش حمله است که هدف آن دادههای ساکن در یک پایگاه داده میباشد که از طریق FireWall محافظت میشود. حمله معمولاً به علت مدیریت ضعیف در اعتبار سنجی کدها و یا ورودیهای برنامه (وب سایت) اتفاق میافتد. حمله تزریق SQL زمانی اتفاق میافتد که یک مهاجم قادر ... ادامه مطلب »