پیکره چندزبانه رایانامهها برای تشخیص ریسمانهای گفتگوی چندزبانه در آزمایشگاه سیستمهای هوشمند اطلاعات دانشگاه تهران تهیه شده است. نام این پیکره «Multilingual-BC3» است که در حقیقت یک پیکرهٔ ساختگی چندزبانه است که حاصل ترجمه بخشی از پیکره تکزبانه BC3، توسط عامل انسانی است. پیکره اولیه BC3 به صورت تکزبانه و در زبان انگلیسی توسط آزمایشگاه هوش محاسباتی در دانشگاه British Columbia ساخته شده است. این پیکره، یک زیرمجموعه از پیکره W3C است که دارای برچسبهای معنایی، نظیر حالت گفتار در سطح جمله و برچسب خلاصهسازی گفتگوها است. پیکرهConThread-BC3 یک نسخه از BC3 است که در آن، برچسبهای نشاندهنده ساختار ریسمانهای گفتگو و همچنین اطلاعات مربوط به برچسب متن اصلی و متن نقلقول رایانامهها اضافه شده است. پیکرهٔ Multilingual-BC3، در دو نسخه تهیه شده که نسخه اول، گونهای چندزبانه از نسخه اولیه BC3 و نسخه دوم گونهای چندزبانه از ConThread-BC3 است. قابل ذکر است که اطلاعات برچسبهای موجود در نسخههای تکزبانه مستقل از زبان بوده و قابل گسترش به Multilingual-BC3 خواهند بود.
آزمایشگاه سیستمهای هوشمند اطلاعات دانشگاه تهران
– برای استفاده از این مجموعه، با ارسال ایمیل به خانم دکتر آزاده شاکری (سرپرست آزمایشگاه سیستمهای هوشمند اطلاعات دانشگاه تهران – shakery@ut.ac.ir)، رمز مربوطه را دریافت نمایید.
– Dehghani, M., Shakery, A., Asadpour, M., & Koushkestani, A. (2013). A learning approach for email conversation thread reconstruction. Journal of Information Science (JIS), Volume 39 Issue 6, 2013, pp. 846-863.
– مصطفی دهقانی. (۱۳۹۳). مدیریت رایانامهها در محیطهای چندزبانه. پایاننامه کارشناسی ارشد. دانشگاه تهران.
– صفحهٔ معرفی پیکره چندزبانه رایانامه در وبگاه دانشکده مهندسی برق و کامپیوتر دانشگاه تهران
– صفحهٔ معرفی پیکره چندزبانه رایانامه در وبگاه شخصی مصطفی دهقانی