وب معنایی یک گام مشخص دیگر در زمینه هستی شناسی است. وب معنایی توسعه یافته وب کنونی است که در آن اطلاعات با توجه به معنی به خوبی تعریف شده است. و انسان و کامپیوتر بهتر قادر خواهندبود باهم همکاری کنند. این همکاری می تواند با استفاده از به اشتراک گذاشتن اجزای دانش بدست بیاید و بنابراین هستی شناسی و PSMs ابزارکلیدی درتوسعه ایده وب معنایی هستند. هستی شناسی ها، دانش دامنه استاتیک را نمایش می دهند وPSMs داخل سرویسهای وبمعنایی استفاده می شوند که با پردازش مدل های استنتاج و دانش دامنه سروکار دارند. گسترش متدهاو تکنیک هایی که اجازه می دهند تلاش های لازم برای پردازش استخراج دانش کاهش پیدا کند، لازم است که این هدف از یادگیری هستیشناسی است. استخراج دانش دامنه برای ساخت هستی شناسی ها نیاز به زمان ومنابع بسیاری دارد. دراین مورد یادگیری هستی شناسی را به عنوان یک مجموعه از متدها و تکنیک ها تعریف می کنیم که برای ساخت یک هستی شناسی از ابتدا یا سازگاری با یک هستی شناسی که وجود داشته در مدل نیمه خودکار استفاده می شوند. اصطلاحات دیگر که برای ساخت نیمه خودکار هستی شناسی استفاده می شوند مثل تولید هستی شناسی، هستی شناسی کاوی، استخراج هستی شناسی و… است. رویکردهای زیادی برای خودکارسازی این بخش از فرآیند استخراج دانش وجود دارد. برای انجام این خودکار سازی، پردازش زبان طبیعی و تکنیک های یادگیری ماشین استفاده می شود. Alexander Maedche و Steffan Stadb رویکردهایی برای تمایز یادگیری هستیشناسی ارائه دادند که تمرکز آنها روی ورودیهایی است که برای یادگیری استفاده میشوند. بر این اساس آنها طبقهبندی زیر را پیشنهاد میدهند: یادگیری هستی شناسی از متن، فرهنگ لغات، پایگاه دانش، شمای نیمه ساخت یافته و شمای رابطه ای. یادگیری هستی شناسی تعدادی فعالیت پژوهشی دارد که تمرکزشان روی انواع مختلف ورودی است اما هدفشان به اشتراک گذاشتن مفاهیم دامنه یکسان است و این یک زمینه پیچیده چند رشته ای است که از پردازش زبان طبیعی، داده کاوی، متن کاوی، یادگیری ماشین و نمایش دانش استفاده میکند. یادگیری از متن ها: شامل استخراج هستی شناسی با استفاده از تکنیک های پردازش زبان طبیعی از متن میشود. دستاوردهای شناخته شده در این گروه بصورت زیر می اشد: استخراج مبتنی بر الگو: یک رابطه وقتی شناخته می شود که یکسری از کلمات در متن به یک الگو نگاشت شوند برای مثال یک الگو می تواند ایجاد شود اگر یک دنباله ای از n نام داریم سپس n-1 از این نام ها hyponyms برای nامین نام می باشند. قوانین انجمنی: این قوانین در ابتدا در زمینه پایگاه داده به شرح زیر تعریف شد باتوجه به مجموعه ای از تراکنش ها، که هر تراکنش مجموعه ای از لیترال هاست (آیتم نامیدهمی شوند). یک قانون انجمنی یک عبارت از شکل X دلالت می کند به Y است که درآن X و Yمجموعه از آیتم ها هستند. معنای مستقیم چنین قانونی این است تراکنش هایی از پایگاه داده که شامل X که گرایش به Y دارند. قوانین انجمنی در فرآیند داده کاوی به منظورکشف اطلاعات ذخیره شده در پایگاه داده مورد استفاده قرار می گیرد البته اگر ما هنوز یک ایده حدسی از آنچه که دنبالش هستیم، داریم. قوانین انجمنی روشی برای یادگیری هستی شناسی شرح می دهند و ارزیابی می کنند. قوانین انجمنی برای کشف روابط غیر طبقه بندیبین مفاهیم با استفاده از مفاهیم سلسله مراتبی به عنوان پس زمینه دانش، استفاده می شود. خوشه بندی مفهومی:مفاهیم با توجه به فاصله معنایی بین همدیگر برای ساختن سلسله مراتب گروه بندی می شوند. فرمول برای محاسبه فاصله معنایی بین دو مفهوم ممکن است به عوامل مختلفی بستگی داشته باشد که در این روش ها ارئه می شود. هرس هستی شناسی: هدف هرس هستی شناسیاین است که یک دامنه بر اساس منابع ناهمگون مختلف بسازد. این کار شامل سه گام می شود. گام اول، یک هستی شناسی هسته عمومی به عنوان ساختار سطح اول برای هستی شناسی دامنه خاص استفاده می شود. گام دوم، یک فرهنگ لغت که شامل کلمات مهم دامنه شرح دادهشده در زبان طبیعی است برای به دست آوردن مفاهیم دامنه استفاده می شود. این مفاهیم به هسته هستی شناسیعمومی طبقه بندی می شوند. گام سوم، دامنه خاص وعمومی پیکره متن ها برای حذف مفاهیمی که در دامنه خاص نیستند، استفاده می شود. حذف مفهوم روش اکتشافی را دنبال می کند که مفاهیم دامنه خاص باید در یک پیکره دامنه خاص بیشتر از متن عمومی تکرار شوند. یادگیری مفهوم: یک طبقه بندی داده شده بصورت تدریجی بروز می شود بطوریکه مفاهیم جدید از متن دنیای واقعی استخراج می شوند. یادگیری هستی شناسی از فرهنگ لغت: در ساخت هستی شناسی از یک دیکشنری که قابل خواندن توسط ماشین است، برای استخراج مفاهیم مرتبط و روابط بین آنها استفاده می شود که هدف ساخت یک هستی شناسی خلاصه شدهاست. یادگیری از یک پایگاه دانش: هدف این کار یادگیری هستی شناسی با استفاده از منبع موجود پایگاه دانش است. یادگیری از داده های نیمه ساخت یافته: استخراج هستی شناسی از منابعی که ساختار از پیش تعریف شده دارند مانند شمای XML. یادگیری از شمای رابطه ای: هدف این یادگیری استخراج مفاهیم مرتبط هستی شناسی وروابط از دانش پایگاه داده.
تعداد صفحات: 51
دراین پست مروری بر تعریف آنتولوژی، ساخت آن و سناریوهای مختلفی که برای ساختن آنتولوژی وجود دارد، خواهیم داشت. همانطور که می دانیم استفاده از آنتولوژی به عنوان بخش اصلی تمامی برنامه های وب معنایی است به عبارت دیگر قلب application های وب معنایی است. طبق تعریف آنتولوژی عبارتست از یک تعریف صریح(Explicit) و رسمی (Formal) برای درک یک حوزه ی خاص. یکی از وقتگیرترین مراحل برنامه های وب معنایی ساختن آنتولوژی آن حوزه خاص است که نیازمندمشارکت افراد متخصص در زمینه مهندسی آنتولوژی و همچنین افراد خبره در حوزه ی تعریف آنتولوژی است. ساخت آنتولوژی به سه شیوه قابل انجام است: 1. کاملاً دستی و توسط افراد خبره در حوزه ساخت آنتولوژی 2. نیمه خودکار و توسط ابزارها و نرم افزارها و با دخالت انسان 3. کاملا خودکار به علت وقت گیر بودن، هزینه ی سنگین و عدم داشتن انعطاف جهت تغییر، انتظار ساخت آنتولوژیبصورت دستی و توسط افراد خبره در آن حوزه، نامعقول است. ساخت کاملاً اتوماتیک آنتولوژی نیز اقدامی هر چند جالب اما در حالت کلی غیرممکن است زیرا به دانش ودخالت افراد خبره در آن حوزه جهت اضافه کردن اطلاعات مفید و پیشنهادات سازنده برای ساخت آنتولوژی، تاکید کردن روی بخش خاصی از اطلاعات و همچنین بهبود و تغییرآنتولوژی ساخته شده نیاز است. در نتیجه بهترین حالت، ساخت نیمه اتوماتیک آنتولوژی و با دخالت کم انسان است. از مهمترین فیلدهایی که می توان از آن در ساخت نیمه اتوماتیک آنتولوژی استفاده نمود می توان به اکتشاف دانش (Knowledge Discovery)، پردازش زبان طبیعی (NLP)، بازیابی اطلاعات (IR)، یادگیری ماشین، استنتاج (Reasoning) و مدیریت پایگاه داده اشاره نمود. یادگیری آنتولوژی شاخه ای از Information Extraction که هدف آن ساخت (نیمه) اتوماتیک آنتالوژی از مجموعه ای از اسناد (corpus) یا دیگر پایگاه های داده ای است. به طور کلی یادگیری آنتولوژی برقرار کردن یک نگاشت بین اجزای یک آنتولوژی است که برخی از اجزای آن از قبل داده شده و بعضی دیگر مجهولند وهدف ما یافتن اجزای مجهول است. یادگیری آنتولوژی می تواند از منابع داده ای مختلف مانند متن، فرهنگ لغت و یا پایگاه دانش باشد. از منظر استخراج دانش (KD)، آنتولوژی نیز نوع دیگری از مدل ها(و البته پیچیده تر از مدلهای یادگیری ماشین) هستند که می بایست توسط یک زبان فرضی بیان شوند. برای درک سلسله مراتب یادگیری آنتولوژی نموداری ترسیم می شود که تحت عنوان کیک یادگیری آنتولوژی شناخته می شود. کیک یادگیری آنتولوژی 1. استخراج ترم ها اولین گام در ساخت آنتولوژی استخراج ترم ها از مجموعه متون است. این کار به شیوه هایمختلفی امکان پذیر است. بطور مثال می توان از پردازش زبان شناختی (مانند POS tagging) یا از روشهای پردازش آماری (مانندمعیارهای آماری چون TFIDF و توزیع χ2) استفاده نمود. 2. یافتن مترادف ها برای این منظور می توان از فرهنگ واژگانی مانندWordNet استفاده نمود و یا از LSI (Latent Semantic Indexing) بهره جست. همانطور که می دانیم LSI تکنیکی در NLP است که به آنالیزرابطه بین مجموعه ای از اسناد و ترمهای آنها می پردازد. 3. استخراج مفاهیم برای این کار نیز تکنیک های بسیار متنوعی وجود دارد. از تکنیک های بازیابی اطلاعات گرفته تا روشهای یادگیری ماشین. 4. استخراج سلسله مراتب مفاهیم برای استخراج سلسله مراتب بطور کلی از فرهنگهای لغت قابل خواندن توسط ماشین همانند WordNet استفاده می شود. در این مرحله می توان روابطی همانند “Is-A”،”Knid-Of” و “Is-Part-Of”را استخراج نمود. 5. استخراج سایر روابط: یکی ازسخت ترین بخش های ساخت آنتولوژی است یکی از روشهای موجود برای یافتن روابط ساخت RDF مربوط به آنتولوژی (RDFiser ها) و سپس ترکیب کردن مفاهیم و مشابه و در نظر گرفتن predicate به عنوان رابطه بین مفاهیم است. 6. استخراج قواعد و حقایق برای این منظور نیز می توان از Rule Mining استفاده نمود. سناریوهای مختلف یادگیری آنتولوژی بسته به اینکه چه میزان اطلاعات و داده در اختیار داشتهباشیم و آنتولوژی مورد نظر تا چه حد دقیق باشد سناریوهای مختلفی را می توان براییاد گیری آنتولوژی در نظر گرفت: 1. استنتاج مفاهیم (خوشه بندی نمونه ها): با فرض داشتن نمونه ها از قبل. 2. استنتاج روابط: با فرض داشتن مفاهیم و نمونه های آنها از قبل. 3. جمعیت دهی به آنتولوژی: با فرض داشتن یک آنتولوژی بدون نمونه ها. 4. تولید آنتولوژی: با فرض داشتن نمونه ها و تمام اطلاعات پشت زمینه. 5.به روز رسانی و توسعه آنتولوژی: با فرض داشتن آنتولوژی و تمام اطلاعات پشت زمینه. برگرفته از وبلاگ خانم غفوریان و آقای سبزه کار