معناي عبارت بازيابي اطلاعات ميتواند بسيار وسيع باشد. فقط لازم است يک کارت اعتباري از کيف پول خود خارج کنيد و از آن استفاده کنيد. با اين کار شما نوعي بازيابي اطلاعات انجام دادهايد.
در هر حال بعنوان يک شاخه مطالعاتي آکادميک، بازيابي اطلاعات ميتواند بصورت زير تعريف شود:
“بازيابي اطلاعات عبارتست از کشف اجزاي (معمولاً اسناد) يک طبيعت بدون ساختار (معمولاً متن) که يک نياز اطلاعاتي را از درون مجموعههاي بزرگ (که معمولاً بر روي کامپيوتر ذخيره شدهاند) برآورده ميکند.”
بر طبق اين تعريف بازيابي اطلاعات استفاده شده فعاليتي است که فقط تعداد کمي از افراد آنرا به کار ميبرند اما اکنون جهان تغيير کرده است و صدها ميليون انسان هر روز زماني که از يک موتور جستجوي وب استفاده ميکنند يا در ايميلشان پويش ميکنند بازيابي اطلاعات را بکار ميبرند.
بازيابي اطلاعات همچنين ميتواند انواع مشکلات دادهاي و اطلاعاتي فراتر از آنچه در بالا اشاره شد را پوشش دهد. عبارت “داده بدون ساختار” به دادهاي اشاره دارد که غير شفاف بوده اما از لحاظ معنايي آشکار باشد. اين دادهها در مقابل دادههاي داراي ساختار قرار دارند که نمونه متعارف آن پايگاه دادههاي رابطهاي ميباشد که برخي از شرکتها از آن براي نگهداري اطلاعات محصولات توليدي و اشخاص استفاده ميکنند. در حقيقت هيچ دادهاي کاملاً بدون ساختار نيست. اين در مورد تمام دادههاي متني صادق است در صورتي که ساختار زبانشناختي زبانهاي بشرياي را که در آنها نهفته است بشمار بياوريم.
بازيابي اطلاعات به اين منظور استفاده ميشود تا جستجوهاي نيمه ساختيافته مثلاً مانند سندي که عنوان آن شامل کلمه جاوا و بدنه آن شامل کلمه چند نخي باشد، را تسهيل نمايد.
شاخه بازيابي اطلاعات همچنين حمايت کاربران در هنگام پويش[1] يا فيلترينگ مجموعه اسناد يا پردازش بيشتر يک مجموعه از اسناد بازيابي شده را پوشش ميدهد. با داشتن يک مجموعه از اسناد، خوشه بندي[2] يکي از وظايف تعريف شده است که در آن اسناد بر اساس محتوايشان گروهبندي شده و فايلهاي مشابه در يک گروه قرار ميگيرند. اين کار مشابه تقسيم بندي و چينش مرتب کتابها در يک قفسه کتاب بر اساس موضوعشان ميباشد. يکي ديگر از وظايف دستهبندي[3] است که در آن با داشتن يکسري موضوع و دسته تعيين ميکنيم که هر سند بر اساس محتوايش مربوط به کدام دسته است. اين کار به اين صورت است که ابتدا يکسري از اسناد بصورت دستي دستهبندي ميشوند وسپس ميخواهيم که اسناد جديد بصورت خودکار تعيين دسته گردند.
فهرست مطالب
1- بازيابي اطلاعات 2
1-1 مقدمه 2
1-2 شاخص گذاري و جستجوي کليدواژه 4
1-2-1 بازنمايي اسناد 8
1-2-2 فرضيات پيادهسازي 14
1-2-3 رتبه بندي رابطهاي 16
1-2-4 مدل فضاي برداري 17
1-2-5 رتبه بندي سند 21
1-3 بازخورد رابطه 26
1-4 جستجوي متن پيشرفته 29
1-5 ارزيابي کيفيت جستجو 31