در مجموعه دادهي جمعآوري شده توسط ما چهار جدول به شرح زير وجود دارد:
- جدول کاربران
- جدول کتب
- جدول نرخها
- جدول اعتمادهاي بين کاربران
جدول پنجمي، با نام فايلها، نيز وجود دارد که در حال حاضر جهت ارزيابيهاي علمي کارايي ندارد اما محتواي صفحات سايت Epinions.com ميباشد که حين جمعآوري دادهها، پردازش شدهاند. همچنين اين جدول صفحات پردازش نشدهي مفيدي را نيز در خود جاي داده است که از آنجمله ميتوان به صفحات نظرهاي کاربران “روي نرخها و نظرات خوانندگان ديگر يک کتاب”، اشاره کرد. در جدول 4 ساختار کلي اين مجموعه داده نشان داده شده است.
جدول 4- ساختار مجموعه دادهي جمعآوري شده (EpinionsAll)
جدول Files Info | جدول کاربران(user) | جدول نرخها(userBookRating) | جدول کتب | جدول اعتمادهاي بين کاربرانUsers-Trust |
fileID | userID | ratingID | bookID | trusted |
pageLink | Username | userID | bookISBN | trusterUserID |
filePath | userRegDate | bookInfo | bookTitle | trustedUserID |
fileContent | userStatus | bookInfoType | bookReviewsPage | trustValue |
userLocation | Rate | Date | ||
userPage | ratingDate | |||
userMailAddress | reviewPage | |||
reviewRating |
در جدول 5 نيز مقايسهاي آماري بين تعداد رکوردهاي جداول در مجموعه دادهي جمعآوري شده و فعلي آورده شده است.
جدول 5- آمار مجموعه دادهي Epinions
EpinionsAll(by Mohsen Abasi) | |
کاربران | 89,926 |
آيتمها | 52,194 |
نرخها | 93,708 |
اعتمادها | 576,327 |
از روي مقادير جدول 5 اينطور معلوم است که: اين مجموعه دادهي جمعآوري شدهي توسط ما در طي انجام اين پاياننامه تعداد 89926 کاربر، 52194 کتاب به همراه شماره سريال جهاني و مشخصات آنها، 93708 نرخ کاربري روي کتب و 576327 رابطهي اعتماد صريح کاربران به يکديگر را داراست. بنابراين پراکندگي مجموعه دادهي Epinions جمعآوري شده توسط ما، بر طبق فرمول استاندارد ((38، برابراست با: 0.999980
چون اين عدد نزديک به يک است، پراکندگي اين مجموعه داده بسيار زياد ميباشد و بسيار مناسب براي محک الگوريتمهاي توصيهگري است که قصد غلبه بر تُنُکي ماتريس نرخها را دارند. علاوه بر پراکندگي بسيار داده در اين مجموعه، دليل ديگر انتخاب آن براي ارزيابي، موجود بودن ارتباط بين کاربران ميباشد. همانطور که در قبل نيز توضيح داده شد، در سيستم پيشنهادي از روي روابط بين کاربران و شباهت سلايق آنها به يکديگر، در واقع با استفاده از اسنادFOAF کاربران، اقدام به تکميل پروفايل آنها ميشود که با اينکار حوزههاي بيشتر مورد علاقهشان تشخيص داده ميشوند. اين روابط بين کاربري در يک شبکه اجتماعي و توسط خود کاربران ايجاد شده است. به دليل موجود بودن ارتباطات بين کاربران، مجموعه Epinions يک شبکه اجتماعي نيز ميباشد و با استفاده آن ميتوان تأثير تکميل پروفايل کاربران از روي کاربران مشابه مرتبط با آنها را در افزايش صحت پيشنهادات سيستم مشاهده کرد. کاربران در اين شبکه اجتماعي با بازديد نرخها و توضيحات ديگر کاربران، روي آيتمهايي که خودشان قبلاً بازبيني کردهاند، اقدام به برقراري ارتباط “اعتماد” از خود به کاربران با نطرات مشابه خود ميکنند. بهعنوان نمونه فرض کنيد که کاربر A پس از خواندن کتابي به آن نرخ 5 (بالاترين ميزان علاقه) را ميدهد. اين کاربر وقتي با مشاهده نظرات و نرخ کاربر B متوجه ميشود که او نيز به همان کتاب يا چندين کتاب مشابه ديگر ابراز علاقه بالا کرده است، به آن کاربر اعتماد کرده و سعي ميکند ساير کتبي که کاربر B به آنها علاقه دارد را نيز بخواند. در واقع کاربر A کاربر B را در نظرات و علاقهها و روحيات شبيه خودش تشخيص ميدهد. بنابراين از اعتماد کاربر A به کاربر B ميتوان در جهت تکميل پروفايل A و تشخيص بيشتر علاقههاي وي استفاده کرد. در اين مجموعه داده تعداد 576327 روابط اعتماد از نوع صريح وجود دارد.