مطالب درباره : ارائه مدلی برای رتبه‌بندی اسناد ...

ارسال شده در 21 آذر 1400 توسط فاطمه کرمانی در بدون موضوع

کلمات کلیدی برای محبوبیت صفحات وب می‌توانند برای رتبه‌بندی استفاده شود. این کلمات برای ارتباط صفحات وب در موتورهای جستجو برای بازیابی صفحات مرتبط با کلمات کلیدی خاص و دادن رتبه بالا به آن‌ها کمک می‌کند. فرض این است که اگر تعداد زیادی از افراد یک کلمه خاص را جستجو کنند و صفحات وب خاصی ترجیح داده شود، سپس این منابع برای افراد دیگر هم بازیابی شود.

( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

صفحات وب محبوب همین‌طور برای رتبه‌بندی می‌توانند استفاده شوند. باز هم ایده این است که در رتبه‌ی صفحات محبوب‌تر مکان بالاتری را به خود اختصاص دهند. از آنجا که صفحات محبوب‌تر رتبه‌ی بالاتری دارند، آن‌ها به احتمال زیاد انتخاب می‌شوند و بنابراین محبوب می‌شوند. یکی از راه‌های حل این مشکل معرفی فاکتورهای منفی است که رتبه را کاهش می‌دهد. Google برای مثال، حدود یک سوم (۳/۱) از این فاکتورها را به عنوان فاکتور منفی استفاده می‌کند.
شکل ۲-۵۶ : معماری سیستم[۴۳]
تست و آزمایش سیستم
در این بخش اجرای سیستم شرح داده می‌شود تا فاکتورهای محبوبیت پیشنهاد شده مورد آزمایش و بررسی قرار گیرد. به جای ساختن موتور جستجو کامل از ابتدا، یک موتور جستجوی موجود متن باز^[۸۰] به نام لاسنس^[۸۱](آپاچی ۲۰۰۸) برای تست تغییر داده می‌شود. برای ذخیره‌ی داده‌های بدست آمده، از یک پایگاه داده‌ شیء گرا به نام db40 استفاده می‌شود، که یک پایگاه داده‌ شیء‌گرای متن باز به سادگی و با سرعت توسط توسعه نرم افزار جاوا^[۸۲] و دات نت^[۸۳] طراحی می‌شود. و در آن از زبان جاوا استفاده می‌شود. صفحات وب برای اولین بار توسط نمایه‌ساز لاسنس نمایه‌سازی می‌شوند و در پایگاه داده ذخیره می‌شوند. پرس وجو‌های کاربر که کلمات کلیدی جستجو هستند در پایگاه داده ذخیره و به روز می‌شوند و از API جستجوی لاسنس عبور داده می‌شوند. نمرات عوامل محبوبیت محاسبه و با نمرات رتبه‌بندی از لاسنس ترکیب می‌شوند. سپس صفحات وب بازیابی شده بر طبق نمره رتبه ذخیره می‌شود و سپس برای کاربران به نمایش در می‌آیند. در این فرایند کاربر با سیستم تست درست مانند موتور جستجو در تعامل است. در طی تعاملات فاکتورهای محبوبیت به دست می‌آید و به روز می‌شود. نمرات از فاکتورهای محبوبیت با نمرات تولید شده توسط لاسنس ترکیب می‌شود. لاسنس نمره را بر اساس پرس‌وجوی q و سندd (score(q, d به شکل زیر به دست می‌آورد.
عوامل کلیدی در معادله عبارتند از: (tf(t in d ، که به عنوان تعداد دفعاتی که ترم t (ترم t یک کلمه کلیدی جستجو در یک پرس‌وجوی چندگانه کلمه کلیدی q است) در سندd ظاهر می‌شود، ( idf(tکه برای معکوس کردن فرکانس سند بکار می‌رود و به عنوان تعداد اسنادی که کلمه t در آن‌ها ظاهر می‌شود، تعریف می‌شود، و(coord(q,d که به عنوان عبارات مورد پرسش که یافته شده‌اند تعریف می‌شود.
سه عامل محبوبیت در این معادله شامل: (keyword Pop (t,d محبوبیت کلمه کلیدی از واژه t که قسمتی از پرس‌وجوی q و واژه t محتوای سندd، (keyword Web page Pop ( q,d کلمه کلیدی برای فاکتور محبوبیت صفحه وب، و(Web page Pop (d محبوبیت صفحه وب d هستند. هر فاکتور به وسیله فاکتورهای هنجار سازی مشابه خود نرمال سازی می‌شود و در کنار هم جمع می‌شوند تا فاکتور نهایی (pop (q,d را تشکیل دهند. نمره رتبه نهایی ترکیبی از score (q, d) و (pop (q, d است. هر کدام از این نمرات قبل از ترکیب شدن با هم نرمال سازی می‌شوند.
نتایج آزمایش نشان می‌دهد که هر عامل محبوبیت روی ایجاد صفحات محبوب با رتبه بالاتر تاثیر می‌گذارد. به همین صورت تمام فاکتورهای نرمال‌سازی برای تعیین این فاکتورها روی رتبه‌بندی تعریف شده است. برای تست سیستم، از دانشجویان خواسته شده که از موتور جستجوگر استفاده کنند. در طی تست، سیستم تاریخچه کاربردی را به دست‌‌آورد و آن را ثبت کرد، و سپس آن را به فاکتورهای محبوبیت ترکیب کرده است. این فاکتورهای محبوبیت در ترکیب با دیگر فاکتورهای رتبه‌بندی برای تولید نتایج رتبه‌بندی‌های جدید برای کاربران بعدی مورد استفاده قرار می‌گیرد. این نتایج رتبه‌بندی را با نتایج گوگل با درخواست از کاربران جدید برای وارد کردن کلمات کلیدی جستجو در این سیستم و همین‌طور وارد کردن همان کلمات در گوگل مقایسه شده است. و نشان می‌دهد که نتایج جستجو به عبارت خواسته شده مرتبط است.
۲-۶-۶ مدل مارکو از رفتار کاربر به عنوان یک پیش بینی گر در جهت یک جستجوی موفق
موتورهای جستجوی وب سنتی ارتباط صفحات وب برای پرس‌وجوها را ارزیابی می‌کنند. با این حال، ارتباطات صفحات وب تصویر کاملی را به ما نمی‌دهد، از آنجایی که یک پرس‌وجوی فردی ممکن است فقط بخشی از نیازهای اطلاعاتی کاربر را نشان دهد و کاربران ممکن است نیازهای اطلاعاتی متفاوتی در لابلای پرس جوهای همانند داشته باشند، مشکل پیش‌بینی جستجوی موفق کاربر(جستجویی که در آن کاربر نتایجی را دریافت کند که به خواسته‌اش نزدیک باشد.) با مدل کردن رفتار کاربر حل می‌شود. نشان داده شده که رفتار کاربر به تنهایی می‌تواند یک تصویر دقیق از جستجوی موفق کاربر وب بدون در نظر گرفتن ارتباط اسناد نمایش داده شده را بدهد. و بررسی‌ها نشان می‌دهند که مدل‌هایی که از رفتار کاربر استفاده می‌کنند، نسبت به آن‌هایی که از ارتباط اسناد استفاده می‌کنند موفق‌تر هستند. مدل زنجیره‌ای جدیدی با ترکیب کردن زمان توزیع ساخته شده‌اند و آزمایشات نشان می‌دهند که مدل‌های توزیع زمانی و زنجیره‌ای دقت بیشتری نسبت به مدل ایستا مبتنی بر رفتار کاربر یا پیش بینی ارتباط اسناد، دارند[۴۴].
کاربران پرس‌و‌جوهایشان را تغییر می‌دهند و اصلاح می‌کنند و می‌توانند نیازهای اطلاعاتی پیچیده داشته باشند، اما یک پرس‌وجوی شخصی ممکن است فقط یک بخش از نیازها و اهداف اطلاعاتی کاربر را نشان دهد. در این روش به راه‌هایی برای پیش بینی موفقیت یا عدم موفقیت در جستجوی کاربر می‌پردازد. و ویژگی‌هایی کلی از رفتار کاربر شامل، کلیک و مدت زمانی که کاربر در آن صفحه است و همین‌طور تعداد دفعات تغییر پرس‌وجو را در نظر می‌گیرید. و به طور اتوماتیک معیارهای استانداردهای را به موتور جستجو اضافه می‌کند.
جستجوی موفق کاربر
دنباله‌ای از جستجوی کاربر شامل یک یا چندین پرس‌و‌جو با اطلاعات تجزیه ناپذیر^[۸۴] در نظر گرفته می‌شود. هنگامی که تفاوت عملیات‌های انجام شده توسط کاربر در طول هدف تعیین می‌شود، می‌توان اهداف موفق و ناموفق را تشخیص داد. که نمونه‌ای از آن‌ها در جدول (۲-۳ ) و (۲-۴) نشان داده شده است.
جدول ۲- ۳ : نمونه‌ای از یک جستجوی موفق[۴۴]
جدول ۲- ۴ : نمونه‌ای از یک جستجوی ناموفق[۴۴]
داده
داده‌ها شامل یک نمونه تصادفی از ۱۰۰۰ جلسه کاربر از موتور جستجو Yahoo! در طی یک هفته در ماه آوریل ۲۰۰۷ گرفته شده است. هر جلسه کاربر ۳ روز طول می‌کشد و شامل همه پرس‌وجوها، برداشت‌ها از صفحات نتایج جستجو و صفحاتی که هر کاربر بر رویش کلیک کرده و زمانی که در آن صفحه بپری کرده است. مدت ۳ روز اختیاری است، که برای بدست آوردن الگوی جستجوی توسعه یافته برای کاربران کافی است. پرس‌‌وجوها لازم نیست به هم پیوسته باشند، اما ممکن است با پرس‌وجوهایی برای اهداف دیگر ترکیب شده باشند. هدف از هر پرس‌و‌جو شناسایی می‌شود و هر پرس‌و‌جو با شماره آن هدف برچسب زده می‌شود. داده‌ها شامل یک مجموعه از ۲۷۱۲ هدف مشخص روی ۵۰۰۰ پرس‌وجوی می‌باشد. موفقیت یک هدف از ۵ نظر تشخیص داده می‌شود: موفقیت قطعی، موفقیت احتمالی، نامطمئن، عدم موفقیت احتمالی و شکست قطعی. که از اطلاعات مربوط به محتوای صفحات باز شده، همین‌طور الگوهای کلیک روی نتایج جستجو و پیشنهاداتی از قبیل هجی کلمات و جستجوهای مرتبط استفاده می‌شود.
تعریف مسئله
فرض می‌شود سیلی از پرس‌وجوهای ارسال شده توسط کاربران به موتور جستجو را داریم. و در پاسخ هر پرس‌وجو، صفحه نتایج جستجو به کاربر نمایش داده می‌شود، و نتایج دیگر مانند پیشنهادات املایی و جستجوهای مرتبط را پشتیبانی می‌کند. کاربر ممکن است بر روی هیچ‌کدام از آن‌ها یا روی چندین نتیجه کلیک کند و آن جلسه را خاتمه دهد یا پرس‌وجوی دیگری را ارسال کند. و هر جلسه کاربر ممکن است شامل یک یا چندین هدف باشد. که هدف به عنوان یک نیاز اطلاعاتی تجزیه ناپذیر تعریف شد. حال با توجه به هدف جستجو، پیش‌بینی می‌شود که آیا هدف با موفقیت خاتمه یافته یا ناموفق بوده است. «موفقیت قطعی» و «موفقیت» احتمالی L را به عنوان دسته مثبت و اهداف دیگر را به عنوان دسته منفی در نظر می‌گیرد.
روش
در این بخش مدل توصیف می‌شود که با توجه به هدف جستجو، پیش‌بینی می‌کند که آیا آن جستجو موفق است یا خیر؟ برای این کار الگوهای توصیف رفتار کاربر برای هر هدف جستجو استخراج می‌شود. و سپس از آن الگوها برای ساخت دو مدل مارکو^[۸۵]، توصیف رفتار کاربر در صورت موفقیت و عدم موفقیت جستجوی اهداف استفاده می‌شود. با توجه به یک هدف جستجو جدید، الگوهای مشابه استخراج می‌شود و احتمال اینکه این الگو از این دو مدل ایجاد شده باشد تخمین زده می‌شود. و سپس هدف تحت دو مدل برای تصمیم‌گیری اینکه آن هدف موفق یا ناموفق است مقایسه می‌شود. در ابتدا این مدل زمان بین عملیات کاربر را در نظر نمی‌گیرد.
در زیر انواعی از عملیات‌هایی که می‌توانند در هدف اتفاق بیفتد نشان داده شده:
Start : کاربر یک هدف جدید را آغاز می‌کند.
پرس‌وجوی Q
انواعی از کلیک‌ها
کلیک الگوریتم جستجو (SR)
کلیک پشتیبانی جستجو (AD)
کلیک جستجوی مرتبط(RL)
کلیک پیشنهادات املایی(SP)
کلیک میانبر(SC)
کلیک‌های دیگر(OTH)، برای مثال کلیک روی یکی از زبانه‌ها
END : کاربر جستجوی هدف را خاتمه می‌دهد.
به طور مثال یک کاربر پرس‌وجوی “guess” را وارد می‌کند، ۴ ثانیه بعد او روی جستجوی مرتبط پیشنهاد شده “guess watches"کلیک می‌کند، بعد از یک ثانیه، کاربر اولین نتایج جستجو را کلیک می‌کند، و ۵۳ ثانیه بعد کاربر روی سومین نتیجه و ۱۱۸ ثانیه بعد، به هدف نهایی می‌رسد. این هدف کاربر به وسیله‌ی دنباله‌ای از عملیات نشان داده می‌شود Q _۴s RL _۱s SR _۵۳s SR _۱۱۸s END
ساخت مدل
هر دنباله از عملیات نشان دهنده یک زنجیره و یا یک مسیر در گراف است. دنباله‌ی عملیات از مثال قبلی می‌تواند به عنوان یک مسیر در گراف نمایش داده شود، شکل (۲-۶). در شکل(۲-۷) ما می‌توانیم دنباله‌های بیشتری از اهداف را نشان دهیم، و گراف می‌تواند تکامل یابد.
شکل ۲-۶ ۷: مدلی مفروض از نمونه آزمایشی[۴۴]
شکل ۲-۷ ۸: مدل تکاملی از نمونه آزمایشی[۴۴]
فضای حالت مدل مارکو مجموعه‌ای از عملیات و انتقالات احتمالی بین هر حالت S_i ,و S_jاست و با بهره گرفتن از حداکثر تخمین احتمال تخمین زده می‌شود:
که N_{si , sj}مدت زمان یک انتقال از حالت به حالت و جمع زمانی است، که ما در حالتدر داده های آزمایشی هستیم.
پیش‌بینی موفقیت هدف
داده‌های آزمایشی به دو قسمت تقسیم می‌شود، دسته اول شامل همه اهداف موفقیت و دسته دوم شامل همه اهداف ناموفق. با توجه به روش توصیف شده در بخش قبلی، دو مدل مارکو ساخته می‌شود. در مدل اول ویژگی‌های M_s رفتار کاربر در هدف موفق، و در مدل دوم ویژگی‌های M_fرفتار کاربر در اهداف ناموفق است. با توجه به هدف کاربر، می‌توان دو مدل تخمینی لگاریتم احتمال را استفاده کنیم که این دنباله عملیات از دو مدل تولید می‌شود. با توجه به مدلM و دنباله عملیات S = (S₁, S₂,…… , S_n) احتمالاً این دنباله عملیات از M تولید می‌شود:
که n تعداد عملیات در دنباله، و W احتمال تابع انتقال است. سپس احتمال لگاریتم تعریف می‌شود: و هدف موفق این‌گونه تعریف می‌شود:
که S دنباله‌ای از عملیات هدف،(S) LL_Ms احتمال لگاریتم از سیستم هدف به LL_Mfمدل شکست و T یک آستانه که معمولاً مقدار ۱ تنظیم می‌شود.
اضافه کردن زمان به مدل
تاکنون این مدل زمان انتقال را در نظر نگرفته بود. زمان بین عملیات فاکتور خیلی مهمی برای موفقیت است. همچنین نشان داده شده که زمان نخستین کلیک با جستجوی موفق مرتبط است. فرض می‌شود که یک توزیع‌شدگی مشخص وجود دارد که مربوط به مدت زمانی است که کاربر در هر انتقال صرف می‌کند. توزیع‌شدگی به این معناست که برای هر انتقال ، کاربر چه زمانی را صرف حالت می‌کند قبل از اینکه به حالت برود. توزیع شدگی در هر انتقال از دنباله داده تخمین زده می شود. و کل زمان انتقالات برای همه اهداف از مجموعه آزمایشی برای هر انتقال را جمع آوری می‌کنیم و آنها را برای زمان توزیع شدگی برای هر انتقال استفاده می‌کنیم مثل آنچه در شکل (۲-۸) نشان داده شده است. نخستین گام انتخاب پارامتری از زمان توزیع شدگی است. توزیع گاما دو پارامتر قوی^[۸۶] از توزیعهای پیوسته است. یک پارامتر مقیاس است، وk یک پارامتر قالب است. توزیع گاما اغلب به عنوان یک مدل احتمال برای زمان انتظار استفاده می شود. تابع چگالی احتمالی از توزیع گاما می تواند اینگونه بیان شود:

مجله علمی: آموزش ها - راه‌کارها - ترفندها و تکنیک‌های کاربردی

مجله علمی: آموزش ها - راه‌کارها - ترفندها و تکنیک‌های کاربردی

جستجو

آخرین مطالب

فیدهای XML