کلمات کلیدی برای محبوبیت صفحات وب میتوانند برای رتبهبندی استفاده شود. این کلمات برای ارتباط صفحات وب در موتورهای جستجو برای بازیابی صفحات مرتبط با کلمات کلیدی خاص و دادن رتبه بالا به آنها کمک میکند. فرض این است که اگر تعداد زیادی از افراد یک کلمه خاص را جستجو کنند و صفحات وب خاصی ترجیح داده شود، سپس این منابع برای افراد دیگر هم بازیابی شود.
( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
صفحات وب محبوب همینطور برای رتبهبندی میتوانند استفاده شوند. باز هم ایده این است که در رتبهی صفحات محبوبتر مکان بالاتری را به خود اختصاص دهند. از آنجا که صفحات محبوبتر رتبهی بالاتری دارند، آنها به احتمال زیاد انتخاب میشوند و بنابراین محبوب میشوند. یکی از راههای حل این مشکل معرفی فاکتورهای منفی است که رتبه را کاهش میدهد. Google برای مثال، حدود یک سوم (۳/۱) از این فاکتورها را به عنوان فاکتور منفی استفاده میکند.
شکل ۲-۵۶ : معماری سیستم[۴۳]
تست و آزمایش سیستم
در این بخش اجرای سیستم شرح داده میشود تا فاکتورهای محبوبیت پیشنهاد شده مورد آزمایش و بررسی قرار گیرد. به جای ساختن موتور جستجو کامل از ابتدا، یک موتور جستجوی موجود متن باز[۸۰] به نام لاسنس[۸۱](آپاچی ۲۰۰۸) برای تست تغییر داده میشود. برای ذخیرهی دادههای بدست آمده، از یک پایگاه داده شیء گرا به نام db40 استفاده میشود، که یک پایگاه داده شیءگرای متن باز به سادگی و با سرعت توسط توسعه نرم افزار جاوا[۸۲] و دات نت[۸۳] طراحی میشود. و در آن از زبان جاوا استفاده میشود. صفحات وب برای اولین بار توسط نمایهساز لاسنس نمایهسازی میشوند و در پایگاه داده ذخیره میشوند. پرس وجوهای کاربر که کلمات کلیدی جستجو هستند در پایگاه داده ذخیره و به روز میشوند و از API جستجوی لاسنس عبور داده میشوند. نمرات عوامل محبوبیت محاسبه و با نمرات رتبهبندی از لاسنس ترکیب میشوند. سپس صفحات وب بازیابی شده بر طبق نمره رتبه ذخیره میشود و سپس برای کاربران به نمایش در میآیند. در این فرایند کاربر با سیستم تست درست مانند موتور جستجو در تعامل است. در طی تعاملات فاکتورهای محبوبیت به دست میآید و به روز میشود. نمرات از فاکتورهای محبوبیت با نمرات تولید شده توسط لاسنس ترکیب میشود. لاسنس نمره را بر اساس پرسوجوی q و سندd (score(q, d به شکل زیر به دست میآورد.
عوامل کلیدی در معادله عبارتند از: (tf(t in d ، که به عنوان تعداد دفعاتی که ترم t (ترم t یک کلمه کلیدی جستجو در یک پرسوجوی چندگانه کلمه کلیدی q است) در سندd ظاهر میشود، ( idf(tکه برای معکوس کردن فرکانس سند بکار میرود و به عنوان تعداد اسنادی که کلمه t در آنها ظاهر میشود، تعریف میشود، و(coord(q,d که به عنوان عبارات مورد پرسش که یافته شدهاند تعریف میشود.
سه عامل محبوبیت در این معادله شامل: (keyword Pop (t,d محبوبیت کلمه کلیدی از واژه t که قسمتی از پرسوجوی q و واژه t محتوای سندd، (keyword Web page Pop ( q,d کلمه کلیدی برای فاکتور محبوبیت صفحه وب، و(Web page Pop (d محبوبیت صفحه وب d هستند. هر فاکتور به وسیله فاکتورهای هنجار سازی مشابه خود نرمال سازی میشود و در کنار هم جمع میشوند تا فاکتور نهایی (pop (q,d را تشکیل دهند. نمره رتبه نهایی ترکیبی از score (q, d) و (pop (q, d است. هر کدام از این نمرات قبل از ترکیب شدن با هم نرمال سازی میشوند.
نتایج آزمایش نشان میدهد که هر عامل محبوبیت روی ایجاد صفحات محبوب با رتبه بالاتر تاثیر میگذارد. به همین صورت تمام فاکتورهای نرمالسازی برای تعیین این فاکتورها روی رتبهبندی تعریف شده است. برای تست سیستم، از دانشجویان خواسته شده که از موتور جستجوگر استفاده کنند. در طی تست، سیستم تاریخچه کاربردی را به دستآورد و آن را ثبت کرد، و سپس آن را به فاکتورهای محبوبیت ترکیب کرده است. این فاکتورهای محبوبیت در ترکیب با دیگر فاکتورهای رتبهبندی برای تولید نتایج رتبهبندیهای جدید برای کاربران بعدی مورد استفاده قرار میگیرد. این نتایج رتبهبندی را با نتایج گوگل با درخواست از کاربران جدید برای وارد کردن کلمات کلیدی جستجو در این سیستم و همینطور وارد کردن همان کلمات در گوگل مقایسه شده است. و نشان میدهد که نتایج جستجو به عبارت خواسته شده مرتبط است.
۲-۶-۶ مدل مارکو از رفتار کاربر به عنوان یک پیش بینی گر در جهت یک جستجوی موفق
موتورهای جستجوی وب سنتی ارتباط صفحات وب برای پرسوجوها را ارزیابی میکنند. با این حال، ارتباطات صفحات وب تصویر کاملی را به ما نمیدهد، از آنجایی که یک پرسوجوی فردی ممکن است فقط بخشی از نیازهای اطلاعاتی کاربر را نشان دهد و کاربران ممکن است نیازهای اطلاعاتی متفاوتی در لابلای پرس جوهای همانند داشته باشند، مشکل پیشبینی جستجوی موفق کاربر(جستجویی که در آن کاربر نتایجی را دریافت کند که به خواستهاش نزدیک باشد.) با مدل کردن رفتار کاربر حل میشود. نشان داده شده که رفتار کاربر به تنهایی میتواند یک تصویر دقیق از جستجوی موفق کاربر وب بدون در نظر گرفتن ارتباط اسناد نمایش داده شده را بدهد. و بررسیها نشان میدهند که مدلهایی که از رفتار کاربر استفاده میکنند، نسبت به آنهایی که از ارتباط اسناد استفاده میکنند موفقتر هستند. مدل زنجیرهای جدیدی با ترکیب کردن زمان توزیع ساخته شدهاند و آزمایشات نشان میدهند که مدلهای توزیع زمانی و زنجیرهای دقت بیشتری نسبت به مدل ایستا مبتنی بر رفتار کاربر یا پیش بینی ارتباط اسناد، دارند[۴۴].
کاربران پرسوجوهایشان را تغییر میدهند و اصلاح میکنند و میتوانند نیازهای اطلاعاتی پیچیده داشته باشند، اما یک پرسوجوی شخصی ممکن است فقط یک بخش از نیازها و اهداف اطلاعاتی کاربر را نشان دهد. در این روش به راههایی برای پیش بینی موفقیت یا عدم موفقیت در جستجوی کاربر میپردازد. و ویژگیهایی کلی از رفتار کاربر شامل، کلیک و مدت زمانی که کاربر در آن صفحه است و همینطور تعداد دفعات تغییر پرسوجو را در نظر میگیرید. و به طور اتوماتیک معیارهای استانداردهای را به موتور جستجو اضافه میکند.
جستجوی موفق کاربر
دنبالهای از جستجوی کاربر شامل یک یا چندین پرسوجو با اطلاعات تجزیه ناپذیر[۸۴] در نظر گرفته میشود. هنگامی که تفاوت عملیاتهای انجام شده توسط کاربر در طول هدف تعیین میشود، میتوان اهداف موفق و ناموفق را تشخیص داد. که نمونهای از آنها در جدول (۲-۳ ) و (۲-۴) نشان داده شده است.
جدول ۲- ۳ : نمونهای از یک جستجوی موفق[۴۴]
جدول ۲- ۴ : نمونهای از یک جستجوی ناموفق[۴۴]
داده
دادهها شامل یک نمونه تصادفی از ۱۰۰۰ جلسه کاربر از موتور جستجو Yahoo! در طی یک هفته در ماه آوریل ۲۰۰۷ گرفته شده است. هر جلسه کاربر ۳ روز طول میکشد و شامل همه پرسوجوها، برداشتها از صفحات نتایج جستجو و صفحاتی که هر کاربر بر رویش کلیک کرده و زمانی که در آن صفحه بپری کرده است. مدت ۳ روز اختیاری است، که برای بدست آوردن الگوی جستجوی توسعه یافته برای کاربران کافی است. پرسوجوها لازم نیست به هم پیوسته باشند، اما ممکن است با پرسوجوهایی برای اهداف دیگر ترکیب شده باشند. هدف از هر پرسوجو شناسایی میشود و هر پرسوجو با شماره آن هدف برچسب زده میشود. دادهها شامل یک مجموعه از ۲۷۱۲ هدف مشخص روی ۵۰۰۰ پرسوجوی میباشد. موفقیت یک هدف از ۵ نظر تشخیص داده میشود: موفقیت قطعی، موفقیت احتمالی، نامطمئن، عدم موفقیت احتمالی و شکست قطعی. که از اطلاعات مربوط به محتوای صفحات باز شده، همینطور الگوهای کلیک روی نتایج جستجو و پیشنهاداتی از قبیل هجی کلمات و جستجوهای مرتبط استفاده میشود.
تعریف مسئله
فرض میشود سیلی از پرسوجوهای ارسال شده توسط کاربران به موتور جستجو را داریم. و در پاسخ هر پرسوجو، صفحه نتایج جستجو به کاربر نمایش داده میشود، و نتایج دیگر مانند پیشنهادات املایی و جستجوهای مرتبط را پشتیبانی میکند. کاربر ممکن است بر روی هیچکدام از آنها یا روی چندین نتیجه کلیک کند و آن جلسه را خاتمه دهد یا پرسوجوی دیگری را ارسال کند. و هر جلسه کاربر ممکن است شامل یک یا چندین هدف باشد. که هدف به عنوان یک نیاز اطلاعاتی تجزیه ناپذیر تعریف شد. حال با توجه به هدف جستجو، پیشبینی میشود که آیا هدف با موفقیت خاتمه یافته یا ناموفق بوده است. «موفقیت قطعی» و «موفقیت» احتمالی L را به عنوان دسته مثبت و اهداف دیگر را به عنوان دسته منفی در نظر میگیرد.
روش
در این بخش مدل توصیف میشود که با توجه به هدف جستجو، پیشبینی میکند که آیا آن جستجو موفق است یا خیر؟ برای این کار الگوهای توصیف رفتار کاربر برای هر هدف جستجو استخراج میشود. و سپس از آن الگوها برای ساخت دو مدل مارکو[۸۵]، توصیف رفتار کاربر در صورت موفقیت و عدم موفقیت جستجوی اهداف استفاده میشود. با توجه به یک هدف جستجو جدید، الگوهای مشابه استخراج میشود و احتمال اینکه این الگو از این دو مدل ایجاد شده باشد تخمین زده میشود. و سپس هدف تحت دو مدل برای تصمیمگیری اینکه آن هدف موفق یا ناموفق است مقایسه میشود. در ابتدا این مدل زمان بین عملیات کاربر را در نظر نمیگیرد.
در زیر انواعی از عملیاتهایی که میتوانند در هدف اتفاق بیفتد نشان داده شده:
Start : کاربر یک هدف جدید را آغاز میکند.
پرسوجوی Q
انواعی از کلیکها
کلیک الگوریتم جستجو (SR)
کلیک پشتیبانی جستجو (AD)
کلیک جستجوی مرتبط(RL)
کلیک پیشنهادات املایی(SP)
کلیک میانبر(SC)
کلیکهای دیگر(OTH)، برای مثال کلیک روی یکی از زبانهها
END : کاربر جستجوی هدف را خاتمه میدهد.
به طور مثال یک کاربر پرسوجوی “guess” را وارد میکند، ۴ ثانیه بعد او روی جستجوی مرتبط پیشنهاد شده “guess watches"کلیک میکند، بعد از یک ثانیه، کاربر اولین نتایج جستجو را کلیک میکند، و ۵۳ ثانیه بعد کاربر روی سومین نتیجه و ۱۱۸ ثانیه بعد، به هدف نهایی میرسد. این هدف کاربر به وسیلهی دنبالهای از عملیات نشان داده میشود Q ۴s RL ۱s SR ۵۳s SR ۱۱۸s END
ساخت مدل
هر دنباله از عملیات نشان دهنده یک زنجیره و یا یک مسیر در گراف است. دنبالهی عملیات از مثال قبلی میتواند به عنوان یک مسیر در گراف نمایش داده شود، شکل (۲-۶). در شکل(۲-۷) ما میتوانیم دنبالههای بیشتری از اهداف را نشان دهیم، و گراف میتواند تکامل یابد.
شکل ۲-۶ ۷: مدلی مفروض از نمونه آزمایشی[۴۴]
شکل ۲-۷ ۸: مدل تکاملی از نمونه آزمایشی[۴۴]
فضای حالت مدل مارکو مجموعهای از عملیات و انتقالات احتمالی بین هر حالت Si ,و Sjاست و با بهره گرفتن از حداکثر تخمین احتمال تخمین زده میشود:
که Nsi , sj مدت زمان یک انتقال از حالت به حالت و جمع زمانی است، که ما در حالتدر داده های آزمایشی هستیم.
پیشبینی موفقیت هدف
دادههای آزمایشی به دو قسمت تقسیم میشود، دسته اول شامل همه اهداف موفقیت و دسته دوم شامل همه اهداف ناموفق. با توجه به روش توصیف شده در بخش قبلی، دو مدل مارکو ساخته میشود. در مدل اول ویژگیهای Ms رفتار کاربر در هدف موفق، و در مدل دوم ویژگیهای Mfرفتار کاربر در اهداف ناموفق است. با توجه به هدف کاربر، میتوان دو مدل تخمینی لگاریتم احتمال را استفاده کنیم که این دنباله عملیات از دو مدل تولید میشود. با توجه به مدلM و دنباله عملیات S = (S1, S2,…… , Sn) احتمالاً این دنباله عملیات از M تولید میشود:
که n تعداد عملیات در دنباله، و W احتمال تابع انتقال است. سپس احتمال لگاریتم تعریف میشود: و هدف موفق اینگونه تعریف میشود:
که S دنبالهای از عملیات هدف،(S) LLMs احتمال لگاریتم از سیستم هدف به LLMf مدل شکست و T یک آستانه که معمولاً مقدار ۱ تنظیم میشود.
اضافه کردن زمان به مدل
تاکنون این مدل زمان انتقال را در نظر نگرفته بود. زمان بین عملیات فاکتور خیلی مهمی برای موفقیت است. همچنین نشان داده شده که زمان نخستین کلیک با جستجوی موفق مرتبط است. فرض میشود که یک توزیعشدگی مشخص وجود دارد که مربوط به مدت زمانی است که کاربر در هر انتقال صرف میکند. توزیعشدگی به این معناست که برای هر انتقال ، کاربر چه زمانی را صرف حالت میکند قبل از اینکه به حالت برود. توزیع شدگی در هر انتقال از دنباله داده تخمین زده می شود. و کل زمان انتقالات برای همه اهداف از مجموعه آزمایشی برای هر انتقال را جمع آوری میکنیم و آنها را برای زمان توزیع شدگی برای هر انتقال استفاده میکنیم مثل آنچه در شکل (۲-۸) نشان داده شده است. نخستین گام انتخاب پارامتری از زمان توزیع شدگی است. توزیع گاما دو پارامتر قوی[۸۶] از توزیعهای پیوسته است. یک پارامتر مقیاس است، وk یک پارامتر قالب است. توزیع گاما اغلب به عنوان یک مدل احتمال برای زمان انتظار استفاده می شود. تابع چگالی احتمالی از توزیع گاما می تواند اینگونه بیان شود: