موتورهای جستجوی مطرح همچون گوگل و یاهو جهت یافتن نتایج جستجوی الگوریتمی، از خزنده ها استفاده می کنند[۳۴]. صفحاتی که دارای لینک سایر صفحات فهرست شده موتورهای جستجو هستند، نیاز به فهرست شدن ندارند چرا که به طور خودکار یافت می شوند. برخی از موتورهای جستجو همچون یاهو دارای سرویس ارائه غیررایگان هستند که گردش در سایت را با تعیین هزینه مورد نظر به ازای هر کلیک تضمین می نماید. چنین برنامه هایی معمولاً وجود در پایگاه داده را تضمین کرده ولی رتبه بندی خاص در نتایج جستجو را تضمین نمی کنند. دو فهرست اصلی، یعنی فهرست “یاهو” و یا پروژه “فهرست باز” هر دو نیازمند ارائه دستی و بازنگری ویرایشی توسط یک شخص حقیقی هستنـد[۶۲].
خزنده های موتورهای جستجو ممکن است هنگام گشت زدن به فاکتورهای متعددی توجه داشته باشند. تمامی صفحات توسط موتورهای جستجو فهرست نمی شوند. فاصله صفحات از فهرست اصلی یک سایت ممکن است عاملی در یافته شدن یا نشدن صفحات باشد[۳۴].
۲-۱۳-۲ جلوگیری از خزش[۷۱] و استاندارد خروج روبات ها
به منظور جلوگیری از یافتن محتـوای ناخواسته در شاخص های جستجو، وب مسترها می توانند به عنکبوت ها بگویند فایلها و یا فهرست های خاص را از طریق فـایل robots.txt در فهرسـت اصـلی دومین[۷۲] جستجو نکنند به علاوه مسلماً یک صفحـه می تواند با استفـاده از متاتگ ویژه روبات ها از پایگاه داده یک موتور جستجو خارج شود.
زمانیکه موتور جستجویی سایتی را مشاهده می کند، فایل robots.txt واقع در فهرست اصلی، اولین فایلی است که جستجو می شود. این فایل پس از بررسی به روبات دستور می دهد چه فایلهایی را نباید جستجو کند. به دلیل اینکه یک موتور جستجو ممکن است یک کپی از این فایل را در حافظه نهان نگه دارد، ممکن اسـت گاهاً صفحـاتی که وب مستـر نمی خواهـد، بازبینـی شـود. صفحـاتی که عمومـاً از خـزش نفـی می شوند، شامل صفحات ورود و خروج اعضا یا سبدهای خرید و صفحات مخصوص کاربران که از جستجوهای درون سایتی بدست می آیند می باشد. در ماه مارس ۲۰۰۷ گوگل به وب مسترها اخطار داد که آنها باید از شاخص گذاری نتایج جستجوی داخلی جلوگیری کنند، چرا که آن صفحات به عنوان اسپم جستجو تلقی می گردند[۳۴].
۲-۱۳-۳ افزایش اهمیت
روش های متعدد دیگری نیز جهت نمایش یک صفحه در نتایج جستجو می تواند مورد استفاده قرار گیرند. این روش ها شامل موارد زیر هستند[۵۹]:
نوشتن کلمات کلیدی تازه جستجو شده به عنوان محتوا
نوشتن محتوایی که شـامل عـبارات و کلمـات کلیـدی تازه جستجـو شـده باشـد به طوریکه با بسیـاری از
سؤالات جستجو مربوط و مرتبط باشد.
عدم تکرار بیش از حد کلمات کلیدی
عدم تکرار بیش از حد کلمات کلیدی در عنوان متاتگ توضیحات و متن صفحه[۷۳]
عادی سازی URL صفحات وب
عادی سازی URL صفحات وب که از طریق URL های چندگانه قابل دستیابی باشند با بهره گرفتن از متاتگ “Canonical”
۲-۱۴الگوریتم های رتبه بندی
منظور از الگوریتم ها رتبه بندی الگوریتم هایی هستند که تصمیم می گیرند بر اساس کدام کلمات کلیدی، چه وبسایتی، در کدام صفحه و رده ای از نتایج جستجو قرار گیرد. الگوریتم های رتبه بندی امروزه بسیار پیچیده هستند و از هزاران پارامتر بهره می برند. در ادامه برخی از مشهورترین پارامتر ها بیان می شود.
۲-۱۴-۱ پارامتر های رتبه دهی سه دسته اند:
-
- کلمات (تعداد و موقعیت کلمات)
-
- لینک ها ( تعداد و ارجاعات)
-
- آمار کاربران (کلیک یا رای کاربر)
مهمترین پارامتر کلمات هستند. اخیراً تکنیک های پیشرفته ای برای رتبه بندی ابداع شده که از رفتار کاربران به عنوان پارامتر استفاده می کنند. شرکت گـوگل از پیشتازان این روش است و با ایجاد امکان نظردهی کاربران بر نتایج این سیستم را نیز وارد الگوریتم های پیچیده خود کرده است[۳۲].
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
۲-۱۴-۲ وزن دهی به کلمات
برای هر کلمه ای در یک متن یک وزنی با الگوی خاصی در نظر گرفته می شود. این وزن بیانگر تاثیر کلمه بر موضوع متن در مقایسه با سایر کلمات بکار رفته است.
اهمیت کلمات را می توان بر پایه شرایطی مشخص کرد[۵۷]:
-
- وزن آماری کلمه
-
- مکان قرار گیری کلمه
-
- مفهوم هر کلمه
-
- کاربرد خاص کلمه
وزن آماری کلمه تعداد تکرار آن کلمه در متن بر اساس توزیع کلمات در متن است که به دو دسته فراوانی مطلق و فراوانی نسبی تقسیم می شود.
مکان قرارگیری کلمه، اینکه کلمه در عنوان یا زیر عنوان یا بدنه متن یا چکیده متن قرار گیرد از معیار های وزن دهی به کلمات می باشد.
مفهوم هر کلمه که بیانگر ارتباط کلمه با کلمات دیگر است به بیانی مترادف یا متضـاد بودن آن کلمـه است.
از کاربـرد های خاص کلمـه می توان اسـامی را در سیستمی که دنبال اسامی خـاص می گـردد مثال زد که
اهمیت ویژه ای دارد.
۲-۱۴-۳ ارزیابی کلمات کلیدی
کلماتی که از آستانه تعیین شده برای وزن دهی عبور می کنند باید معیار های زیر را داشته باشند[۵۷]:
-
- جامعیت
-
- تعیین کنندگی
جامعیت یعنی اینکه هر چه تعداد کلمات بیشتری از یک متن استخراج شود، احتمال بازیابی آن متن نیز بیشتر می شود و تعیین کنندکی یعنی هر کلمه کلیدی تا چه حد دقیق، متن های مربوط را مشخص کند.
۲-۱۴-۴ پارامتر های وزن دهی
سه پارامتر اصلی در وزن دهی به کلمات عبارتند از[۵۷]: