(۱) for i = ۱ to K
(۲) set M-dimensions of [i] to i
(۳) end for
(۴) repeat
(۵) for i = ۱ to K
(۶) C[i] = {y| π*(y)=i}
(۷) end for
// Compute the representative of each cluster
(۸) for i = ۱ to K
(۹) yr[i] = <majority{(Ci)1}, …, majority{(Ci)M}>
// (Ci)j is the set of jth attributes of all data in Ci
(۱۰) end for
(۱۱) for each y in Y
// Re-assign
(۱۲) π*(y) = Mini WeightedHDistance (y, yr[i], W) i[1..K]
(۱۳) end for
(۱۴) until NotChanged(π*)
ورودیهای لازم برای الگوریتم COHD مجموعه دادهای Y و وزن هر یک از خوشهبندیهای اولیه میباشد. این الگوریتم π* را به عنوان نتیجهی ترکیب خوشهبندیها بر میگرداند. در الگوریتم COHD ابتدا نمایندههای اولیه به ازاء هر خوشه طبق آنچه که توضیح داده شده تعیین میگردند (خطوط ۱ تا ۳). سپس تا زمانی که هیچ شئ دادهای از یک خوشه به خوشهی دیگری منتقل نگردد (خط ۱۴) دو گام اصلی الگوریتم ادامه مییابد. در گام اول پس از تخصیص دادهها به خوشهها (خطوط ۵ تا ۷) نمایندهی هر خوشه دوباره محاسبه میگردد (خطوط ۸ تا ۱۰). در گام دوم نیز خوشهای که نمایندهی آن کمترین فاصله را با شئ داده مورد نظر دارد به عنوان خوشهی مناسب برای آن داده انتخاب میگردد (خطوط ۱۱ تا ۱۳). فاصلهی بین نمایندهی خوشه و یک شئ داده، با بهره گرفتن از (WeightedHDistance)که شبه کد آن در الگوریتم ۳-۴ آمده است، محاسبه میشود (خط ۱۲).
( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
الگوریتم ۳- ۴ فاصله همینگ وزنی(WeightedHDistance)
Input: y, yr as clusteringVector
Weight[1..M] as float
Output: Distance as float
Method:
(۱) set Distance to ۰
(۲) for i = ۱ to M
(۳) if(y[i] != yr[i])
(۴) Distance = Distance + Weight[i]
(۵) end if
(۶) end for
در الگوریتم ۳-۴ زمانی که رأی خوشهبندی شئ داده با بردار نمایندهی خوشه متفاوت باشد (خط ۳) وزن آن خوشهبندی با فاصلهای که تاکنون بدست آمده است جمع میگردد (خط ۴) تا در نهایت خوشهبندیهایی که وزن بالاتری دارند در تعیین این فاصله تأثیرگذارتر باشند و این مقدار را افزایش دهند. این نوع تعیین فاصله، مشابه روش فاصلهی همینگ است. در فاصلهی همینگ، تعداد تفاوتها شمارش میشود اما در اینجا مجموع وزن این تفاوتها محاسبه میگردد.
لازم به ذکر است که قبل از اجرای الگوریتم خوشهبندی توافقی بر روی داده های توزیع شده ناهمگن، باید خوشههای نظیر به نظیر در خوشهبندیها اولیه با بهره گرفتن از الگوریتم تشخیص نظیر به نظیر بودن خوشه ها مشخص شوند و برچسب خوشههای آنها با توجه به تناسبی که با خوشهبندی مرجع دارند، تغییر یابند.
مرتبهی مکانی الگوریتم خوشهبندی توافقی بر روی داده های توزیع شده ناهمگن O(NM) که N تعداد دادهها و M تعداد خوشهبندیهای اولیه میباشد.
از آنجا که الگوریتم پیشنهادی یک الگوریتم EM محسوب میگردد، تعداد تکرارهای آن متغیر است و به مجموعه دادهای بستگی دارد. تعداد این تکرارها در آزمایشات ما کمتر از ۶ بوده است. اما از آنجا که ساختار روش پیشنهادی منطبق با الگوریتم خوشهبندی K-Means میباشد، می توان از روشهایی که برای تسریع الگوریتم K-Means توسعه داده شدهاند [۱۸،۳]، برای بهبود زمان اجرای الگوریتم COHD نیز استفاده نمود.
۳-۳- تولید اجتماع خوشهبندیها
در این پایان نامه نتایج الگوریتم پیشنهادی را بر روی خوشهبندیهایی بررسی مینماییم که از تقسیم مجموعه دادهای به زیر مجموعهای از ستونها بدست آمده است. به عبارت دیگر در این حالت دادهها به صورت ناهمگن توزیع شدهاند. به طور معمول در حالتی که خوشهبندیها بر اساس زیر مجموعههایی از صفات خاصه ایجاد شده باشند، کیفیت خوشهبندیها میتواند نسبت به یکدیگر بسیار متفاوت باشد. زیرا برخی از صفات خاصه در دادهها نمیتوانند به خوبی نوع و ساختار دادهها را نمایان سازند در نتیجه خوشهبندیهایی که با بهره گرفتن از این صفات خاصه تولید میشوند از کیفیت مناسبی برخوردار نمیباشند. به طور کلی خوشهبندیهای تولید شده در حالتی که تمام صفات خاصه در دسترس نیستند از دقت کمتری (خطای بیشتری) نسبت به حالتی که خوشهبندی با بهره گرفتن از تمام صفات خاصه ایجاد شده است، برخوردارند.
در اغلب روشهای خوشهبندی توافقی، خوشهبندیهای اولیه تأثیر برابری بر روی خوشهبندی نهایی دارند. با توجه به این مسئله، وجود تفاوت و تنوع کیفیت در اجتماع اولیهی خوشهبندیها، برای این روشها و به خصوص روشهای رأی محور میتواند سبب کاهش کیفیت خوشهبندی نهایی گردد. بنابراین استفاده از روشی که در آن هر یک از خوشهبندیها به میزان وزنی که به آنها اختصاص داده شده است بتوانند در خوشهبندی نهایی تأثیرگذار باشند، مناسب به نظر میرسد.
ما در آزمایشات مجموعه دادهای را به زیر مجموعههایی از صفات خاصه تقسیم میکنیم و هر یک از این زیر مجموعهها را جهت تولید اجتماع خوشهبندیها، خوشهبندی خواهیم نمود. زیر مجموعههای انتخاب شده از صفات خاصه میتوانند به طور کامل مجزا از یکدیگر بوده و یا همپوشانی نیز داشته باشند. انتخاب زیر مجموعهها به طور تصادفی میباشد و معیاری جهت انتخاب آنها در نظر گرفته نشده است.