مقادیر دور افتاده[۶۶] یا حدی، مقادیر گم شده[۶۷]، صفات تکراری[۶۸]، دادههایی که در فرم مناسب برای مدلسازی نیستند و دادههایی که با عقل سلیم جور در نمیآیند. برای این منظور در دادهکاوی روشهای مختلف تمیز کردن و تغییر شکل دادهها ارائه گردیده است [۱۱].
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
مدلسازی: در این گام، روشهای متفاوت مدلسازی انتخاب و بکار گرفته می شود، و پارامترهای آنها به صورت مقادیر بهینه تنظیم می شود. بعضی از روشها ساختار دادهای خاصی را میطلبند. بین فازهای آمادهسازی و مدلسازی دادهها ارتباط نزدیکی برقرار است. اغلب مشکلات دادهها حین مدلسازی درک می شود و یا ایدههایی برای ساخت دادههای جدید به ذهن میرسد [۵۰].
این گام شامل بخشهای زیر است [۱۱]:
-
- انتخاب و استفاده از تکنیک مدلسازی مناسب
-
- دستکاری و تنظیم مدل برای دستیابی به نتایج بهینه
-
- در صورت نیاز برگشت به گام پیشپردازش
ارزیابی: در پروژهای که بر اساس یک یا چند مدل ساخته شده است، پیش از رسیدن به گام بهکارگیری، مدلها باید به طور دقیق ارزیابی شوند و گامهای اجرایی ساخت مدلها بازبینی شوند تا از حصول اهداف کسب و کار اطمینان حاصل شود [۵۰]. مدلهای دادهکاوی باید به فرایند تصمیم گیری کمک کنند [۳۱]. پس مدل زمانی مفید است که تفسیر پذیر باشد زیرا انسانها مایل به استفاده از اصول پیچیده در فرایند تصمیم گیری جعبه سیاه مانند خود نیستند [۱۱].
بهکارگیری: عموماً ساخت مدل پایان کار پروژه نیست. معمولاً دانش حاصل از این چرخه باید به صورتی سازماندهی و ارائه شود که مشتری نهایی بتواند از آن استفاده نماید. بسته به نیازمندیها، فاز بهکارگیری می تواند به سادگی یک گزارش و یا به پیچیدگی اجرای یک فرایند دادهکاوی تکرارپذیر[۶۹] باشد. در بسیاری از موارد کاربر یک تحلیلگر داده نیست که گامهای استقرار را درک نماید. بنابراین نکات لازم باید برای او توضیح و تبیین شود [۵۰].
هر کدام از گامهای مدل فرایند CRISP-DM که پیش از این تفسیر شد شامل کارهای[۷۰] مختلفی است که کارهای مربوط به هر گام و خروجی آن به طور خلاصه در جدول ۲-۴ آمده است.
جدول ۲-۴ فعالیتهای مربوط به فازهای CRISP-DM و خروجی هر فعالیت [۵۰]
درک کسبوکار | درک دادهها | آمادهسازی دادهها | مدلسازی | ارزیابی | بهکارگیری |
-تعیین اهداف کسبوکار درک اهداف کسب و کار و معیارهای موفقیت[۷۱] آن -ارزیابی وضعیت موجودی منابع، نیازمندیها، فرضیات، محدودیتها، ریسکها و احتمالات، مجموعه اصطلاحات[۷۲] و هزینهها و فایدهها -تعیین اهداف دادهکاوی اهداف دادهکاوی، عوامل موفقیت دادهکاوی -تولید طرح پروژه طرح پروژه تخمین اولیه ابزارها و تکنیکها |
-جمع آوری دادههای اولیه گزارش جمع آوری دادههای اولیه -توصیف دادهها گزارش توصیف دادهها -مرور[۷۳] دادهها گزارش مرور دادهها -ارزیابی کیفیت دادهها گزارش کیفیت دادهها |
-جمع آوری دادهها توصیف مجموعه داده -انتخاب داده منطق انتخاب/حذف[۷۴] دادهها -پاکسازی دادهها گزارش پاکسازی دادهها -ساختاردهی دادهها تفکیک ویژگیها تولید رکوردها |