داده کاوی معمولا توسط دانشمندان داده و سایر متخصصان BI ماهر در تجزیه و تحلیل انجام می شود. اما میتواند توسط تحلیلگران کسبوکار، مدیران اجرایی و کارگرانی که بهعنوان دانشمند دادههای شهروندی در یک سازمان کار میکنند، نیز انجام شود. عناصر اصلی آن شامل یادگیری ماشینی و تجزیه و تحلیل آماری، همراه با وظایف مدیریت داده ها برای آماده سازی داده ها برای تجزیه و تحلیل است. استفاده از الگوریتمهای یادگیری ماشین و ابزارهای هوش مصنوعی (AI) بیشتر فرآیند را خودکار کرده و استخراج مجموعههای داده عظیم، مانند پایگاههای اطلاعاتی مشتریان، سوابق تراکنشها و فایلهای گزارش از سرورهای وب، اپلیکیشنهای موبایل و حسگرها را آسانتر کرده است.
در ابتدا داده های مربوط به یک برنامه تحلیلی شناسایی و جمع آوری می شود. داده ها ممکن است در سیستم های منبع مختلف، یک انبار داده یا یک دریاچه داده، یک مخزن به طور فزاینده ای رایج در محیط های کلان داده که حاوی ترکیبی از داده های ساختاریافته و بدون ساختار است، واقع شوند. ممکن است از منابع داده خارجی نیز استفاده شود. دادهها از هر کجا که میآیند، یک دانشمند داده اغلب آنها را برای مراحل باقیمانده در فرآیند به دریاچه داده منتقل میکند.
مرحله دوم دادهکاوی، آمادهسازی دادههاست که در آن اقداماتی انجام میشود.این مرحله شامل مجموعه ای از مراحل برای آماده سازی داده ها برای استخراج است. این کار با کاوش دادهها، پروفایلسازی و پیشپردازش آغاز میشود و پس از آن کار پاکسازی دادهها برای رفع خطاها و سایر مشکلات کیفیت دادهها انجام میشود. تبدیل داده ها همچنین برای سازگاری مجموعه داده ها انجام می شود، مگر اینکه یک دانشمند داده به دنبال تجزیه و تحلیل داده های خام فیلتر نشده برای یک برنامه خاص باشد.
در این مرحله سلسله فرآیندهایی صورت می پذیرد که باعث برطرف شدن مشکلات مختلف داده مسئله مورد بررسی، خواهد شد. به این ترتیب داده برای انجام فرایند یادگیری مدل، پالایش شده و آماده میشود.
هنگامی که داده ها آماده شدند، یک دانشمند داده تکنیک داده کاوی مناسب را انتخاب می کند و سپس یک یا چند الگوریتم را برای انجام استخراج پیاده سازی می کند. در برنامههای یادگیری ماشین، الگوریتمها معمولاً باید بر روی مجموعه دادههای نمونه آموزش داده شوند تا قبل از اجرای آنها با مجموعه کامل دادهها، به دنبال اطلاعاتی باشند که به دنبال آن هستند.
پس از آمادهسازی دادهها در فرآیند دادهکاوی، داده آماده اعمال به مرحله یادگیری مدل است. در مرحله یادگیری مدل، نظم حاکم بر دادههای پیشپردازش شده، با توجه به روش کاوش دادهای که انتخاب میشود، شناسایی شده و مدل تولید شده برای ارزیابی به مرحله بعد یعنی ارزیابی و تفسیر مدل منتقل خواهد شد.
سه روش پر کاربرد در داده کاوی، دسته بندی (Classification)، خوشه بندی (Clustering) و کاوش قوانین انجمنی (Association rules) است. انواع متنوعی از الگوریتمهای مطرح یادگیری مدل، برای هر کدام از سه روش داده کاوی مذکور وجود دارند، که در ادامه روش دسته بندی تشریح خواهد شد.
در این مرحله دانش تولید شده در مرحله قبل ارزیابی شده و مورد تفسیر قرار میگیرد. منظور از ارزیابی دانش آن است که میبایست میزان صحت دانش تولید شده مشخص شود تا بتوان به آن اعتماد نمود و به صورت عملی از آن استفاده کرد. تفسیر مدل به معنای آن است که دانش تولید شده را مورد بررسی قرار داده و توجیهی معنایی جهت تبیین منطق آن ارائه نماییم.
نتایج داده کاوی برای ایجاد مدل های تحلیلی استفاده می شود که می تواند به تصمیم گیری و سایر اقدامات تجاری کمک کند. دانشمند داده یا یکی دیگر از اعضای یک تیم علم داده نیز باید یافته ها را به مدیران تجاری و کاربران، اغلب از طریق تجسم داده ها و استفاده از تکنیک های داستان سرایی داده، در میان بگذارد.







