مراحل داده کاوی چیست؟

داده کاوی معمولا توسط دانشمندان داده و سایر متخصصان BI ماهر در تجزیه و تحلیل انجام می شود. اما می‌تواند توسط تحلیلگران کسب‌وکار، مدیران اجرایی و کارگرانی که به‌عنوان دانشمند داده‌های شهروندی در یک سازمان کار می‌کنند، نیز انجام شود. عناصر اصلی آن شامل یادگیری ماشینی و تجزیه و تحلیل آماری، همراه با وظایف مدیریت داده ها برای آماده سازی داده ها برای تجزیه و تحلیل است. استفاده از الگوریتم‌های یادگیری ماشین و ابزارهای هوش مصنوعی (AI) بیشتر فرآیند را خودکار کرده و استخراج مجموعه‌های داده عظیم، مانند پایگاه‌های اطلاعاتی مشتریان، سوابق تراکنش‌ها و فایل‌های گزارش از سرورهای وب، اپلیکیشن‌های موبایل و حسگرها را آسان‌تر کرده است.

در ابتدا داده های مربوط به یک برنامه تحلیلی شناسایی و جمع آوری می شود. داده ها ممکن است در سیستم های منبع مختلف، یک انبار داده یا یک دریاچه داده، یک مخزن به طور فزاینده ای رایج در محیط های کلان داده که حاوی ترکیبی از داده های ساختاریافته و بدون ساختار است، واقع شوند. ممکن است از منابع داده خارجی نیز استفاده شود. داده‌ها از هر کجا که می‌آیند، یک دانشمند داده اغلب آن‌ها را برای مراحل باقی‌مانده در فرآیند به دریاچه داده منتقل می‌کند.

مرحله دوم داده‌کاوی، آماده‌سازی داده‌هاست که در آن اقداماتی انجام می‌شود.این مرحله شامل مجموعه ای از مراحل برای آماده سازی داده ها برای استخراج است. این کار با کاوش داده‌ها، پروفایل‌سازی و پیش‌پردازش آغاز می‌شود و پس از آن کار پاکسازی داده‌ها برای رفع خطاها و سایر مشکلات کیفیت داده‌ها انجام می‌شود. تبدیل داده ها همچنین برای سازگاری مجموعه داده ها انجام می شود، مگر اینکه یک دانشمند داده به دنبال تجزیه و تحلیل داده های خام فیلتر نشده برای یک برنامه خاص باشد.

در این مرحله سلسله فرآیند‌هایی صورت می پذیرد که باعث برطرف شدن مشکلات مختلف داده مسئله مورد بررسی، خواهد شد. به این ترتیب داده برای انجام فرایند یادگیری مدل،  پالایش شده و آماده می‌شود. 

هنگامی که داده ها آماده شدند، یک دانشمند داده تکنیک داده کاوی مناسب را انتخاب می کند و سپس یک یا چند الگوریتم را برای انجام استخراج پیاده سازی می کند. در برنامه‌های یادگیری ماشین، الگوریتم‌ها معمولاً باید بر روی مجموعه داده‌های نمونه آموزش داده شوند تا قبل از اجرای آن‌ها با مجموعه کامل داده‌ها، به دنبال اطلاعاتی باشند که به دنبال آن هستند.

پس از آماده‌سازی داده‌ها در فرآیند داده‌کاوی، داده آماده اعمال به مرحله یادگیری مدل است. در مرحله یادگیری مدل، نظم حاکم بر داده‌های پیش‌پردازش شده، با توجه به روش کاوش داده‌ای که انتخاب می‌شود، شناسایی شده و مدل تولید شده برای ارزیابی به مرحله بعد یعنی ارزیابی و تفسیر مدل منتقل خواهد شد.

سه روش پر کاربرد در داده کاوی، دسته بندی (Classification)، خوشه بندی (Clustering) و کاوش قوانین انجمنی (Association rules) است. انواع متنوعی از الگوریتم‌های مطرح یادگیری مدل، برای هر کدام از سه روش داده کاوی مذکور وجود دارند، که در ادامه روش دسته بندی تشریح خواهد شد.

در این مرحله دانش تولید شده در مرحله قبل ارزیابی شده و مورد تفسیر قرار می­گیرد. منظور از ارزیابی دانش آن است که می‌بایست میزان صحت دانش تولید شده  مشخص شود تا بتوان به آن اعتماد نمود و به صورت عملی از آن استفاده کرد. تفسیر مدل به معنای آن است که دانش تولید شده را مورد بررسی قرار داده و توجیهی معنایی جهت تبیین منطق آن ارائه نماییم.

نتایج داده کاوی برای ایجاد مدل های تحلیلی استفاده می شود که می تواند به تصمیم گیری و سایر اقدامات تجاری کمک کند. دانشمند داده یا یکی دیگر از اعضای یک تیم علم داده نیز باید یافته ها را به مدیران تجاری و کاربران، اغلب از طریق تجسم داده ها و استفاده از تکنیک های داستان سرایی داده، در میان بگذارد.

رمز عبورتان را فراموش کرده‌اید؟

ثبت کلمه عبور خود را فراموش کرده‌اید؟ لطفا شماره همراه یا آدرس ایمیل خودتان را وارد کنید. شما به زودی یک ایمیل یا اس ام اس برای ایجاد کلمه عبور جدید، دریافت خواهید کرد.

بازگشت به بخش ورود

کد دریافتی را وارد نمایید.

بازگشت به بخش ورود

تغییر کلمه عبور

تغییر کلمه عبور

حساب کاربری من

سفارشات

مشاهده سفارش