داده کاوی، عبارت است از مرتبسازی کلاندادهها برای یافتن الگوها و رابطهها با هدف حل مسائل. در واقع، در داده کاوی، با آنالیز کلاندادهها، به سوالات مختلف جواب میدهیم. ابزارهای داده کاوی، شرکتها را قادر میسازند، اتفاقات مهم آینده را تا حدودی پیشبینی کنند. بر خلاف علم آمار که دادهها در آن زیاد نیستند، در داده کاوی با حجم زیادی از دادهها روبرو هستیم. در این مقاله از فنولوژی، با بررسی بیشتر موضوع، به این سوال پاسخ میدهیم که داده کاوی چیست؟
تاریخچه داده کاوی
فرآیند بررسی دادهها برای استخراج اطلاعات ارزشمند و پیشبینی اتفاقات آینده بر اساس آن اطلاعات، تاریخ دور و درازی دارد. این فرآیند به کشف دانش (knowledge discovery) معروف بوده است. با این وجود، لغت data mining (داده کاوی) در دههی ۱۹۹۰ میلادی ساخته شد. در آمار، هوش مصنوعی و یادگیری ماشین، تاریخچه داده کاوی بسیار طولانی است. با پیشرفتهای مختلف در زمینههای سختافزارهای قدرتمند محاسباتی و توان بالقوهی کلاندادهها، مجددا دادهکاوی، به ترند این روزهای دنیای فناوری تبدیل شدهاست. خرده فروشان، بانکها، کارخانههای تولیدی، تامینکنندگان خدمات مخابراتی و بیمهها، همه و همه، از الگوریتم های دادهکاوی استفاده میکنند تا هر نوع ارتباطی را کشف نمایند؛ از بهینهسازی قیمت، تبلیغات و دادههای جمعیتی (demographics) گرفته تا تاثیرات اوضاع اقتصادی، ریسک، رقابت و شبکههای اجتماعی بر کسبوکارهای آنها.
علت اهمیت داده کاوی چیست؟
حجم دادههای تولیدشده در دنیا، هر دو سال یک بار، دو برابر میشود! اما، تولید بیشتر داده، الزاما به معنای تولید دانش بیشتر نیست. بیش از ۹۰ درصد دادههای تولید شده در دنیا، دادههای ساختارنیافته (unstructured data) هستند. این دادهها، پیش از آنکه پردازش شوند، ارزشی ندارند.
داده کاوی شما را قادر میسازد:
- تمام نویزها، هرجومرجها و دادههای تکراری را از بین ببرید.
- اطلاعات مورد علاقهی خود را از حجم عظیم دادهها، استخراج کنید.
- تصمیمگیری آگاهانه را سرعت ببخشید.
مراحل داده کاوی
مراحل داده کاوی عبارتند از:
- مراحل داده کاوی یک: استخراج و بارگذاری دادهها در یک مخزن داده (data warehouse)
- مراحل داده کاوی دو: ذخیره و مدیریت دادهها در یک دیتابیس چندوجهی (multidimensional database)
- مراحل داده کاوی سه: فراهمسازی دسترسی آنالیزورهای کسبوکارها به دادهها از طریق نرمافزارهای مختلف
- مراحل داده کاوی سه: تبدیل و نمایش دادههای خام به شکل اطلاعات قابل فهم مانند نمودارها
شرکتهای مختلف با جمعآوری دادهها و تبدیل آنها به اطلاعات ارزشمند، سعی دارند کسبوکار خود را توسعه دهند. برای مثال، شرکت والمارت (WalMart)، تمام اطلاعات کسبوکار خود را در یک مخزن داده ذخیرهسازی میکند و آنها را به وسیلهی الگوریتم های داده کاوی به اطلاعات ارزشمند تبدیل میکند. تامینکنندگان والمارت، به راحتی میتوانند به این اطلاعات دسترسی داشته باشند. اطلاعات ارزشمند والمارت، الگوی خرید مشتریان را در اختیار تامینکنندگان قرار میدهد. این الگوها شامل عادتهای خرید مشتریان، روزهای با بیشترین خرید، محصولات مورد علاقه مشتریان و … میشود.
تکنیک های داده کاوی چیست؟
۱-مدلسازی توصیفی (Descriptive Modeling)
این مدلسازی، وجوه تشابه دادهها را بررسی و کشف میکند و دادههای مشابه را در یک دسته قرار میدهد. برای مثال، از این روش می توان در گروهبندی مشتریان بر اساس علایق آنها، استفاده کرد. برخی از تکنیکهای مدلسازی توصیفی عبارتند از:
- خوشهبندی (clustering): گروهبندی رکوردهای مشابه با یکدیگر
- تشخیص ناهنجاری (Anomaly detection): شناسایی دادههای نامرتبط
- یادگیری قانون انجمن (Association rule learning): یافتن ارتباطات بین رکوردها
- آنالیز مؤلفههای اصلی (Principal component analysis): یافتن ارتباطات بین متغیرها
- گروهبندی بر اساس وابستگی (Affinity grouping): گروهبندی افراد بر اساس علایق و اهداف مشترک
۲-مدلسازی پیشگویانه (Predictive Modeling)
این نوع مدلسازی، عمیقتر است و میتوان با استفاده از آن وقایع آینده را پیشبینی کرد. برای مثال، بانک میتواند بر اساس دادههای موجود از مشتری، پیشبینی کند که اگر آن مشتری وامی بگیرد، میتواند در مدت زمان مشخص آن را پس دهد یا نه. برخی از تکنیکهای مدلسازی پیشگویانه عبارتند از:
- رگرسیون (Regression): سنجش قدرت رابطه بین یک متغیر وابسته و مجموعهای از متغیرهای مستقل
- شبکه عصبی (Neural Network): برنامههای کامپیوتری که الگوها را شناسایی میکنند، پیشبینی میکنند و یاد میگیرند.
- درخت تصمیمگیری (Decision tree): نمودارهای درختمانند که هر شاخهی آن یک اتفاق خاص را نمایندگی میکند.
- ماشینهای بردار پشتیبانی (Support vector machines): ترکیب الگوریتمهای یادگیری با ناظر و الگوریتمهای یادگیری
۳-مدلسازی تجزیهای (Prescriptive Modeling)
با افزایش دادههای ساختارنیافته متنی در صفحات وب، بخش کامنتها، کتابها، ایمیلها، فایلهای متنی و … ، متن کاوی که زیرشاخهی داده کاوی است، جدیتر شدهاست. برای استفاده از دادههای ساختارنیافته در مدلسازی پیشگویانه، نیازمندیم، ابتدا این دادهها را تجزیه و فیلتر کنیم.
داده کاوی را نباید به عنوان یک موضوع نامرتبط به مباحث دیگر دید؛ بلکه باید در کنار داده کاوی، از روشهای پیشپردازش (آمادهسازی داده / data preparation و جستجوی داده / data exploration) و روشهای پسپردازش (اعتبارسنجی مدل / model validation، امتیازدهی / scoring و نظارت بر نحوهی عملکرد مدل / model performance monitoring) استفاده کرد. مدلسازی تجزیهای کاربردهای فراوانی دارد؛ مانند کاربرد در سیستمهای توصیه (recommender systems). برخی از تکنیکهای مدلسازی تجزیهای عبارتند از:
- استخراج قوانین آنالیز پیشگویانه (Predictive analytics plus rules): استخراج قوانین if/then از الگوها
- بهینهسازی بازاریابی (Marketing optimization): انتخاب بهترین رسانهها با بالاترین نرخ بازگشت
منبع: SEARCHSQLSERVER / SAS