داده کاوی / data mining

داده کاوی چیست؟ | تاریخچه داده کاوی | مراحل داده کاوی | تکینک های داده کاوی4 دقیقه مطالعه

هدیه فنولوژی به شما

داده کاوی، عبارت‌ است از مرتب‌سازی کلان‌داده‌ها برای یافتن الگوها و رابطه‌ها با هدف حل مسائل. در واقع، در داده کاوی، با آنالیز کلان‌داده‌ها، به سوالات مختلف جواب می‌دهیم. ابزارهای داده کاوی، شرکت‌ها را قادر می‌سازند، اتفاقات مهم آینده‌ را تا حدودی پیش‌بینی کنند. بر خلاف علم آمار که داده‌ها در آن زیاد نیستند، در داده کاوی با حجم زیادی از داده‌ها روبرو هستیم. در این مقاله از فنولوژی، با بررسی بیشتر موضوع، به این سوال پاسخ می‌دهیم که داده کاوی چیست؟

تاریخچه داده کاوی

فرآیند بررسی داده‌ها برای استخراج اطلاعات ارزشمند و پیش‌بینی اتفاقات آینده بر اساس آن اطلاعات، تاریخ دور و درازی دارد. این فرآیند به کشف دانش (knowledge discovery) معروف بوده است. با این وجود، لغت data mining (داده کاوی) در دهه‌ی ۱۹۹۰ میلادی ساخته شد. در آمار، هوش مصنوعی و یادگیری ماشین، تاریخچه داده کاوی بسیار طولانی است. با پیشرفت‌های مختلف در زمینه‌های سخت‌افزارهای قدرتمند محاسباتی و توان بالقوه‌ی کلان‌داده‌ها، مجددا داده‌کاوی، به ترند این روزهای دنیای فناوری تبدیل شده‌است. خرده فروشان، بانک‌ها، کارخانه‌های تولیدی، تامین‌کنندگان خدمات مخابراتی و بیمه‌ها، همه و همه، از الگوریتم های داده‌کاوی استفاده می‌کنند تا هر نوع ارتباطی را کشف نمایند؛ از بهینه‌سازی قیمت، تبلیغات و داده‌های جمعیتی (demographics) گرفته تا تاثیرات اوضاع اقتصادی، ریسک، رقابت و شبکه‌های اجتماعی بر کسب‌وکارهای آن‌ها.

داده کاوی / data mining

علت اهمیت داده کاوی چیست؟

حجم داده‌های تولیدشده در دنیا، هر دو سال یک‌ بار، دو برابر می‌شود! اما، تولید بیشتر داده، الزاما به معنای تولید دانش بیشتر نیست.  بیش از ۹۰ درصد داده‌های تولید شده در دنیا، داده‌های ساختارنیافته (unstructured data) هستند. این داده‌ها، پیش از آن‌که پردازش شوند، ارزشی ندارند.

داده کاوی شما را قادر می‌سازد:

  • تمام نویزها، هرج‌ومرج‌ها و داده‌های تکراری را از بین ببرید.
  • اطلاعات مورد علاقه‌ی خود را از حجم عظیم داده‌ها، استخراج کنید.
  • تصمیم‌گیری آگاهانه را سرعت ببخشید.

مراحل داده کاوی

مراحل داده کاوی عبارتند از:

  • مراحل داده کاوی یک: استخراج و بارگذاری داده‌ها در یک مخزن داده (data warehouse)
  • مراحل داده کاوی دو: ذخیره و مدیریت داده‌ها در یک دیتابیس چندوجهی (multidimensional database)
  • مراحل داده کاوی سه: فراهم‌سازی دسترسی آنالیزورهای کسب‌وکارها به داده‌ها از طریق نرم‌افزارهای مختلف
  • مراحل داده کاوی سه: تبدیل و نمایش داده‌های خام به شکل اطلاعات قابل فهم مانند نمودارها 

شرکت‌های مختلف با جمع‌آوری داده‌ها و تبدیل آن‌ها به اطلاعات ارزشمند، سعی دارند کسب‌وکار خود را توسعه دهند. برای مثال، شرکت والمارت (WalMart)،‌ تمام اطلاعات کسب‌وکار خود را در یک مخزن داده ذخیره‌سازی می‌کند و آن‌ها را به وسیله‌ی الگوریتم‌ های داده کاوی به اطلاعات ارزشمند تبدیل می‌کند. تامین‌کنندگان والمارت، به راحتی می‌توانند به این اطلاعات دسترسی داشته‌ باشند. اطلاعات ارزشمند والمارت، الگوی خرید مشتریان را در اختیار تامین‌کنندگان قرار می‌دهد. این الگوها شامل عادت‌های خرید مشتریان،‌ روزهای با بیشترین خرید، محصولات مورد علاقه مشتریان و … می‌شود.

داده کاوی / data mining

تکنیک های داده کاوی چیست؟

۱-مدل‌سازی توصیفی (Descriptive Modeling)

این مدل‌سازی، وجوه تشابه داده‌ها را بررسی و کشف می‌کند و داده‌های مشابه را در یک دسته قرار می‌دهد. برای مثال، از این روش می توان در گروه‌بندی مشتریان بر اساس علایق آن‌ها، استفاده کرد. برخی از تکنیک‌های مدل‌سازی توصیفی عبارتند از:

  • خوشه‌بندی (clustering): گروه‌بندی رکوردهای مشابه با یکدیگر
  • تشخیص ناهنجاری (Anomaly detection):‌ شناسایی داده‌های نامرتبط
  • یادگیری قانون انجمن (Association rule learning): یافتن ارتباطات بین رکوردها
  • آنالیز مؤلفه‌های اصلی‌ (Principal component analysis): یافتن ارتباطات بین متغیر‌ها
  • گروه‌بندی بر اساس وابستگی (Affinity grouping): گروه‌بندی افراد بر اساس علایق و اهداف مشترک

آموزش پایتون

۲-مدل‌سازی پیش‌گویانه (Predictive Modeling)

این نوع مدل‌سازی، عمیق‌تر است و می‌توان با استفاده از آن وقایع آینده‌ را پیش‌بینی کرد. برای مثال، بانک می‌تواند بر اساس داد‌ه‌های موجود از مشتری، پیش‌بینی کند که اگر آن مشتری وامی بگیرد، می‌تواند در مدت زمان مشخص آن را پس دهد یا نه. برخی از تکنیک‌های مدل‌سازی پیش‌گویانه عبارتند از:

  • رگرسیون (Regression):‌ سنجش قدرت رابطه بین یک متغیر وابسته و مجموعه‌ای از متغیرهای مستقل
  • شبکه عصبی (Neural Network):‌ برنامه‌های کامپیوتری که الگوها را شناسایی می‌کنند، پیش‌بینی می‌کنند و یاد می‌گیرند.
  • درخت تصمیم‌گیری (Decision tree): نمودارهای درخت‌مانند که هر شاخه‌ی آن یک اتفاق خاص را نمایندگی می‌کند.
  • ماشین‌های بردار پشتیبانی (Support vector machines): ترکیب الگوریتم‌های یادگیری با ناظر و الگوریتم‌های یادگیری

۳-مدل‌سازی تجزیه‌ای (Prescriptive Modeling)

با افزایش داده‌های ساختارنیافته متنی در صفحات وب، بخش کامنت‌ها، کتاب‌ها، ایمیل‌ها، فایل‌های متنی و … ، متن کاوی که زیرشاخه‌ی داده کاوی است، جدی‌تر شده‌است. برای استفاده از داده‌های ساختارنیافته در مدل‌سازی پیش‌گویانه، نیازمندیم، ابتدا این داده‌ها را تجزیه و فیلتر کنیم.

شبکه عصبی / neural network

داده کاوی را نباید به عنوان یک موضوع نامرتبط به مباحث دیگر دید؛ بلکه باید در کنار داده کاوی، از روش‌های پیش‌پردازش (آماده‌سازی داده / data preparation و جستجوی داده / data exploration) و روش‌های پس‌پردازش (اعتبارسنجی مدل / model validation، امتیازدهی / scoring و نظارت بر نحوه‌ی عملکرد مدل / model performance monitoring) استفاده کرد. مدل‌سازی تجزیه‌ای کاربردهای فراوانی دارد؛ مانند کاربرد در سیستم‌های توصیه (recommender systems). برخی از تکنیک‌های مدل‌سازی تجزیه‌ای عبارتند از:

  • استخراج قوانین آنالیز پیش‌گویانه (Predictive analytics plus rules): استخراج قوانین if/then از الگوها
  • بهینه‌سازی بازاریابی (Marketing optimization):‌ انتخاب بهترین رسانه‌ها با بالاترین نرخ بازگشت

منبع:‌ SEARCHSQLSERVER / SAS

علیرضا کریمی
علیرضا کریمی
دانشجوی مهندسی کامپیوتر دانشگاه امیرکبیر - بنیان‌گذار فنولوژی
از یادگیری تا استخدام با دوره‌های متخصص سون‌لرن
عضویت
اطلاع از
0 دیدگاه‌ها
بازخورد در متن
دیدن همه دیدگاه‌ها

فنولوژی را در شبکه‌های اجتماعی دنبال کنید

©۲۰۲۰ – کلیه حقوق مادی و معنوی متعلق به فنولوژی است.