داده کاوی چیست : در سالهای اخیر بعضی تحقیقات بازاریابی در فروشگاههای آمریکا نشان داده اند مشتریانی که برای خرید شیر به فروشگاه میآیند معمولا نان هم خریداری میکنند. مدیران بسیاری از فروشگاهها پس از این اتفاق تصمیم گرفتند نان و شیر را با فاصله از هم قرار داده و بین این دو، کالاهای کم مصرف را بگذارند. با این روش، میزان فروش این کالاها افزایش یافت و به رونق آن فروشگاهها کمک زیادی کرد. داده اولیه در این تحقیقات نوع خریدهای مردم بوده و دانشی که این داده را قابل استفاده کرده، علم داده کاوی (Data Mining) است. در این مطلب قصد داریم شما را با این علم جادویی آشنا کنیم.
داده کاوی چیست؟
امروزه شرکتها از طریق ارائه خدمات و ارتباط مستمر با مشتری، اطلاعات زیادی به دست میآورند که اگر راه استفاده از این دادهها را بدانند، سود بسیاری خواهند برد. داده کاوی (Data Mining) به زبان ساده یک روش حل مسئله است که با تحلیل حجم زیادی از داده ها، الگوهای تکرارشونده ای را از آنها استخراج میکند. سپس با پیداکردن ارتباطات بین اتفاقات مختلف و این الگوها، راه حل هایی برای چالشها ارائه میدهد. در واقع دیتا ماینینگ از اطلاعاتی که ممکن است کاربردی نداشته باشند، نتایج ارزشمندی کشف کرده و آنها را قابل استفاده میکند.
دیتا ماینینگ علمی قوی است که میتواند در همه چیز سرک بکشد و از دل ندانستهها بسیاری از سوالات ما را جواب دهد. امروزه اهمیت این علم در شرکتهای بزرگ به قدری شناخته شده است که قبل از تصمیم گیری و برنامه ریزی برای انجام کمپینهای تخصصی و یا طراحی محصولات پر هزینه، ابتدا برای به دست آوردن دادههای عمومی اقدام میکنند.
پیشنهاد ویژه : پیشنهاد میکنیم به مقاله علم داده چیست مراجعه کنید.
اهمیت و کاربرد دیتا ماینینگ چیست؟
در دنیایی که اکثر ارتباطات از قید مکان و زمان رهایی پیدا کرده و همه چیز بر مبنای ارتباطات مجازی است، گرفتن اطلاعات از مشتریان نادیده نعمت بزرگی برای شرکتها خواهد بود. گرچه سازمانها برای حفظ ارتباط با مشتری و فروش تلاش میکنند، اما هنوز هم بسیاری از پرچمداران تکنولوژی دنیا توسط رقیبانشان به راحتی قابل دسترسی نیستند. ممکن است یکی از رازهای بزرگ این موفقیت، بهره مندی از دانش داده کاوی باشد. در بعضی از این شرکتها داده کاوی به قدری مهم و جا افتاده است که حتی اقدام به ایجاد کمپین هایی برای جمع آوری داده میکنند.
چندی پیش کمپینی با عنوان چالش 10 سال (10YearsChallenge) در شبکههای اجتماعی مانند اینستاگرام، توییتر و فیسبوک مطرح شد که طی آن، افراد تصاویری از وضعیت الان و 10 سال قبل خود را منتشر میکردند. این چالش با استقبال بسیار زیاد کاربران در سراسر دنیا مواجه شد و در رسانهها نیز جنجال به پا کرد. زیرا برخی منابعی که هنوز تایید یا رد نشده اند، این چالش را ترفند جدید مارک زاکربرگ برای تست الگوریتم تشخیص چهره فیسبوک دانستند. اگر این حرف درست باشد احتمالا زاکربرگ توانسته در بهینهترین حالت ممکن، حجم زیادی داده متنوع و جدید را جمع آوری کند.
در حقیقت سازمان هایی که از داده کاوی برای تحلیل رقبا و بازار استفاده میکنند قادر به پیش بینی ترندهای روز خواهند بود. از این رو در برنامههای آینده شرکت هم جهت با خواسته عموم پیش رفته و قبل از سایر رقبا توجه مشتریان را به خود جلب میکنند.
این حرف در زمینههای دیگر مانند علمی و سلامت، سیاسی و حتی در اقتصاد هم صدق میکند. دادهها در مسائلی مانند بررسی الگوهای شیوع ویروسها و اثرگذاری داروها، مشاهده بازخورد مردم در مقابل اقدامات سیاستمداران و حتی در تصمیمات بازار بورس نیز بسیار کاربرد دارند.
داده کاوی در هر زمینه ای که به آن نیاز است، میتواند کاربرد داشته باشد. امروزه دیتا ماینینگ در مواردی مانند:
سلامت عمومی: که در جهت گسترش فرهنگ بهداشت با کمترین هزینه، در مناطق مختلف جهان است.
تحقیقات بازار خرید مشتریان: این مبحث که به نوعی کاربرد داده کاوی در مدیریت است در پی شناسایی کالاهای مرتبط با سبد خرید مشتری است تا امکان خرید آنها را افزایش دهد.
آموزش: فعالیت این زمینه در جهت بهبود کیفیت سیستم آموزشی و هدایت صحیح دانش آموزان است.
ساخت و عمران: تلاش این حوزه در جهت تسهیل راه سازی و الگوهای بهینه شهری با توجه به افزایش جمعیت است.
مدیریت ارتباطات مشتریان (CRM) : هدف بهبود روابط مشتریان با شرکتها و افزایش بهره وری است.
جلوگیری از حملات الکترونیکی بانکی : به منظور شناسایی الگوریتمهای حمله مورد استفاده قرار میگیرد.
تحقیقات جنایی و جرم شناسی : از داده کاوی میتوان برای بررسی ارتباطات بین حوادث جنایی و... استفاده کرد.
و بسیاری حوزههای دیگر کاربرد دارد.
ارتباط کسبوکارهای آنلاین و داده کاوی چیست؟
یک شبکهی اجتماعی مانند اینستاگرام را در نظر بگیرید. کاربری یک تصویر در صفحهی خود منتشر میکند و با این کار باعث ایجاد یک داده جدید در این اپلیکیشن میشود. حال افراد دیگری که این شخص را دنبال کردهاند، آن تصویر را میبینند که هر بار دیده شدن این تصویر نیز یک دادهی جدید تولید میکند. لایک کردن و کامنت گذاشتن توسط کاربران مختلف نیز، باعث ایجاد دادهی جدید میشود. تصور کنید که همین فرایند ساده به طور روزانه در بسیاری از اپلیکیشنها انجام شده و تولید چندین ترابایت داده میکند.
هر چقدر که از لحاظ زمانی جلوتر میرویم تولید داده و سرعت و شتاب آن نیز بیشتر میشود و با افزایش آنها، پرسشی مطرح میشود که چگونه میتوان این دادهها را پردازش کرد. آیا به وسیلهی سیستمهای ذخیرهسازی و روشهایی که قبلاً در مورد مجموعه دادههای کوچکتر جواب میداد، میتوان این مجموعه دادههای بزرگتر را نیز پردازش کرد؟ پاسخ کوتاه این است: خیر.
هنگامی که سرعت تولید دادهها افزایش پیدا کرده و حجم آنها نیز بسیار بزرگتر میشود، روشهای سنتی مانند الگوریتمهای مرسوم، دیگر توانایی پردازش این حجم از دادهها را در زمان معقول ندارند. برای مثال، همان شبکهی اجتماعی اینستاگرام را تصور کنید که تعداد بسیار زیادی کاربر و عکس و لایک و کامنت در آن قرار دارند.
فرض کنید در این شبکهی اجتماعی بخواهیم از بین چند میلیون کاربر، دو نفر که علایقشان شبیه به هم هست را شناسایی کرده و به عنوان یک پیشنهاد، آنها را به هم معرفی کنیم تا همدیگر را دنبال کنند. با استفاده از یک الگوریتمِ عادی احتمالاً سالیان سال طول خواهد کشید تا بتوانیم این کار را انجام دهیم. چون پیچیدگیِ زمانیِ این مسئله «نمایی» است. ولی خبر خوب این است که برای توسعه چنین سیستمهایی، روشهای جدیدی به وجود آمدهاند که به روشها و تکنیکهای داده کاوی و یادگیری ماشین (Machine Learning)، معروف هستند.
تکنیکها و روشهای داده کاوی چیست؟
در این قسمت شما را به طور مقدماتی با قدمهای کلی در یک فرایند Data Mining آشنا میکنیم. به طور خلاصه میتوان گفت:
استخراج، انتقال و ذخیره دادهها در پایگاه دادههای چند بُعدی
دسترسی دادن به دادههای لایههای کسب وکار توسط نرم افزارهای داده کاوی
نمایش نتایج حاصل از تحلیل دادهها در فرم ساده مانند گراف یا نمودار
دیتایی که جهت پرداش و تحلیل جمع آوری می شود ممکن است شامل دادههای روزانه در تبادلات مردم، داده منطقی ذخیره شده در پایگاه دادهها و یا پیش بینیها و احتمالات باشد. فراموش نکنید که دادهها به مراحل پیش پردازش و پس پردازش نیز نیاز دارند. قدم بعدی انتخاب یک الگوریتم مناسب برای پیاده سازی مدل داده کاوی مورد نظر است. الگوریتمهای کلاس بندی (Classification)، خوشه بندی (Clustring) و یادگیری تقویتی (Reinforcement Learning) کاربرد زیادی در این حوزه دارند و برای یافتن ارتباط بین دادهها استفاده میشوند.
با استفاده از تکنیکهای داده کاوی، سرعت انجام محاسبات و فضای مورد نیاز در حافظه (RAM) بسیار بهبود پیدا میکند. تقریباً در هر جایی که مقداری داده وجود داشته باشد تکنیکهای داده کاوی نیز کاربرد دارند. از نمونه مثالهای کاربردی در حوزهی داده کاوی پیشنهاد یک محصول به خریداران یک فروشگاه اینترنتی است به گونهای که احتمال دهیم آنها این محصول را بیشتر از بقیهی محصولات دوست دارند و ممکن است آن را بخرند. در مجموع تکنیکهای داده کاوی را میتوان در یکی از این سه دسته و یا ترکیبی از آنها قرار داد که در ادامه به بررسی آنها میپردازیم.
طبقه بندی (Classification)
در این الگوریتم دادهها طبق ویژگیهای تعریف شده برچسب زده میشوند و در کلاسهای مختلف قرار میگیرند. الگوریتم میتواند مدل برچسب گذاری را یاد بگیرد و با استفاده از همین یادگیری هوشمند، نمونههای جدید را برچسب بزند. برای مثال، مدیر یک بانک را در نظر بگیرید که تعداد 1000 مشتری را در دو دستهی مشتری خوب و مشتری بد قرار میدهد. حالا الگوریتم با استفاده از این دادهها و تکنیکهای داده کاوی، ویژگیهای مشتری خوب را درک کرده و میتواند آن را از مشتریان بد تفکیک کند. این تفکیک نوعی یادگیری است که الگوریتم بعد از این یادگیری، میتواند مدلِ خود را بر روی دادههای جدید اعمال کرده و از این به بعد، به طور خودکار مشتری خوب و بد را شناسایی کند.
خوشه بندی (Clustering)
در این نوع یادگیری، الگوریتم توسط ذات دادهها به گروهبندیِ آنها میپردازد. برای مثال مشتریان یک فروشگاه اینترنتی را به گروههای مختلف تقسیم میکند که هر گروه، ویژگیهای شبیه به هم دارند. مثلاً ممکن است یک گروه، گروهی باشد که خریدهای کم ولی گرانقیمتی را انجام دهد و یا گروه دیگری را پیدا کند که خریدهای کوچک و پشت سر هم را در بازهی زمانی کمی را انجام دهند.
یادگیری تقویتی (Reinforcement Learning)
در این یادگیری، الگوریتم با تبادل اطلاعات و عملیات با محیط پیرامون، به کشف اطلاعات و یادگیری پیوسته اقدام میکند. برای مثال یک اتومبیل خودران را در نظر بگیرید که میخواهد از یک اتوبان به سلامتی عبور کند. این اتومبیل میتواند با شبیهسازی حرکت ماشینهای دیگر، با محیط تعامل برقرار کرده و یادگیریهایی را انجام دهد. این یادگیریها به مرور زمان بهبود پیدا میکنند تا اتومبیل یاد بگیرد با کمترین خطا، بتواند به سلامت از یک اتوبان عبور کند. به همین صورت، الگوریتمی را در نظر بگیرید که به صورت هوشمند و با تعامل با محیط و شبیهسازی آن، به طراحی فرمهای مختلف سبد خرید میپردازد تا بهترین طراحی را برای کاربر ایجاد کرده و در نتیجه، سود را تا حد امکان برای یک فروشگاه آنلاین اینترنتی بیشینه کند.
پیش نیازهای لازم برای یادگیری داده کاوی چیست؟
برای یادگیری داده کاوی و ورود به مباحث آن ابتدا بهتر است زبان انگلیسی خود را تقویت کنید تا بتوانید از منابع انگیسی استفاده کنید. زیرا منابع انگلیسی در این زمینه بسیار جامعتر از منابع فارسی هستند. داده کاوی نیاز به آشنایی با مباحثی چون ریاضیات و آمار، برنامه نویسی، مفاهیم و ارتباطات کسب و کار دارد.
مطالعه در زمینه هایی چون :
یادگیری ماشین (Machine Learning)
جبر خطی
تحلیل آماری
پایگاه داده و بازیابی اطلاعات
الگوریتمها و ساختار داده
هوش مصنوعی
توانایی حل مسئله
و کار با نرم افزارهایی مانند Weka ،RapidMiner و غیره برای شروع آموزش داده کاوی توصیه میشود. زبانهای برنامه نویسی R و Python در این زمینه بسیار جا افتاده هستند. زبان R از پشتیبانی قوی برخوردار است و در تحلیلهای سنگین به خوبی میتواند با جاوا (Java) و سی (C) همکاری کند.
زبان Python نیز کاربرد زیادی در حوزه داده کاوی و یادگیری ماشین دارد و به علت داشتن کتابخانهها و فریم ورکهای فراوان بین برنامه نویسان این حوزه محبوب است. پایتون برای پروژههای بزرگ نیز مناسب است و اگر با برنامه نویسی شی گرا آشنایی داشته باشید یادگرفتن پایتون برای شما راحتتر است. اگر با پایتون اشنایی چندانی ندارید سون لرن مطالبی در این زمینه آماده کرده است تا به خوبی با این زبان برنامه نویسی آشنا شوید.
طبق آمارها روزانه حدود 2 اگزابایت (ExaByte) یعنی چیزی حدود 1 میلیون ترابایت (TraByte) داده توسط افراد و موسسهها تولید میگردد. این حجم عظیم از دادهها باعث بروز مفهوم کلان دادهها (BigData) میشود که شرکتها را به استفاده از دانش داده کاوی ترغیب میکند. اگر به این حوزه علاقه دارید باید خود را برای مسیری طولانی و چالش برانگیز آماده کنید که روز به روز شاهد رشد بیشتر آن هستیم. بنابراین میتوان یکی از ضرورترین عوامل موفقیت برای کسب و کارهای مختلف را در آیندهای نزدیک، تصمیم گیری با استفاده از دادهها دانست. به نظر شما در دنیای امروز، مهمترین مزیت استفاده از داده کاوی چیست؟
اگر دوست داری به یک متخصص داده کاوی اطلاعات تبدیل بشی پیشنهاد میکنیم در دوره آموزش ماشین لرنینگ سون لرن شرکت کنی.
سلام وقتتون بخیر
من سایت زیاد دیدم و مطالبش رو خوندم اما هیچکدوم دیتا ماینینگ رو به روونی و سادگی شما توضیح نداده بودن
خیلی ممنونم ازتون
مطالبتون خیلی کمکم کرد
كاميار۲۳ بهمن ۱۳۹۸، ۱۵:۲۱
با سلام
من در يك شركت معاملات ملكي كار مي كنم كه همه چيز بر اساس فن اوري هست و در اين شركت بخش برنامه نويس و بخش مديريت بازاريابي و بخش فروش با همديگه همكاري نزديك دارند
در ضمن از سيستم خيلي كارامد مديريت مشتريان استفاده ميشه كه بيش از صد هزار نفر پايگاه داد از مشتريان قبلي و جاري و يا افرداي كن بصورت پويا د اين بازار جوياي فرصت هستند استفاده مي كنه
ما در اين بازار مي بايستي فرصتهاي سرمايه گذاري در زمان مناسب به توجه شخص جويا سرمايه گذاري برسونيم از انجايي كه اين مسير سرمايه گذاري طبيعتا يه شبه اتفاق نمي افته نياز به ارتباط مستمر جهت بوجود اوردن فرصت بود
من اخيرا متوجه شدم خيلي از فقتها فروشندها ما مواجه با اين جمله پشت تلفن مي شن كه شخص قبلا يا در اير افاخر خريد را انجام دادن حالا
مي خواستم ببينم ايا data mining مي تونيم اين فرصتها را اناليز و بتوجه فروشنده شركت بگذاريم كه تعدد معاملا بالا بره
من ايميل ادرسم kmoini@homeleaderrealty.com و شماره تماسم 4169704444
ممنون ميشم اگه كسي مي تونه كمكي بمن بكنه با من تماس بگيره
كاميار
حسین ملهم۲۱ مرداد ۱۳۹۸، ۱۳:۳۷
با درود فراوان
از ارسال این مقاله بسیار عالی در خصوص دیتاماینینگ سپاسگزارم.
در این مقاله نویسنده بسیار مسلط با نگارشی ساده اما، شیوا، مفهوم و کاربرد دیتاماینینگ را بیان میکند.
خواندن این مقاله را برای افرادی که قصد ورود به دنیای علوم داده دارند و در انتخاب شروع مسیر سردرگم هستند توصیه میکنم.
سپاس از نویسند مقاله
دستمریزاد
sabzevari۲۱ مرداد ۱۳۹۸، ۱۱:۰۵
با توجه به اهميت جايگاه Data Science مقالات بيشتري در سايت بارگذاري كنيد حتي به زبان انگليسي
حسام۲۱ مرداد ۱۳۹۸، ۰۸:۴۸
خوشحال میشم یه مقاله خوب و کاربردی در مورد داکر بزارید
شروع رایگان یادگیری برنامه نویسی
کلیک کنید 👇
دوره الفبای برنامه نویسی با هدف انتخاب زبان برنامه نویسی مناسب برای شما و پاسخگویی به سوالات متداول در شروع یادگیری موقتا رایگان شد: