با ورود جهان به عصر دادههای بزرگ یا همان بیگ دیتا، نیاز به ذخیره سازی داده نیز افزایش یافت. این موضوع تا سال 2010 چالشی بزرگ و نگرانی اصلی برای صنایع سازمانی بود. هر چند در گذشته تمرکز اصلی بر ایجاد چارچوب و فریمورکهایی برای ذخیره داده بود اما اکنون که اسپارک (Spark)، هدوپ (Hadoop) و سایر فریم ورکها با موفقیت مشکل ذخیره سازی را حل کردهاند، تمرکز روی پردازش این دادهها معطوف شده است. اینجاست که به سراغ علم داده میرویم. علم داده آینده هوش مصنوعی است. تمام ایدههایی که در فیلمهای علمی تخیلی میبینید میتوانند توسط علم داده به واقعیت تبدیل شوند. بنابراین، بسیار مهم است که بدانید علم داده چیست و چگونه میتواند به کسب و کار شما ارزش اضافه کند. با خواندن این مقاله، میتوانید نقش علم داده را در استخراج مفاهیم معنادار از مجموعههای پیچیده و بزرگ دادههای اطراف خود بهتر درک کنید. در حقیقت این مقاله یک راهنمای جامع علم داده است: میخواهیم بررسی کنیم که علم داده چیست و چگونه میتوانید در این زمینه مشغول به کار شوید. برای کار در این حوزه بهتر است که ابتدا به سراغ آموزش مقدماتی پایتون بروید و سپس براساس کسب و کار خود از مطالب دوره علم داده استفاده کنید.
اگر راجع به زبان برنامه نویسی پایتون اطلاعاتی ندارید پیشنهاد میکنیم به مقاله پایتون چیست مراجعه کنید.
علم داده یا دیتا ساینس چیست؟
علم داده یا دیتا ساینس (data science) ترکیبی از ابزارها، الگوریتمها و اصول یادگیری ماشین مختلف با هدف کشف الگوهای پنهان از دادههای خام است و با داده کاوی رابطه تنگاتنگی دارد. اما تفاوت این کار با آنچه که متخصصان آمار سالهاست در حال انجامش هستند، در چیست؟ پاسخ در تفاوت بین توضیح و پیش بینی نهفته است. همانطور که در تصویر بالا میبینید، یک تحلیلگر داده آماری (data analyst) اغلب با پردازش دادهها توضیح میدهد که چه اتفاقی میافتد. اما یک متخصص یا دانشمند علم داده (data scientist) نه تنها تجزیه و تحلیلهای لازم را برای کشف مفهوم انجام میدهد، بلکه از الگوریتمهای مختلف یادگیری ماشین پیشرفته برای شناسایی وقوع یک رویداد خاص در آینده استفاده میکند. در اصل یک دانشمند داده از زوایای بسیاری به دادهها نگاه میکند، گاهی اوقات زوایایی که قبلا شناخته نشده بودند. بنابراین، علم داده در درجه اول حجم زیاد داده را پردازش کرده و درک میکند که سیستم چه رفتاری دارد، سپس برای تصمیم گیری و پیش بینی از تجزیه و تحلیلهای انجام شده و یادگیری ماشین استفاده میکند.
مفاهیم مرتبط با علم داده چیست؟
بیایید ببینیم که چگونه نسبت رویکردهای نمایش داده شده در بخش قبل برای تجزیه و تحلیل داده و علم داده متفاوت است. علم داده (data science) از چهار مفهوم زیر برای تصمیمگیری و پیش بینی آینده استفاده میکند:
تحلیلهای علت و معلولی پیش بینی کننده (Predictive causal analytics)
تجزیه و تحلیل تجویزی (Prescriptive analytics)
پیشبینی با استفاده از یادگیری ماشین (Machine learning for making predictions)
کشف الگو با استفاده از یادگیری ماشین (Machine learning for pattern discovery)
در ادامه هر یک از این چهار مفهوم را بیشتر توضیح میدهیم.
تحلیلهای علت و معلولی پیش بینی کننده (Predictive causal analytics)
اگر مدلی میخواهید که بتواند احتمالات یک رویداد خاص را در آینده پیشبینی کند، بهتر است که از تحلیلهای علت و معلولی پیش بینی کننده استفاده کنید. برای مثال فرض کنید که یک موسسه مالی دارید که پول را به صورت اعتباری ارائه میکند. در این حالت ممکن است اینکه آیا مشتریان به موقع پرداختهای اعتباری خود را در آینده را انجام میدهند یا خیر برای شما نگران کننده باشد. در اینجا میتوانید مدلی بسازید که میتواند تحلیلهای پیش بینی کننده را روی تاریخچه پرداختهای یک مشتری انجام دهد تا پیش بینی کند که آیا پرداختهای آینده به موقع انجام میشوند یا خیر.
تجزیه و تحلیل تجویزی (Prescriptive analytics)
اگر مدلی میخواهید که هوشمندی لازم برای تصمیم گیری خود را داشته و توانایی اصلاح آن را با پارامترهای پویا داشته باشد، مطمئنا به تجزیه و تحلیل تجویزی برای آن نیاز دارید. این زمینه نسبتا جدید است و نه تنها پیش بینی میکند، بلکه مجموعهای از اقدامات مورد نیاز و نتایج مرتبط را پیشنهاد میدهد. بهترین مثال برای این مدل، خودروی هوشمند گوگل است که در سالهای اخیر فراگیر شده است. دادههای جمع آوری شده توسط وسایل نقلیه میتواند برای آموزش این خودروهای هوشمند استفاده شود و تصمیماتی مانند زمان پیچیدن، اینکه کدام مسیر دارای امنیت بیشتر و یا زمان رسیدن به مقصد کمتری است، زمان کاهش سرعت یا افزایش سرعت و ... را بگیرد.
پیش بینی با استفاده از یادگیری ماشین (Machine learning for making predictions)
اگر دادههای معاملاتی بورس را در اختیار داشته و نیاز به ساخت مدلی برای تعیین روند آینده دارید، الگوریتمهای یادگیری ماشین بهترین گزینه هستند. به این کار یادگیری نظارت شده گفته میشود: زیرا شما از قبل داده هایی را دارید که بر اساس آن میتوانید سیستم خود را آموزش دهید. به عنوان مثال، یک مدل کشف تقلب در سیستم آموزشی را میتوان با استفاده از سابقه تاریخی برگههای امتحان تقلبی آموزش داد.
کشف الگو با استفاده از یادگیری ماشین (Machine learning for pattern discovery)
اگر پارامترهایی را ندارید که بر اساس آن بتوانید پیشبینی کنید، باید الگوهای پنهان در مجموعه داده را پیدا کنید تا بتوانید پیشبینیهای معناداری انجام دهید. به این کار یادگیری بدون نظارت گفته میشود: زیرا شما هیچ برچسب از پیش تعریف شده ای برای گروه بندی ندارید. رایجترین الگوریتم مورد استفاده برای کشف الگو، خوشه بندی است. فرض کنید در یک شرکت تلفن کار میکنید و باید با قرار دادن دکل در یک منطقه یک شبکه مخابراتی ایجاد کنید. بر این اساس میتوانید از تکنیک خوشهبندی برای یافتن مکانهای برج استفاده کنید تا اطمینان حاصل شود که همه کاربران قدرت سیگنال بهینه را دریافت میکنند.
چرخه حیات علم داده
علم داده را میتوان دارای یک چرخه حیات پنج مرحله ای زیر در نظر گرفت:
جمع آوری (Capture): متخصصان دادههای خام و بدون ساختار را جمع آوری میکنند. این مرحله اغلب شامل جمع آوری و دریافت داده، دریافت سیگنال و یا استخراج داده است.
نگهداری (Maintain): دادهها در فرمی قرار میگیرند که بتوان از آن استفاده کرد. مرحله نگهداری شامل ذخیره سازی داده ها، پاکسازی داده ها، مرحله بندی داده ها، پردازش دادهها و معماری دادهها است.
پردازش (Process): دادهها از نظر الگوها و سوگیریها بررسی میشوند تا ببینیم چگونه به عنوان یک ابزار تحلیل پیشبینی کار میکنند. مرحله پردازش شامل داده کاوی، خوشه بندی و طبقه بندی، مدل سازی دادهها و خلاصه سازی دادهها است.
تجزیه و تحلیل (Analyze): چندین نوع تجزیه و تحلیل بر روی دادهها انجام میشود. مرحله تجزیه و تحلیل شامل گزارش داده ها، تجسم داده ها، هوش تجاری و تصمیم گیری است.
ارتباط (Communicate): دانشمندان داده و تحلیلگران، دادهها را از طریق گزارشها و نمودارها به نمایش میگذارند. این مرحله شامل تجزیه و تحلیل اکتشافی و تاییدی، تحلیل پیش بینی، رگرسیون، متن کاوی و تحلیل کیفی است.
چرا علم داده مهم است؟
با علم داده میتوانید نیازهای دقیق مشتریان خود را از دادههای موجود مانند سابقه خرید، سن و درآمد بهتر درک کنید. بدون شک شما قبلا هم این دادهها را داشتید، اما اکنون با حجم زیاد و تنوع دادهها و استفاده از علم داده، میتوانید مدلها را به طور موثرتری آموزش دهید و محصول را با دقت بیشتری به مشتریان خود توصیه کنید. برخلاف گذشته که داده ها در سیستمهای سنتی یک ساختار مشخص داشتند، امروزه بیشتر داده ها بدون ساختار یا نیمه ساختار یافته هستند. این دادهها از منابع مختلفی مانند گزارشهای مالی، فایلهای متنی، فرمهای چند رسانه ای، حسگرها و ابزارهای مشابه با آنها به دست میآیند. ابزارهای ساده قادر به پردازش این حجم عظیم و تنوع داده نیستند. به همین دلیل است که به علم داده و ابزارها و الگوریتمهای تحلیلی پیچیدهتر و پیشرفتهتری برای پردازش، تجزیه و تحلیل و استخراج مفاهیم معنادار از داده نیاز دارید. برای مثال در حوزه پیش بینی آب و هوا، از دادههای کشتی ها، هواپیماها، رادارها، ماهوارهها میتوان برای ساخت مدل و تجزیه و تحلیل استفاده کرد. علم داده نه تنها آب و هوا بلکه به پیش بینی وقوع زلزله یا سیل نیز کمک میکنند. این به شما کمک میکند تا اقدامات مناسب را از قبل انجام دهید و زندگیهای ارزشمند بسیاری را نجات دهید. در اینفوگرافیک زیر همه حوزههایی مشخص شده است که دیتا ساینس در آنها تأثیر میگذارد:
کاربرد علم داده چیست؟
علم داده به ما کمک میکند تا به برخی از اهداف اصلی دست یابیم که تا چند سال پیش ممکن نبودند یا به زمان و انرژی زیادی نیاز داشتند، مانند:
تشخیص ناهنجاری (کلاهبرداری، بیماری و جرم)
طبقه بندی (مانند سیستم جیمیل که ایمیلها را با استفاده از تگهایی مانند "مهم" دسته بندی میکند)
پیش بینی (فروش، درآمد و حفظ مشتری)
تشخیص الگو (الگوهای آب و هوا، الگوهای بازار مالی)
تشخیص چهره، صدا و متن
توصیه (بر اساس ترجیحات آموخته شده، موتورهای توصیه میتوانند به شما کالا، فیلم، رستوران، کتاب و... معرفی کنند)
رگرسیون (پیشبینی زمان تحویل غذا، پیشبینی قیمت خانه بر اساس امکانات رفاهی)
بهینه سازی (زمان بندی برای خرید بستههای اشتراکی، سفارش و تحویل بسته و...)
در ادامه چند مثال عمیقتر از دنیای اطراف آورده شده است تا با چگونگی استفاده کسب و کارها از علم داده برای نوآوری و رفع اختلال در بخشهای مختلف خود، ایجاد محصولات جدید و کارآمدتر شدن بهتر آشنا شوید:
کاربرد علم داده در بهداشت و درمان
علم داده منجر به پیشرفتهای متعددی در صنعت مراقبتهای بهداشتی شده است. با شبکه گسترده ای از دادهها - از پایگاه دادههای بالینی گرفته تا سیستمهای رژیم غذایی که به صورت آنلاین در دسترس هستند - متخصصان علوم پزشکی راههای جدیدی برای پیشگیری یا تشخیص بیماری و کشف گزینههای درمانی جدید پیدا میکنند. برای آشنایی بیشتر میتوانید مقاله معرفی کاربردهای علم داده در پزشکی را مطالعه کنید.
کاربرد علم داده در سرگرمی
آیا تا به حال از خود پرسیده اید که اسپاتیفای (Spotify) چگونه آهنگ مناسبی را توصیه میکند؟ یا چگونه نتفلیکس میداند که چه چیزهایی را دوست دارید ببینید؟ با استفاده از علم داده، این غولهای پخش رسانه ترجیحات شما را یاد میگیرند تا با دقت از میان محتوای وسیع خود بر اساس علایق شما آنچه را که برایتان جذاب است، توصیه کنند.
کاربرد علم داده در زنجیره تامین
در حوزه صنایع با استفاده از علم داده میتوان وظایف اصلی مانند بهینه سازی، یکپارچه سازی و بهبود انسان و مواد تجهیزات را با سرعت و کیفیت بهتری انجام داد. بسیاری از صنایع برای ساخت مدلهای پیشبینی سری زمانی که به مدیریت موجودی و بهینه سازی زنجیره تامین کمک میکنند، به دانشمندان داده تکیه میکنند. برخی حتی از داده کاوی برای تقسیم بندی منابع بر اساس الگوی مصرف استفاده میکنند و استراتژیهای بازاریابی آینده را طوری تنظیم میکنند که بر اساس تعاملات قبلی به صرفه و کارآمد باشد.
کاربرد علم داده در بازارهای مالی
یادگیری ماشین و علم داده میلیونها دلار در صنعت مالی صرفهجویی کرده است. به لطف علم داده، کاری که حدود صدها هزار ساعت کار دستی طول میکشد، اکنون در چند ساعت به پایان میرسد. علاوه بر این، در حال حاضر شرکتهای مالی مانند پی پال (PayPal) در علم داده سرمایهگذاری کرده تا ابزارهای یادگیری ماشینی را توسعه دهند که بتوانند به سرعت فعالیتهای تقلبی را شناسایی کرده و از آنها جلوگیری کنند.
تفاوت هوش تجاری با علم داده
هوش تجاری (BI) دادههای قبلی را تجزیه و تحلیل میکند تا آینده نگری و بینشی برای توصیف روندهای تجاری پیدا کند. در حقیقت هوش تجاری به شما این امکان را میدهد دادهها را از منابع خارجی و داخلی بگیرید، آنها را آماده کنید، درخواستهایی را روی آن اجرا کنید و داشبوردهایی برای پاسخ به سؤالاتی مانند تجزیه و تحلیل درآمد فصلی یا مشکلات تجاری ایجاد کنید. هوش تجاری میتواند تأثیر رویدادهای خاص را در آینده نزدیک ارزیابی کند. اما در مقابل علم داده یک رویکرد آینده نگرتر است، یک روش اکتشافی با تمرکز بر تجزیه و تحلیل دادههای گذشته یا فعلی و پیش بینی نتایج آینده با هدف تصمیم گیری آگاهانه. علم داده به سؤالات باز درباره «چیستی» و «چگونگی» رویدادها پاسخ میدهد. بیایید نگاهی به برخی از تفاوتهای میان این دو مفهوم بیندازیم:
امکانات
هوش تجاری
علم داده
منابع اطلاعات
ساختار یافته (اغلب SQL)
هم ساختار یافته و هم بدون ساختار (دادههای ابری، SQL، NoSQL، متن و...)
رویکرد
آماری و تجسمی
آماری، یادگیری ماشین، تجزیه و تحلیل نمودارها، پردازش زبان طبیعی (NLP)
متمرکز بر
گذشته و حال
حال و آینده
ابزار
Microsoft BI، QlikView، R
RapidMiner، BigML، Weka، R
دانشمند داده کیست؟
یک دانشمند داده فردی است که در فرآیند جمعآوری، سازماندهی و تجزیه و تحلیل دادهها تخصص دارد تا اطلاعات موجود در آنها به عنوان یک مفهوم واضح و با راهکارهای عملی قابل انتقال باشد. به عنوان یک قاعده کلی، دانشمندان داده در تشخیص الگوهای پنهان در حجم زیادی از داده ماهر هستند و اغلب از الگوریتمهای پیشرفته و پیاده سازی مدلهای یادگیری ماشین برای کمک به کسب و کارها و سازمانها در ارزیابی و پیش بینی دقیق استفاده میکنند. دانشمند داده معمولی دانش عمیقی از ریاضی و آمار و همچنین تجربه استفاده از زبانهای برنامه نویسی مانند R، Python و SQL دارد که در بخشهای بعدی مقاله درمورد آنها صحبت میکنیم.
سایر مشاغل علم داده
علم داده شامل چندین رشته برای ایجاد نگاهی جامع، کامل و فیلتر شده به دادههای خام است. در حالی که برخی از دانشمندان داده در حوزههای جزئیتر این حوزه تخصص دارند، برخی دیگر کلیگرا هستند و مهارتهایی دارند که همه چیز را اعم از مهندسی داده، ریاضی، آمار، محاسبات پیشرفته و تجسمسازی را در بر میگیرد. این افراد قادر هستند تا به طور موثر تودههای درهم اطلاعات را غربال کنند و فقط حیاتیترین اطلاعات را به هم منتقل کنند. اطلاعاتی که به نوآوری و کارایی بهتر کمک میکنند. دانشمندان داده اغلب به شدت به هوش مصنوعی ، به ویژه زیرشاخههای یادگیری ماشین ویادگیری عمیق، برای ایجاد مدلها و پیش بینی با استفاده از الگوریتمها و تکنیکهای دیگر، تکیه میکنند. مشاغل علم داده عبارتند از:
دانشمند داده: جمع آوری، تجزیه و تحلیل و تجسم دادهها را انجام میدهد. گاهی اوقات مدلهای یادگیری ماشین را نیز میسازد.
تحلیلگر داده: مسئول جمع آوری، تمیز کردن، تجزیه و تحلیل و گزارش دادهها است. گاهی اوقات تجزیه و تحلیل داده وب را نیز ردیابی میکند.
تحلیلگر کسب و کار: از دادهها برای ایجاد بینش تجاری برای بهره وری در بخشهای مختلف سازمان استفاده میکند.
مهندس داده: خطوط انتقال داده را طراحی، ایجاد و نگهداری میکند. همچنین آزمایش اکوسیستمهای مختلف برای اجرای الگوریتمها را بر عهده دارد.
مهندس یادگیری ماشین: سیستمهای یادگیری ماشین را طراحی کرده و توسعه میدهد.
مهارتهای مورد نیاز علم داده
هیچ پاسخ یکسانی برای این سوال وجود ندارد که یک دانشمند داده دقیقا چه کاری را انجام میدهد. مهارتها و ابزارهای دقیقی که متخصصان علوم داده به آن نیاز دارند، از نقشی به نقش دیگر متفاوت است. با این حال برخی از مهارتهای عمومی وجود دارند که افراد مشتاق و حرفهای علوم داده برای موفقیت، بهتر است با آنها آشنا باشند. این مهارتها شامل موارد زیر است:
برنامه نویسی: با استفاده از زبانهای برنامه نویسی مانند پایتون و R.
مدیریت پایگاه داده: یادگیری و استفاده از SQL، MySQL و... برای برقراری ارتباط با پایگاههای داده.
آمار: داشتن علم کافی در مورد چگونگی تجزیه و تحلیل دادهها برای حل مشکلات.
علاوه بر این، دانشمندان داده موفق اغلب دارای چند مهارت نرم کلیدی هستند. از جمله:
کنجکاوی: متمرکز بر کشف مشکلات و همیشه در حال یادگیری چیزهای جدید.
تحلیل قوی: توانایی کشف مفاهیم جدید با استفاده داده ها.
ارتباط: همکاری راحت با دیگران و داشتن توانایی حل مشکلات به صورت گروهی.
البته، مهارتها و تکنیکهای دیگری نیز وجود دارد که دانشمندان داده اگر بخواهند وارد حوزههای تخصصیتری در علم داده شوند، باید آنها را بیاموزند: مانند یادگیری عمیق (deep learning)، شبکههای عصبی (neural network) و پردازش زبان طبیعی یا NLP (natural language processing). برای آشنایی بیشتر میتوانید مقاله چگونه متخصص علم داده شویم را مطالعه کنید.
بازار کار و درآمد علم داده
چه در ایران و چه در خارج از کشور، در حوزه دیتا ساینس یا علم داده حقوقهای بالاتر از حد متوسط و گزینههای شغلی متنوعی وجو دارد. فرقی نمیکند که بخواهید با یک مدرک تحصیلی در رشته کامپیوتر را در علم داده دنبال کنید یا به دنبال تغییر شغل از طریق یک دوره آنلاین برنامه نویسی باشید؛ در صورتی که توانایی تجزیه و تحلیل و کار با دادهها را داشته باشید، شغل علم داده میتواند برای شما مناسب باشد. علم داده میتواند در کسب و کارهای مختلف به کار گرفته شود و از سوی دیگر، تعداد مشاغلی که به صورت مستقیم با علم داده مرتبط هستند روز به روز در حال افزایش است.
میزان درآمد دیتاساینس در ایران
باید توجه داشته باشید که هنوز در ایران منبع مشخصی برای اعلام میزان درآمد حوزه علم داده وجود ندارد. اما با بررسی در سایتهای کاریابی و اعلام درآمد توسط خود توسعه دهندگان، میتوان این طور نتیجه گرفت که یک دانشمند داده میتواند ماهانه حداقل 7 و حداکثر بالای 20 میلیون تومان (در زمان نگارش این مقاله – براساس شرح وظایف و میزان مهارت ممکن است حتی بیشتر هم شود)، درآمد داشته باشد.
میزان درآمد دیتاساینس در خارج از ایران
بسته به میزان تجربه، یک فعال حوزه علم داده میتواند حداقل ساعتی 84 دلار و حتی بیشتر، درآمد داشته باشد. این مقدار میتواند بسته به زمینهی کاری، تلاش، حرفهای بودن و حجم دادهی شما کمتر یا بیشتر باشد؛ به گونهای که درآمد بسیاری از متخصصان در آمریکا به تحلیل و پیش بینی با استفاده از علم داده مشغول هستند، بالای 100000 دلار تخمین زده میشود.
جمع بندی
در این مقاله درمورد این صحبت کردیم که علم داده چیست و چگونه میتوان از آن در زمینههای مختلف استفاده کرد. حوزه علم داده به سرعت در حال رشد است و بسیاری از صنایع را متحول میکند. علم داده مزایای غیر قابل تصوری در تجارت، تحقیقات و زندگی روزمره ما دارد. مسیر شما تا رسیدن به محل کار، آخرین درخواست موتور جستجوی شما برای نزدیکترین کافی شاپ، پست اینستاگرام شما در مورد آنچه خوردهاید و حتی دادههای سلامتی از ردیاب سلامت شخصی شما، همگی به شیوههای مختلف برای دانشمندان علم داده مهم هستند. ما دورههای جامعی را در نظر گرفته ایم تا شما را در هر زمینه دلخواه برنامه نویسی آماده کرده و به بازار کار معرفی کنیم. یکی از این زمینهها هوش مصنوعی است. بهتر است مقاله هوش مصنوعی چیست را مطالعه کرده و سپس براساس میزان نیاز خود میتوانید از دوره آموزش بیگ دیتا یا آموزش دیتا ساینس کمک بگیرید. اگر درمورد اینکه علم داده چیست؟ سوال، نظر یا تجربهای دارید که فکر میکنید مفید است، میتوانید آن را با ما و سایر کاربران سون لرن در میان بگذارید.