داده‌های جدید برای پردیکت

جامعه‌ها وبلاگ شروع یادگیری برنامه نویسی

با سلام اگر داده‌های جدیدی برای پردیکت داشته باشیم که در متن انها کلماتی وجود داشته باشند که مدل اولیه ما وجود نداشته باشند قطعا مدل به ارور میخورد چون فچیر‌های داده‌های‌ترین با داده‌های پردیکت متفاوت است رفع و هندل این موضوع در تکست ماینیگ بسیار پیچیده میشود چون تعداد فیچر‌ها بسیار بالا است کم و زیاد بودن یک فیچر میتونه ما رو به بن بست برسونه به نظرم در موضوع تکست ماینیگ حداقل به یک آموزش دیگه برای روشن شدن قضیه نیازمنده چون در دنیای واقعی پردیکت فقط بر اساس داده‌های تست انجام نمیشه هدف اینکه داده‌های واقعی پیش بینی بشه لطفا درباره این موضوع چگونه فیت کردن داده‌های متفاوت با داده‌های‌ترین یک اموزش ساخته شود سپاس

سلام

این کلمات جدید نادیده گرفته می‌شن (ignore میشن) و بله یه مقداری کیفیت مدل در طول زمان (با اضافه شدن این کلمات) میاد پایین

برای حل این مشکل باید در طی یک بازه‌ی زمانی مدل مجددا با داده‌های جدید یادگرفته شود

مسعود کاویانی ۱۴ بهمن ۱۴۰۲، ۲۲:۴۷

سلام ممنون بابت پاسخگوییتون ولی باز هم این کار چالش هایی رو داره که اموزش توضیح داده نشده مثلا ترتیب کلمات توکنایز شده که تبدیل به فیچر میشند اگر ما بخواهیم داده‌های اینده رو پیشبینی کنیم ابتدا باید دیتای جدیدرو توکنایزش کنیم بعد هم باید بدیم متد وکتورایز کتابخانه ی سایکیت لرن تا برامون تبدیل به فیچرش کنه اینجا چالش‌های زیادی وجود داره از قبیل ترتیب فیچر‌ها یکسان بودن تعداد فیچر‌ها کاش استاد شما یک نمونه داده ایی جدید رو با همین مدل پردیکت میکردید تا چگونه ایگنور کردن کلمات جدید چگونه مرتب کردن ترتیب فیچر‌ها نسبت به داده مدل مدیریت فیچرها به صورت عملی و کاربردی یاد میگرفتیم سپاس فراوان

جواد شهرابي فراهاني ۱۵ بهمن ۱۴۰۲، ۰۶:۰۳

دقیقا

برای این مدل‌ها الگوریتم‌های عمیق مانند
BERT

به وجود آمده‌اند که عموما به صورت pretrained شده کار را انجام می‌دهند و مشکلات زیادی برای داده‌ها و کلمات جدید ندارند

مسعود کاویانی ۱۷ اسفند ۱۴۰۲، ۰۸:۲۷