۱ فیروزی
نحوه آموزش tokenizer
جامعه هوش مصنوعی ایجاد شده در ۲۹ آذر ۱۴۰۰

سلام استاد خسته نباشید

تو ویدیو در واقع اومدین روی تمام متون train به tokenizer اموزش دادین. میخواستم بپرسم الان که ایندکس‌ها بر اساس کیورد‌های train ساخته شده آیا نباید روی دیتای test هم tokenizer زد؟ اگر مثلا کیورد جدیدی روی دیتای test باشه چجور tokenize میکنه؟ یا مثلا اگر یک نمونه review جدید بعدا به مدل داده شه که بخواد تشخیص بده و داخل review کلمات جدید باشه الگوریتم چجور کار میکنه؟؟؟

سلام

بله این یکی از مشکلات این روش هست. کلمات جدید نادیده گرفته می‌شن و فقط روی کلماتی کار میشه که قبلا در train موجود باشه. برای همین میگن باید تا جایی که می‌تونید train را بزرگ در نظر بگیرید تا تعداد کلمات جدید در هنگام تست که الگوریتم آن‌ها را ندیده، به کمترین میزان خودش برسه

بهترین پاسخ
مسعود کاویانی ۰۷ دی ۱۴۰۰، ۲۲:۳۱