برای تبدیل ستون شهر و استان (با توجه به اینکه تعداد مقادیر زیاد هست) بهترین روش encoding کدوم یکی از روشها میتونه باشه ؟
سلام
من سرچ کردم و یک روشی بود به اسم Binary Encoding که نوشته بود ترکیبی از OHE و هشینگ هست که برای کم کردن تعداد ستونها هست و مثالی که زده بود روی رنگها بود.
مثلا این سه رنگ رو در نظر میگیریم(قرمز، آبی و زرد)
برای هرکدوم یک عدد در نظر میگیریم(قرمز = ۱، آبی = ۲ و زرد = ۳)
این اعداد رو به باینری تبدیل میکنیم(قرمز = ۰۰۱، آبی = ۰۱۰ و زرد = ۰۱۱)
و بعد برای هر بیت(bit) یک ستون در نظر میگیریم.
این مثالی بود که زده بود.
حالا خودم اینو اضافه کنم: ببینید، همین سه ستونی که ما درست کردیم شش رنگو میتونه درست کنه(۰۰۰ رو در نظر نگیریم) اگه چهارتا ستون داشته باشیم چی؟ پانزده تا. و همینطور اگه ادامه پیدا کنه تعداد رنگای بیشتری ساپورت میکنه.
ممنون از سوالتون، باعث شد چیز جدیدی یاد بگیرم.
فرهنگ اسکندری۱۱ مرداد ۱۳۹۹، ۰۸:۰۰
با سلام
بله، همین روش OHE کاربرد داره و در جلسات بعدی میبینیم که چگونه میتونیم با دادههایی با ابعاد بالا کار کنیم. حتی اگه خیلی ابعادشون زیاد باشه، مثلا ۱۰۰۰۰۰ تا بعد یا بیشتر