Если вы строите линейную модель, то лучше выбрать одну горячую кодировку этих корзин, чтобы при наличии линейной связи с целью охрана сохраняла ее.
Если выЕсли вы строите модели на основе дерева, например, случайные леса, то вы можете использовать [2, 2, 4, 3] в качестве числовой функции, потому что эти модели нелинейны.
Если вы строите регрессионную модель и не хотитечтобы расширить пространство признаков с помощью ohe, вы можете рассматривать ячейки как категориальную переменную и кодировать эту переменную, используя среднее / целевое кодирование, или кодировать с помощью цифр, следуя целевому среднему значению для бина.
Подробнее опоследние 2 процедуры в этой статье .
Отказ от ответственности: я написал статью.