У меня есть несколько категориальных переменных с большим количеством классов. Я использовал горячее кодирование, чтобы преобразовать их в формат 1-0.
оригинал:
column_1 column_2
0.8 X
0.3 C
0.9 D
1.2 C
однократное кодирование:
column_1 column_2_X column_2_C column_2_D
0.8 1 0 0
0.3 0 1 0
0.9 0 0 1
1.2 0 1 0
Затем я проверил их feature_importances.
Например, column_2_C не имеет значениямоделировать, но другие, которые принадлежат к той же категории (А), имеют существенное значение.
В этом случае или в любом другом случае (% 50 классов имеют высокую важность,% 50 из них очень низкие), что я долженделать? Что если column_2_C имеет решающее значение, но другие (X и D) вообще не имеют значения?
Что произойдет, если я удалю этот класс? Любая лучшая практика для такого рода дел?
Заранее спасибо,