Возможность исключения фиктивных переменных - PullRequest
0 голосов
/ 04 октября 2019

У меня есть несколько категориальных переменных с большим количеством классов. Я использовал горячее кодирование, чтобы преобразовать их в формат 1-0.

оригинал:

column_1    column_2
0.8            X        
0.3            C        
0.9            D        
1.2            C        

однократное кодирование:

column_1    column_2_X   column_2_C  column_2_D  
0.8            1            0           0
0.3            0            1           0
0.9            0            0           1
1.2            0            1           0

Затем я проверил их feature_importances.

Например, column_2_C не имеет значениямоделировать, но другие, которые принадлежат к той же категории (А), имеют существенное значение.

В этом случае или в любом другом случае (% 50 классов имеют высокую важность,% 50 из них очень низкие), что я долженделать? Что если column_2_C имеет решающее значение, но другие (X и D) вообще не имеют значения?

Что произойдет, если я удалю этот класс? Любая лучшая практика для такого рода дел?

Заранее спасибо,

1 Ответ

1 голос
/ 04 октября 2019

Если вы используете фиктивные переменные в модели, тогда целесообразно удалить не значимые переменные или не связанные значения. Однако, если вы сохраняете исходную категориальную переменную, вы не должны удалять эти наблюдения из вашей выборки. Мне нужно больше информации о том, что вы делаете.

...