как лучше всего справиться с категориальными функциями в xgboost? У меня есть столбец отраслевых кодов с 25 различными кодами. поэтому, когда я применяю манекены в pandas, у меня есть 25 дополнительных столбцов.
df[pd.get_dummies(df['code'], drop_first=False).columns.tolist()] = \
pd.get_dummies(df['code'], drop_first=False)
df.drop('code', axis=1, inplace=True)
Однако, глядя на важность моей функции, я замечаю, что важность функции, по-видимому, является отраслевыми кодами для трех лучших *. 1004 *
Моя проблема - это проблема классификации, чтобы узнать, работает ли клиент по умолчанию или нет. поэтому, когда я разбиваю свой исходный набор данных на исполнителей по умолчанию и лиц, не выполняющих дефолт, я вижу, что% s отраслевых кодов в каждом более или менее одинаковы.
что могло быть причиной того, что xgboost придал такое большое значение отраслевым кодам ?
одно горячее кодирование - лучший метод?