лучший способ справиться с категориальными функциями в xgboost? - PullRequest
0 голосов
/ 05 августа 2020

как лучше всего справиться с категориальными функциями в xgboost? У меня есть столбец отраслевых кодов с 25 различными кодами. поэтому, когда я применяю манекены в pandas, у меня есть 25 дополнительных столбцов.

df[pd.get_dummies(df['code'], drop_first=False).columns.tolist()] = \
        pd.get_dummies(df['code'], drop_first=False)
df.drop('code', axis=1, inplace=True)

Однако, глядя на важность моей функции, я замечаю, что важность функции, по-видимому, является отраслевыми кодами для трех лучших *. 1004 *

Моя проблема - это проблема классификации, чтобы узнать, работает ли клиент по умолчанию или нет. поэтому, когда я разбиваю свой исходный набор данных на исполнителей по умолчанию и лиц, не выполняющих дефолт, я вижу, что% s отраслевых кодов в каждом более или менее одинаковы.

что могло быть причиной того, что xgboost придал такое большое значение отраслевым кодам ?

одно горячее кодирование - лучший метод?

...