как эффективно управлять входным набором данных для lightgbm, чтобы избежать ошибки памяти - PullRequest
0 голосов
/ 05 июля 2018

Я пытаюсь разместить модель мультикласса модели lightgbm на большом фрейме данных:

train_data = lgb.Dataset(train_df[v1].values, label=label)

631,761 x 1786 столбцы (2,2 ГБ). Это работает нормально. Однако есть один столбец, который имеет 10000 уникальных классов (которые я сейчас использую в модели с помощью pd.factorize). Однако я хочу транспонировать их и использовать в качестве индикаторов для каждого класса, как показано ниже:

train_data = lgbm.Dataset(train_df[v1].values, label=label,feature_name=v1,categorical_feature=['ward_id'])

Это преобразование приводит к ошибке памяти. Есть ли эффективный способ сделать это, не сталкиваясь с ошибкой памяти.

вот мои конфигурации:

Core i7, 16 GB ram.
...