Я пытаюсь разместить модель мультикласса модели lightgbm на большом фрейме данных:
train_data = lgb.Dataset(train_df[v1].values, label=label)
631,761 x 1786
столбцы (2,2 ГБ). Это работает нормально. Однако есть один столбец, который имеет 10000 уникальных классов (которые я сейчас использую в модели с помощью pd.factorize
). Однако я хочу транспонировать их и использовать в качестве индикаторов для каждого класса, как показано ниже:
train_data = lgbm.Dataset(train_df[v1].values, label=label,feature_name=v1,categorical_feature=['ward_id'])
Это преобразование приводит к ошибке памяти. Есть ли эффективный способ сделать это, не сталкиваясь с ошибкой памяти.
вот мои конфигурации:
Core i7, 16 GB ram.