Я работаю над моделью классификации, которая имеет 7 предикторов и около 100 000 наблюдений.
Моя проблема в том, что 5 из предикторов являются факторными переменными, каждый из которых имеет сотни уровней.
Я знаю, что существуют ограничения на количество уровней в некоторых алгоритмах, таких как случайный лес.Когда я попытался согласовать модель со случайным лесом через библиотеку карет, я получил сообщение об ошибке:
Невозможно обработать категориальные предикторы с более чем 53 категориями.
I 'Мы пытались обойти некоторые ограничения, такие как однократное кодирование и sparse.model.matrix, но это не сработало, обычно из-за недостатка памяти на моем компьютере для попытки превратить 7 предикторов в 2000 предикторов.
Итак, мой вопрос, возможно ли успешно использовать эти уровни факторов в алгоритмах прогнозирования?Я не хочу группировать уровни до 53 уровней, так как это приведет к потере слишком большого количества данных.
Любой совет будет высоко ценится