использование факторов с сотнями уровней в модели - PullRequest
0 голосов
/ 17 февраля 2019

Я работаю над моделью классификации, которая имеет 7 предикторов и около 100 000 наблюдений.

Моя проблема в том, что 5 из предикторов являются факторными переменными, каждый из которых имеет сотни уровней.

Я знаю, что существуют ограничения на количество уровней в некоторых алгоритмах, таких как случайный лес.Когда я попытался согласовать модель со случайным лесом через библиотеку карет, я получил сообщение об ошибке:

Невозможно обработать категориальные предикторы с более чем 53 категориями.

I 'Мы пытались обойти некоторые ограничения, такие как однократное кодирование и sparse.model.matrix, но это не сработало, обычно из-за недостатка памяти на моем компьютере для попытки превратить 7 предикторов в 2000 предикторов.

Итак, мой вопрос, возможно ли успешно использовать эти уровни факторов в алгоритмах прогнозирования?Я не хочу группировать уровни до 53 уровней, так как это приведет к потере слишком большого количества данных.

Любой совет будет высоко ценится

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...