Наличие до 1335 категорий для категориального измерения может вызвать случайный лесной регрессор (или классификатор), что вызовет некоторую головную боль в зависимости от того, как категориальные измерения обрабатываются внутри, и все будет также зависеть от частот распределения категорий. Какую библиотеку вы используете для регрессии случайных лесов?
Вы пытались преобразовать категориальные измерения в уникальные целочисленные идентификаторы и интерпретировать это представление как измерение действительного числа? Я понял, что это может повысить значимость многих типов категориальных измерений. (Иногда внутреннее / начальное упорядочение категорий может предоставить полезную информацию о группировании / разделении). Вы даже можете несколько раз перетасовать свои размеры и использовать их в качестве входных размеров. Я попытаюсь объяснить на примере:
У вас есть категориальное измерение x1 с категориями [c11, c12, ..., c1n] Мы легко сопоставляем эти категории с числовыми значениями, говоря, что x1 имеет значение 1, если это категория c11, или значение 2, если это категория, или значение или i для категории c1i et c. Используйте это новое некатегориальное измерение в качестве входного измерения для обучения (позже вам придется соответствующим образом изменить свой вход для регрессора). Вы можете go дальше, чем это. Перемешайте (случайным образом) порядок категорий x1, чтобы получить случайный порядок, например [c13, c19, c1n, c1i, ..., c12]. Сделайте то же самое, что и выше, и у вас будет другое новое некатегоричное входное измерение (учтите, что вам придется помнить порядок перемешивания для регрессии позже). Мне любопытно, если добавление нескольких (где-то от 1 до 100 или любое другое число) размеров, подобных этому, может улучшить вашу производительность. Пожалуйста, посмотрите, как меняется производительность для разных количеств таких измерений. (Но имейте в виду, что больше таких измерений будет стоить вам времени предварительной обработки при регрессии)
В приведенном ниже кодовом блоке потребуется объединить несколько категориальных измерений одновременно. Рассматривайте это только для вдохновения.
Another idea would be to check if some form of linear classifier with the hot-encodings for each individual category for multiple categorical dimensions might be able improve things (This can help you find useful orderings more quickly than the approach above).