У меня есть набор данных с 200+ категориальными переменными (неординарными) и всего несколькими непрерывными переменными.Я пытался использовать горячее кодирование, но это значительно увеличивает размеры и приводит к плохому результату.
Кажется, что обычное дерево scikit-learn можно использовать только с категориальными переменными, которые были преобразованы в одно-горячее кодирование (для неординарных переменных), и я был, если есть способ создать дерево без одного горячего.Я провел некоторое исследование и обнаружил, что есть API под названием h2o, который может быть полезен, но я пытаюсь найти способ запустить его на моей локальной машине.