Есть ли способ использовать деревья решений с категориальными переменными без горячего кодирования? - PullRequest
1 голос
/ 05 июля 2019

У меня есть набор данных с 200+ категориальными переменными (неординарными) и всего несколькими непрерывными переменными.Я пытался использовать горячее кодирование, но это значительно увеличивает размеры и приводит к плохому результату.
Кажется, что обычное дерево scikit-learn можно использовать только с категориальными переменными, которые были преобразованы в одно-горячее кодирование (для неординарных переменных), и я был, если есть способ создать дерево без одного горячего.Я провел некоторое исследование и обнаружил, что есть API под названием h2o, который может быть полезен, но я пытаюсь найти способ запустить его на моей локальной машине.

Ответы [ 2 ]

3 голосов
/ 05 июля 2019

вы можете установить пакет h2o-3 для python, например, из h2o.ai/downloads или из pypi.

пакет h2o автоматически эффективно обрабатывает категориальные значения. рекомендуется не кодировать их одним способом в горячем виде.

Вы можете найти много документации на docs.h2o.ai.

0 голосов
/ 08 июля 2019

Согласно, https://datascience.stackexchange.com/a/32623/51879

Вы можете использовать другие методы кодирования, используя эту оболочку для scikit-learn http://contrib.scikit -learn.org /ategorical-encoding /

Также ознакомьтесь с этой замечательной статьей для получения более подробной информации https://medium.com/data-design/visiting-categorical-features-and-encoding-in-decision-trees-53400fa65931.

...