H2O.ai внедрили технику "гистограммы и биннинга" для эффективного и точного построения дерева с использованием категориальных переменных высокой мощности (> 100): http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/gbm-faq/histograms_and_binning.html
Где-то в своей документации они имеютссылка на публикацию, в которой подробно описывается метод, но я больше не могу его найти - кто-нибудь может сослаться на эту публикацию?
Учитывая тот метод, который представляется современным для дерева-построение с использованием категориальных переменных, опубликовано - действительно ли нет других реализаций, кроме H2O.ai?
В sklearn эта функция готовилась годами на github, но, видимо, до сих пор не вышла.
Ранее я задавал вопрос по науке о данных: https://datascience.stackexchange.com/questions/40241/histogram-and-binning-technique-for-categorical-variables-publication-and-impl