Я следовал этому руководству для алгоритма cart с моей реализацией java, и мне было интересно, есть ли более быстрый способ выбора оптимального разделения.
Руководство предлагает следующие шаги:
for each feature:
for each value of the feature:
make a split
remember GINI score if a split is less than previous min GINI
Можно ли внести какие-либо изменения в эту процедуру для увеличения скорости за счет локальной точности, но это не приведет к снижению общей точности ?Несмотря на то, что это можно легко распараллелить, обходить каждый атрибут по-прежнему дорого, и стоит выбрать одно разбиение.