Я работаю над алгоритмом Random Forest с использованием spark-ml. У меня 1000 уникальных категорий, поэтому я должен установить значения Maxbins как минимум 1000.
RandomForestRegressor rf = new RandomForestRegressor().setLabelCol("indexedLabel").setFeaturesCol("indexedFeatures").setMaxBins(1000);
Но алгоритм все еще не принимает правильные значения maxbins и выдает ошибку, такую как
требование не выполнено: для DecisionTree требуются значения maxBins (= 806)
наименьшее количество значений в каждой категориальной функции,
но категориальная особенность 0 имеет 1000 значений. Учитывая, удалить это и
другие категориальные функции с большим количеством значений, или добавить больше
учебные примеры.
это означает, что алгоритм установил 806 как значение maxbins. Я не уверен, какова возможная причина этого и как ее решить, если кто-то знает, как решить эту проблему, то, пожалуйста, дайте мне решение.
Спасибо .. !!