Есть ли в Spark случайный лесной классификатор подвыборок? - PullRequest
0 голосов
/ 29 октября 2019

Я не могу сказать, реализует ли Spark какую-либо балансировку меток (результатов) при подборе данных в ансамблевых моделях. Ни в одном из описаний аргументов не упоминается конкретная реализация выборки. Я хотел бы знать, сбалансирован ли образец каким-либо образом.

Если это простой пример начальной загрузки, что произойдет, если будет смоделирован редкий результат и получена подвыборка без экземпляров одного ярлыка?

Из документации Ensembles :

subsamplingRate: Этот параметр указывает размер набора данных, используемого для обучения каждого дерева в лесу, в виде доли отразмер исходного набора данных. Рекомендуется использовать значение по умолчанию (1.0), но уменьшение этой доли может ускорить обучение.

Из дерева решений документация:

subsamplingRate: Fractionданных обучения, используемых для изучения дерева решений. Этот параметр наиболее актуален для обучения ансамблей деревьев (используя RandomForest и GradientBoostedTrees), где он может быть полезен для выборки исходных данных. Для обучения отдельного дерева решений этот параметр менее полезен, поскольку количество обучающих экземпляров, как правило, не является основным ограничением.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...