Я не могу сказать, реализует ли Spark какую-либо балансировку меток (результатов) при подборе данных в ансамблевых моделях. Ни в одном из описаний аргументов не упоминается конкретная реализация выборки. Я хотел бы знать, сбалансирован ли образец каким-либо образом.
Если это простой пример начальной загрузки, что произойдет, если будет смоделирован редкий результат и получена подвыборка без экземпляров одного ярлыка?
Из документации Ensembles :
subsamplingRate: Этот параметр указывает размер набора данных, используемого для обучения каждого дерева в лесу, в виде доли отразмер исходного набора данных. Рекомендуется использовать значение по умолчанию (1.0), но уменьшение этой доли может ускорить обучение.
Из дерева решений документация:
subsamplingRate: Fractionданных обучения, используемых для изучения дерева решений. Этот параметр наиболее актуален для обучения ансамблей деревьев (используя RandomForest и GradientBoostedTrees), где он может быть полезен для выборки исходных данных. Для обучения отдельного дерева решений этот параметр менее полезен, поскольку количество обучающих экземпляров, как правило, не является основным ограничением.