Мы переносим код Python skLearn для классификатора Random Forest в Spark ML.У нас возникли проблемы с отображением параметров.
В коде Python skLearn мы использовали оценки как 1200, максимальная глубина = 20, минимальное разделение выборок = 5, случайное состояние = 2258.
Я пытался конвертировать в SparkML, но я не уверенесли параметры, которые я сопоставил, верны или нет.Так как SetNumTrees = 1200, как оценки, но они не являются.Может кто-нибудь помочь мне отобразить входные данные в SparkML.
Я попытался изучить https://spark.apache.org/docs/1.6.1/api/java/org/apache/spark/ml/classification/RandomForestClassifier.html#setNumTrees(int), чтобы выяснить соответствие параметров
Исходный код Python:
from sklearn.ensemble import RandomForestClassifier
RandomForestClassifier(n_estimators=1200, max_depth= 20, min_samples_split=5, random_state= 2258)
Передано по коду ML:
from pyspark.ml.classification import RandomForestClassifier
RandomForestClassifier.setMaxDepth(20).setNumTrees(1200).setSeed(2258)