Классификатор случайного леса из Python sklearn в SparkML Отображение входных параметров RandonClassifier - PullRequest
0 голосов
/ 20 июня 2019

Мы переносим код Python skLearn для классификатора Random Forest в Spark ML.У нас возникли проблемы с отображением параметров.

В коде Python skLearn мы использовали оценки как 1200, максимальная глубина = 20, минимальное разделение выборок = 5, случайное состояние = 2258.

Я пытался конвертировать в SparkML, но я не уверенесли параметры, которые я сопоставил, верны или нет.Так как SetNumTrees = 1200, как оценки, но они не являются.Может кто-нибудь помочь мне отобразить входные данные в SparkML.

Я попытался изучить https://spark.apache.org/docs/1.6.1/api/java/org/apache/spark/ml/classification/RandomForestClassifier.html#setNumTrees(int), чтобы выяснить соответствие параметров

Исходный код Python:

from sklearn.ensemble import RandomForestClassifier

RandomForestClassifier(n_estimators=1200, max_depth= 20, min_samples_split=5, random_state= 2258)

Передано по коду ML:

from pyspark.ml.classification import RandomForestClassifier
RandomForestClassifier.setMaxDepth(20).setNumTrees(1200).setSeed(2258) 
...