неоднократно получать одинаковые точные результаты на pyspark RandomForestclassifier, работающем на одном и том же кадре - PullRequest
0 голосов
/ 26 февраля 2020

я запускаю следующий код:

 for i in range(NUMBER_OF_ITERATIONS):

    threshold_array = []

    pipeline = None

    final_pipeline_model = None

    rf = None

    rfmodel = None

    rf = RandomForestClassifier(labelCol='label',
                                featuresCol="features",
                                numTrees=200,
                                maxDepth=9,
                                impurity="entropy",
                                featureSubsetStrategy="auto",
                                maxBins=50)

    print("rf object is is :" + str(id(rf)))

    rfmodel = rf.fit(df)

    trained_for_model = rfmodel.transform(df)

    ....checks on the transformed dataframe

В большинстве случаев (но не все время ...) я получаю один и тот же идентификатор для объекта RF, и, таким образом, те же результаты получаются из модель. поэтому возникает 2 вопроса:

  • , даже если это один и тот же объект, по умолчанию в randomForest есть случайное начальное число, поэтому я не должен получать точно такие же результаты, не так ли?
  • почему я получаю тот же объект? после того, как ему присвоено значение None, и я снова создаю объект, он должен иметь другой идентификатор и, следовательно, - даст другие результаты.

что мне не хватает?

...