я запускаю следующий код:
for i in range(NUMBER_OF_ITERATIONS):
threshold_array = []
pipeline = None
final_pipeline_model = None
rf = None
rfmodel = None
rf = RandomForestClassifier(labelCol='label',
featuresCol="features",
numTrees=200,
maxDepth=9,
impurity="entropy",
featureSubsetStrategy="auto",
maxBins=50)
print("rf object is is :" + str(id(rf)))
rfmodel = rf.fit(df)
trained_for_model = rfmodel.transform(df)
....checks on the transformed dataframe
В большинстве случаев (но не все время ...) я получаю один и тот же идентификатор для объекта RF, и, таким образом, те же результаты получаются из модель. поэтому возникает 2 вопроса:
- , даже если это один и тот же объект, по умолчанию в randomForest есть случайное начальное число, поэтому я не должен получать точно такие же результаты, не так ли?
- почему я получаю тот же объект? после того, как ему присвоено значение None, и я снова создаю объект, он должен иметь другой идентификатор и, следовательно, - даст другие результаты.
что мне не хватает?