Как выполнить поиск по сетке для Random Forest с использованием библиотеки Apache Spark ML - PullRequest
0 голосов
/ 16 января 2019

Я хочу выполнить поиск по сетке для моей модели случайного леса в Apache Spark. Но я не могу найти пример для этого. Есть ли в примерах данных пример, где я могу выполнить настройку гиперпараметров с помощью Grid Search?

1 Ответ

0 голосов
/ 07 февраля 2019
from pyspark.ml import Pipeline
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.evaluation import BinaryClassificationEvaluator
from pyspark.ml.tuning import CrossValidator, ParamGridBuilder


rf = RandomForestClassifier(labelCol="indexedLabel", featuresCol="indexedFeatures", numTrees=10)
pipeline = Pipeline(stages=[rf])
paramGrid = ParamGridBuilder().addGrid(rf.numTrees, [10, 30]).build()

crossval = CrossValidator(estimator=pipeline,
                          estimatorParamMaps=paramGrid,
                          evaluator=BinaryClassificationEvaluator(),
                          numFolds=2) 

cvModel = crossval.fit(training_df)

гиперпараметры и сетка определены в методе addGrid

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...