Настройка гиперпараметров для лесного массива - PullRequest
0 голосов
/ 29 марта 2019

Я использовал гиперпараметры для обучения модели.

  rcf.set_hyperparameters(
        num_samples_per_tree=200,
        num_trees=250,
        feature_dim=1,
        eval_metrics =["accuracy", "precision_recall_fscore"])

Есть ли лучший способ выбрать параметры num_samples_per_tree и num_trees.

Каковы лучшие числа для обоихnum_samples_per_tree и num_trees.

1 Ответ

0 голосов
/ 16 апреля 2019

Существуют естественные интерпретации этих двух гиперпараметров, которые могут помочь вам определить хорошие начальные приближения для HPO:

  • num_samples_per_tree - обратная величина этого значения приблизительно равна плотности аномалий в вашем наборе данных / потоке. Например, если вы установите это значение 200, то предполагается, что приблизительно 0,5% данных являются аномальными. Попробуйте изучить свой набор данных, чтобы сделать обоснованную оценку.
  • num_trees - чем больше деревьев в вашей модели RCF, тем меньше шума в баллах. То есть, если больше деревьев сообщают о том, что входная точка вывода является аномалией, то эта точка с большей вероятностью будет аномалией, чем если бы немногие деревья предполагали это.

Общее количество точек, выбранных из входного набора данных, равно num_samples_per_tree * num_trees. Вы должны убедиться, что входной обучающий набор имеет как минимум такой размер.

(Раскрытие - I помог создать SageMaker Random Cut Forest)

...