Глядя на pbt_example , я вижу, что накопленный актером accuracy
не сбрасывается в ноль в reset_config
, устанавливаются только новые гиперпараметры (включая, в частности, изменение lr
). При реализации моего собственного субъекта, который в качестве состояния имеет текущее среднее значение текущего показателя c, которое должно быть минимизировано с помощью развертки гиперпараметра, мне было интересно, следует ли мне сбросить это скользящее среднее значение на ноль или нет в reset_config
? Последствия сброса этого состояния или нет не ясны из документации и просмотра исходных файлов ray.tune
.
. Буду признателен за некоторые разъяснения, в частности, reuse_actors
и reset_config
. Документация, к сожалению, немного расплывчата в этом отношении. В противном случае отличная библиотека и легко начать!