Я взял некоторые эталонные реализации алгоритма PPO и пытаюсь создать агента, который может воспроизводить космические захватчики. К сожалению, начиная со 2-го испытания и далее (после обучения актера и критиков c N Networks в первый раз), распределение вероятностей действий сходится только к действию, а потери PPO и потери критических c сходятся только к одному значению. .
Хотел понять возможные причины, по которым это может произойти. Я действительно не могу запустить код в моих облачных виртуальных машинах, не будучи уверенным, что я ничего не пропустил, поскольку виртуальные машины очень дороги в использовании. Буду признателен за любую помощь или совет в этом отношении .. если потребуется, я также могу опубликовать код. Используются следующие гиперпараметры:
clipping_val = 0,2 crit_discount = 0,5 entropy_beta = 0,001 гамма = 0,99 лямбда = 0,95