Я пытаюсь заставить агента PPO освоить простую среду, состоящую из необходимости балансировать шарик над стержнем, к которому он может прикладывать крутящий момент.Агент имеет только одно непрерывное действие, то есть: силу, которую он применяет к одному концу стержня (в диапазоне от -1 до 1).Я наблюдаю два режима отказа:
Во-первых, иногда, несмотря на мои усилия, агенты расходятся.Значения отношения проходят через крышу, и при анализе все веса в сети являются NaN.
Второе, и более раздражающим является случай, который можно наблюдать на изображении, последнийстолбец, первая строка, см. графики , где описано значение действия.По сути, агент не выводит ничего, кроме этого единственного значения на протяжении всего эпизода.Я не могу понять, почему.
Я пытался предотвратить это, используя tanh между слоями, но тщетно.Может ли кто-нибудь помочь, пожалуйста?Любые советы о том, почему агент полностью сосредоточен на одной ценности?
Большое спасибо!