Агент обучения подкрепления выводит одно значение в пространстве непрерывного действия - PullRequest
0 голосов
/ 18 мая 2018

Я пытаюсь заставить агента PPO освоить простую среду, состоящую из необходимости балансировать шарик над стержнем, к которому он может прикладывать крутящий момент.Агент имеет только одно непрерывное действие, то есть: силу, которую он применяет к одному концу стержня (в диапазоне от -1 до 1).Я наблюдаю два режима отказа:

  • Во-первых, иногда, несмотря на мои усилия, агенты расходятся.Значения отношения проходят через крышу, и при анализе все веса в сети являются NaN.

  • Второе, и более раздражающим является случай, который можно наблюдать на изображении, последнийстолбец, первая строка, см. графики , где описано значение действия.По сути, агент не выводит ничего, кроме этого единственного значения на протяжении всего эпизода.Я не могу понять, почему.

Я пытался предотвратить это, используя tanh между слоями, но тщетно.Может ли кто-нибудь помочь, пожалуйста?Любые советы о том, почему агент полностью сосредоточен на одной ценности?

Большое спасибо!

...