Политика Градиент Действие Измерение - PullRequest
0 голосов
/ 03 октября 2019

Я понимаю, что пространство действий в градиенте политики должно быть дискретным, например, "вверх", "слева", "ничего не делать".

В моем окружении агент должен выбирать направление (360 градусов),и затем выберите номер шага (10 шагов).

В этой среде в пространстве действий может быть 3600 различных действий, которые может выбрать агент, потребуется много эпизодов для обучения агента и немногорастрата ресурсов.

Можете ли вы посоветовать мне, как справиться с таким делом?

Можно ли преобразовать пространство действия в непрерывную случайную величину?

...