Я понимаю, что пространство действий в градиенте политики должно быть дискретным, например, "вверх", "слева", "ничего не делать".
В моем окружении агент должен выбирать направление (360 градусов),и затем выберите номер шага (10 шагов).
В этой среде в пространстве действий может быть 3600 различных действий, которые может выбрать агент, потребуется много эпизодов для обучения агента и немногорастрата ресурсов.
Можете ли вы посоветовать мне, как справиться с таким делом?
Можно ли преобразовать пространство действия в непрерывную случайную величину?