Question

Я понимаю, что пространство действий в градиенте политики должно быть дискретным, например, "вверх", "слева", "ничего не делать".

В моем окружении агент должен выбирать направление (360 градусов),и затем выберите номер шага (10 шагов).

В этой среде в пространстве действий может быть 3600 различных действий, которые может выбрать агент, потребуется много эпизодов для обучения агента и немногорастрата ресурсов.

Можете ли вы посоветовать мне, как справиться с таким делом?

Можно ли преобразовать пространство действия в непрерывную случайную величину?

Политика Градиент Действие Измерение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Политика Градиент Действие Измерение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы