Выбор 1 действия из нескольких непрерывных действий - PullRequest
0 голосов
/ 01 декабря 2019

Я пытаюсь создать среду, в которой у вас есть несколько циферблатов, которые можно повернуть от 0 до 100. На каждом шаге можно повернуть только 1 циферблат. До сих пор я делал это с помощью отдельного пространства действий, дающего 100 действий для каждого набора, поэтому агент выбирал набор и позицию. Я хотел бы преобразовать это в непрерывное пространство действий. Для этого я взглянул на реализацию a2c для BipedalWalker-v2. Проблема, с которой я сейчас сталкиваюсь, состоит в том, что эти реализации возвращают действие для каждого привода. В моем случае агенту разрешено выбрать только 1 привод и повернуть его от 0 до 100. Каков оптимальный подход для этого?

...