Question

Я пытаюсь создать среду, в которой у вас есть несколько циферблатов, которые можно повернуть от 0 до 100. На каждом шаге можно повернуть только 1 циферблат. До сих пор я делал это с помощью отдельного пространства действий, дающего 100 действий для каждого набора, поэтому агент выбирал набор и позицию. Я хотел бы преобразовать это в непрерывное пространство действий. Для этого я взглянул на реализацию a2c для BipedalWalker-v2. Проблема, с которой я сейчас сталкиваюсь, состоит в том, что эти реализации возвращают действие для каждого привода. В моем случае агенту разрешено выбрать только 1 привод и повернуть его от 0 до 100. Каков оптимальный подход для этого?

Выбор 1 действия из нескольких непрерывных действий

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Выбор 1 действия из нескольких непрерывных действий

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы