Question

Я пытаюсь создать в спортзале условия для симуляции. В моей спортивной среде у меня есть набор незаконных состояний, которые я не хочу, чтобы мой агент go в них. Какой самый простой способ добавить такую логику c в мою среду, я должен использовать классы оболочки? Я не совсем понял их, я попытался расширить пространство MultiDiscrete, унаследовав от него класс, и переопределить функцию MulriDiscrete.sample, чтобы предотвратить переход среды в недопустимые состояния, но есть ли более эффективный способ сделать это? это?

SaiVinay007 · Answer 1 · 03 апреля 2020

Ранее я занимался в тренажерном зале, где в центре мира грид есть что-то вроде пула, где я не хотел, чтобы агент go.

Итак, я представлял мир сетки в виде матрицы, и пул имел разные глубины, в которые агент может попасть, поэтому значения в этих местах имели отрицательное значение, пропорциональное глубине лужи.

При обучении агентов это отрицательное вознаграждение не давало агенту попасть в лужу.

Код для вышеуказанной среды: здесь и его использование здесь

Надеюсь, это поможет

избегать незаконных состояний в тренажерном зале openai

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

избегать незаконных состояний в тренажерном зале openai

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы