избегать незаконных состояний в тренажерном зале openai - PullRequest
0 голосов
/ 31 марта 2020

Я пытаюсь создать в спортзале условия для симуляции. В моей спортивной среде у меня есть набор незаконных состояний, которые я не хочу, чтобы мой агент go в них. Какой самый простой способ добавить такую ​​логику c в мою среду, я должен использовать классы оболочки? Я не совсем понял их, я попытался расширить пространство MultiDiscrete, унаследовав от него класс, и переопределить функцию MulriDiscrete.sample, чтобы предотвратить переход среды в недопустимые состояния, но есть ли более эффективный способ сделать это? это?

1 Ответ

0 голосов
/ 03 апреля 2020

Ранее я занимался в тренажерном зале, где в центре мира грид есть что-то вроде пула, где я не хотел, чтобы агент go.

Итак, я представлял мир сетки в виде матрицы, и пул имел разные глубины, в которые агент может попасть, поэтому значения в этих местах имели отрицательное значение, пропорциональное глубине лужи.

При обучении агентов это отрицательное вознаграждение не давало агенту попасть в лужу.

Код для вышеуказанной среды: здесь и его использование здесь

Надеюсь, это поможет

...