Как перечислить возможные состояния преемника для каждого состояния в тренажерном зале OpenAI?(строго для обычных MDP) - PullRequest
0 голосов
/ 09 декабря 2018

Есть ли способ выполнить итерацию по каждому состоянию, заставить среду перейти в это состояние, а затем сделать шаг и затем использовать возвращенный словарь "info", чтобы увидеть, каковы все возможные состояния преемника?

Или еще более простой способ восстановления всех возможных состояний преемника для каждого состояния, возможно, где-то скрытого?

В Интернете я видел, что что-то под названием MuJoKo или что-то подобное имеет функцию set_state, но я не хочусоздать новую среду, я просто хочу установить состояние тех, которые уже предоставлены openAi gym.

Контекст: попытка реализовать топологическую итерацию значения порядка, которая требует построения графа, в котором каждое состояние имеет край любогоутверждаю, что любое действие может когда-либо перевести его в.

Я понимаю, что, очевидно, в некоторых играх это просто не предусмотрено, но для тех, где оно есть, есть ли способ?

(кромеметод грубой силы запуска игры и принятия каждого шага, который я еще не сделал в каком бы государстве я не приземлилсядо тех пор, пока я не достигну всех состояний и не увижу все, что в зависимости от игры может длиться вечно)

Я впервые использую тренажерный зал OpenAi, поэтому, пожалуйста, объясните как можно подробнее.Например, я понятия не имею, что такое Обертки.

Спасибо!

1 Ответ

0 голосов
/ 13 декабря 2018

Нет, в спортзале OpenAI нет метода для предоставления всех возможных состояний преемника.В общем, это своего рода создание алгоритма с помощью тренажерного зала OpenAI.Вы обучаете агента, чтобы узнать, каковы результаты его действий;если он может заглянуть в будущее и узнать, каковы результаты его действий, он как бы побеждает цель.

Метод грубой силы, который вы описали, вероятно, самый простой способ выполнить то, что вы описываете.

...