Разница между средами OpenAI Gym «CartPole-v0» и «CartPole-v1» - PullRequest
1 голос
/ 05 июля 2019

Я не могу найти точное описание различий между средами OpenAI Gym 'CartPole-v0' и 'CartPole-v1'.

Обе среды имеют отдельные официальные веб-сайты, посвященные им (см. 1 и 2 ), хотя я могу найти только один код без идентификации версии в репозитории Github Gymub (см. 3 ). Я также проверил, какие именно файлы загружаются через отладчик, хотя они оба загружают один и тот же вышеупомянутый файл. Похоже, единственное различие заключается в их внутренне назначенных max_episode_steps и reward_threshold, к которым можно получить доступ, как показано ниже. CartPole-v0 имеет значения 200 / 195.0, а CartPole-v1 имеет значения 500 / 475.0. На первый взгляд все остальное похоже.

import gym

env = gym.make("CartPole-v1")
print(self.env.spec.max_episode_steps)
print(self.env.spec.reward_threshold)

Поэтому я был бы признателен, если бы кто-то мог описать точные различия для меня или направить меня на такой сайт. Большое спасибо!

Ответы [ 2 ]

1 голос
/ 08 июля 2019

Как вы, наверное, заметили, в OpenAI Gym иногда существуют разные версии одних и тех же сред. Разные версии обычно используют общую логику среды, но некоторые параметры имеют разные значения. Этими версиями управляют с помощью функции под названием реестр .

В случае среды CartPole вы можете найти две зарегистрированные версии в этом исходном коде . Как вы можете видеть в строках с 50 по 65, существуют две версии CartPole, помеченные как v0 и v1, отличия которых составляют параметры max_episode_steps и reward_threshold:

register(
    id='CartPole-v0',
    entry_point='gym.envs.classic_control:CartPoleEnv',
    max_episode_steps=200,
    reward_threshold=195.0,
)

register(
    id='CartPole-v1',
    entry_point='gym.envs.classic_control:CartPoleEnv',
    max_episode_steps=500,
    reward_threshold=475.0,
)

Оба параметра подтверждают ваше предположение о разнице между CartPole-v0 и CartPole-v1.

0 голосов
/ 07 июля 2019

Я нашел несколько ссылок, которые могут быть полезны

В нем перечислены документы среды

https://github.com/openai/gym/wiki/CartPole-v0

В этом списке перечислены все среды, а также их пространство действия, пространство наблюдения, диапазон вознаграждений, tsepeL, Trails, rTresh

https://github.com/openai/gym/wiki/Table-of-environments

Это документация от openai, объясняющая об окружающей среде

https://gym.openai.com/docs/#environments

решенная тележка-v1

https://gym.openai.com/evaluations/eval_GazXePIETsOvUaxmoILNHw/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...