Как вы, наверное, заметили, в OpenAI Gym иногда существуют разные версии одних и тех же сред. Разные версии обычно используют общую логику среды, но некоторые параметры имеют разные значения. Этими версиями управляют с помощью функции под названием реестр .
В случае среды CartPole вы можете найти две зарегистрированные версии в этом исходном коде . Как вы можете видеть в строках с 50 по 65, существуют две версии CartPole, помеченные как v0 и v1, отличия которых составляют параметры max_episode_steps
и reward_threshold
:
register(
id='CartPole-v0',
entry_point='gym.envs.classic_control:CartPoleEnv',
max_episode_steps=200,
reward_threshold=195.0,
)
register(
id='CartPole-v1',
entry_point='gym.envs.classic_control:CartPoleEnv',
max_episode_steps=500,
reward_threshold=475.0,
)
Оба параметра подтверждают ваше предположение о разнице между CartPole-v0 и CartPole-v1.