Я пытаюсь создать нейронную сеть, чтобы играть в эмулированную игру atari "BreakoutDeterministic".Пространство действия для игры - [0,1,2,3].
При вводе
frame, reward, is_done, _ = env.step(env.action_space.sample())
Игра закончится, и в итоге будет установлена переменная "is_done"True
(когда игра заканчивается)
При вводе
frame, reward, is_done, _ = env.step(3)
Игра закончится, но не будет установлена на True
.Вместо этого я должен вручную завершить процесс.
Любое объяснение, почему это происходит и как я могу это исправить?
Полный код:
import gym
env = gym.make('BreakoutDeterministic-v4')
frame = env.reset()
env.render()
is_done = False
while not is_done:
frame, reward, is_done, _ = env.step(env.action_space.sample())
#frame, reward, is_done, _ = env.step(3)
env.render()