Мне нужно провести несколько экспериментов с алгоритмом PPO2 в среде Mujoco humanoidstandup-v2.
Задача - поставить гуманоида, меняющего гиперпараметры алгоритма.
Код Python Я использовал для обучения следующее:
import gym
from stable_baselines.common.policies import CnnPolicy
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2
env = gym.make('HumanoidStandup-v2')
env = DummyVecEnv([lambda: env]) # The algorithms require a vectorized environment to run
# Define the model
model = PPO2(CnnPolicy, env, n_steps=100, ent_coef=0.01, learning_rate=0.00025, verbose=1, tensorboard_log="./ppo_humanoidstandup_tensorboard/")
# Train the agent
model.learn(total_timesteps=4000000)
obs = env.reset()
while True:
action, _states = model.predict(obs)
obs, rewards, dones, info = env.step(action)
env.render()
Я пытаюсь до total_timestep = 20 000 000, но это не работает.
Итак, я бы знал, если код, который я достаточно написать или пропустить что-то. Более того, если число total_timestep достаточно велико или слишком велико, и если есть какие-то гиперпараметры, которые мне нужно изменить и как.
Большое спасибо.