Эксперименты по усиленному обучению с алгоритмом PPO2 в среде mujoco humanoidstandup-v2 - PullRequest
0 голосов
/ 11 января 2020

Мне нужно провести несколько экспериментов с алгоритмом PPO2 в среде Mujoco humanoidstandup-v2.

Задача - поставить гуманоида, меняющего гиперпараметры алгоритма.

Код Python Я использовал для обучения следующее:

import gym
from stable_baselines.common.policies import CnnPolicy
from stable_baselines.common.vec_env import DummyVecEnv

from stable_baselines import PPO2

env = gym.make('HumanoidStandup-v2')
env = DummyVecEnv([lambda: env])  # The algorithms require a vectorized environment to run

# Define the model
model = PPO2(CnnPolicy, env, n_steps=100, ent_coef=0.01, learning_rate=0.00025, verbose=1, tensorboard_log="./ppo_humanoidstandup_tensorboard/")

# Train the agent
model.learn(total_timesteps=4000000)

obs = env.reset()

while True:
    action, _states = model.predict(obs)
    obs, rewards, dones, info = env.step(action)
    env.render()

Я пытаюсь до total_timestep = 20 000 000, но это не работает.

Итак, я бы знал, если код, который я достаточно написать или пропустить что-то. Более того, если число total_timestep достаточно велико или слишком велико, и если есть какие-то гиперпараметры, которые мне нужно изменить и как.

Большое спасибо.

...