Это можно сделать, как указано в записной книжке Colab. Я не уверен, с какой проблемой вы сталкиваетесь. Способ, который я реализовал для своей пользовательской среды:
# Instantiate the env
env = customEnv()
# Wrap it
env = DummyVecEnv([lambda: env])
EPISODES = 5000
# Instantiate and learn using stable-baselines
model = PPO2('MlpPolicy', env).learn(EPISODES)
Я уверен, что вы можете сделать то же самое и для SubProcVenv
. Go для SubProcVenv
только , если вы хотите использовать многопроцессорность.