Multi-Agent RL в Gym
OpenAI Gym не предоставляет хороший интерфейс для сред Multi-Agent RL, однако, довольно легко адаптировать стандартный интерфейс тренажерного зала, имея
env.step(action_n: List) -> observation_n: List
выполнение списка действий, соответствующих каждому агенту, и вывод списка наблюдений, по одному для каждого агента.
Если вы переопределяете MADDPG, вы также можете использовать реализацию среды с многоагентными частицами, предоставленные самим Райаном Лоу.
Конечно, повторная реализация сред не повредит.
Пространства непрерывного действия
В связанной реализации из среды многоагентных частиц вы можете изменить тип пространства действия с дискретного на непрерывное, изменив эту строку кода на False.
Однако, попробовав это раньше, я могу сказать, что это приведет к ухудшению производительности MADDPG.