Я впервые использую rllib и пытаюсь обучить пользовательскую среду RL с несколькими агентами, и хотел бы обучить на ней пару агентов PPO. Икота реализации, которую мне нужно выяснить, заключается в том, как изменить обучение одного специального агента, чтобы он выполнял действие только каждые X временных шагов. Лучше всего вызывать compute_action () только каждые X временных шагов? Или на других этапах, чтобы замаскировать выбор политики, чтобы им пришлось повторно выбирать действие, пока не будет вызвано No-Op? Или изменить действие, которое передается в среду + предыдущие действия в обучающих пакетах, как No-Ops?
Какой самый простой способ реализовать это, по-прежнему используя возможности обучения rllib? Нужно ли мне создавать для этого индивидуальный тренинг l oop или есть способ настроить PPOTrainer для этого?
Спасибо