За свою жизнь я не понимаю, что делает "num_envs_per_worker". Если ограничивающим фактором является оценка политики, зачем нам создавать несколько сред? Разве нам не нужно создавать несколько политик?
ELI5, пожалуйста?
В документах сказано:
Векторизация в рамках одного процесса: хотя многие envs могут достичь высоких Частота кадров на ядро, их пропускная способность на практике ограничена оценкой политики между этапами. Например, даже небольшие модели TensorFlow оцениваются с задержкой в пару миллисекунд. Эту проблему можно обойти, создав несколько envs на процесс и пакетные оценки политики для этих envs. Вы можете настроить {"num_envs_per_worker": M} так, чтобы RLlib создавал M одновременных сред на одного работника. RLlib автоматически векторизирует среды Gym через VectorEnv.wrap ().
Sr c: https://ray.readthedocs.io/en/latest/rllib-env.html