Что делает "num_envs_per_worker" в rllib? - PullRequest
1 голос
/ 04 марта 2020

За свою жизнь я не понимаю, что делает "num_envs_per_worker". Если ограничивающим фактором является оценка политики, зачем нам создавать несколько сред? Разве нам не нужно создавать несколько политик?

ELI5, пожалуйста?

В документах сказано:

Векторизация в рамках одного процесса: хотя многие envs могут достичь высоких Частота кадров на ядро, их пропускная способность на практике ограничена оценкой политики между этапами. Например, даже небольшие модели TensorFlow оцениваются с задержкой в ​​пару миллисекунд. Эту проблему можно обойти, создав несколько envs на процесс и пакетные оценки политики для этих envs. Вы можете настроить {"num_envs_per_worker": M} так, чтобы RLlib создавал M одновременных сред на одного работника. RLlib автоматически векторизирует среды Gym через VectorEnv.wrap ().

Sr c: https://ray.readthedocs.io/en/latest/rllib-env.html

...