Как запустить пример базового c распределенного ddppo - PullRequest
0 голосов
/ 21 июня 2020

Я могу запустить кластер лучей с помощью

ray up xyz.yaml

Затем s sh -ing в него с помощью attach отлично работает, это также запускает рабочие экземпляры на aws. Но rllib train - f atari-ddppo.yaml не запускает обучение на разных машинах, а ищет gpus на голове. Сообщение об ошибке:

ray.tune.error.TuneError: Недостаточно ресурсов кластера для запуска пробной версии: пробная версия запросила 4 процессора, 3 графических процессора, но в кластере только 4 процессора, 1 графический процессор, куча 34,91 ГиБ, 12.01 Объекты GiB (узел 1.0: ........). Передайте queue_trials=True в ray.tune.run () или в командной строке, чтобы поставить в очередь испытания, пока кластер не масштабируется или не станут доступны ресурсы.

Я предполагал, что ресурсы будут автоматически распределяться между worker (p2.xlarge).

Но мое основное c понимание состоит в том, что после того, как экземпляры создаются автоматически с помощью aws -full.yaml, для запуска должно быть достаточно простого 'function.remote ()' работники на бесплатных ресурсах локально или на другой машине.

Есть идеи?

...