Я могу запустить кластер лучей с помощью
ray up xyz.yaml
Затем s sh -ing в него с помощью attach
отлично работает, это также запускает рабочие экземпляры на aws. Но rllib train - f atari-ddppo.yaml
не запускает обучение на разных машинах, а ищет gpus на голове. Сообщение об ошибке:
ray.tune.error.TuneError: Недостаточно ресурсов кластера для запуска пробной версии: пробная версия запросила 4 процессора, 3 графических процессора, но в кластере только 4 процессора, 1 графический процессор, куча 34,91 ГиБ, 12.01 Объекты GiB (узел 1.0: ........). Передайте queue_trials=True
в ray.tune.run () или в командной строке, чтобы поставить в очередь испытания, пока кластер не масштабируется или не станут доступны ресурсы.
Я предполагал, что ресурсы будут автоматически распределяться между worker (p2.xlarge).
Но мое основное c понимание состоит в том, что после того, как экземпляры создаются автоматически с помощью aws -full.yaml, для запуска должно быть достаточно простого 'function.remote ()' работники на бесплатных ресурсах локально или на другой машине.
Есть идеи?