Не удалось запустить Ray Tune с помощью tenorflow и GPU - PullRequest
0 голосов
/ 05 апреля 2019
  • Платформа и распространение ОС : Linux Ubuntu 16.04
  • Луч установлен из (исходного или двоичного) : двоичный файл
  • Луч версия : 0.6.5
  • Версия Python : 3.6

Я пытаюсь использовать луч с тензорным потоком, следуя инструкции (ссылка ) И я получил tune error:

журнал ошибок


Result logdir: ray_results/tune_gan_test
Number of trials: 2 ({'ERROR': 2})
ERROR trials:
 - train_gan_0_partition=0:     ERROR, 1 failures: ray_results/tune_gan_test/train_gan_0_partition=0_2019-04-05_16-25-5536of9abi/error_2019-04-05_16-26-02.txt
 - train_gan_1_partition=1:     ERROR, 1 failures: ray_results/tune_gan_test/train_gan_1_partition=1_2019-04-05_16-26-1038hprt_a/error_2019-04-05_16-26-12.txt

== Status ==
Using FIFO scheduling algorithm.
Resources requested: 0/16 CPUs, 0/1 GPUs
Memory usage on this node: 53.0/67.5 GB
Result logdir: ray_results/tune_gan_test
Number of trials: 2 ({'ERROR': 2})
ERROR trials:
 - train_gan_0_partition=0:     ERROR, 1 failures: ray_results/tune_gan_test/train_gan_0_partition=0_2019-04-05_16-25-5536of9abi/error_2019-04-05_16-26-02.txt
 - train_gan_1_partition=1:     ERROR, 1 failures: ray_results/tune_gan_test/train_gan_1_partition=1_2019-04-05_16-26-1038hprt_a/error_2019-04-05_16-26-12.txt

Traceback (most recent call last):
  File "train.py", line 142, in <module>
    **gan_spec)
  File "/lib/python3.6/site-packages/ray/tune/tune.py", line 253, in run
    raise TuneError("Trials did not complete", errored_trials)
ray.tune.error.TuneError: ('Trials did not complete', [train_gan_0_partition=0, train_gan_1_partition=1])

Исходный код / ​​журналы

Код, связанный с использованием луча:

# !!! Entrypoint for ray.tune !!!
def train(config={'partition': 0}, reporter=None):
    global status_reporter, partition_fn
    status_reporter = reporter
    partition_fn = config['partition']
    tf.app.run(main=main)


# !!! Example of using the ray.tune Python API !!!
if __name__ == "__main__":
    try:
        register_trainable('train_gan', train)
        gan_spec = {
            'stop': {
                'time_total_s': 600,
            },
            'config': {
                'partition': grid_search([0, 1]),
            },
        }

        ray.init()

        tune.run('train_gan',
                 name='tune_gan_test',
                 resources_per_trial={"gpu":1},
                 raise_on_failed_trial=True,
                 queue_trials=True,
                 with_server=False,
                 **gan_spec)

    except KeyboardInterrupt:
        os._exists(1)

Как я могу это исправить?Спасибо за вашу помощь:)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...