Простой пример развертывания на кластере с использованием Ray (руководство не работает) - PullRequest
0 голосов
/ 02 июня 2019

у меня два сервера; каждый из них с графическим процессором. Я хотел бы запустить алгоритм подкрепления обучения, который использует оба сервера одновременно, используя Ray.

Я предполагаю, что один из серверов должен выступать в качестве основного хранилища данных, а также запускать основной процесс драйвера, который адаптирует веса нейронной сети на основе результатов, полученных от серверов.

После этого краткого руководства и использования этого кластерного файла я получаю следующий вывод:

2019-06-02 04:29:47,169 INFO node_provider.py:34 -- ClusterState: Loaded cluster state: {}
2019-06-02 04:29:47,170 INFO node_provider.py:59 -- ClusterState: Writing cluster state: {'YOUR_HEAD_NODE_HOSTNAME': {'tags': {'ray-node-type': 'head'}, 'state': 'terminated'}}
This will create a new cluster [y/N]: y
2019-06-02 04:29:49,023 INFO commands.py:189 -- get_or_create_head_node: Launching new head node...
2019-06-02 04:29:49,024 INFO node_provider.py:77 -- ClusterState: Writing cluster state: {'YOUR_HEAD_NODE_HOSTNAME': {'tags': {'ray-node-type': 'head', 'ray-launch-config': '5a0ccc99d6349f2fb9699284ae2a3547c548975f', 'ray-node-name': 'ray-default-head'}, 'state': 'running'}}
2019-06-02 04:29:49,024 INFO commands.py:202 -- get_or_create_head_node: Updating files on head node...
Traceback (most recent call last):
  File "/usr/local/bin/ray", line 10, in <module>
    sys.exit(main())
  File "/usr/local/lib/python3.6/dist-packages/ray/scripts/scripts.py", line 771, in main
    return cli()
  File "/usr/local/lib/python3.6/dist-packages/click/core.py", line 764, in __call__
    return self.main(*args, **kwargs)
  File "/usr/local/lib/python3.6/dist-packages/click/core.py", line 717, in main
    rv = self.invoke(ctx)
  File "/usr/local/lib/python3.6/dist-packages/click/core.py", line 1137, in invoke
    return _process_result(sub_ctx.command.invoke(sub_ctx))
  File "/usr/local/lib/python3.6/dist-packages/click/core.py", line 956, in invoke
    return ctx.invoke(self.callback, **ctx.params)
  File "/usr/local/lib/python3.6/dist-packages/click/core.py", line 555, in invoke
    return callback(*args, **kwargs)
  File "/usr/local/lib/python3.6/dist-packages/ray/scripts/scripts.py", line 462, in create_or_update
    no_restart, restart_only, yes, cluster_name)
  File "/usr/local/lib/python3.6/dist-packages/ray/autoscaler/commands.py", line 47, in create_or_update_cluster
    override_cluster_name)
  File "/usr/local/lib/python3.6/dist-packages/ray/autoscaler/commands.py", line 241, in get_or_create_head_node
    initialization_commands=config["initialization_commands"],
KeyError: 'initialization_commands'

Есть идеи, что здесь происходит? В идеале я хотел бы иметь супер простой пример настройки этого.

...