Секция file_mounts конфигурации кластера Ray не позволяет запускать рабочие узлы - PullRequest
0 голосов
/ 30 мая 2019

Я пытаюсь распределить небольшое количество файлов по каждому узлу в кластере Ray на AWS EC2, используя блок file_mounts в файле конфигурации: -

file_mounts: {"./": "./ run_files "}

Кластер запускается только с главным узлом, на который правильно скопировано содержимое каталога run_files.Однако два запрошенных рабочих узла не запускаются.Если я опускаю раздел file_mounts, рабочие запускаются.Монитор Ray указывает, что существует проблема с поиском файла libtcl.so в подкаталоге matplotlib установки Anaconda3.Этот файл находится на правильном пути на главном узле, поэтому кажется, что настройка на рабочих узлах не работает должным образом: -

$ ray exec ray_conf.yaml  'tail -n 100 -f /tmp/ray/session_*/logs/monitor*'
2019-05-29 19:36:14,019 INFO updater.py:95 -- NodeUpdater: Waiting for IP of i-073950262949fe9a8...
2019-05-29 19:36:14,019 INFO log_timer.py:21 -- NodeUpdater: i-073950262949fe9a8: Got IP [LogTimer=362ms]
2019-05-29 19:36:14,025 INFO updater.py:272 -- NodeUpdater: Running tail -n 100 -f /tmp/ray/session_*/logs/monitor* on 54.175.173.233...
==> /tmp/ray/session_2019-05-29_23-35-49_842129_4407/logs/monitor.err <==
Traceback (most recent call last):
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/monitor.py", line 376, in <module>
redis_password=args.redis_password)
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/monitor.py", line 54, in __init__
self.load_metrics)
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/autoscaler.py", line 349, in __init__
self.reload_config(errors_fatal=True)
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/autoscaler.py", line 523, in reload_config
raise e
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/autoscaler.py", line 516, in reload_config
new_config["worker_start_ray_commands"]
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/autoscaler.py", line 790, in hash_runtime_conf
add_content_hashes(local_path)
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/autoscaler.py", line 778, in add_content_hashes
add_hash_of_file(fpath)
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/autoscaler.py", line 764, in add_hash_of_file
with open(fpath, "rb") as f:
FileNotFoundError: [Errno 2] No such file or directory: './anaconda3/pkgs/matplotlib-2.1.0-py36hba5de38_0/lib/libtcl.so'

==> /tmp/ray/session_2019-05-29_23-35-49_842129_4407/logs/monitor.out <==

(Обратите внимание, что эта проблема вытекает из вопроса «Рабочие не запускаются»на EC2 by ray ", я продолжил в новом вопросе, потому что источник ошибки теперь более конкретно определен.)

1 Ответ

2 голосов
/ 31 мая 2019

Я думаю, что сообщение об ошибке libtcl.so вводит в заблуждение. Проблема в том, что удаленный путь file_mounts не может быть домашним каталогом на рабочих (ни ./, ни ~ / works); это должен быть подкаталог. Таким образом, следующее было успешным: -

file_mounts: {"~/run_files": "./run_files"}
...