Я пытался пройти учебник по Dask для среды HPC, как указано на https://www.youtube.com/watch?v=FXsgmwpRExM.
Мне удалось установить все нужные мне пакеты в образе Singularity, и язапуск образа в кластере LSF с помощью: bsub -ISs -q "par-multi" -J "ipy_test" -n 16 singularity shell container.img
После этого я запускаю ipython с помощью простой команды ipython
, а затем импортирую LSFCluster из dask_jobqueue, используя from dask_jobqueue import LSFCluster
Затем я устанавливаюсоздать мой тестовый кластер, вызвав cluster = LSFCluster(cores=2, memory="1 GB")
, и отключить 2 рабочих, вызвав cluster.scale(2)
, после чего я получу следующую трассировку стека:
tornado.application - ОШИБКА - Исключение при обратном вызове (большинствопоследний вызов последний): файл "/usr/lib64/python2.7/site-packages/tornado/ioloop.py", строка 758, в файле _run_callback ret = callback () "/usr/lib64/python2.7/site-packages / tornado / stack_context.py ", строка 300, в null_wrapper возвращает fn (* args, ** kwargs) Файл" /usr/lib/python2.7/site-packages/dask_jobqueue/core.py ", строка 416, вscale_up self.start_workers (n - self._count_active_and_pending_workers ()) Файл "/usr/lib/python2.7/site-packages/dask_jobqueue/core.py", строка 330, в файле start_workers out = self._submit_job (fn) "/usr/lib/python2.7/site-packages / dask_jobqueue / lsf.py ", строка 114, в _submit_job возвращает self._call (piped_cmd, shell = True) файл" /usr/lib/python2.7/site-packages/dask_jobqueue/core.py ", строка383, в _call cmd_str, out, err)) RuntimeError: Команда завершена с ненулевым кодом завершения.Код выхода: 127 Команда: bsub / dev / null stdout: stderr:
Кто-нибудь может понять, куда я могу пойти наперекосяк?
Спасибо.