Я пытаюсь запустить этот тест на небольшом кластере dask, состоящем из двух узлов.Удаленный работник просто развертывается с помощью команды dask-worker
, и он правильно отображается в выводе client
в тесте производительности.Я также попытался запустить несколько простых функций, таких как sleep
, и он работает плавно.
Когда я запускаю тест, он в конечном итоге застревает при работе с функцией add
(он застревает на 2036/ 2047), похоже, что 11 последних заданий никогда не выполняются.Когда я просматриваю журналы работника, я получаю много следующих сообщений:
distributed.worker - INFO - Can't find dependencies for key add-efe22746-c80b-42f1-a02d-1217928ba4ec
distributed.worker - INFO - Dependent not found: add-37c59ee3-e3ed-4643-ae13-dd96291207bd 1 . Asking scheduler
Сначала у меня возникла эта проблема с моим собственным кодом, но теперь, когда у меня тоже есть проблема с тестом, я верю в этоимеет больше общего с моей настройкой.Настроить планировщик и работника так просто, что я не вижу, что здесь пошло не так.Есть ли что-то, чего я не понимаю в развертывании рабочих, например, есть ли что-то особенное, к чему нужно быть очень осторожным при развертывании рабочих?
Редактировать: На главном узле у меня есть и мой планировщик, и рабочий.Если я убью работника на этом узле, он, кажется, будет работать нормально, хотя ни одно из ядер этого узла не используется.Это как я должен настроить кластер?То есть не запускать ни одного рабочего на главном узле?