Dask: перезапускаются ли работники, если работа, выполняющая их, убита (например, из-за тайм-аута) - PullRequest
0 голосов
/ 14 апреля 2020

Я использую Dask в кластере PBS. Мои узлы являются загрузками, которые занимают неопределенное количество времени из-за колебаний нагрузки на сервер. Я создал задания с достаточно большим временем ожидания (например, 4 часа), которое должно охватывать множество отдельных узлов / загрузок. Тем не менее, у меня десятки тысяч загрузок, поэтому задание будет прервано до окончания всех загрузок sh.

Два вопроса:

  1. При запуске заданий с PBSCluster.scale(n), по истечении времени ожидания задания автоматически запускаются ли новые, чтобы занять их место?
  2. Когда задание умирает (например, из-за истечения времени ожидания), узлы, выполняющие это задание, перезапускаются на другом задании или они теряются?

Спасибо!

1 Ответ

0 голосов
/ 18 апреля 2020

При запуске заданий с помощью PBSCluster.scale (n), когда по истечении времени ожидания задания автоматически запускаются новые, чтобы занять их место?

Нет, но вы можете попробовать использовать adapt intead

cluster.adapt(minimum_jobs=n, maximum_jobs=n)

Когда задание умирает (например, из-за тайм-аута), перезапускаются ли узлы, на которых выполняется это задание, на другом задании или они теряются?

Они перезапущены. Однако имейте в виду, что если одну и ту же задачу необходимо перезапустить несколько раз, Dask перестанет доверять ей и просто пометит ее как неудачную.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...