Azure пакетный пул после сбоя в течение некоторого времени - PullRequest
0 голосов
/ 04 марта 2020

Я сталкиваюсь со следующим поведением с Azure Batch. Я использую верфь для запуска пула из 500 узлов с низким приоритетом для выполнения списка из 400 000 задач. Размер пула управляется с помощью автоматического масштабирования.

Сначала пул работает нормально. Количество узлов увеличивается до максимальной емкости, и задачи завершаются, как ожидается. Однако через некоторое время (выполнив значительное количество задач) я начинаю сталкиваться с ошибками «запуск задачи не выполнен». Затем пул быстро начинает деградировать до тех пор, пока все узлы не создадут sh из-за этой же ошибки.

Это ошибка, которую я получаю в файле stdout.txt одного из аварийных узлов:

Login Succeeded
2020-03-04T09:09:07UTC - INFO - Docker registry logins completed.
2020-03-04T09:09:07UTC - WARNING - No Singularity registry servers found.
2020-03-04T09:13:37,840996225+00:00 - ERROR - Cascade Docker exited with non-zero exit code: 1

Похоже, это проблема, связанная с вытягиванием Docker изображения? Хотя раньше он работал без проблем на других узлах.

Я знаю, что это не очень много информации для go, но у меня возникают проблемы с выяснением, какая информация важна, а какая нет.

ОБНОВЛЕНИЕ

После обновления до верфи 3.9.1 это вывод в stdout.txt для одного из аварийных узлов (задача запуска не выполнена):

2020-03-05T08:23:43,784166638+00:00 - DEBUG - Pulling Docker Image: mcr.microsoft.com/azure-batch/shipyard:3.9.1-cargo (fallback: 0)
2020-03-05T08:23:58,876629647+00:00 - ERROR - Error response from daemon: Get https://mcr.microsoft.com/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)
2020-03-05T08:23:58,878254953+00:00 - ERROR - No fallback registry specified, terminating

1 Ответ

0 голосов
/ 04 марта 2020

Пожалуйста, смотрите выпуск GitHub https://github.com/Azure/batch-shipyard/issues/340. Скорее всего, вам потребуется обновить версию Batch Shipyard и воссоздать пул.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...