Мы ставим в очередь много задач в пакетном режиме Azure, и в нашем пуле есть 8 узлов для обработки задач. Теперь мы видим странное поведение (так как 2 дня назад).
- Узел загружается
- Он начинает обработку задач
- Примерно через 30 секунд он перестает поднимать новыйЗадачи
- Он будет завершать существующие задачи, а не поднимать новые
Теперь узел остается бездействующим , хотя у нас в очереди более 1000 задач, ожидающихбудет обработан пулом.
Перезагрузка узла приводит его в состояние ошибки, после чего он снова запускается, обрабатывает несколько задач и затем прекращает выбор новых задач.
Что япроверил:
- Я могу удаленно подключиться к этим узлам
- Нет ошибок в журналах событий, указывающих на проблемы
- Нет значительных скачков на диске, процессоре, памяти
- Планирование не отключено на узлах
Для наглядности:
- Красные блоки не будут поднимать новые задачи
- Синие блоки завершат то, чем заняты.
- Зеленый блок (2 узла) продолжает подбирать задачи и успешно их обрабатывать.
Это ошибка в групповом планировании Azure? (поскольку в последнее время мы не вносили никаких изменений)
Если не ошибка, как мы можем получить больше информации о том, что происходит с этими узлами во время планирования?