Я пытаюсь изменить код "cifar10_multi_gpu_train.py" в https://github.com/tensorflow/models/tree/master/tutorials/image/cifar10, чтобы распределенным способом, чтобы я мог запустить его в кластере процессора. Я использую 2 рабочих и 1 пс в механизме BSP. Но результаты двух рабочих, похоже, не являются синхронными. Worker 1 не начал выполняться, пока Worker 0 уже 3 раза не выполнял глобальный шаг 1, а глобальный шаг 2 2 раза. Есть ли кто-нибудь, кто может помочь мне ответить на странное явление. Должны ли оба сотрудника иметь одинаковые глобальные шаги в механизме BSP.
Результат работника 0:
Результат работника 1: