Запуск распределенного тензорного потока в синхронном SGD (BSP) - PullRequest
0 голосов
/ 07 сентября 2018

Я пытаюсь изменить код "cifar10_multi_gpu_train.py" в https://github.com/tensorflow/models/tree/master/tutorials/image/cifar10, чтобы распределенным способом, чтобы я мог запустить его в кластере процессора. Я использую 2 рабочих и 1 пс в механизме BSP. Но результаты двух рабочих, похоже, не являются синхронными. Worker 1 не начал выполняться, пока Worker 0 уже 3 раза не выполнял глобальный шаг 1, а глобальный шаг 2 2 раза. Есть ли кто-нибудь, кто может помочь мне ответить на странное явление. Должны ли оба сотрудника иметь одинаковые глобальные шаги в механизме BSP.

Результат работника 0: result of worker 0

Результат работника 1:

result of worker 1

...