Я пытаюсь профилировать производительность распределенной модели Tensorflow с помощью API оценки. Я использую ProfilerHook для профилирования, и в следе я вижу большой разрыв, где ничего не происходит. У меня распределенное обучение, и на рисунке ниже показан профиль одного работника:
Я не уверен, что это какой-то сбой в профилировщике или что-то на самом деле здесь не происходит. Я не вижу этого в обучении одного узла, и я не вижу узких мест в сети. Любые идеи о том, что может происходить в течение этого времени, или советы о том, как я могу еще глубже в этом разобраться.
Версия Tensorflow: 1.14
35 Workers, 13 PS. Хотя я могу воспроизвести это намного меньше.
Спасибо