Выявить разрыв в трассе профиля тензорного потока - PullRequest
0 голосов
/ 18 февраля 2020

Я пытаюсь профилировать производительность распределенной модели Tensorflow с помощью API оценки. Я использую ProfilerHook для профилирования, и в следе я вижу большой разрыв, где ничего не происходит. У меня распределенное обучение, и на рисунке ниже показан профиль одного работника:

enter image description here

Я не уверен, что это какой-то сбой в профилировщике или что-то на самом деле здесь не происходит. Я не вижу этого в обучении одного узла, и я не вижу узких мест в сети. Любые идеи о том, что может происходить в течение этого времени, или советы о том, как я могу еще глубже в этом разобраться.

Версия Tensorflow: 1.14
35 Workers, 13 PS. Хотя я могу воспроизвести это намного меньше.

Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...