Получение странных результатов в TensorBoard на вкладке Profile - PullRequest
0 голосов
/ 21 сентября 2018

Я получаю действительно сомнительные результаты для моих расчетов в профиле TensorBoard.Кажется, что время простоя моего хоста (не знаю, к какому хосту это относится?) Действительно велико, что очень плохо, но время простоя TPU составляет 0%, что очень хорошо.И что мне нужно сделать, чтобы измерить время шага?Я немного потерян здесь.

Tensorboard

1 Ответ

0 голосов
/ 26 сентября 2018

Результаты без графика времени шага могут служить индикатором того, что время шага больше, чем длительность сбора по умолчанию (2 секунды).

Чтобы увеличить этот запуск capture_tpu_profile с параметром

--duration_ms=60000

Для захвата метрик в течение 60-секундного периода.

Один из способов проверить, является ли это проблемой, - это просмотреть в средстве просмотра трассировки пронумерованные шаги вверх.

Время шагов TPUобычно намного меньше секунды, поэтому, если 60 секунд все еще недостаточно велики, вероятно, это проблема входного конвейера.Средство просмотра трассировки должно показать вам, какие потоки занимают время, и вы можете следовать этому руководству для оптимизации входного конвейера.

https://www.tensorflow.org/performance/datasets_performance

Другой вариант - захват профиля после модели.прошло несколько шагов, первые несколько шагов, как правило, медленнее из-за наращивания кэша.

...