проблема: анализ времени выполнения ускорителя с тензорным потоком ProfilerHook - PullRequest
0 голосов
/ 20 апреля 2020

Я запускаю tf r50v1.5 с крюком профилирования, там выводит какой-то странный результат:
Профиль:

node name | total execution time | accelerator execution time | cpu execution time | assigned devices | op types | op occurrence (run|defined)  
FusedBatchNormGradV3             7.44ms (64.25%, 3.44%),          931us (82.93%, 0.80%),         6.51ms (42.69%, 6.48%), /job:localhost/replica:0/task:0/device:gpu:0, /job:localhost/replica:0/task:0/device:gpu:0|FusedBatchNormGradV3,      53|53  
FusedBatchNormV3                 3.71ms (60.81%, 1.71%),            0us (82.13%, 0.00%),         3.71ms (36.21%, 3.69%), /job:localhost/replica:0/task:0/device:gpu:0, /job:localhost/replica:0/task:0/device:gpu:0|FusedBatchNormV3,      53|53  

Интересно, почему «время выполнения акселератора» FusedBatchNormV3 равно «0us», так как «назначенные устройства» называются «gpu».
код от https://github.com/NVIDIA/DeepLearningExamples/tree/master/TensorFlow/Classification/RN50v1.5

Кто-нибудь может сказать мне, почему это происходит?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...