Я пытаюсь профилировать TensorFlow functions
для обучения CIFAR-10 dataset
.Я изменил встроенный cifar-10 example
, предоставленный TensorFlow, чтобы создать файл timeline.json
.
Это сетевая архитектура: conv-pool-norm-conv-norm-pool-fc-fc
После нескольких эпох я остановил обучение, чтобы посмотреть профиль времени выполнения.Распределение по времени в порядке убывания:
- LRNGrad -4,931 мс
- LRN - 1,513 мс
- Conv2DBackpropFilter - 1,198 мс
- Con2DBackpropInput - 1,054 мс
- MaxPoolGrad - 0,931 мс
- Conv2D - 0,742 мс
- MatMul - 0,406
.. и так далее.
Я бы ожидал, что Conv2D
, Conv2DBackpropFilter
и Conv2DBackpropInput
будут основными способствующими факторами, но не уверен, почему LRNGrad
и LRN
занимают так много времени.
Кто-нибудь может указать, если я делаю что-то не так с моей методикой профилирования или по какой-то другой причине?
Заранее спасибо.