the op in pure api
Опера работает в TF операция выполняется в TF
Операция состоит из нескольких ядер графического процессора, но я обнаружил, что она работает медленнее в TF, чем в чистом api, два вышеупомянутых изображения представляют результат nv prof для чистого api и TF-OP отдельно. Очевидно, что ядра в чистом api запускаются одно за другим, но в TF-OP между ядрами больше места.
Почему это могло произойти?