Я хотел бы профилировать тренировку l oop модели трансформатора, написанной на Tensorflow на системе с несколькими графическими процессорами. Поскольку код не поддерживает tf2, я не могу использовать встроенный , но экспериментальный профилировщик . Поэтому я хотел бы использовать nvprof + nvvp (CUDA 10.1, драйвер: 418).
Я могу профилировать код без ошибок, однако при анализе результатов в nvvp нет данных для графических процессоров , Я не знаю, что вызывает это, поскольку nvidia-smi ясно показывает, что используются графические процессоры.
Этот поток , кажется, описывает ту же самую проблему, но нет никакого решения. Следуя советам из этого вопроса , я запустил cuda-memcheck для кода, который не дал никаких ошибок.
Я попытался запустить nvprof с дополнительными аргументами командной строки, такими как --analysis-metrics
(без разницы) и --profile-child-processes
(предупреждает, что он не может захватывать данные графического процессора), но безрезультатно.
Может кто-нибудь помочь мне понять, почему я не могу захватить данные графического процессора и как я могу это исправить?
Кроме того, почему так мало ресурсов для профилирования глубоких нейронных сетей? Похоже, что при длительном обучении особенно важно использовать все вычислительные ресурсы.
Спасибо!