Question

Я хотел бы профилировать тренировку l oop модели трансформатора, написанной на Tensorflow на системе с несколькими графическими процессорами. Поскольку код не поддерживает tf2, я не могу использовать встроенный , но экспериментальный профилировщик . Поэтому я хотел бы использовать nvprof + nvvp (CUDA 10.1, драйвер: 418).

Я могу профилировать код без ошибок, однако при анализе результатов в nvvp нет данных для графических процессоров , Я не знаю, что вызывает это, поскольку nvidia-smi ясно показывает, что используются графические процессоры.

Этот поток , кажется, описывает ту же самую проблему, но нет никакого решения. Следуя советам из этого вопроса , я запустил cuda-memcheck для кода, который не дал никаких ошибок.

Я попытался запустить nvprof с дополнительными аргументами командной строки, такими как --analysis-metrics (без разницы) и --profile-child-processes (предупреждает, что он не может захватывать данные графического процессора), но безрезультатно.

Может кто-нибудь помочь мне понять, почему я не могу захватить данные графического процессора и как я могу это исправить?

Кроме того, почему так мало ресурсов для профилирования глубоких нейронных сетей? Похоже, что при длительном обучении особенно важно использовать все вычислительные ресурсы.

Спасибо!

Как захватить данные GPU при профилировании кода Tensorflow с помощью nvprof?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как захватить данные GPU при профилировании кода Tensorflow с помощью nvprof?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы