Question

Я использую модуль torch.distributed.launch для многократной обработки моей учебной программы.Все вроде бы хорошо, но я не знаю, почему какой-то процесс в 1-N GPU будет по-другому использовать память в GPU 0.

Как показано накартинка, процесс в gpu4,6 имеет что-то в gpu0, это два использования около 700 + M памяти.И иногда другие процессы также будут иметь аналогичное поведение, но не все другие процессы будут использовать память в gpu0.

Я не знаю, почему это происходит?Так как память разбалансирована, обучение иногда будет закрыто из-за ошибки «нехватка памяти».

Я запускаю свою программу на одном узле с 8gpu.

Pytorch, многопроцессорное обучение, GPU0 использует больше памяти

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Pytorch, многопроцессорное обучение, GPU0 использует больше памяти

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы