Pytorch, многопроцессорное обучение, GPU0 использует больше памяти - PullRequest
0 голосов
/ 17 марта 2019

Я использую модуль torch.distributed.launch для многократной обработки моей учебной программы.Все вроде бы хорошо, но я не знаю, почему какой-то процесс в 1-N GPU будет по-другому использовать память в GPU 0.

enter image description here

Как показано накартинка, процесс в gpu4,6 имеет что-то в gpu0, это два использования около 700 + M памяти.И иногда другие процессы также будут иметь аналогичное поведение, но не все другие процессы будут использовать память в gpu0.

Я не знаю, почему это происходит?Так как память разбалансирована, обучение иногда будет закрыто из-за ошибки «нехватка памяти».

Я запускаю свою программу на одном узле с 8gpu.

...