Я использую модуль torch.distributed.launch для многократной обработки моей учебной программы.Все вроде бы хорошо, но я не знаю, почему какой-то процесс в 1-N GPU будет по-другому использовать память в GPU 0.
Как показано накартинка, процесс в gpu4,6 имеет что-то в gpu0, это два использования около 700 + M памяти.И иногда другие процессы также будут иметь аналогичное поведение, но не все другие процессы будут использовать память в gpu0.
Я не знаю, почему это происходит?Так как память разбалансирована, обучение иногда будет закрыто из-за ошибки «нехватка памяти».
Я запускаю свою программу на одном узле с 8gpu.