Question

Я использую multigpu для обучения модели с pytorch.Один GPU использует больше памяти, чем другие, вызывая «нехватку памяти».Зачем одному графическому процессору использовать больше памяти?Можно ли сделать использование более сбалансированным?Есть ли другие способы уменьшить использование памяти?(Удаление переменных, которые больше не будут использоваться ...?) Размер пакета уже равен 1. Спасибо.

iacolippo · Answer 1 · 18 июня 2019

DataParallel разделяет пакет и отправляет каждое разделение в другой графический процессор, каждый графический процессор имеет копию модели, затем прямой проход вычисляется независимо, а затем выходные данные каждого графического процессора собираются обратно в один графический процессор вместо вычисленияпотери независимо в каждом графическом процессоре.

Если вы хотите устранить эту проблему, вы можете включить вычисление потерь в модуль DataParallel.

Если это все еще остается проблемой, то вы можете захотетьпараллелизм модели вместо параллелизма данных: переместите разные части вашей модели на разные графические процессоры, используя .cuda(gpu_id).Это полезно, когда вес вашей модели довольно большой.

Один GPU использует больше памяти, чем другие во время тренировки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Один GPU использует больше памяти, чем другие во время тренировки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы