Question

Я бегу Роберту на обнимающемся лице language_modeling.py. После выполнения 400 шагов я внезапно получаю CUDA из-за проблемы с памятью. Не знаю, как с этим бороться. Можете ли вы помочь? Спасибо

luk_dev · Answer 1 · 12 февраля 2020

Это может иметь несколько причин. Если вы получите его только после нескольких итераций, возможно, вы не освободите вычислительные графы. Используете ли вы loss.backward(retain_graph=True) или что-то подобное?

Кроме того, когда вы запускаете логический вывод, обязательно используйте

with torch.no_grad():
    model.forward(...)

В противном случае вычислительные графики также сохраняются там и, возможно, никогда освобожден, так как вы никогда не звоните им backward().

kirstain.yuval · Answer 2 · 21 февраля 2020

Моя проблема заключалась в том, что я не проверял размер памяти GPU по сравнению с размерами выборок. У меня было много довольно маленьких выборок и после многих итераций большой. Виноват. Спасибо и не забудьте проверить эти вещи, если это случится с вами.

Как проверить причину CUDA root из-за нехватки памяти в середине обучения?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как проверить причину CUDA root из-за нехватки памяти в середине обучения?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы