Я использую следующий учебник здесь для обучения и тестирования модели классификатора Bertsequence на наборе данных документов различной длины (малая (0-280), средняя (280-10000), большая (10000 плюс )) на платформе Google Collab с использованием графического процессора. Мне удалось успешно обучить и протестировать небольшой набор данных, используя максимальную длину последовательности 380 на 140 000 записей. Когда я пытаюсь обучить средний набор данных на максимальной длине последовательности, которая составляет 512 только для 1 эпохи и только на 10000 записей, я получаю CUDA из-за ошибки памяти. Когда я изменяю максимальную длину последовательности на 400, она может обучать модель.
Я предполагаю, что очевидно, что длина документов вызывает это, но кто-нибудь может объяснить точно, почему это происходит, и если есть какие-либо способ исправить это. Спасибо
RuntimeError: CUDA не хватает памяти. Попытка выделить 20,00 МБ (GPU 0; общая емкость 15,90 ГБ; 15,15 ГБ уже выделено; 7,88 МБ свободно; 44,38 МБ кэшировано)