Я использую https://github.com/jadore801120/attention-is-all-you-need-pytorch этот код, в котором реализована статья Внимание, все, что вам нужно с PyTorch с Набор данных Gigaword , так что задачаизменено на текстовое обобщение с намерением исходного документа, машинным переводом (имя набора данных - WST2016).
Набор данных в Гигаворде намного больше, чем в WST2016, общий размер набора обучающих данных составляет 3 800 000 и 29 056 соответственно.
Проблема в том, что когда я тренирую Gigaword, именно тогда, когда график обучает 31% всех данных, он резко замедляется, до 30 раз линейно замедляется, а использование GPU становится 0-15% от 99-100.%.
Я не могу понять, почему тренировка замедляется ровно на 31% от партии.
Какая была бы возможная отправная точка для устранения этой проблемы?