Я пытаюсь обучить модель seq2seq (трансформатор) с помощью pytorch и tensor2tensor. При использовании tensor2tensor размер пакета может быть примерно 1024, в то время как модель pytorch показывает ошибку CUDA нехватки памяти с размером пакета 8.
Используется ли какой-либо метод, используемый в tensor2tensor для наилучшего использования памяти.
Если кто знает, скажите, пожалуйста.
Заранее спасибо.