Первое, что приходит на ум, - ранняя остановка обратных вызовов и изменение размера пакета.
Несмотря на то, что я сам не пробовал этого, нормализация пакета, как считается, также делает обучение более эффективным.
В моем (не очень актуальном) случае я увидел значительное улучшение скорости и качества тренировки после нормализации данных. Так что, возможно, нормализация / стандартизация данных может немного помочь.
Наконец, но не в последнюю очередь, сети GRU имеют тенденцию обучаться быстрее, но в некоторых случаях они работают хуже, чем в сетях LSTM. Я не знаю, хотите ли вы изменить свою модель, но я подумал, что должен упомянуть об этом.