LSTM (долговременная кратковременная память) : LSTM имеет три элемента (вход, выход и выходной шлюз)
GRU (стробирующие повторяющиеся единицы) : GRU имеет два шлюза (сброс и обновление шлюза).
GRU использует меньше обучающих параметров и поэтому использует меньше памяти, выполняет быстрее и тренируется быстрее, чем LSTM, тогда как LSTM более точен для наборов данных, использующих более длинную последовательность. Короче говоря, если последовательность большая или точность очень важна, пожалуйста, go для LSTM, тогда как для меньшего потребления памяти и более быстрой работы go для GRU. Все зависит от вашего времени обучения и компромисса точности.
Если в вашем случае обе архитектуры одинаковы, может быть проблема с размером пакета для обеих моделей. Убедитесь, что размер партии и длина последовательности одинаковы для обеих моделей.