Я тренирую модель ГРУ в Керасе для регрессионного задания. Во время тренировок было две последовательные эпохи, которые занимали значительно больше времени, чем остальные (два порядка). На моей машине не было (насколько мне известно) каких-либо других ресурсоемких задач одновременно. Что может быть причиной этого?
Учебные данные состояли из 20 тыс. Последовательностей длиной 512 и размерностью 10. Модель представляла собой один GRU со 128 единицами и периодическим выпадением 0,2. В качестве оптимизатора использовался Адам, для которого значение lr было инициализировано на уровне 0,01 и уменьшилось на плато (в аномальные эпохи оно составляло 0,00025)