Я тренирую модель LSTM для прогнозирования временных рядов. Это график потери поезда.
Это случай прогнозирования на один шаг вперед, поэтому я тренирую модель, используя скользящее окно,Здесь у нас есть 26 шагов прогнозирования (для каждого шага я снова тренирую модель). Как видите, после Эпохи №25 ~ 27 потеря тренировок внезапно станет такой шумной. Почему у нас такое поведение?
Ps. Я использую LSTM с tanh
активацией. Также я использовал регуляризацию L1
и L2
, но поведение такое же. Слой после LSTM
является слоем Dense
с активацией linear
, I MinMaxScaler
применяется к входным данным, а оптимизатором является Adam
. Я также вижу то же поведение в наборе данных проверки.