Потеря поезда с шумом после определенной эпохи в LSTM для прогнозирования временных рядов (Керас) - PullRequest
0 голосов
/ 24 октября 2019

Я тренирую модель LSTM для прогнозирования временных рядов. Это график потери поезда.

'm

Это случай прогнозирования на один шаг вперед, поэтому я тренирую модель, используя скользящее окно,Здесь у нас есть 26 шагов прогнозирования (для каждого шага я снова тренирую модель). Как видите, после Эпохи №25 ~ 27 потеря тренировок внезапно станет такой шумной. Почему у нас такое поведение?

Ps. Я использую LSTM с tanh активацией. Также я использовал регуляризацию L1 и L2, но поведение такое же. Слой после LSTM является слоем Dense с активацией linear, I MinMaxScaler применяется к входным данным, а оптимизатором является Adam. Я также вижу то же поведение в наборе данных проверки.

1 Ответ

1 голос
/ 24 октября 2019

Используете ли вы градиентное ограничение, если это не так, это может помочь вам, поскольку значения градиента становятся действительно, очень маленькими или большими, что делает очень трудным дальнейшее продвижение модели к лучшему обучению. Повторяющийся слой, возможно, создал эту долину потерь, которую вы можете упустить из-за слишком большого градиента.

...